Studiolaatuinen mikrofoni. Takana ikkuna, jossa kesäiset maisemat. Pöydällä vaaleanpunainen kesäkukka.

Alkuvuoden koneääni-uutiset maailmalta

Vuosi ei ole vielä pitkällä, mutta koneäänistä on kuulunut jo nyt muutamakin mielenkiintoinen uutinen. Tässä lisää niistä:

VALL-E, koneääni kolmen sekunnin ääninäytteestä

Sisällön luominen tekoälyä käyttäen tuli viime vuonna ihmisille tutuksi. Vuoden 2022 puolivälissä kokeiltiin DALL-E:tä ja vuoden lopussa puhututti ChatGPT. DALL-E on tekoälypohjainen ohjelma, joka luo kuvia sille syötetyn tekstin perusteella. ChatGPT taas on ihmiskeskustelijaa jäljittelevä chatbot. Sille syötettyjen avainsanojen tai aiheiden perusteella se voi luoda pyynnöstä niin laulun sanat, tiivistelmän, esseen kuin runonkin. Sisällöntuotannossa ChatGPT toimii esimerkiksi hyvänä inspiraation lähteenä. DALL-E ja ChatGPT ovat molemmat OpenAI:n kehittämiä.

Microsoft esitteli edellä mainittujen kanssa samantyyppisen VALL-E -tekoälymallin heti vuoden 2023 alkuun. VALL-E on tekstistä puheeksi -työkalu, joka pystyy jäljittelemään kenen tahansa puheääntä pelkästään kolmen sekunnin ääninäytteen perusteella. Pystyt siis luomaan esimerkiksi omasta äänestäsi koneäänen ja tämän jälkeen muuttaa tekstisisältöjä puheeksi sinulta kuulostavan äänen lukemina, vain kolmen sekunnin ääninäytteellä. Yleensä koneäänet luodaan useamman kymmenen tunnin ääninäytteen pohjalta.

VALL-E pystyy myös säilyttämään puhujan tunnetilan ja akustiikkaympäristön, jotka osaltaan lisäävät tuotetun koneäänen realistisuutta. Sen kouluttamiseen on käytetty yhteensä 60 000 tuntia englanninkielistä puhetta yli 7000 puhujalta. Aikaisemmissa järjestelmissä puhetta on käytetty noin 600 tuntia.

VALL-E ei ole ainakaan toistaiseksi saatavissa julkiseen käyttöön. Microsoftin antaman eettisen lausunnon mukaan puhujan identiteetin säilyttävään syntetisoituun puheeseen liittyy mahdollisia riskejä mallin väärinkäytöstä. Näitä ovat esimerkiksi äänentunnistuksen huijaaminen ja toisena henkilönä esiintyminen. Jos mallia käytetään, puhujan täytyykin vahvistaa hyväksyvänsä äänensä käytön koneääneksi. Yllä mainittuja riskejä minimoimaan voidaan Microsoftin mukaan kehittää esimerkiksi tunnistusmalli, joka pystyy erottamaan äänen VALL-E:n syntetisoimaksi. VALL-E on erittäin mielenkiintoinen työkalu, ja tuo hienoja mahdollisuuksia esimerkiksi heille, jotka ovat menettäneet äänensä vaikkapa onnettomuuden seurauksena.

Apple julkaisee koneäänen lukemia äänikirjoja

Apple Books kirjapalvelu on tuonut markkinoille uuden mahdollisuuden julkaista kirjoja koneäänen lukemana. Apple kertoo täten tekevänsä äänikirjojen luomisesta helppoa myös yksittäisille kirjailijoille ja pienille kustantamoille. Palvelun kautta pienet toimijat voivat näin tavoittaa lisää yleisöä äänikirjakuuntelijoista. Sloganina onkin: Jokainen kirja ansaitsee tulla kuulluksi.

Ihmislukijoita ei koneäänellä olla korvaamassa ja Apple vakuuttaa jatkavansa edelleen ääninäyttelijöiden lukeman äänikirjavalikoiman kasvattamista. Koneäänellä luetut äänikirjat ovat kuitenkin pienemmille toimijoille tilaisuus päästä äänikirjamarkkinoille, sillä ne tulevat edullisemmaksi kuin studion ja ääninäyttelijän käyttäminen. Koneäänien käyttö nähdään siis mahdollisuutena kasvattaa äänikirjamarkkinoita entisestään.

Äänikirjan lukijaksi voi valita sopivan koneäänen muutamasta vaihtoehdosta. Valittavissa olevat koneäänet ovat hyvin luonnollisen kuuloisia ja niiden kehityksessä on ollut myös yhteistyötä kustantamoiden, kirjailijoiden ja ääninäyttelijöiden kanssa. Toistaiseksi on mahdollista julkaista vain englanninkielisiä äänikirjoja. Luultavasti palvelu kuitenkin laajenee ajan myötä ja uusia vaihtoehtoja tulee käytettäville. Mielenkiintoista nähdä vaikuttaako Applen uusi käytäntö myös muihin äänikirjapalveluihin; esimerkiksi Amazon on kirjannut ohjeisiinsa, että se hyväksyy Audible-palveluunsa vain ihmisen lukemat äänikirjat.

Vielä toistaiseksi koneäänet sopivat parhaiten faktapohjaisten äänikirjojen lukemiseen. Kehitys kuitenkin kehittyy ja koneääniin tullaan saamaan vielä paremmin tunnetiloja mukaan. Kun VALL-E:n kaltaiset mallit edistyvät, tulevaisuudessa esimerkiksi ääninäyttelijät saattavat tuottaa äänistään luonnollisen kuuloisia koneääniä ja saada sivutuloja äänensä monipuolisemmasta hyödyntämisestä.

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Kaksi henkilöä istuvat sohvalla läppärit sylissä. Kasvot on rajattu pois kuvasta.
9.9.2024
Digipalvelulaki ja esteettömyysdirektiivi laajenevat kesäkuussa 2025. Artikkelissa kerrotaan, keitä laki koskee myös jatkossa ja mitä saavutettavuusvaatimukset käytännössä ovat. Erityishuomiota kiinnitetään sähkö- ja äänikirjoihin.
Nainen istuu ulkona maalaustelineen kanssa ja katsoo juuri väripalettia kädessään. Taustalla on abstrakti maalaus. Valo tulee naisen takaa, joten hänen hiukset korostuvat muuten tummasta kuvasta. Naisella on kuulokkeet korvilla.
13.6.2024
Käsittelyssä kielimuurien häviäminen, henkilökohtaisemmat ääniassistentit, älykodit, äänikloonit, tekoälyllä tuotettava musiikki, median kulutus, terveyssovellukset, asiakaspalvelu, biometrinen tunnistautuminen ja smart city -ajatus.
Nainen istuu toimistotuolissa tietokoneen edessä ja katsoo näyttöä. Toinen käsi on näppäimistöllä. Taustalla on isot ikkunat.
16.5.2024
Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon
Henkilö istuu lattialla kirjan edessä tekemässä muistiinpanoja. Hänellä on kuulokkeet päässä. Kuvaotettu ylhäältäpäin.
23.4.2024
Tietoa voidaan kuluttaa monin eri tavoin: tämä monimuotoisuus tulisi huomioida myös sisältöä tuottaessa. Ääni ja teksti tukevat toisiaan ja antavat sisällön kuluttajalle valinnanvaraa päättää.
Läppäri, jonka näppäimistön päällä on kuulokkeet. Läppärin näytössä on eepressin etusivu.
2.4.2024
Konenäköä ja puhesynteesiä yhdistäneessä projektissa kehitimme ePress-näköislehtipalvelulle pipelinen, joka pystyy tunnistamaan näköislehtien artikkelit ja toimittamaan niistä ääniversiot.
Kuulokkeet tietokonepöydän päällä.
14.3.2024
Yle on ottanut käyttöön a.i.materin kehittämän kuuntelumahdollisuuden uutissivuilleen. Kuunteluominaisuus parantaa palvelun digitaalista saavutettavuutta.