Käsi pitää kuulokkeista kiinni. Takana metsää.

Koneääni: Ennakkoluulot vs. Todellisuus

2000-luvun chat-ohjelmien puhuvat päät ovat usein mielikuvana koneäänestä. Puhesynteesi on onneksi kehittynyt tästä ajasta nopeaa vauhtia. Nykyaikaiset, neuroverkkopohjaiset koneäänet voivat olla hyvinkin luonnollisen kuuloisia ja miellyttäviä kuunnella.

Puhesynteesillä tarkoitetaan ihmismäisen puheen tuottamista koneellisesti. Yleensä puhe tuotetaan syötteenä saadun tekstin pohjalta, eli kone lukee tekstiä ääneen. Nykyaikaiset puhesynteesijärjestelmät pohjautuvat koneoppimismenetelmiin. Ne oppivat jäljittelemään ihmismäistä puhetta kuulemansa perusteella.

Koneäänellä taas tarkoitetaan keinotekoista puhujaa, jonka äänellä voidaan tuottaa puhesisältöjä. Koneäänet voivat joko jäljitellä tietyn henkilön puhetyyliä, yhdistellä eri henkilöiden puhetta tai olla täysin keinotekoisia.

Kun kyseessä on tietokone, kuinka ihmismäiseltä sen pitäisi kuulostaa? Vai saako äänestä kuulua sen olevan kone?

Ennakkoluulot koneäänistä

  • Konemainen ja monotoninen.
  • Inhottava kuunnella vähänkään pidempään.
  • Ei halua kuunnella yhtään sen enempää kuin on pakko.
  • Robotti papattaa sanoja toisensa jälkeen, ilman puheen intonaatiota.
  • Koneääni rytmittää puhetta, mutta rytmitys tapahtuu väärissä kohdissa.
  • Pysähtyy tekstissä oudoissa kohdissa ja hyppää kokonaan joidenkin kohtien yli.
  • Lukee ääneen kaiken välimerkeistä lähtien.
  • Scifi-elokuvat luovat vääristynyttä mielikuvaa koneäänistä. Järjestelmät ovat älykkäitä, mutta koneäänet päinvastoin hyvin robottimaisia.

Vanhemmat koneäänet yhdistelevät äänteitä niin sanotusta äännepankista, josta alle sanan mittaisia äänneyksiköitä valitaan ja yhdistellään puheeksi. Tällöin ongelmaksi tosiaan tulee äänteiden rajojen ja puheen epäluonnollisuus, robottimaisuus.

Todellisuus koneäänistä

Nykyään koneäänet pohjautuvat koneoppimismenetelmiin, jotka oppivat jäljittelemään ihmismäistä puhetta kuulemansa perusteella. Tällöin puheen tauotukset ja painotukset ovat luonnollisia.

  • Koneäänestä pystytään tekemään miellyttävä, jolloin sitä jaksaa kuunnella. Sopivan hitaan ja vakaan, mutta samalla optimistisen ja pirteän kuuloinen.
  • Lyhyissä ääniklipeissä koneen ja ihmisen välistä eroa on erittäin vaikea huomata. Maallikko ei pysty erottamaan koneääntä ihmisäänestä.
  • Oikean ääntämisen lisäksi koneääni pystyy hienovaraiseen puheeseen. Se osaa tauottaa ja painottaa oikeissa kohdissa.
  • Koneäänille on saatu yksilöllinen ääni, mutta niiltä puuttuu vielä kyky mukauttaa puhetta, kuten muuttaa puheen sointia tai äänenvoimakkuutta koko ajan kontekstin mukaan. Inhimillisestä täydellisyyttä ei kuitenkaan vielä ole, sillä kone ei ymmärrä puhumaansa.
  • Laadukkaimmat luonnollisen kuuloiset koneäänet luodaan käyttämällä ihmisen puheesta tietokanta, jota kehitetään koneoppimisen avulla. Ihmisen ääntä tallennetaan koneelle kymmenistä tunneista satoihin tunteihin.
  • Pitkät kaunokirjallisuuden tekstit ovat edelleen toimivimpia ihmislukijan äänellä, koska äänellä voidaan tulkita aidommin tunnetta. Ihmisääntä voidaan toki nauhoittaa myös erilaisilla sävyillä. Ääninäyttelijä voi lukea tekstin iloisesti, surullisesti yms. Tällöin tekstiaineistoa voidaan ohjelmoida tunnisteilla, jolloin koneääni puhuu tekstin tunnisteen mukaan.
  • Koneäänen avulla tehtyihin teksteihin on nopea tehdä muutoksia jälkeenpäinkin, toisin kuin ihmisäänellä tehtyyn tekstiin. Ihmispuheen sisältöä täytyisi nauhoittaa mahdollisten virheiden takia äänitysstudiolla uudestaan.
  • Koneäänellä pystytään toteuttamaan enemmän sisältöjä kuin ihmislukijan kanssa, jonka lisäksi se on edullisempaa. Koneäänillä ei kuitenkaan ole tarkoitus korvata ihmislukijoita, vaan tuoda sisältöjä entistä laajemmin tarjolle ja saavutettavaan muotoon.
  • Tietyllä äänellä voidaan jopa yhdenmukaistaa omaa brändiä samoin kuin brändiin yhdistettävään väriin tai fonttiin. Saman äänen käyttäminen mahdollistuu eri kanavissa, verkkosivuista ja sovelluksista, somekanaviin, mainoksiin ja asiakaspalveluun.

Ilona on a.i.materin luonnollinen koneääni

Ilona on a.i.materin kehittämä suomenkielinen koneääni, joka pystyy aidosti sujuvan suomen kielen lausuntaan. Ilonan koulutukseen käytettiin kymmenisen tuntia studiossa nauhoitettua puhetta ja tätä vastaavia tekstipätkiä. Tämänkaltaisen koneoppimismallin koulutukseen menee noin viikko, jonka jälkeen iteraatioihin ja hienosäätöön menee useampi viikko.

Ilona-koneäänellä on luonnollinen kyky tauottaa ja painottaa puhetta, jolloin sitä on miellyttävä kuunnella. Kuuntele videolta, miten hyvältä suomenkielinen koneääni voi kuulostaa:

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Kännykän näyttö, jossa näkyy Rakennuslehden artikkeli, joka kertoo, että Rakennuslehden artikkelit ovat nyt kuunneltavia. Kännykkää pitelee käsi ja taustalla näkyy sepeliä.
5.2.2025
Rakennuslehden kuunneltavat artikkelit ovat saaneet lukijoilta positiivisen vastaanoton ja kuuntelumäärät ovat yllättäneet toimituksessa. Referenssitarinassa kerrotaan, miten Rakennuslehti koki verkkosivulukijan käyttöönoton.
Pöydälle on levitetty Sushi go lautapeli. Kuvan reunoilla näkyy työntekijöiden käsiä, jotka pelaavat peliä.
18.12.2024
Artikkelissa summataan vuoden 2024 projektit; pääsimme tekemään teetettyjä ääniklooneja, äänirajapintoja, verkkosivulukijoita ja ohjelmistokehitystä. Sisäisiä kehitysprojekteja löytyy myös aina; tänä vuonna ääniverstasta ja asiakasportaalia.
18.10.2024
Suomen ensimmäistä tekoälyyn keskittyvää palkintogaalaa juhlitaan 23.10.2024 julkistamalla kunkin kategorian voittajat. a.i.mater on kolmen kärjessä asiakaskokemus-kategoriassa.
Kaksi henkilöä istuvat sohvalla läppärit sylissä. Kasvot on rajattu pois kuvasta.
9.9.2024
Digipalvelulaki ja esteettömyysdirektiivi laajenevat kesäkuussa 2025. Artikkelissa kerrotaan, keitä laki koskee myös jatkossa ja mitä saavutettavuusvaatimukset käytännössä ovat. Erityishuomiota kiinnitetään sähkö- ja äänikirjoihin.
Nainen istuu ulkona maalaustelineen kanssa ja katsoo juuri väripalettia kädessään. Taustalla on abstrakti maalaus. Valo tulee naisen takaa, joten hänen hiukset korostuvat muuten tummasta kuvasta. Naisella on kuulokkeet korvilla.
13.6.2024
Käsittelyssä kielimuurien häviäminen, henkilökohtaisemmat ääniassistentit, älykodit, äänikloonit, tekoälyllä tuotettava musiikki, median kulutus, terveyssovellukset, asiakaspalvelu, biometrinen tunnistautuminen ja smart city -ajatus.
Nainen istuu toimistotuolissa tietokoneen edessä ja katsoo näyttöä. Toinen käsi on näppäimistöllä. Taustalla on isot ikkunat.
16.5.2024
Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon