Käsi pitää kuulokkeista kiinni. Takana metsää.

Koneääni: Ennakkoluulot vs. Todellisuus

2000-luvun chat-ohjelmien puhuvat päät ovat usein mielikuvana koneäänestä. Puhesynteesi on onneksi kehittynyt tästä ajasta nopeaa vauhtia. Nykyaikaiset, neuroverkkopohjaiset koneäänet voivat olla hyvinkin luonnollisen kuuloisia ja miellyttäviä kuunnella.

Puhesynteesillä tarkoitetaan ihmismäisen puheen tuottamista koneellisesti. Yleensä puhe tuotetaan syötteenä saadun tekstin pohjalta, eli kone lukee tekstiä ääneen. Nykyaikaiset puhesynteesijärjestelmät pohjautuvat koneoppimismenetelmiin. Ne oppivat jäljittelemään ihmismäistä puhetta kuulemansa perusteella.

Koneäänellä taas tarkoitetaan keinotekoista puhujaa, jonka äänellä voidaan tuottaa puhesisältöjä. Koneäänet voivat joko jäljitellä tietyn henkilön puhetyyliä, yhdistellä eri henkilöiden puhetta tai olla täysin keinotekoisia.

Kun kyseessä on tietokone, kuinka ihmismäiseltä sen pitäisi kuulostaa? Vai saako äänestä kuulua sen olevan kone?

Ennakkoluulot koneäänistä

  • Konemainen ja monotoninen.
  • Inhottava kuunnella vähänkään pidempään.
  • Ei halua kuunnella yhtään sen enempää kuin on pakko.
  • Robotti papattaa sanoja toisensa jälkeen, ilman puheen intonaatiota.
  • Koneääni rytmittää puhetta, mutta rytmitys tapahtuu väärissä kohdissa.
  • Pysähtyy tekstissä oudoissa kohdissa ja hyppää kokonaan joidenkin kohtien yli.
  • Lukee ääneen kaiken välimerkeistä lähtien.
  • Scifi-elokuvat luovat vääristynyttä mielikuvaa koneäänistä. Järjestelmät ovat älykkäitä, mutta koneäänet päinvastoin hyvin robottimaisia.

Vanhemmat koneäänet yhdistelevät äänteitä niin sanotusta äännepankista, josta alle sanan mittaisia äänneyksiköitä valitaan ja yhdistellään puheeksi. Tällöin ongelmaksi tosiaan tulee äänteiden rajojen ja puheen epäluonnollisuus, robottimaisuus.

Todellisuus koneäänistä

Nykyään koneäänet pohjautuvat koneoppimismenetelmiin, jotka oppivat jäljittelemään ihmismäistä puhetta kuulemansa perusteella. Tällöin puheen tauotukset ja painotukset ovat luonnollisia.

  • Koneäänestä pystytään tekemään miellyttävä, jolloin sitä jaksaa kuunnella. Sopivan hitaan ja vakaan, mutta samalla optimistisen ja pirteän kuuloinen.
  • Lyhyissä ääniklipeissä koneen ja ihmisen välistä eroa on erittäin vaikea huomata. Maallikko ei pysty erottamaan koneääntä ihmisäänestä.
  • Oikean ääntämisen lisäksi koneääni pystyy hienovaraiseen puheeseen. Se osaa tauottaa ja painottaa oikeissa kohdissa.
  • Koneäänille on saatu yksilöllinen ääni, mutta niiltä puuttuu vielä kyky mukauttaa puhetta, kuten muuttaa puheen sointia tai äänenvoimakkuutta koko ajan kontekstin mukaan. Inhimillisestä täydellisyyttä ei kuitenkaan vielä ole, sillä kone ei ymmärrä puhumaansa.
  • Laadukkaimmat luonnollisen kuuloiset koneäänet luodaan käyttämällä ihmisen puheesta tietokanta, jota kehitetään koneoppimisen avulla. Ihmisen ääntä tallennetaan koneelle kymmenistä tunneista satoihin tunteihin.
  • Pitkät kaunokirjallisuuden tekstit ovat edelleen toimivimpia ihmislukijan äänellä, koska äänellä voidaan tulkita aidommin tunnetta. Ihmisääntä voidaan toki nauhoittaa myös erilaisilla sävyillä. Ääninäyttelijä voi lukea tekstin iloisesti, surullisesti yms. Tällöin tekstiaineistoa voidaan ohjelmoida tunnisteilla, jolloin koneääni puhuu tekstin tunnisteen mukaan.
  • Koneäänen avulla tehtyihin teksteihin on nopea tehdä muutoksia jälkeenpäinkin, toisin kuin ihmisäänellä tehtyyn tekstiin. Ihmispuheen sisältöä täytyisi nauhoittaa mahdollisten virheiden takia äänitysstudiolla uudestaan.
  • Koneäänellä pystytään toteuttamaan enemmän sisältöjä kuin ihmislukijan kanssa, jonka lisäksi se on edullisempaa. Koneäänillä ei kuitenkaan ole tarkoitus korvata ihmislukijoita, vaan tuoda sisältöjä entistä laajemmin tarjolle ja saavutettavaan muotoon.
  • Tietyllä äänellä voidaan jopa yhdenmukaistaa omaa brändiä samoin kuin brändiin yhdistettävään väriin tai fonttiin. Saman äänen käyttäminen mahdollistuu eri kanavissa, verkkosivuista ja sovelluksista, somekanaviin, mainoksiin ja asiakaspalveluun.

Ilona on a.i.materin luonnollinen koneääni

Ilona on a.i.materin kehittämä suomenkielinen koneääni, joka pystyy aidosti sujuvan suomen kielen lausuntaan. Ilonan koulutukseen käytettiin kymmenisen tuntia studiossa nauhoitettua puhetta ja tätä vastaavia tekstipätkiä. Tämänkaltaisen koneoppimismallin koulutukseen menee noin viikko, jonka jälkeen iteraatioihin ja hienosäätöön menee useampi viikko.

Ilona-koneäänellä on luonnollinen kyky tauottaa ja painottaa puhetta, jolloin sitä on miellyttävä kuunnella. Kuuntele videolta, miten hyvältä suomenkielinen koneääni voi kuulostaa:

Kiinnostuitko? Ota Yhteyttä!

Jaa artikkeli

Läppäri, jonka näppäimistön päällä on kuulokkeet. Läppärin näytössä on eepressin etusivu.
2.4.2024
Konenäköä ja puhesynteesiä yhdistäneessä projektissa kehitimme ePress-näköislehtipalvelulle pipelinen, joka pystyy tunnistamaan näköislehtien artikkelit ja toimittamaan niistä ääniversiot.
Kuulokkeet tietokonepöydän päällä.
14.3.2024
Yle on ottanut käyttöön a.i.materin kehittämän kuuntelumahdollisuuden uutissivuilleen. Kuunteluominaisuus parantaa palvelun digitaalista saavutettavuutta.
Aimaterin työntekijät Roope ja Niko tutkivat työpöydän edessä tietokoneelta jotain. Roope juuri osoittaa kädellään näyttöä.
28.2.2024
Artikkelissa esitellään ja vertaillaan verkkosivulukijaa ja äänirajapintaa: miten ne toimivat ja mikä tapa sopii mihinkin tarkoitukseen.
Educa-messujen 2024 logo
29.1.2024
a.i.mater oli mukana Educa-messuilla näytteilleasettajan roolissa. Paljon kiinnostavia kohtaamisia, keskusteluja mahdollisten uusien asiakkaiden kanssa, sekä nykyisten asiakkaiden ja yhteistyökumppanien tapaamisia.
10.1.2024
Digiaudion kulutus kasvaa edelleen, ääni on yhä tärkeämpi osa brändistrategiaa ja ääniklooneja voi hyödyntää muuhunkin kuin hupailuun. Muun muassa näihin voi hyödyntää moderneja koneääniä kuluvana vuonna.
21.12.2023
a.i.materin joulutervehdyksenä koneääni Ilonan lukema äänisatu Kiljusen perheen jouluaaton vietosta.