Käsi pitää kuulokkeista kiinni. Takana metsää.

Koneääni: Ennakkoluulot vs. Todellisuus

2000-luvun chat-ohjelmien puhuvat päät ovat usein mielikuvana koneäänestä. Puhesynteesi on onneksi kehittynyt tästä ajasta nopeaa vauhtia. Nykyaikaiset, neuroverkkopohjaiset koneäänet voivat olla hyvinkin luonnollisen kuuloisia ja miellyttäviä kuunnella.

Puhesynteesillä tarkoitetaan ihmismäisen puheen tuottamista koneellisesti. Yleensä puhe tuotetaan syötteenä saadun tekstin pohjalta, eli kone lukee tekstiä ääneen. Nykyaikaiset puhesynteesijärjestelmät pohjautuvat koneoppimismenetelmiin. Ne oppivat jäljittelemään ihmismäistä puhetta kuulemansa perusteella.

Koneäänellä taas tarkoitetaan keinotekoista puhujaa, jonka äänellä voidaan tuottaa puhesisältöjä. Koneäänet voivat joko jäljitellä tietyn henkilön puhetyyliä, yhdistellä eri henkilöiden puhetta tai olla täysin keinotekoisia.

Kun kyseessä on tietokone, kuinka ihmismäiseltä sen pitäisi kuulostaa? Vai saako äänestä kuulua sen olevan kone?

Ennakkoluulot koneäänistä

  • Konemainen ja monotoninen.
  • Inhottava kuunnella vähänkään pidempään.
  • Ei halua kuunnella yhtään sen enempää kuin on pakko.
  • Robotti papattaa sanoja toisensa jälkeen, ilman puheen intonaatiota.
  • Koneääni rytmittää puhetta, mutta rytmitys tapahtuu väärissä kohdissa.
  • Pysähtyy tekstissä oudoissa kohdissa ja hyppää kokonaan joidenkin kohtien yli.
  • Lukee ääneen kaiken välimerkeistä lähtien.
  • Scifi-elokuvat luovat vääristynyttä mielikuvaa koneäänistä. Järjestelmät ovat älykkäitä, mutta koneäänet päinvastoin hyvin robottimaisia.

Vanhemmat koneäänet yhdistelevät äänteitä niin sanotusta äännepankista, josta alle sanan mittaisia äänneyksiköitä valitaan ja yhdistellään puheeksi. Tällöin ongelmaksi tosiaan tulee äänteiden rajojen ja puheen epäluonnollisuus, robottimaisuus.

Todellisuus koneäänistä

Nykyään koneäänet pohjautuvat koneoppimismenetelmiin, jotka oppivat jäljittelemään ihmismäistä puhetta kuulemansa perusteella. Tällöin puheen tauotukset ja painotukset ovat luonnollisia.

  • Koneäänestä pystytään tekemään miellyttävä, jolloin sitä jaksaa kuunnella. Sopivan hitaan ja vakaan, mutta samalla optimistisen ja pirteän kuuloinen.
  • Lyhyissä ääniklipeissä koneen ja ihmisen välistä eroa on erittäin vaikea huomata. Maallikko ei pysty erottamaan koneääntä ihmisäänestä.
  • Oikean ääntämisen lisäksi koneääni pystyy hienovaraiseen puheeseen. Se osaa tauottaa ja painottaa oikeissa kohdissa.
  • Koneäänille on saatu yksilöllinen ääni, mutta niiltä puuttuu vielä kyky mukauttaa puhetta, kuten muuttaa puheen sointia tai äänenvoimakkuutta koko ajan kontekstin mukaan. Inhimillisestä täydellisyyttä ei kuitenkaan vielä ole, sillä kone ei ymmärrä puhumaansa.
  • Laadukkaimmat luonnollisen kuuloiset koneäänet luodaan käyttämällä ihmisen puheesta tietokanta, jota kehitetään koneoppimisen avulla. Ihmisen ääntä tallennetaan koneelle kymmenistä tunneista satoihin tunteihin.
  • Pitkät kaunokirjallisuuden tekstit ovat edelleen toimivimpia ihmislukijan äänellä, koska äänellä voidaan tulkita aidommin tunnetta. Ihmisääntä voidaan toki nauhoittaa myös erilaisilla sävyillä. Ääninäyttelijä voi lukea tekstin iloisesti, surullisesti yms. Tällöin tekstiaineistoa voidaan ohjelmoida tunnisteilla, jolloin koneääni puhuu tekstin tunnisteen mukaan.
  • Koneäänen avulla tehtyihin teksteihin on nopea tehdä muutoksia jälkeenpäinkin, toisin kuin ihmisäänellä tehtyyn tekstiin. Ihmispuheen sisältöä täytyisi nauhoittaa mahdollisten virheiden takia äänitysstudiolla uudestaan.
  • Koneäänellä pystytään toteuttamaan enemmän sisältöjä kuin ihmislukijan kanssa, jonka lisäksi se on edullisempaa. Koneäänillä ei kuitenkaan ole tarkoitus korvata ihmislukijoita, vaan tuoda sisältöjä entistä laajemmin tarjolle ja saavutettavaan muotoon.
  • Tietyllä äänellä voidaan jopa yhdenmukaistaa omaa brändiä samoin kuin brändiin yhdistettävään väriin tai fonttiin. Saman äänen käyttäminen mahdollistuu eri kanavissa, verkkosivuista ja sovelluksista, somekanaviin, mainoksiin ja asiakaspalveluun.

Ilona on a.i.materin luonnollinen koneääni

Ilona on a.i.materin kehittämä suomenkielinen koneääni, joka pystyy aidosti sujuvan suomen kielen lausuntaan. Ilonan koulutukseen käytettiin kymmenen tuntia studiossa nauhoitettua puhetta ja tätä vastaavia tekstipätkiä. Tämänkaltaisen koneoppimismallin koulutukseen menee noin viikko, jonka jälkeen iteraatioihin ja hienosäätöön menee jopa kuukausia.

Ilona-koneäänellä on luonnollinen kyky tauottaa ja painottaa puhetta, jolloin sitä on miellyttävä kuunnella. Kuuntele videolta, miten hyvältä suomenkielinen koneääni voi kuulostaa:

Kiinnostuitko, miten Ilonan avulla päästään tuomaan uutta lisäarvoa teidänkin yritykseenne? Ota yhteyttä!

Kiinnostuitko? Ota Yhteyttä!

Jaa artikkeli

LinkedIn
Twitter
Facebook
Mies istuu kuulokkeet päässä hymyillen ja katsoo horisonttiin. Taustalla on paljon sinistä taivasta ja harsopilviä.
Olimme kesäkuussa messuilla, johon toteutimme vierailijoille kuunneltavaksi äänikirjan. Kuuntele, miltä satukirja kuulostaa Ilonan lukemana!
Jukolan telttakylää ilta-auringossa.
Osallistuimme Jukolan viestiin 2022 niin kisailijoina kuin osuusisäntinä. Artikkelissa tunnelmat viikonlopusta.
Kirjakauppaliiton Bisneksenä kirjat toimialapäivä. Ihmiset istuvat tuoleillaan ja kuuntelevat lavalla olevaa puhujaa.
Pääsimme kevään aikana keskenään hyvin erilaisiin tapahtumiin: yliopistolle kielitieteen konferenssiin, kirja-alan toimialapäiville ja bioteknologian ammattilaismessuille.
Nainen istuu tietokoneen edessä ja päässä on headset.
Asiantuntijahaastattelussa perehdytään puheentunnistukseen. Mitä puheentunnistus tarkoittaa ja mihin sitä käytetään? Kerromme, mitä puheentunnistuksessa tapahtuu, jotta se ymmärtää puhettamme.
Nainen kuulokkeet päässä, tekee muistiinpanoja aukinaisesta kirjasta postit-lappuun.
Artikkelissa perehdytään, miten sähköisten palveluiden käyttöä voidaan helpottaa puheteknologian, erityisesti koneäänien ja puheentunnistuksen avulla.
Kasa kirjoja aurinkoisella puuterassilla. Kirjojen päällä puhelin ja lasillinen mehua.
Lukemisella tarkoitetaan tiettyä syvempää toimintoa, joka vaatii tekstin vastaanottamista, ymmärtämistä ja tulkitsemista. Myös äänikirjan kuunteleminen on siis lukemista.