Käsi pitää kuulokkeista kiinni. Takana metsää.

Koneääni: Ennakkoluulot vs. Todellisuus

2000-luvun chat-ohjelmien puhuvat päät ovat usein mielikuvana koneäänestä. Puhesynteesi on onneksi kehittynyt tästä ajasta nopeaa vauhtia. Nykyaikaiset, neuroverkkopohjaiset koneäänet voivat olla hyvinkin luonnollisen kuuloisia ja miellyttäviä kuunnella.

Puhesynteesillä tarkoitetaan ihmismäisen puheen tuottamista koneellisesti. Yleensä puhe tuotetaan syötteenä saadun tekstin pohjalta, eli kone lukee tekstiä ääneen. Nykyaikaiset puhesynteesijärjestelmät pohjautuvat koneoppimismenetelmiin. Ne oppivat jäljittelemään ihmismäistä puhetta kuulemansa perusteella.

Koneäänellä taas tarkoitetaan keinotekoista puhujaa, jonka äänellä voidaan tuottaa puhesisältöjä. Koneäänet voivat joko jäljitellä tietyn henkilön puhetyyliä, yhdistellä eri henkilöiden puhetta tai olla täysin keinotekoisia.

Kun kyseessä on tietokone, kuinka ihmismäiseltä sen pitäisi kuulostaa? Vai saako äänestä kuulua sen olevan kone?

Ennakkoluulot koneäänistä

  • Konemainen ja monotoninen.
  • Inhottava kuunnella vähänkään pidempään.
  • Ei halua kuunnella yhtään sen enempää kuin on pakko.
  • Robotti papattaa sanoja toisensa jälkeen, ilman puheen intonaatiota.
  • Koneääni rytmittää puhetta, mutta rytmitys tapahtuu väärissä kohdissa.
  • Pysähtyy tekstissä oudoissa kohdissa ja hyppää kokonaan joidenkin kohtien yli.
  • Lukee ääneen kaiken välimerkeistä lähtien.
  • Scifi-elokuvat luovat vääristynyttä mielikuvaa koneäänistä. Järjestelmät ovat älykkäitä, mutta koneäänet päinvastoin hyvin robottimaisia.

Vanhemmat koneäänet yhdistelevät äänteitä niin sanotusta äännepankista, josta alle sanan mittaisia äänneyksiköitä valitaan ja yhdistellään puheeksi. Tällöin ongelmaksi tosiaan tulee äänteiden rajojen ja puheen epäluonnollisuus, robottimaisuus.

Todellisuus koneäänistä

Nykyään koneäänet pohjautuvat koneoppimismenetelmiin, jotka oppivat jäljittelemään ihmismäistä puhetta kuulemansa perusteella. Tällöin puheen tauotukset ja painotukset ovat luonnollisia.

  • Koneäänestä pystytään tekemään miellyttävä, jolloin sitä jaksaa kuunnella. Sopivan hitaan ja vakaan, mutta samalla optimistisen ja pirteän kuuloinen.
  • Lyhyissä ääniklipeissä koneen ja ihmisen välistä eroa on erittäin vaikea huomata. Maallikko ei pysty erottamaan koneääntä ihmisäänestä.
  • Oikean ääntämisen lisäksi koneääni pystyy hienovaraiseen puheeseen. Se osaa tauottaa ja painottaa oikeissa kohdissa.
  • Koneäänille on saatu yksilöllinen ääni, mutta niiltä puuttuu vielä kyky mukauttaa puhetta, kuten muuttaa puheen sointia tai äänenvoimakkuutta koko ajan kontekstin mukaan. Inhimillisestä täydellisyyttä ei kuitenkaan vielä ole, sillä kone ei ymmärrä puhumaansa.
  • Laadukkaimmat luonnollisen kuuloiset koneäänet luodaan käyttämällä ihmisen puheesta tietokanta, jota kehitetään koneoppimisen avulla. Ihmisen ääntä tallennetaan koneelle kymmenistä tunneista satoihin tunteihin.
  • Pitkät kaunokirjallisuuden tekstit ovat edelleen toimivimpia ihmislukijan äänellä, koska äänellä voidaan tulkita aidommin tunnetta. Ihmisääntä voidaan toki nauhoittaa myös erilaisilla sävyillä. Ääninäyttelijä voi lukea tekstin iloisesti, surullisesti yms. Tällöin tekstiaineistoa voidaan ohjelmoida tunnisteilla, jolloin koneääni puhuu tekstin tunnisteen mukaan.
  • Koneäänen avulla tehtyihin teksteihin on nopea tehdä muutoksia jälkeenpäinkin, toisin kuin ihmisäänellä tehtyyn tekstiin. Ihmispuheen sisältöä täytyisi nauhoittaa mahdollisten virheiden takia äänitysstudiolla uudestaan.
  • Koneäänellä pystytään toteuttamaan enemmän sisältöjä kuin ihmislukijan kanssa, jonka lisäksi se on edullisempaa. Koneäänillä ei kuitenkaan ole tarkoitus korvata ihmislukijoita, vaan tuoda sisältöjä entistä laajemmin tarjolle ja saavutettavaan muotoon.
  • Tietyllä äänellä voidaan jopa yhdenmukaistaa omaa brändiä samoin kuin brändiin yhdistettävään väriin tai fonttiin. Saman äänen käyttäminen mahdollistuu eri kanavissa, verkkosivuista ja sovelluksista, somekanaviin, mainoksiin ja asiakaspalveluun.

Ilona on a.i.materin luonnollinen koneääni

Ilona on a.i.materin kehittämä suomenkielinen koneääni, joka pystyy aidosti sujuvan suomen kielen lausuntaan. Ilonan koulutukseen käytettiin kymmenen tuntia studiossa nauhoitettua puhetta ja tätä vastaavia tekstipätkiä. Tämänkaltaisen koneoppimismallin koulutukseen menee noin viikko, jonka jälkeen iteraatioihin ja hienosäätöön menee jopa kuukausia.

Ilona-koneäänellä on luonnollinen kyky tauottaa ja painottaa puhetta, jolloin sitä on miellyttävä kuunnella. Kuuntele videolta, miten hyvältä suomenkielinen koneääni voi kuulostaa:

Kiinnostuitko? Ota Yhteyttä!

Jaa artikkeli

LinkedIn
Twitter
Facebook
Nainen istuu auton etupenkillä kuulokkeet päässä ja pädi sylissä.
Tekoäly ja kieliteknologia mahdollistavat uudenlaisia ja kiinnostavampia tapoja oppia uusia kieliä. Esimerkiksi kieltenoppimissovellukset hyödyntävät luonnollisen kielen käsittelyä.
Keskellä lukee huhtikuun ääniuutiset. Taustalla kuva henkilöstä kuulokkeet päässä ja avonaisesta kirjasta lattialla. Henkilö tekee muistiinpanoja postit-lappuun.
Kokosimme yhteen artikkeliin huhtikuun kiinnostavimmat puheteknologiauutiset maailmalta. Aiheina muun muassa AutoGPT, äänikloonien teko artistien äänistä, älysilmälasit ja tekoälyuutisankkurit.
Nainen makaa ylhäältäpäin otetussa valokuvassa sohvalla silmät kiinni, kuulokkeet päässä ja hymyilee.
Suomalaisten lukuharrastusta tutkittiin Kirjakauppaliiton ja Suomen Kustannusyhdistyksen teettämässä Suomi lukee 2023 -tutkimuksessa. Artikkelissa katsaus tutkimukseen ääni- ja sähkökirjojen osalta sekä Suomen Kustannusyhdistyksen todelliset myyntitilastot vuodelta 2022.
Aimaterin työntekijä Antti Virtanen kuvattuna ylhäältä, istumassa tietokoneen äärellä.
Mikä on GPT ja mihin sitä voidaan käyttää? Miten ChatGPT on kehitetty? a.i.materin koneoppimisinsinööri Antti Virtanen kirjoitti näistä kysymyksistä ja GPT:n kehityshistoriasta asiantuntija-artikkelin.
Artikkelissa maaliskuun ääniuutiset maailmalta. Aiheina muun muassa GPT-4, RadioGPT ja koneäänien käyttö muun muassa podcasteissa ja Spotifyssa.
Tekstinlouhinta on tekoälypohjainen menetelmä, jolla tekstimassoista löydetään niihin piiloutuvaa tietoa. Kuvassa mies istuu Excelin edessä ja takana vaaleat ruudukkoikkunat kesämaisemalla.
Tekoälypohjaisilla tekstinlouhinnan työkaluilla laajoista tekstimassoista löydetään tekstisisältöön piiloutuvia tärkeitä havaintoja. Parhaimmillaan nämä oivallukset voivat jopa lisätä niitä käyttävien yritysten kilpailuetua.