Nainen istuu tietokoneen edessä ja päässä on headset.

Mitä puheentunnistus on?

Puheentunnistus on yksi yleisimmistä ja tutkituimmista koneoppimisen sovelluksista. Sitä varten on kehitetty useita koneoppimismenetelmiä, joita ei juurikaan muissa sovelluksissa hyödynnetä.

Automaattisella puheentunnistuksella (ASR) tarkoitetaan puheen tulkitsemista tai muuntamista tekstiksi tietokoneen avulla:

  • Puheentunnistuksen avulla saadaan muutettua sekä reaaliaikainen että tallennettu puhe tekstiksi. Tätä hyödynnetään tekstityksien tekemiseen, sanelemiseen ja litterointiin.
  • Puheen tulkitsemista käytetään muun muassa ihmisen ja tietokoneen väliseen vuorovaikutukseen puheohjauksella eli ilman näppäimistöä tai näyttöä. Muita arkipäiväisiä esimerkkejä puheen tulkitsemisesta ovat virtuaaliassistenttien ja kielen käännösohjelmien käyttäminen sekä Googlen äänihaun tekeminen.

Puheentunnistuksen käyttötavat ovat hyvin arkipäiväisiä, kuten yllä lueteltiin. Erikoisempiakin käyttötapoja puheentunnistukselle löytyy. Puheääntä voidaan nimittäin käyttää myös biometriseen tunnistautumiseen samoin kuin sormenjälkiä tai kasvontunnistusta.

Perehdytään johtavan tutkijamme Kai Hakalan kertomana tarkemmin siihen, miten puheentunnistus toimii:

Miten puheentunnistus toimii?

Modernit puheentunnistustyökalut perustuvat lähes poikkeuksetta koneoppimismenetelmiin. Äänitetty puhe muutetaan usein sen taajuuksia eri ajanhetkinä kuvaavaksi spektrogrammiksi. Kun koneoppimismallille on koulutusvaiheessa esitetty tällaisia spektrogrammeja sekä niitä vastaavia litteraatioita, oppii malli yhdistämään tietynlaiset taajuusrakenteen muutokset eli äänteet vastaaviin kirjaimiin tai sanoihin tekstissä. Näitä malleja kutsutaan akustisiksi malleiksi, sillä ne tarkastelevat puhetta äänisignaalina.

Akustiset mallit saattavat joissakin tilanteissa tuottaa sanoja tai sanajonoja, jotka eivät ole järkeenkäypiä. Tällaisia virheitä voidaan korjata erillisellä kielimallilla, joka arvioi sanajonon todennäköisyyttä. Mikäli sanajono vaikuttaa epätodennäköiseltä, voidaan olettaa, että litteraatiossa on jokin virhe ja korvata tarkasteltavassa kontekstissa oudolta vaikuttava sana toisella samankaltaisella, mutta asiasisältöön paremmin sopivalla. Akustisten mallien ja kielimallien yhdistämiseen on käytännössä useita tapoja eikä niitä aina ajatella erillisiksi komponenteiksi.

Mikäli puhujia on samanaikaisesti useita, voidaan järjestelmään lisätä myös puhujia yksilöivä komponentti, jolloin esimerkiksi dialogissa puheenvuorot voidaan erotella.

Pelkkään puheen litterointiin tekstiksi riittää yllä kuvatun kaltainen järjestelmä, mutta puhujan tarkoitusperien tulkinta vaatii syvällisempää kielen ymmärrystä. Puheohjatuissa järjestelmissä toiminnallisuuksien määrä on kuitenkin monesti niin rajallinen, että tulkinta on mahdollista nykyteknologialla. Ehkä ei voida kuitenkaan vielä sanoa, että puheentunnistusmallit varsinaisesti ymmärtäisivät meitä.

Entä suomenkielinen puheentunnistus?

Puheentunnistusmallien kouluttaminen vaatii suuret määrät puheaineistoa, mielellään tuhansia tunteja. Tällaisia aineistoja ei kuitenkaan suomen kielelle ole eduskunnan täysistuntoja lukuun ottamatta avoimesti saatavilla. Koska täysistuntojen pöytäkirjat eivät kuitenkaan ole sanatarkkoja litteraatioita, niiden hyödyntäminen vaatii aineiston työlästä esikäsittelyä. Tehokas ratkaisu tähän ongelmaan on monikielisten mallien hyödyntäminen, jolloin esimerkiksi englanninkielistä aineistoa voidaan käyttää suomenkielisen puheentunnistusmallin kehittämisessä siltä osin kuin nämä kielet sisältävät samankaltaisia piirteitä.

Puheentunnistuksen soveltaminen a.i.materilla

Puhekäyttöliittymät ovat yleistyneet viime vuosina puheentunnistuksen menetelmien ja laadun parantuessa. Puhekäyttöliittymien avulla luodaan rajapintaa ihmisen ja koneen välille, jolloin etuna on käsien ja silmien vapautuminen muihin tehtäviin. Ihmiselle annetaan mahdollisuus valita, miten käyttää ohjelmistoa tai sovellusta. Se, että digimaailmassa liikuttaessa ei tarvitse näkö- tai hienomotorisia kykyjä, edistää myös saavutettavuutta.

Työelämässä puhekäyttöliittymät parantavat työn mielekkyyttä ja tehokkuutta. Esimerkkinä puheohjattava dokumentointi- ja työnohjausjärjestelmämme Noptera, jota käytetään eri aloilla prosessinomaisissa työtehtävissä. Työtehtäviin kuluva aika on parhaimmillaan jopa puolittunut, kun molemmat kädet ovat vapaana tehtävään ja kirjaukset tallentuvat puheella.

Toinen mielenkiintoinen sovelluskohde on avainsanojen löytäminen puheesta. Tämä nopeuttaa huomattavasti pitkien, monen tunnin, äänisisältöjen läpikäyntiä ja vain tiettyjen pätkien litterointia. Puheentunnistus nimittäin löytää ne kohdat, joissa tietty avainsana tai teema esiintyy.

Puheentunnistusta hyödyntävät ratkaisut saattavat olla jo olemassa olevia tai hyvinkin spesifejä ja juuri kyseiselle asiakkaalle rakennettuja. Ratkaisu toiveisiin löydetään varmasti!

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Henkilö istuu lattialla kirjan edessä tekemässä muistiinpanoja. Hänellä on kuulokkeet päässä. Kuvaotettu ylhäältäpäin.
23.4.2024
Tietoa on monia tapoja kuluttaa, ja meidän tulisi huomioida tämä monimuotoisuus sisältöä tuottaessa. Ääni ja teksti tukevat toisiaan ja antavat sisällön kuluttajalle valinnanvaraa päättää.
Läppäri, jonka näppäimistön päällä on kuulokkeet. Läppärin näytössä on eepressin etusivu.
2.4.2024
Konenäköä ja puhesynteesiä yhdistäneessä projektissa kehitimme ePress-näköislehtipalvelulle pipelinen, joka pystyy tunnistamaan näköislehtien artikkelit ja toimittamaan niistä ääniversiot.
Kuulokkeet tietokonepöydän päällä.
14.3.2024
Yle on ottanut käyttöön a.i.materin kehittämän kuuntelumahdollisuuden uutissivuilleen. Kuunteluominaisuus parantaa palvelun digitaalista saavutettavuutta.
Aimaterin työntekijät Roope ja Niko tutkivat työpöydän edessä tietokoneelta jotain. Roope juuri osoittaa kädellään näyttöä.
28.2.2024
Artikkelissa esitellään ja vertaillaan verkkosivulukijaa ja äänirajapintaa: miten ne toimivat ja mikä tapa sopii mihinkin tarkoitukseen.
Lähikuva kädestä, joka on tietokoneen hiiren päällä. Taustalla näppäimistä, kaksi näyttöä, läppärin kulma ja kahvimuki.
29.11.2023
Turun yliopiston tutkimusryhmä TurkuNLP on avannut sivuston, jonka kautta sinäkin voit osallistua suomenkielisen keskustelevan tekoälyn kehitykseen. Artikkelissa avataan enemmän kielimallien kehityksen taustoja.
Nainen istuu kesällä puutarhassa taidemaalaustarvikkeiden kanssa. Päässä on kuulokkeet.
14.9.2023
Yhdysvalloissa parhaillaan käynnissä olevassa näyttelijöiden ja käsikirjoittajien lakossa on kysymys myös tekoälyn käytöstä. Huolenaiheet koskevat muun muassa työpaikkoja ja taiteellista luovuutta.