Nainen istuu tietokoneen edessä ja päässä on headset.

Mitä puheentunnistus on?

Puheentunnistus on yksi yleisimmistä ja tutkituimmista koneoppimisen sovelluksista. Sitä varten on kehitetty useita koneoppimismenetelmiä, joita ei juurikaan muissa sovelluksissa hyödynnetä.

Automaattisella puheentunnistuksella (ASR) tarkoitetaan puheen tulkitsemista tai muuntamista tekstiksi tietokoneen avulla:

  • Puheentunnistuksen avulla saadaan muutettua sekä reaaliaikainen että tallennettu puhe tekstiksi. Tätä hyödynnetään tekstityksien tekemiseen, sanelemiseen ja litterointiin.
  • Puheen tulkitsemista käytetään muun muassa ihmisen ja tietokoneen väliseen vuorovaikutukseen puheohjauksella eli ilman näppäimistöä tai näyttöä. Muita arkipäiväisiä esimerkkejä puheen tulkitsemisesta ovat virtuaaliassistenttien ja kielen käännösohjelmien käyttäminen sekä Googlen äänihaun tekeminen.

Puheentunnistuksen käyttötavat ovat hyvin arkipäiväisiä, kuten yllä lueteltiin. Erikoisempiakin käyttötapoja puheentunnistukselle löytyy. Puheääntä voidaan nimittäin käyttää myös biometriseen tunnistautumiseen samoin kuin sormenjälkiä tai kasvontunnistusta.

Perehdytään johtavan tutkijamme Kai Hakalan kertomana tarkemmin siihen, miten puheentunnistus toimii:

Miten puheentunnistus toimii?

Modernit puheentunnistustyökalut perustuvat lähes poikkeuksetta koneoppimismenetelmiin. Äänitetty puhe muutetaan usein sen taajuuksia eri ajanhetkinä kuvaavaksi spektrogrammiksi. Kun koneoppimismallille on koulutusvaiheessa esitetty tällaisia spektrogrammeja sekä niitä vastaavia litteraatioita, oppii malli yhdistämään tietynlaiset taajuusrakenteen muutokset eli äänteet vastaaviin kirjaimiin tai sanoihin tekstissä. Näitä malleja kutsutaan akustisiksi malleiksi, sillä ne tarkastelevat puhetta äänisignaalina.

Akustiset mallit saattavat joissakin tilanteissa tuottaa sanoja tai sanajonoja, jotka eivät ole järkeenkäypiä. Tällaisia virheitä voidaan korjata erillisellä kielimallilla, joka arvioi sanajonon todennäköisyyttä. Mikäli sanajono vaikuttaa epätodennäköiseltä, voidaan olettaa, että litteraatiossa on jokin virhe ja korvata tarkasteltavassa kontekstissa oudolta vaikuttava sana toisella samankaltaisella, mutta asiasisältöön paremmin sopivalla. Akustisten mallien ja kielimallien yhdistämiseen on käytännössä useita tapoja eikä niitä aina ajatella erillisiksi komponenteiksi.

Mikäli puhujia on samanaikaisesti useita, voidaan järjestelmään lisätä myös puhujia yksilöivä komponentti, jolloin esimerkiksi dialogissa puheenvuorot voidaan erotella.

Pelkkään puheen litterointiin tekstiksi riittää yllä kuvatun kaltainen järjestelmä, mutta puhujan tarkoitusperien tulkinta vaatii syvällisempää kielen ymmärrystä. Puheohjatuissa järjestelmissä toiminnallisuuksien määrä on kuitenkin monesti niin rajallinen, että tulkinta on mahdollista nykyteknologialla. Ehkä ei voida kuitenkaan vielä sanoa, että puheentunnistusmallit varsinaisesti ymmärtäisivät meitä.

Entä suomenkielinen puheentunnistus?

Puheentunnistusmallien kouluttaminen vaatii suuret määrät puheaineistoa, mielellään tuhansia tunteja. Tällaisia aineistoja ei kuitenkaan suomen kielelle ole eduskunnan täysistuntoja lukuun ottamatta avoimesti saatavilla. Koska täysistuntojen pöytäkirjat eivät kuitenkaan ole sanatarkkoja litteraatioita, niiden hyödyntäminen vaatii aineiston työlästä esikäsittelyä. Tehokas ratkaisu tähän ongelmaan on monikielisten mallien hyödyntäminen, jolloin esimerkiksi englanninkielistä aineistoa voidaan käyttää suomenkielisen puheentunnistusmallin kehittämisessä siltä osin kuin nämä kielet sisältävät samankaltaisia piirteitä.

Puheentunnistuksen soveltaminen a.i.materilla

Puhekäyttöliittymät ovat yleistyneet viime vuosina puheentunnistuksen menetelmien ja laadun parantuessa. Puhekäyttöliittymien avulla luodaan rajapintaa ihmisen ja koneen välille, jolloin etuna on käsien ja silmien vapautuminen muihin tehtäviin. Ihmiselle annetaan mahdollisuus valita, miten käyttää ohjelmistoa tai sovellusta. Se, että digimaailmassa liikuttaessa ei tarvitse näkö- tai hienomotorisia kykyjä, edistää myös saavutettavuutta.

Työelämässä puhekäyttöliittymät parantavat työn mielekkyyttä ja tehokkuutta. Esimerkkinä puheohjattava dokumentointi- ja työnohjausjärjestelmämme Noptera, jota käytetään eri aloilla prosessinomaisissa työtehtävissä. Työtehtäviin kuluva aika on parhaimmillaan jopa puolittunut, kun molemmat kädet ovat vapaana tehtävään ja kirjaukset tallentuvat puheella.

Toinen mielenkiintoinen sovelluskohde on avainsanojen löytäminen puheesta. Tämä nopeuttaa huomattavasti pitkien, monen tunnin, äänisisältöjen läpikäyntiä ja vain tiettyjen pätkien litterointia. Puheentunnistus nimittäin löytää ne kohdat, joissa tietty avainsana tai teema esiintyy.

Puheentunnistusta hyödyntävät ratkaisut saattavat olla jo olemassa olevia tai hyvinkin spesifejä ja juuri kyseiselle asiakkaalle rakennettuja. Ratkaisu toiveisiin löydetään aina! Yksityiskohtaisempiin esimerkkiratkaisuihimme pääset tutustumaan tarkemmin Palvelut-osiossa.

Kiinnostuitko? Ota Yhteyttä!

Jaa artikkeli

LinkedIn
Twitter
Facebook
Mies istuu kuulokkeet päässä hymyillen ja katsoo horisonttiin. Taustalla on paljon sinistä taivasta ja harsopilviä.
Olimme kesäkuussa messuilla, johon toteutimme vierailijoille kuunneltavaksi äänikirjan. Kuuntele, miltä satukirja kuulostaa Ilonan lukemana!
Jukolan telttakylää ilta-auringossa.
Osallistuimme Jukolan viestiin 2022 niin kisailijoina kuin osuusisäntinä. Artikkelissa tunnelmat viikonlopusta.
Kirjakauppaliiton Bisneksenä kirjat toimialapäivä. Ihmiset istuvat tuoleillaan ja kuuntelevat lavalla olevaa puhujaa.
Pääsimme kevään aikana keskenään hyvin erilaisiin tapahtumiin: yliopistolle kielitieteen konferenssiin, kirja-alan toimialapäiville ja bioteknologian ammattilaismessuille.
Nainen kuulokkeet päässä, tekee muistiinpanoja aukinaisesta kirjasta postit-lappuun.
Artikkelissa perehdytään, miten sähköisten palveluiden käyttöä voidaan helpottaa puheteknologian, erityisesti koneäänien ja puheentunnistuksen avulla.
Kasa kirjoja aurinkoisella puuterassilla. Kirjojen päällä puhelin ja lasillinen mehua.
Lukemisella tarkoitetaan tiettyä syvempää toimintoa, joka vaatii tekstin vastaanottamista, ymmärtämistä ja tulkitsemista. Myös äänikirjan kuunteleminen on siis lukemista.
Nainen maalaa taulua ulkona kuulokkeet päässä.
Lehtiartikkelien ääniversiot toimivat sisäänheittäjinä uusille lukijoille tai eksklusiivisena sisältönä tilaajille. Eri muodoissa olevat sisällöt huomioivat erilaiset sisällön kulutuksen tavat.