Mitä puheentunnistus on?

30.05.2022

Puheentunnistus on yksi yleisimmistä ja tutkituimmista koneoppimisen sovelluksista. Sitä varten on kehitetty useita koneoppimismenetelmiä, joita ei juurikaan muissa sovelluksissa hyödynnetä.

Automaattisella puheentunnistuksella (ASR) tarkoitetaan puheen tulkitsemista tai muuntamista tekstiksi tietokoneen avulla:

Puheentunnistuksen avulla saadaan muutettua sekä reaaliaikainen että tallennettu puhe tekstiksi. Tätä hyödynnetään tekstityksien tekemiseen, sanelemiseen ja litterointiin.
Puheen tulkitsemista käytetään muun muassa ihmisen ja tietokoneen väliseen vuorovaikutukseen puheohjauksella eli ilman näppäimistöä tai näyttöä. Muita arkipäiväisiä esimerkkejä puheen tulkitsemisesta ovat virtuaaliassistenttien ja kielen käännösohjelmien käyttäminen sekä Googlen äänihaun tekeminen.

Puheentunnistuksen käyttötavat ovat hyvin arkipäiväisiä, kuten yllä lueteltiin. Erikoisempiakin käyttötapoja puheentunnistukselle löytyy. Puheääntä voidaan nimittäin käyttää myös biometriseen tunnistautumiseen samoin kuin sormenjälkiä tai kasvontunnistusta.

Perehdytään johtavan tutkijamme Kai Hakalan kertomana tarkemmin siihen, miten puheentunnistus toimii:

Miten puheentunnistus toimii?

Modernit puheentunnistustyökalut perustuvat lähes poikkeuksetta koneoppimismenetelmiin. Äänitetty puhe muutetaan usein sen taajuuksia eri ajanhetkinä kuvaavaksi spektrogrammiksi. Kun koneoppimismallille on koulutusvaiheessa esitetty tällaisia spektrogrammeja sekä niitä vastaavia litteraatioita, oppii malli yhdistämään tietynlaiset taajuusrakenteen muutokset eli äänteet vastaaviin kirjaimiin tai sanoihin tekstissä. Näitä malleja kutsutaan akustisiksi malleiksi, sillä ne tarkastelevat puhetta äänisignaalina.

Akustiset mallit saattavat joissakin tilanteissa tuottaa sanoja tai sanajonoja, jotka eivät ole järkeenkäypiä. Tällaisia virheitä voidaan korjata erillisellä kielimallilla, joka arvioi sanajonon todennäköisyyttä. Mikäli sanajono vaikuttaa epätodennäköiseltä, voidaan olettaa, että litteraatiossa on jokin virhe ja korvata tarkasteltavassa kontekstissa oudolta vaikuttava sana toisella samankaltaisella, mutta asiasisältöön paremmin sopivalla. Akustisten mallien ja kielimallien yhdistämiseen on käytännössä useita tapoja eikä niitä aina ajatella erillisiksi komponenteiksi.

Mikäli puhujia on samanaikaisesti useita, voidaan järjestelmään lisätä myös puhujia yksilöivä komponentti, jolloin esimerkiksi dialogissa puheenvuorot voidaan erotella.

Pelkkään puheen litterointiin tekstiksi riittää yllä kuvatun kaltainen järjestelmä, mutta puhujan tarkoitusperien tulkinta vaatii syvällisempää kielen ymmärrystä. Puheohjatuissa järjestelmissä toiminnallisuuksien määrä on kuitenkin monesti niin rajallinen, että tulkinta on mahdollista nykyteknologialla. Ehkä ei voida kuitenkaan vielä sanoa, että puheentunnistusmallit varsinaisesti ymmärtäisivät meitä.

Entä suomenkielinen puheentunnistus?

Puheentunnistusmallien kouluttaminen vaatii suuret määrät puheaineistoa, mielellään tuhansia tunteja. Tällaisia aineistoja ei kuitenkaan suomen kielelle ole eduskunnan täysistuntoja lukuun ottamatta avoimesti saatavilla. Koska täysistuntojen pöytäkirjat eivät kuitenkaan ole sanatarkkoja litteraatioita, niiden hyödyntäminen vaatii aineiston työlästä esikäsittelyä. Tehokas ratkaisu tähän ongelmaan on monikielisten mallien hyödyntäminen, jolloin esimerkiksi englanninkielistä aineistoa voidaan käyttää suomenkielisen puheentunnistusmallin kehittämisessä siltä osin kuin nämä kielet sisältävät samankaltaisia piirteitä.

Puheentunnistuksen soveltaminen a.i.materilla

Puhekäyttöliittymät ovat yleistyneet viime vuosina puheentunnistuksen menetelmien ja laadun parantuessa. Puhekäyttöliittymien avulla luodaan rajapintaa ihmisen ja koneen välille, jolloin etuna on käsien ja silmien vapautuminen muihin tehtäviin. Ihmiselle annetaan mahdollisuus valita, miten käyttää ohjelmistoa tai sovellusta. Se, että digimaailmassa liikuttaessa ei tarvitse näkö- tai hienomotorisia kykyjä, edistää myös saavutettavuutta.

Työelämässä puhekäyttöliittymät parantavat työn mielekkyyttä ja tehokkuutta. Esimerkkinä puheohjattava dokumentointi- ja työnohjausjärjestelmämme Noptera, jota käytetään eri aloilla prosessinomaisissa työtehtävissä. Työtehtäviin kuluva aika on parhaimmillaan jopa puolittunut, kun molemmat kädet ovat vapaana tehtävään ja kirjaukset tallentuvat puheella.

Toinen mielenkiintoinen sovelluskohde on avainsanojen löytäminen puheesta. Tämä nopeuttaa huomattavasti pitkien, monen tunnin, äänisisältöjen läpikäyntiä ja vain tiettyjen pätkien litterointia. Puheentunnistus nimittäin löytää ne kohdat, joissa tietty avainsana tai teema esiintyy.

Puheentunnistusta hyödyntävät ratkaisut saattavat olla jo olemassa olevia tai hyvinkin spesifejä ja juuri kyseiselle asiakkaalle rakennettuja. Ratkaisu toiveisiin löydetään varmasti!

Sinua saattaisi kiinnostaa myös artikkelit:

Kieliteknologia & Bertin päiväkirja

Mikä on puhekäyttöliittymä? Edut, ongelmat, suunnittelu

Älykoti ja puheohjaus – Ihmiset ja koneet vuorovaikutuksessa

Puheohjatut ostokset – Puheteknologia rikastaa verkkokauppaa

Litterointi on työläs prosessi – Automaattinen puheentunnistus apuna

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

16.5.2024

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon

23.4.2024

Mitä puheentunnistus on?

Miten puheentunnistus toimii?

Entä suomenkielinen puheentunnistus?

Puheentunnistuksen soveltaminen a.i.materilla

Puheentunnistusta hyödyntävät ratkaisut saattavat olla jo olemassa olevia tai hyvinkin spesifejä ja juuri kyseiselle asiakkaalle rakennettuja. Ratkaisu toiveisiin löydetään varmasti!

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Ääni vai teksti? Tiedon kuluttamisen monimuotoisuus

a.i.mater tuottaa ePress®-näköislehtipalvelun kuunneltavat artikkelit

Yle.fi-verkkosivujen ja -sovelluksen uutisartikkelit nyt kuunneltavissa

Miten saada verkkosivujen tekstisisällöt kuunneltavaan muotoon?

Avoimet kielimallit: mitä, miksi ja miten

Kiinnostuitko?

On sinulla sitten valmis tarve tai kaipaat ideallesi vasta sparrailua, saamme sitä varmasti yhdessä eteenpäin. Ota yhteyttä, kuulemme mielellämme sinusta!

Sounds better