Nainen istuu tietokoneen edessä ja päässä on headset.

Mitä puheentunnistus on?

Puheentunnistus on yksi yleisimmistä ja tutkituimmista koneoppimisen sovelluksista. Sitä varten on kehitetty useita koneoppimismenetelmiä, joita ei juurikaan muissa sovelluksissa hyödynnetä.

Automaattisella puheentunnistuksella (ASR) tarkoitetaan puheen tulkitsemista tai muuntamista tekstiksi tietokoneen avulla:

  • Puheentunnistuksen avulla saadaan muutettua sekä reaaliaikainen että tallennettu puhe tekstiksi. Tätä hyödynnetään tekstityksien tekemiseen, sanelemiseen ja litterointiin.
  • Puheen tulkitsemista käytetään muun muassa ihmisen ja tietokoneen väliseen vuorovaikutukseen puheohjauksella eli ilman näppäimistöä tai näyttöä. Muita arkipäiväisiä esimerkkejä puheen tulkitsemisesta ovat virtuaaliassistenttien ja kielen käännösohjelmien käyttäminen sekä Googlen äänihaun tekeminen.

Puheentunnistuksen käyttötavat ovat hyvin arkipäiväisiä, kuten yllä lueteltiin. Erikoisempiakin käyttötapoja puheentunnistukselle löytyy. Puheääntä voidaan nimittäin käyttää myös biometriseen tunnistautumiseen samoin kuin sormenjälkiä tai kasvontunnistusta.

Perehdytään johtavan tutkijamme Kai Hakalan kertomana tarkemmin siihen, miten puheentunnistus toimii:

Miten puheentunnistus toimii?

Modernit puheentunnistustyökalut perustuvat lähes poikkeuksetta koneoppimismenetelmiin. Äänitetty puhe muutetaan usein sen taajuuksia eri ajanhetkinä kuvaavaksi spektrogrammiksi. Kun koneoppimismallille on koulutusvaiheessa esitetty tällaisia spektrogrammeja sekä niitä vastaavia litteraatioita, oppii malli yhdistämään tietynlaiset taajuusrakenteen muutokset eli äänteet vastaaviin kirjaimiin tai sanoihin tekstissä. Näitä malleja kutsutaan akustisiksi malleiksi, sillä ne tarkastelevat puhetta äänisignaalina.

Akustiset mallit saattavat joissakin tilanteissa tuottaa sanoja tai sanajonoja, jotka eivät ole järkeenkäypiä. Tällaisia virheitä voidaan korjata erillisellä kielimallilla, joka arvioi sanajonon todennäköisyyttä. Mikäli sanajono vaikuttaa epätodennäköiseltä, voidaan olettaa, että litteraatiossa on jokin virhe ja korvata tarkasteltavassa kontekstissa oudolta vaikuttava sana toisella samankaltaisella, mutta asiasisältöön paremmin sopivalla. Akustisten mallien ja kielimallien yhdistämiseen on käytännössä useita tapoja eikä niitä aina ajatella erillisiksi komponenteiksi.

Mikäli puhujia on samanaikaisesti useita, voidaan järjestelmään lisätä myös puhujia yksilöivä komponentti, jolloin esimerkiksi dialogissa puheenvuorot voidaan erotella.

Pelkkään puheen litterointiin tekstiksi riittää yllä kuvatun kaltainen järjestelmä, mutta puhujan tarkoitusperien tulkinta vaatii syvällisempää kielen ymmärrystä. Puheohjatuissa järjestelmissä toiminnallisuuksien määrä on kuitenkin monesti niin rajallinen, että tulkinta on mahdollista nykyteknologialla. Ehkä ei voida kuitenkaan vielä sanoa, että puheentunnistusmallit varsinaisesti ymmärtäisivät meitä.

Entä suomenkielinen puheentunnistus?

Puheentunnistusmallien kouluttaminen vaatii suuret määrät puheaineistoa, mielellään tuhansia tunteja. Tällaisia aineistoja ei kuitenkaan suomen kielelle ole eduskunnan täysistuntoja lukuun ottamatta avoimesti saatavilla. Koska täysistuntojen pöytäkirjat eivät kuitenkaan ole sanatarkkoja litteraatioita, niiden hyödyntäminen vaatii aineiston työlästä esikäsittelyä. Tehokas ratkaisu tähän ongelmaan on monikielisten mallien hyödyntäminen, jolloin esimerkiksi englanninkielistä aineistoa voidaan käyttää suomenkielisen puheentunnistusmallin kehittämisessä siltä osin kuin nämä kielet sisältävät samankaltaisia piirteitä.

Puheentunnistuksen soveltaminen a.i.materilla

Puhekäyttöliittymät ovat yleistyneet viime vuosina puheentunnistuksen menetelmien ja laadun parantuessa. Puhekäyttöliittymien avulla luodaan rajapintaa ihmisen ja koneen välille, jolloin etuna on käsien ja silmien vapautuminen muihin tehtäviin. Ihmiselle annetaan mahdollisuus valita, miten käyttää ohjelmistoa tai sovellusta. Se, että digimaailmassa liikuttaessa ei tarvitse näkö- tai hienomotorisia kykyjä, edistää myös saavutettavuutta.

Työelämässä puhekäyttöliittymät parantavat työn mielekkyyttä ja tehokkuutta. Esimerkkinä puheohjattava dokumentointi- ja työnohjausjärjestelmämme Noptera, jota käytetään eri aloilla prosessinomaisissa työtehtävissä. Työtehtäviin kuluva aika on parhaimmillaan jopa puolittunut, kun molemmat kädet ovat vapaana tehtävään ja kirjaukset tallentuvat puheella.

Toinen mielenkiintoinen sovelluskohde on avainsanojen löytäminen puheesta. Tämä nopeuttaa huomattavasti pitkien, monen tunnin, äänisisältöjen läpikäyntiä ja vain tiettyjen pätkien litterointia. Puheentunnistus nimittäin löytää ne kohdat, joissa tietty avainsana tai teema esiintyy.

Puheentunnistusta hyödyntävät ratkaisut saattavat olla jo olemassa olevia tai hyvinkin spesifejä ja juuri kyseiselle asiakkaalle rakennettuja. Ratkaisu toiveisiin löydetään aina! Yksityiskohtaisempiin esimerkkiratkaisuihimme pääset tutustumaan tarkemmin Palvelut-osiossa.

Kiinnostuitko? Ota Yhteyttä!

Jaa artikkeli

LinkedIn
Twitter
Facebook
Nainen istuu kesällä puutarhassa taidemaalaustarvikkeiden kanssa. Päässä on kuulokkeet.
Yhdysvalloissa parhaillaan käynnissä olevassa näyttelijöiden ja käsikirjoittajien lakossa on kysymys myös tekoälyn käytöstä. Huolenaiheet koskevat muun muassa työpaikkoja ja taiteellista luovuutta.
Selko Digitalin logo, jossa silmä ja teksti Selko Digital.
Saavutettavuuteen erikoistunut yhteistyökumppanimme Selko Digital avaa vieraskynäblogissa koneäänien ja puheentunnistuksen vaikutusta digimaailman yhdenvertaisuuteen.
Keskellä lukee toukokuun ääniuutiset. Taustalla kuva kuulokkeista kirjapinon päällä, kuulokkeiden vieressä on juomalasi, jossa sitruunaviipale ja kukkiva omenapuun oksa.
Toukokuun ääniuutisten aiheina Google Bard, Metan uusi kielimalli, Applen uudet saavutettavuusominaisuudet, kielivähemmistöille suunnattu chatbot ja älykkäät NPC:t.
Nainen istuu auton etupenkillä kuulokkeet päässä ja pädi sylissä.
Tekoäly ja kieliteknologia mahdollistavat uudenlaisia ja kiinnostavampia tapoja oppia uusia kieliä. Esimerkiksi kieltenoppimissovellukset hyödyntävät luonnollisen kielen käsittelyä.
Keskellä lukee huhtikuun ääniuutiset. Taustalla kuva henkilöstä kuulokkeet päässä ja avonaisesta kirjasta lattialla. Henkilö tekee muistiinpanoja postit-lappuun.
Kokosimme yhteen artikkeliin huhtikuun kiinnostavimmat puheteknologiauutiset maailmalta. Aiheina muun muassa AutoGPT, äänikloonien teko artistien äänistä, älysilmälasit ja tekoälyuutisankkurit.
Aimaterin työntekijä Antti Virtanen kuvattuna ylhäältä, istumassa tietokoneen äärellä.
Mikä on GPT ja mihin sitä voidaan käyttää? Miten ChatGPT on kehitetty? a.i.materin koneoppimisinsinööri Antti Virtanen kirjoitti näistä kysymyksistä ja GPT:n kehityshistoriasta asiantuntija-artikkelin.