Työntekijä kasvilaboratoriossa tutkimassa taiminäytettä. Päässä Nopteraa käyttävä headset.

Mitä puheteknologia on?

Puheteknologia on yksi tämän hetken nopeasti kehittyvistä tieteenaloista sekä ihmisten arkielämään selkeästi yleistyvistä tavoista käyttää laitteita ja digitaalista sisältöä. Mutta mitä puheteknologia on? Mitä mahdollisuuksia puheteknologia tarjoaa? Mitä puhesynteesi tarkoittaa? Entä mihin asioihin puheentunnistusta ja koneääntä voidaan käyttää?

a.i.mater on puheteknologian erityisasiantuntija, joka on onnistunut erinomaisesti niin suomenkielisessä  puhesynteesissä eli luonnollisen koneäänen tuottamisessa, kuin puheentunnistuksessakin.

Puheteknologia on ihmispuheen automaattiseen tulkitsemiseen ja tuottamiseen keskittyvää teknologiaa. Puheteknologia tarkoittaa puheen käsittelyä ja tapoja, joilla koodataan, tuotetaan, tunnistetaan ja analysoidaan puhetta. Puheteknologian keinoin voidaan vaikkapa tehdä kirjauksia puheella, syntetisoida puhetta, tunnistaa puhetta tai puhujia,  ja luoda puhekäyttöliittymiä ohjelmistoihin. Puheteknologian ratkaisut tekevät elämästä sujuvampaa tuomalla ajansäästöä ja vapauttamalla kädet muuhun tekemiseen.

Puhesynteesi on puheäänen tuottamista koneellisesti. Yleensä puhetta tuotetaan syötteenä saadun tekstin pohjalta eli kone lukee tekstin ääneen. Nykyaikaiset puhesynteesijärjestelmät pohjautuvat koneoppimismenetelmiin, jotka jäljittelevät ihmismäistä puhetta kuulemansa perusteella. Koneäänellä taas tarkoitetaan keinotekoista puhujaa, jonka äänellä voidaan koneellisesti tuottaa puhesisältöjä. Koneäänet voivat joko jäljitellä tietyn henkilön puhetyyliä, yhdistellä eri henkilöiden puhetta tai olla täysin keinotekoisia.

Puhe on ihmisille hyvin luontainen kommunikointitapa. Tämä tekee puheteknologian ratkaisuista mukavia käyttää.

a.i.materilla on laaja osaaminen kehittää puheteknologian työkaluja asiakkaan tarpeiden mukaan. Tämän lisäksi jo olemassa olevia ratkaisuja ovat: prosessinomaista työntekoa helpottava puheohjattava dokumentointi- ja työnohjausjärjestelmä Noptera, luonnollinen suomenkielinen koneääni Ilona sekä lausumisohjeiden tekoa tehostava tekstin prosessointityökalu Erin.

Puheteknologian mahdollisuudet

Puheteknologia luo yrityksille monia mahdollisuuksia oman liiketoimintansa kehittämiseen. Yrityselämässä puheteknologian ratkaisuja käytetään ja sovelletaan työarkea helpottavissa kohteissa sekä asiakaspalvelussa. Puheteknologian ratkaisut poistavat yksitoikkoisia työvaiheita ja säästävät siten aikaa, jolloin toiminta tehostuu. Selkeä osoitus on a.i.materin Noptera, jonka avulla asiakkaan työtehtäviin kuluvaa aikaa on saatu puolittumaan, kun kaikki kirjaukset hoidetaan puheella.

Puheteknologian ratkaisut siis säästävät ihmisten aikaa ja yritysten rahaa. Ratkaisuilla voidaan sujuvoittaa organisaatioissa tapahtuvaa automatisoitavissa olevaa työtä sekä tuoda koneäänen avulla yrityksen kontaktipisteitä asiakkaille saavutettavaan muotoon, oli ne sitten sovellusten puhekäyttöliittymät, ääneen luetut digitaaliset artikkelit, podcastit, koulutus- ja oppimateriaalit, tai vaikkapa ohjevideoiden kertojaäänet. Mahdollisuuksia on monia, sillä koneääni on hyödynnettävissä erittäin monipuolisesti eri alojen tarpeisiin.

Puheteknologian avulla työstä tulee miellyttävämpää ja sujuvampaa. Nämä taas luovat pohjaa työhyvinvoinnille. Puheteknologia todellakin vapauttaa ihmisten kapasiteettia olennaiseen.

Yritysten ei tarvitse itse osata kehittää haluamaansa teknologiaa, vaan mukaan kannattaa ottaa ulkopuolinen palvelun tarjoaja. Kehittäjäyrityksiltä löytyy usein valmiita ratkaisuja, mutta ratkaisuja pystytään osaavan tiimin kautta myös joustavasti muokkaamaan asiakkaan tarpeisiin.

Työyhteisöistä löytyy yleensä teknologiasta innostunut henkilö, joka toimii hyvänä kontaktipisteenä oman organisaation ja teknologiayrityksen välillä. Vaikka toimittajan on tärkeää näyttää, auttaa ja opastaa ratkaisujen käyttönottoa ja käyttöä, myös itse ostajaorganisaatioissa tarvitaan aktiivisuutta. Innostunut yhteyshenkilö on isossa roolissa oman työyhteisön tietouden parantamisessa, jotta ennakkoluulottomuus ja ymmärrys puheteknologian mahdollisuuksiin kasvaisi koko organisaatiossa. Puheteknologian sovellusten tavoitteena on parantaa työarkea poistamalla puuduttavia ja toistuvia toimenpiteitä: niitä ei kannata turhaan vierastaa.

Mitä NLP ja puheentunnistus tarkoittavat?

NLP (Natural Language Processing) auttaa tietokoneita kommunikoimaan ihmisten kanssa. Tämä voi olla puheen muuttamista tekstiksi (ASR eli Automatic Speech Recognition) tai tekstin muuttamista puheeksi (TTS eli Text to Speech). Tekoälyratkaisut auttavat luonnollisen kielen ymmärtämisessä ja tuottamisessa. Kielten välillä on eroja – suomen kielen valtava eri taivutusmuotojen määrä tekee siitä huomattavasti vaikeamman käsiteltävän kuin esimerkiksi englannin kieli.

Puheentunnistus on puheteknologian osa-alue, jossa kone tunnistaa ihmisen puhetta. Suomen Tekoälykiihdyttämö on jaotellut tyypillisiä puheteknologian sovellusalueita, joihin puheentunnistusta voidaan käyttää:

  • Asiakaspalvelutilanteissa ja puhelinkeskuksissa esimerkiksi asiakkaan tunnistamiseen tai yhdistämiseen oikealle asiakaspalvelijalle sekä antamaan automaattisia vastausehdotuksia asiakkaan kysymyksiin
  • Puhetunnistukseen perustuvat digitaaliset avustajat, kuten kalenterit, navigaattorit ja verkkohaut. Applen Siri on tästä kuuluisa esimerkki
  • Puhekäyttöliittymät, jotka mahdollistavat laitteiden, kuten valojen tai kaiuttimien, puheohjauksen
  • Tukitoiminnot, kuten raportointi, litterointi, sekä tekstityksien ja käännösten luominen

Puheohjattava työnohjausjärjestelmä

Puheohjaukseen perustuvaa käyttöliittymää on yleisesti miellyttävä käyttää. Puheen avulla on mahdollista raportoida ja dokumentoida, jolloin kirjaukset tehdään koneella ja molemmat kädet vapautuvat työntekoon. Puheohjaus onkin kätevimmillään, kun kädet ovat kiinni muussa tekemisessä. Puheohjattavan Nopteran käytöstä on kasvihuoneissa ja maatilatöissä hyviä kokemuksia, sillä työssä liikutaan paljon ja kädet saattavat olla multaiset. Toinen erityistä hyötä puheohjauksesta saava ala on puhdastilatyöskentely, jossa mikrobivapaus on kriittinen osa työn onnistumista.

Puheella ohjattava dokumentointi- ja työnohjausjärjestelmä Noptera tuo paljon hyviä puolia prosessinomaiseen työntekoon:

  • Käyttäjäystävällinen ja kevyt järjestelmä, joka on helppo oppia
  • Työpaikan tiedonkeruu helpottuu, kun kirjaus ja reaaliaikainen dokumentointi hoituvat puheella
  • Tehtävään kuluva työaika pienenee, jopa puolittuu, kun molemmat kädet ovat vapaana käyttöön
  • Virheiden määrä vähenee. Noptera voi tarkistaa käyttäjältä, onko tulos varmasti oikein
  • Tarkkuutta vaativissa töissä yksikään työvaihe ei jää vahingossa tekemättä, kun Noptera väsymättömästi muistuttaa työn eri vaiheista. Näin myös uudet työntekijät saavat varmuutta työntekoon
  • Syväoppiva järjestelmä oppii ymmärtämään käyttäjänsä puhetta yhä paremmin
  • Työpäivistä tulee mukavampia, jolloin työtehtävien sujuvuus, laatu ja työhyvinvointi kasvavat

Tietoturvallisuus on perustava osa a.i.materin liiketoimintaa. Asiakkaan tiedot pysyvät turvassa, sillä kaikki data säilytetään omilla palvelimilla omassa konesalissa. Mitään tietoja ei siis päädy ulkopuolisten käsiin.

Luonnollinen suomenkielinen koneääni

Puheteknologian ratkaisut, kuten koneäänen käyttö lisäävät digitaalisten aineistojen saavutettavuutta. Koneääni nopeuttaa prosesseja, kun nauhoituksiin ei täydy käyttää ihmislukijaa. Tämä taas tuo kustannuksissa suurta säästöä. Yrityksiltä on ylipäätänsä hyvää asiakaspalvelua tuoda sisältöjä myös kuunneltavaan muotoon – muun muassa aikakauslehtikustantamot ja muut kustantamot luovat itselleen kilpailuetua tarjoamalla sisältöjään saavutettavassa muodossa.

a.i.mater on kehittänyt luonnollisimman kuuloisen suomenkielisen koneäänen (pääset kuuntelemaan Ilonaa tästä!). Ilona lukee kaikki digitaaliset sisällöt vaivattomasti ja sitä on käytetty jo äänikirjoissa, lehtisisällöissä, oppimateriaaleissa, sovelluksissa ja verkkosivuilla. Ilona on saanut erittäin hyvää palautetta kuuntelijoilta ja ääntä on pidetty niin luonnollisena, ettei sitä ole osattu erottaa ihmislukijasta.

”Minulla on etuoikeutettu olo saada työskennellä maan parhaiden puheteknologian ammattilaisten kanssa. Elämme jännittäviä aikoja siitä näkökulmasta, että puheteknologian ratkaisut alkavat olla todella kehittyneitä ja helposti yritysten hyödynnettävissä. Monissa yrityksissä ratkaisuja ei kuitenkaan vielä olla hyödynnetty. Odotamme innolla, että pääsemme toteuttamaan käyttäjien odotukset ylittäviä ratkaisuja yhä useampaan organisaatioon.” a.i.materin toimitusjohtaja Lauri Falck

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Läppäri, jonka näppäimistön päällä on kuulokkeet. Läppärin näytössä on eepressin etusivu.
2.4.2024
Konenäköä ja puhesynteesiä yhdistäneessä projektissa kehitimme ePress-näköislehtipalvelulle pipelinen, joka pystyy tunnistamaan näköislehtien artikkelit ja toimittamaan niistä ääniversiot.
Kuulokkeet tietokonepöydän päällä.
14.3.2024
Yle on ottanut käyttöön a.i.materin kehittämän kuuntelumahdollisuuden uutissivuilleen. Kuunteluominaisuus parantaa palvelun digitaalista saavutettavuutta.
Aimaterin työntekijät Roope ja Niko tutkivat työpöydän edessä tietokoneelta jotain. Roope juuri osoittaa kädellään näyttöä.
28.2.2024
Artikkelissa esitellään ja vertaillaan verkkosivulukijaa ja äänirajapintaa: miten ne toimivat ja mikä tapa sopii mihinkin tarkoitukseen.
10.1.2024
Digiaudion kulutus kasvaa edelleen, ääni on yhä tärkeämpi osa brändistrategiaa ja ääniklooneja voi hyödyntää muuhunkin kuin hupailuun. Muun muassa näihin voi hyödyntää moderneja koneääniä kuluvana vuonna.
21.12.2023
a.i.materin joulutervehdyksenä koneääni Ilonan lukema äänisatu Kiljusen perheen jouluaaton vietosta.
Lähikuva kädestä, joka on tietokoneen hiiren päällä. Taustalla näppäimistä, kaksi näyttöä, läppärin kulma ja kahvimuki.
29.11.2023
Turun yliopiston tutkimusryhmä TurkuNLP on avannut sivuston, jonka kautta sinäkin voit osallistua suomenkielisen keskustelevan tekoälyn kehitykseen. Artikkelissa avataan enemmän kielimallien kehityksen taustoja.