Nainen istuu auton etupenkillä kuulokkeet päässä ja tabletti sylissä.

Mikä on puhekäyttöliittymä? Edut, ongelmat, suunnittelu

Puhekäyttöliittymä (VUI, voice user interface) tarkoittaa käyttöliittymää, jossa vuorovaikutus tietokoneen kanssa tapahtuu puheen välityksellä. Käyttäjä ei siis ole sidottu näytölliseen päätelaitteeseen tai näppäimistöön. Puhekäyttöliittymissä sovelletaan luonnollisen kielen käsittelyä (NLP, natural language processing), useimmiten puhesynteesi- ja puheentunnistusteknologioita.

Koska laitteen käyttö tapahtuu puhekomentojen kautta, puhekäyttöliittymien isoin etu on käsien ja silmien vapautuminen muuhun käyttöön. Yksisuuntaiset käyttöliittymät ottavat vain vastaan puhekomentoja, kaksisuuntaiset puhekäyttöliittymät taas pystyvät kommunikoimaan takaisin käyttäjälle puheella.

Esimerkkejä puhekäyttöliittymistä löytyy nykyään monia: puhelimet, televisiot, älykellot, tietokoneet, lukot, valot ja muut älykodin laitteet. Virtuaaliavustajat, kuten Google Assistant, Siri ja Alexa ovat tunnettuja tapauksia kaksisuuntaisista puhekäyttöliittymistä.

Puhekäyttöliittymä voi olla ainoa tapa käyttää laitetta, mutta useammin se on visuaalisten käyttöliittymien vaihtoehto. Riippuen käyttöliittymästä voidaan käyttäjälle tarjota erilaisia menettelytapoja:

  • Ohjelmisto pyrkii ymmärtämään käyttäjän vapaata puhetta.
  • Ohjelmisto ymmärtää vain tiettyjä, ennalta määriteltyjä vastausvaihtoehtoja, kuten numeroita.
  • Menettelytapa voi olla myös jotain näiden väliltä.

Puhekäyttöliittymän edut

Puhuminen on ihmiselle luontaisin kommunikoinnin tapa, ja siksi huomattavasti näppärämpää kuin esimerkiksi kosketusnäytölle kirjoittaminen. Puhekäyttöliittymä vapauttaa kädet ja silmät muuhun työhön: käyttäjä voi esimerkisiksi ajaa autoa, tehdä manuaalista työtä tai liikkua puhekäyttöliittymää käyttäessään.

Järjestelmän käyttäminen on intuitiivista varsinkin kun käyttäjä tietää täsmälleen, mitä haluaa tehdä. Käyttäjän ei tarvitse löytää oikeaa valikkoa, vaan hän voi sanoa haluamansa asian ja löytää sen suoraan. Esimerkiksi verkkokauppaostoksia tehtäessä puheella pystyy hakemaan haluamansa tuotteen suoraan ostoskoriin, jolloin säästää aikaa valikoiden ja alavalikoiden etsimiseltä ja klikkailuilta.

Puhekäyttöliittymän suunnittelijan ei tarvitse lukita tiettyjä valikkojen nimiä, vaan samalle valikolle voidaan antaa monia synonyymejä, jotka käyttöliittymä tunnistaa samaksi. Käyttäminen on tällöin joustavaa, kun käyttäjän ei tarvitse tietää valikoiden täsmällisiä nimiä.

Puheohjaus saattaa olla käyttökokemusta parantava vaihtoehto, mutta sen ei välttämättä kannata olla ainoa vaihtoehto. Puhekäyttöliittymän lisääminen ohjelmistoon parantaa kuitenkin aina digitaalista saavutettavuutta.

Puhekäyttöliittymän ongelmat

Puhuminen on yksityistä. Tietääkö käyttäjä tallentaako sovellus puhetta ja miten ohjelmisto käsittelee käyttäjätietoja? Entä haluavatko ihmiset puhua laitteelle esimerkiksi julkisissa tiloissa? Julkisten tilojen meluisa ympäristö on myös häiriötekijä puhekäyttöliittymien toimivuudelle.

Henkilökohtaiset mieltymykset. Miten ihmiset haluavat olla vuorovaikutuksessa koneen kanssa? Tämä voi riippua myös siitä, missä käyttäjä puhuu tai mistä hän puhuu. Käyttäjäystävällisyyttä on tarjota joustavaa käyttöä, niin että käyttäjä voi halutessaan valita näppäimistön ja puheen väliltä.

Puhekäyttöliittymät eivät sovellu kaikkiin tehtäviin. Esimerkiksi piirtäminen ja visuaaliset tehtävät eivät toimi puheella. Puhemahdollisuutta ei siis kannata lähteä tekemään mihin tahansa ohjelmistoon. Verkkokaupoissa puhe on hyvä lisäarvon tuoja, mutta ostamisen visuaalisuuden takia se ei voi olla ainut ratkaisu.

Puhekäyttöliittymä ei välttämättä ymmärrä käyttäjän puhetta, jos sanasto on hyvin teknistä tai käytetään jonkun alan omaa termistöä. Ihanne olisi, että käyttöliittymälle opetetaan erikoissanasto. Tämä onnistuu, kun järjestelmä rakennetaan juuri tietyn alan tai yrityksen käyttöön.

Puhekäyttöliittymän suunnittelu

Puhekäyttöliittymän muotoiluajattelussa ja suunnittelussa pitää huomioida eri asioita kuin visuaalisessa ohjelmistossa, sillä puhekäyttöliittymän käyttäminen ei yleensä vaadi käsiä tai silmiä. Puhekäyttöliittymien, kuten muidenkin käyttöliittymien tulisi olla mahdollisimman helppoja ja intuitiivisia käyttää. Käyttäjän ei pitäisi joutua arvailemaan.

Puhekäyttöliittymän suunnittelussa on tärkeää huomioida, miten se ilmoittaa toimintovaihtoehdoista sopivissa määrin. Järjestelmän kertomat liian monet vaihtoehdot saattavat unohtua ja ne myös turhauttavat käyttäjää. Käyttäjä saattaa joutua turhaan odottamaan ja kuuntelemaan vaihtoehtoja, vaikka haluaisi saada asiansa nopeasti ja yksinkertaisesti tehtyä.

Käyttäjälle pitää olla selkeää, milloin hän voi puhua laitteelle. Käyttäjälle ei saa myöskään jäädä epäselväksi, ymmärsikö käyttöliittymä hänen puheensa. Puhekäyttöliittymä voi ilmoittaa  ymmärtäneensä esimerkiksi toistamalla vastauksen. Tässäkin tasapaino sopivan ja liiallisen välillä on hiuksenhieno; saattaa olla tylsää, jos koneääni toistaa papukaijana kaikki käyttäjänsä vastaukset, varsinkin jos ne ovat pitkiä. Toisaalta tarkkojen kirjausten tekemisessä käyttäjä varmasti haluaa joko visuaalisen tai puheella tuotetun varmenteen oikeasta kirjauksesta.

Suunnittelussa on hyvä ottaa huomioon, että käyttäjä kommunikoisi puhekäyttöliittymälle mieluusti mahdollisimman samaan tapaan kuin ihmisille. Näin ei kuitenkaan aina ole, joten käyttäjän pitäisi tietää, missä muodossa puhua sovellukselle:

  • Sanotaanko yksittäisiä sanoja vai lauseita?
  • Puhutaanko mahdollisimman kirjakieltä vai ymmärtääkö ohjelmisto puhekieltä aksentteineen ja murteineen?
  • Mikä puhenopeus on sopiva?
  • Pitääkö käyttää tiettyjä herätekomentoja ennen puhetta?

YHTEENVETO

Tiivistettynä voidaan todeta käyttäjätyytyväisyyden pysyvän hyvänä vain, kun käyttöliittymä on intuitiivinen: käyttäjät ovat kartalla navigoinnistaan puhekäyttöliittymässä, he voivat korjata mahdolliset virheensä helposti ja puheentunnistus toimii halutulla tavalla. Asiat saadaan hoidettua sujuvasti ja tehokkaasti.

Meillä a.i.materilla on kokemusta ja osaamista suomenkielisestä puheentunnistuksesta ja luonnollisista koneäänistä. Ota yhteyttä!

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

18.10.2024
Suomen ensimmäistä tekoälyyn keskittyvää palkintogaalaa juhlitaan 23.10.2024 julkistamalla kunkin kategorian voittajat. a.i.mater on kolmen kärjessä asiakaskokemus-kategoriassa.
Kaksi henkilöä istuvat sohvalla läppärit sylissä. Kasvot on rajattu pois kuvasta.
9.9.2024
Digipalvelulaki ja esteettömyysdirektiivi laajenevat kesäkuussa 2025. Artikkelissa kerrotaan, keitä laki koskee myös jatkossa ja mitä saavutettavuusvaatimukset käytännössä ovat. Erityishuomiota kiinnitetään sähkö- ja äänikirjoihin.
Mies istuu toimistolla työpöytänsä ääressä. Valokuva on otettu takaapäin, joten kuvassa näkyy henkilön selkä ja tietokoneen näytöt, takana näkyy sumealla muuta toimistoa.
16.8.2024
Case-esimerkki Ylelle toteutetusta kieliteknologian projektista, jossa hyödynnettiin CLIP-tekoälymallia kuvahaun sujuvoittamiseen materiaaliarkistoista.
Nainen istuu toimistotuolissa tietokoneen edessä ja katsoo näyttöä. Toinen käsi on näppäimistöllä. Taustalla on isot ikkunat.
16.5.2024
Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon
Henkilö istuu lattialla kirjan edessä tekemässä muistiinpanoja. Hänellä on kuulokkeet päässä. Kuvaotettu ylhäältäpäin.
23.4.2024
Tietoa voidaan kuluttaa monin eri tavoin: tämä monimuotoisuus tulisi huomioida myös sisältöä tuottaessa. Ääni ja teksti tukevat toisiaan ja antavat sisällön kuluttajalle valinnanvaraa päättää.
Läppäri, jonka näppäimistön päällä on kuulokkeet. Läppärin näytössä on eepressin etusivu.
2.4.2024
Konenäköä ja puhesynteesiä yhdistäneessä projektissa kehitimme ePress-näköislehtipalvelulle pipelinen, joka pystyy tunnistamaan näköislehtien artikkelit ja toimittamaan niistä ääniversiot.