Nainen istuu auton etupenkillä kuulokkeet päässä ja tabletti sylissä.

Mikä on puhekäyttöliittymä? Edut, ongelmat, suunnittelu

Puhekäyttöliittymä (VUI, voice user interface) tarkoittaa käyttöliittymää, jossa vuorovaikutus tietokoneen kanssa tapahtuu puheen välityksellä. Käyttäjä ei siis ole sidottu näytölliseen päätelaitteeseen tai näppäimistöön. Puhekäyttöliittymissä sovelletaan luonnollisen kielen käsittelyä (NLP, natural language processing), useimmiten puhesynteesi- ja puheentunnistusteknologioita.

Koska laitteen käyttö tapahtuu puhekomentojen kautta, puhekäyttöliittymien isoin etu on käsien ja silmien vapautuminen muuhun käyttöön. Yksisuuntaiset käyttöliittymät ottavat vain vastaan puhekomentoja, kaksisuuntaiset puhekäyttöliittymät taas pystyvät kommunikoimaan takaisin käyttäjälle puheella.

Esimerkkejä puhekäyttöliittymistä löytyy nykyään monia: puhelimet, televisiot, älykellot, tietokoneet, lukot, valot ja muut älykodin laitteet. Virtuaaliavustajat, kuten Google Assistant, Siri ja Alexa ovat tunnettuja tapauksia kaksisuuntaisista puhekäyttöliittymistä.

Puhekäyttöliittymä voi olla ainoa tapa käyttää laitetta, mutta useammin se on visuaalisten käyttöliittymien vaihtoehto. Riippuen käyttöliittymästä voidaan käyttäjälle tarjota erilaisia menettelytapoja:

  • Ohjelmisto pyrkii ymmärtämään käyttäjän vapaata puhetta.
  • Ohjelmisto ymmärtää vain tiettyjä, ennalta määriteltyjä vastausvaihtoehtoja, kuten numeroita.
  • Menettelytapa voi olla myös jotain näiden väliltä.

Puhekäyttöliittymän edut

Puhuminen on ihmiselle luontaisin kommunikoinnin tapa, ja siksi huomattavasti näppärämpää kuin esimerkiksi kosketusnäytölle kirjoittaminen. Puhekäyttöliittymä vapauttaa kädet ja silmät muuhun työhön: käyttäjä voi esimerkisiksi ajaa autoa, tehdä manuaalista työtä tai liikkua puhekäyttöliittymää käyttäessään.

Järjestelmän käyttäminen on intuitiivista varsinkin kun käyttäjä tietää täsmälleen, mitä haluaa tehdä. Käyttäjän ei tarvitse löytää oikeaa valikkoa, vaan hän voi sanoa haluamansa asian ja löytää sen suoraan. Esimerkiksi verkkokauppaostoksia tehtäessä puheella pystyy hakemaan haluamansa tuotteen suoraan ostoskoriin, jolloin säästää aikaa valikoiden ja alavalikoiden etsimiseltä ja klikkailuilta.

Puhekäyttöliittymän suunnittelijan ei tarvitse lukita tiettyjä valikkojen nimiä, vaan samalle valikolle voidaan antaa monia synonyymejä, jotka käyttöliittymä tunnistaa samaksi. Käyttäminen on tällöin joustavaa, kun käyttäjän ei tarvitse tietää valikoiden täsmällisiä nimiä.

Puheohjaus saattaa olla käyttökokemusta parantava vaihtoehto, mutta sen ei välttämättä kannata olla ainoa vaihtoehto. Puhekäyttöliittymän lisääminen ohjelmistoon parantaa kuitenkin aina digitaalista saavutettavuutta.

Puhekäyttöliittymän ongelmat

Puhuminen on yksityistä. Tietääkö käyttäjä tallentaako sovellus puhetta ja miten ohjelmisto käsittelee käyttäjätietoja? Entä haluavatko ihmiset puhua laitteelle esimerkiksi julkisissa tiloissa? Julkisten tilojen meluisa ympäristö on myös häiriötekijä puhekäyttöliittymien toimivuudelle.

Henkilökohtaiset mieltymykset. Miten ihmiset haluavat olla vuorovaikutuksessa koneen kanssa? Tämä voi riippua myös siitä, missä käyttäjä puhuu tai mistä hän puhuu. Käyttäjäystävällisyyttä on tarjota joustavaa käyttöä, niin että käyttäjä voi halutessaan valita näppäimistön ja puheen väliltä.

Puhekäyttöliittymät eivät sovellu kaikkiin tehtäviin. Esimerkiksi piirtäminen ja visuaaliset tehtävät eivät toimi puheella. Puhemahdollisuutta ei siis kannata lähteä tekemään mihin tahansa ohjelmistoon. Verkkokaupoissa puhe on hyvä lisäarvon tuoja, mutta ostamisen visuaalisuuden takia se ei voi olla ainut ratkaisu.

Puhekäyttöliittymä ei välttämättä ymmärrä käyttäjän puhetta, jos sanasto on hyvin teknistä tai käytetään jonkun alan omaa termistöä. Ihanne olisi, että käyttöliittymälle opetetaan erikoissanasto. Tämä onnistuu, kun järjestelmä rakennetaan juuri tietyn alan tai yrityksen käyttöön.

Puhekäyttöliittymän suunnittelu

Puhekäyttöliittymän muotoiluajattelussa ja suunnittelussa pitää huomioida eri asioita kuin visuaalisessa ohjelmistossa, sillä puhekäyttöliittymän käyttäminen ei yleensä vaadi käsiä tai silmiä. Puhekäyttöliittymien, kuten muidenkin käyttöliittymien tulisi olla mahdollisimman helppoja ja intuitiivisia käyttää. Käyttäjän ei pitäisi joutua arvailemaan.

Puhekäyttöliittymän suunnittelussa on tärkeää huomioida, miten se ilmoittaa toimintovaihtoehdoista sopivissa määrin. Järjestelmän kertomat liian monet vaihtoehdot saattavat unohtua ja ne myös turhauttavat käyttäjää. Käyttäjä saattaa joutua turhaan odottamaan ja kuuntelemaan vaihtoehtoja, vaikka haluaisi saada asiansa nopeasti ja yksinkertaisesti tehtyä.

Käyttäjälle pitää olla selkeää, milloin hän voi puhua laitteelle. Käyttäjälle ei saa myöskään jäädä epäselväksi, ymmärsikö käyttöliittymä hänen puheensa. Puhekäyttöliittymä voi ilmoittaa  ymmärtäneensä esimerkiksi toistamalla vastauksen. Tässäkin tasapaino sopivan ja liiallisen välillä on hiuksenhieno; saattaa olla tylsää, jos koneääni toistaa papukaijana kaikki käyttäjänsä vastaukset, varsinkin jos ne ovat pitkiä. Toisaalta tarkkojen kirjausten tekemisessä käyttäjä varmasti haluaa joko visuaalisen tai puheella tuotetun varmenteen oikeasta kirjauksesta.

Suunnittelussa on hyvä ottaa huomioon, että käyttäjä kommunikoisi puhekäyttöliittymälle mieluusti mahdollisimman samaan tapaan kuin ihmisille. Näin ei kuitenkaan aina ole, joten käyttäjän pitäisi tietää, missä muodossa puhua sovellukselle:

  • Sanotaanko yksittäisiä sanoja vai lauseita?
  • Puhutaanko mahdollisimman kirjakieltä vai ymmärtääkö ohjelmisto puhekieltä aksentteineen ja murteineen?
  • Mikä puhenopeus on sopiva?
  • Pitääkö käyttää tiettyjä herätekomentoja ennen puhetta?

YHTEENVETO

Tiivistettynä voidaan todeta käyttäjätyytyväisyyden pysyvän hyvänä vain, kun käyttöliittymä on intuitiivinen: käyttäjät ovat kartalla navigoinnistaan puhekäyttöliittymässä, he voivat korjata mahdolliset virheensä helposti ja puheentunnistus toimii halutulla tavalla. Asiat saadaan hoidettua sujuvasti ja tehokkaasti.

Meillä a.i.materilla on kokemusta ja osaamista suomenkielisestä puheentunnistuksesta ja luonnollisista koneäänistä. Ota yhteyttä!

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Läppäri, jonka näppäimistön päällä on kuulokkeet. Läppärin näytössä on eepressin etusivu.
2.4.2024
Konenäköä ja puhesynteesiä yhdistäneessä projektissa kehitimme ePress-näköislehtipalvelulle pipelinen, joka pystyy tunnistamaan näköislehtien artikkelit ja toimittamaan niistä ääniversiot.
Kuulokkeet tietokonepöydän päällä.
14.3.2024
Yle on ottanut käyttöön a.i.materin kehittämän kuuntelumahdollisuuden uutissivuilleen. Kuunteluominaisuus parantaa palvelun digitaalista saavutettavuutta.
Aimaterin työntekijät Roope ja Niko tutkivat työpöydän edessä tietokoneelta jotain. Roope juuri osoittaa kädellään näyttöä.
28.2.2024
Artikkelissa esitellään ja vertaillaan verkkosivulukijaa ja äänirajapintaa: miten ne toimivat ja mikä tapa sopii mihinkin tarkoitukseen.
Lähikuva kädestä, joka on tietokoneen hiiren päällä. Taustalla näppäimistä, kaksi näyttöä, läppärin kulma ja kahvimuki.
29.11.2023
Turun yliopiston tutkimusryhmä TurkuNLP on avannut sivuston, jonka kautta sinäkin voit osallistua suomenkielisen keskustelevan tekoälyn kehitykseen. Artikkelissa avataan enemmän kielimallien kehityksen taustoja.
Selko Digitalin logo, jossa silmä ja teksti Selko Digital.
19.6.2023
Saavutettavuuteen erikoistunut yhteistyökumppanimme Selko Digital avaa vieraskynäblogissa koneäänien ja puheentunnistuksen vaikutusta digimaailman yhdenvertaisuuteen.
Keskellä lukee toukokuun ääniuutiset. Taustalla kuva kuulokkeista kirjapinon päällä, kuulokkeiden vieressä on juomalasi, jossa sitruunaviipale ja kukkiva omenapuun oksa.
31.5.2023
Toukokuun ääniuutisten aiheina Google Bard, Metan uusi kielimalli, Applen uudet saavutettavuusominaisuudet, kielivähemmistöille suunnattu chatbot ja älykkäät NPC:t.