Nainen istuu auton etupenkillä kuulokkeet päässä ja tabletti sylissä.

Mikä on puhekäyttöliittymä? Edut, ongelmat, suunnittelu

Puhekäyttöliittymä (VUI, voice user interface) tarkoittaa käyttöliittymää, jossa vuorovaikutus tietokoneen kanssa tapahtuu puheen välityksellä. Käyttäjä ei siis ole sidottu näytölliseen päätelaitteeseen tai näppäimistöön. Puhekäyttöliittymissä sovelletaan luonnollisen kielen käsittelyä (NLP, natural language processing), useimmiten puhesynteesi- ja puheentunnistusteknologioita.

Koska laitteen käyttö tapahtuu puhekomentojen kautta, puhekäyttöliittymien isoin etu on käsien ja silmien vapautuminen muuhun käyttöön. Yksisuuntaiset käyttöliittymät ottavat vain vastaan puhekomentoja, kaksisuuntaiset puhekäyttöliittymät taas pystyvät kommunikoimaan takaisin käyttäjälle puheella.

Esimerkkejä puhekäyttöliittymistä löytyy nykyään monia: puhelimet, televisiot, älykellot, tietokoneet, lukot, valot ja muut älykodin laitteet. Virtuaaliavustajat, kuten Google Assistant, Siri ja Alexa ovat tunnettuja tapauksia kaksisuuntaisista puhekäyttöliittymistä.

Puhekäyttöliittymä voi olla ainoa tapa käyttää laitetta, mutta useammin se on visuaalisten käyttöliittymien vaihtoehto. Riippuen käyttöliittymästä voidaan käyttäjälle tarjota erilaisia menettelytapoja:

  • Ohjelmisto pyrkii ymmärtämään käyttäjän vapaata puhetta.
  • Ohjelmisto ymmärtää vain tiettyjä, ennalta määriteltyjä vastausvaihtoehtoja, kuten numeroita.
  • Menettelytapa voi olla myös jotain näiden väliltä.

Puhekäyttöliittymän edut

Puhuminen on ihmiselle luontaisin kommunikoinnin tapa, ja siksi huomattavasti näppärämpää kuin esimerkiksi kosketusnäytölle kirjoittaminen. Puhekäyttöliittymä vapauttaa kädet ja silmät muuhun työhön: käyttäjä voi esimerkisiksi ajaa autoa, tehdä manuaalista työtä tai liikkua puhekäyttöliittymää käyttäessään.

Järjestelmän käyttäminen on intuitiivista varsinkin kun käyttäjä tietää täsmälleen, mitä haluaa tehdä. Käyttäjän ei tarvitse löytää oikeaa valikkoa, vaan hän voi sanoa haluamansa asian ja löytää sen suoraan. Esimerkiksi verkkokauppaostoksia tehtäessä puheella pystyy hakemaan haluamansa tuotteen suoraan ostoskoriin, jolloin säästää aikaa valikoiden ja alavalikoiden etsimiseltä ja klikkailuilta.

Puhekäyttöliittymän suunnittelijan ei tarvitse lukita tiettyjä valikkojen nimiä, vaan samalle valikolle voidaan antaa monia synonyymejä, jotka käyttöliittymä tunnistaa samaksi. Käyttäminen on tällöin joustavaa, kun käyttäjän ei tarvitse tietää valikoiden täsmällisiä nimiä.

Puheohjaus saattaa olla käyttökokemusta parantava vaihtoehto, mutta sen ei välttämättä kannata olla ainoa vaihtoehto. Puhekäyttöliittymän lisääminen ohjelmistoon parantaa kuitenkin aina digitaalista saavutettavuutta.

Puhekäyttöliittymän ongelmat

Puhuminen on yksityistä. Tietääkö käyttäjä tallentaako sovellus puhetta ja miten ohjelmisto käsittelee käyttäjätietoja? Entä haluavatko ihmiset puhua laitteelle esimerkiksi julkisissa tiloissa? Julkisten tilojen meluisa ympäristö on myös häiriötekijä puhekäyttöliittymien toimivuudelle.

Henkilökohtaiset mieltymykset. Miten ihmiset haluavat olla vuorovaikutuksessa koneen kanssa? Tämä voi riippua myös siitä, missä käyttäjä puhuu tai mistä hän puhuu. Käyttäjäystävällisyyttä on tarjota joustavaa käyttöä, niin että käyttäjä voi halutessaan valita näppäimistön ja puheen väliltä.

Puhekäyttöliittymät eivät sovellu kaikkiin tehtäviin. Esimerkiksi piirtäminen ja visuaaliset tehtävät eivät toimi puheella. Puhemahdollisuutta ei siis kannata lähteä tekemään mihin tahansa ohjelmistoon. Verkkokaupoissa puhe on hyvä lisäarvon tuoja, mutta ostamisen visuaalisuuden takia se ei voi olla ainut ratkaisu.

Puhekäyttöliittymä ei välttämättä ymmärrä käyttäjän puhetta, jos sanasto on hyvin teknistä tai käytetään jonkun alan omaa termistöä. Ihanne olisi, että käyttöliittymälle opetetaan erikoissanasto. Tämä onnistuu, kun järjestelmä rakennetaan juuri tietyn alan tai yrityksen käyttöön.

Puhekäyttöliittymän suunnittelu

Puhekäyttöliittymän muotoiluajattelussa ja suunnittelussa pitää huomioida eri asioita kuin visuaalisessa ohjelmistossa, sillä puhekäyttöliittymän käyttäminen ei yleensä vaadi käsiä tai silmiä. Puhekäyttöliittymien, kuten muidenkin käyttöliittymien tulisi olla mahdollisimman helppoja ja intuitiivisia käyttää. Käyttäjän ei pitäisi joutua arvailemaan.

Puhekäyttöliittymän suunnittelussa on tärkeää huomioida, miten se ilmoittaa toimintovaihtoehdoista sopivissa määrin. Järjestelmän kertomat liian monet vaihtoehdot saattavat unohtua ja ne myös turhauttavat käyttäjää. Käyttäjä saattaa joutua turhaan odottamaan ja kuuntelemaan vaihtoehtoja, vaikka haluaisi saada asiansa nopeasti ja yksinkertaisesti tehtyä.

Käyttäjälle pitää olla selkeää, milloin hän voi puhua laitteelle. Käyttäjälle ei saa myöskään jäädä epäselväksi, ymmärsikö käyttöliittymä hänen puheensa. Puhekäyttöliittymä voi ilmoittaa  ymmärtäneensä esimerkiksi toistamalla vastauksen. Tässäkin tasapaino sopivan ja liiallisen välillä on hiuksenhieno; saattaa olla tylsää, jos koneääni toistaa papukaijana kaikki käyttäjänsä vastaukset, varsinkin jos ne ovat pitkiä. Toisaalta tarkkojen kirjausten tekemisessä käyttäjä varmasti haluaa joko visuaalisen tai puheella tuotetun varmenteen oikeasta kirjauksesta.

Suunnittelussa on hyvä ottaa huomioon, että käyttäjä kommunikoisi puhekäyttöliittymälle mieluusti mahdollisimman samaan tapaan kuin ihmisille. Näin ei kuitenkaan aina ole, joten käyttäjän pitäisi tietää, missä muodossa puhua sovellukselle:

  • Sanotaanko yksittäisiä sanoja vai lauseita?
  • Puhutaanko mahdollisimman kirjakieltä vai ymmärtääkö ohjelmisto puhekieltä aksentteineen ja murteineen?
  • Mikä puhenopeus on sopiva?
  • Pitääkö käyttää tiettyjä herätekomentoja ennen puhetta?

YHTEENVETO

Tiivistettynä voidaan todeta käyttäjätyytyväisyyden pysyvän hyvänä vain, kun käyttöliittymä on intuitiivinen: käyttäjät ovat kartalla navigoinnistaan puhekäyttöliittymässä, he voivat korjata mahdolliset virheensä helposti ja puheentunnistus toimii halutulla tavalla. Asiat saadaan hoidettua sujuvasti ja tehokkaasti.

Meillä a.i.materilla on kokemusta ja osaamista suomenkielisestä puheentunnistuksesta ja luonnollisista koneäänistä. Ota yhteyttä!

Kiinnostuitko? Ota Yhteyttä!

Jaa artikkeli

LinkedIn
Twitter
Facebook
Nainen istuu auton etupenkillä kuulokkeet päässä ja pädi sylissä.
Tekoäly ja kieliteknologia mahdollistavat uudenlaisia ja kiinnostavampia tapoja oppia uusia kieliä. Esimerkiksi kieltenoppimissovellukset hyödyntävät luonnollisen kielen käsittelyä.
Keskellä lukee huhtikuun ääniuutiset. Taustalla kuva henkilöstä kuulokkeet päässä ja avonaisesta kirjasta lattialla. Henkilö tekee muistiinpanoja postit-lappuun.
Kokosimme yhteen artikkeliin huhtikuun kiinnostavimmat puheteknologiauutiset maailmalta. Aiheina muun muassa AutoGPT, äänikloonien teko artistien äänistä, älysilmälasit ja tekoälyuutisankkurit.
Nainen makaa ylhäältäpäin otetussa valokuvassa sohvalla silmät kiinni, kuulokkeet päässä ja hymyilee.
Suomalaisten lukuharrastusta tutkittiin Kirjakauppaliiton ja Suomen Kustannusyhdistyksen teettämässä Suomi lukee 2023 -tutkimuksessa. Artikkelissa katsaus tutkimukseen ääni- ja sähkökirjojen osalta sekä Suomen Kustannusyhdistyksen todelliset myyntitilastot vuodelta 2022.
Aimaterin työntekijä Antti Virtanen kuvattuna ylhäältä, istumassa tietokoneen äärellä.
Mikä on GPT ja mihin sitä voidaan käyttää? Miten ChatGPT on kehitetty? a.i.materin koneoppimisinsinööri Antti Virtanen kirjoitti näistä kysymyksistä ja GPT:n kehityshistoriasta asiantuntija-artikkelin.
Artikkelissa maaliskuun ääniuutiset maailmalta. Aiheina muun muassa GPT-4, RadioGPT ja koneäänien käyttö muun muassa podcasteissa ja Spotifyssa.
Tekstinlouhinta on tekoälypohjainen menetelmä, jolla tekstimassoista löydetään niihin piiloutuvaa tietoa. Kuvassa mies istuu Excelin edessä ja takana vaaleat ruudukkoikkunat kesämaisemalla.
Tekoälypohjaisilla tekstinlouhinnan työkaluilla laajoista tekstimassoista löydetään tekstisisältöön piiloutuvia tärkeitä havaintoja. Parhaimmillaan nämä oivallukset voivat jopa lisätä niitä käyttävien yritysten kilpailuetua.