Nainen istuu ulkona maalaustelineen kanssa ja katsoo juuri väripalettia kädessään. Taustalla on abstrakti maalaus. Valo tulee naisen takaa, joten hänen hiukset korostuvat muuten tummasta kuvasta. Naisella on kuulokkeet korvilla.

Miten puheteknologia näkyy tulevaisuuden arkielämässä?

Puheteknologia ja tekoäly ovat kehittyneet viime vuosina harppauksin. Tämä kehitys on avannut uusia mahdollisuuksia monilla eri aloilla, ja tulevaisuudessa voimme odottaa vielä suurempia innovaatioita. Puheentunnistus ja puhesynteesi ovat jo nyt muuttaneet tapaamme olla vuorovaikutuksessa teknologian kanssa, ja niiden vaikutukset todennäköisesti vain kasvavat ajan myötä.

Tässä artikkelissa käydään läpi tulevaisuuden arkielämään vaikuttavia (realistisia ja vähemmän realistisempia) puheteknologian käyttökohteita ja mahdollisuuksia. Osa näistä on jo olemassa, osa kokeiluvaiheessa, osa ehkäpä vasta tulossa.

Kielimuurit jäävät historiaan

Tekoälypohjaiset ääniratkaisut voivat tarjota reaaliaikaista puheen ja tekstin kääntämistä, mahdollistaen sujuvan kommunikoinnin eri kieliä puhuvien ihmisten välillä. Tämä helpottaisi kansainvälistä yhteistyötä, matkailua ja liiketoimintaa sekä mahdollistaisi uusia monikielisiä palveluita. Nyt jo käytössä on sovelluksia, jotka kääntävät puhetta reaaliaikaisesti toiselle kielelle, siten että koneääni puhuu käännettävää puhetta tai tekstiä halutulla kielellä.

Tekoälyääniä voidaan hyödyntää myös lokalisoinnissa eli esimerkiksi mainosten, uutisten tai radion tekemisessä eri kielillä ja jopa murteilla. Tämä voi auttaa luomaan tasa-arvoisempaa ja monipuolisempaa viestintää ja mediaa. Yksi esimerkki kansainvälisistä ja monikielisistä tapahtumista on urheilutapahtumat: tekoälyä ja koneääniä voidaan käyttää urheilutapahtumien selostuksessa ja analyyseissä tarjoamalla reaaliaikaisia ja tarkkoja tietoja pelien kulusta ja urheilijoiden suorituksista.

Matkailun suhteen reaaliaikaisen puheen ja tekstin kääntäminen tarjoaa tietoa ja tukea eri kielillä. Heikompi kielitaitoisemmatkin matkailijat pystyvät navigoimaan uusissa ympäristöissä ja löytämään paikallisia palveluita ja nähtävyyksiä helposti.

Kielten oppiminen itsessäänkin saattaa muuttua siten, että tekoälypohjaiset ääniratkaisut toimisivat henkilökohtaisina kielenopettajina, tarjoten reaaliaikaista korjausta ja yksilöllistä opetusta, jolloin myös oppiminen olisi tehokkaampaa. Saa nähdä tuleeko esimerkiksi suosittuun Duolingo-sovellukseen tulevaisuudessa vielä enemmän tämänkaltaista personointia.

Henkilökohtaiset ääniassistentit ja älykodit

Tekoälypohjaiset ääniassistentit, kuten Siri ja Alexa, ovat jo osa arkeamme. Tulevaisuudessa nämä avustajat voivat olla entistä henkilökohtaisempia, älykkäämpiä ja inhimillisempiä, mukautuen vielä enemmän käyttäjän tarpeisiin, mieltymyksiin ja tapoihin. Tähän suuntaan jo mennään, sillä Google ilmoitti aivan vastikään, että Google Gemini korvaa Google Assistantin. Gemini, entinen Bard, on kielimalliperhe, joka pystyy käsittelemään tekstiä, kuvia, ääntä, videoita ja koodia. Ja heti perään Apple ilmoitti integroivansa Apple Intelligence -ominaisuuden laitteisiinsa. Sirin kohdalla tämä tarkoittaa, että Siri saa laitteen näytön tietoisuuden eli Siri ymmärtää näytöllä olevia asioita ja toimii niiden kanssa. Tämä tekee Siristä entistä henkilökohtaisemman. Lisäksi Siriin on integroitu OpenAI:n ChatGPT, jolloin myös kyseisen kielimallin hyödyt ovat käytössä.

Ääniassistentit voisivat integroitua fyysisiin robotteihin, jotka liikkuvat ja toimivat ihmisten tavoin. Nämä tarjoaisivat ääniassistentteina toimimisen lisäksi fyysistä apua arjen askareissa. Fyysiset robotit taas voisivat olla jopa niin inhimillisiä, että niillä olisi omat puheäänet ja persoonallisuudet, jotka sopisivat käyttäjän kanssa yhteen.

Ylipäätänsä älykodit yleistyvät ja ääni ohjaa yhä useampia kodin toimintoja. Tekoälypohjaiset ääniratkaisut voivat tehdä kodin automaatiosta entistä intuitiivisempaa ja tehokkaampaa, parantaen asumismukavuutta ja energiatehokkuutta. Älykoti ei tarkoita, että kodin täytyy olla viimeisen päälle moderni, vaan myös sata vuotta vanhasta kodista saa tehtyä älykodin. Näistä kirjoitimme jo aiemmin oman artikkelin: Älykoti ja puheohjaus – Ihmiset ja koneet vuorovaikutuksessa

Mediaa kulutetaan kustomoitavissa olevilla lukijaäänillä

Tulevaisuudessa voimme nähdä yhä enemmän kustomoitavissa olevia ääniä, joita käyttäjät saavat muokattua omien mieltymystensä mukaan. Tämä voi tarkoittaa yksilöllisiä äänikokemuksia esimerkiksi musiikin kuuntelussa, äänikirjojen kuuntelussa ja muun äänimedian kuuntelussa. Esimerkiksi äänikirjapalveluissa on jo pilotoitu sitä, että kuulija pystyy vaihtamaan äänikirjan koneäänilukijaa lennosta toiseen koneääneen ja saada lukijan vaihtamisesta itselle paremman kuulijakokemuksen.

Äänisisällön personointi tuo kuuntelijoille yksilöllisiä ja räätälöityjä kokemuksia. Tämä taas parantaa käyttäjäkokemusta ja sitoutumista, olipa kyseessä sitten musiikin kuuntelu, äänikirjat tai podcastit. Jatkossa tekoäly voisi myös oppia analysoimaan käyttäjän kuuntelumieltymyksiä ja tarjota jo valmiiksi juuri hänelle sopivaa lukijaääntä sisältöjen ääneen kuuntelemiseksi.

Käytetyn lukijaäänen lisäksi tekoäly voi muuttaa äänikirjoissa tarinankerrontaa luomalla niistä interaktiivisia äänikertomuksia, joissa kuulijat voivat vaikuttaa tarinan kulkuun omilla valinnoillaan. Kirjat ja pelit, jotka esimerkiksi reagoivat lukijan tai pelaajan ääneen, muuttaisivat tarinan tai pelin kulkua reaaliaikaisesti. Tämänkaltaiset osallistavat kokemukset avaavat uudenlaisia mahdollisuuksia viihteelle ja myös oppimiselle.

Musiikin tuotanto tekoälyn avulla

Tekoäly tulee vaikuttamaan musiikin tuotantoon. Yhdysvaltalainen puheteknologia ElevenLabs julkaisi jo viime kuussa varhaisen mallin tekoälymusiikkigeneraattorista, joka pystyy luomaan ainoastaan yhden promptin, kehoitteen, perusteella täyspitkän kappaleen. Viestipalvelu X:ssä jaetut esimerkkikappaleet saivat hämmentyneen vastaanoton, miten vaikea niitä on erottaa tekoälyn luomiksi ja koneääniksi. Ihmetystä sai aikaan myös se, mistä kaikki koulutusmateriaali on kerätty tämän mahdollistamiseksi.

Tekoälyn avulla voidaan luoda kokonaan uusia artistejakin. Suomalainen esimerkki on AI-artisti Tello, jonka taustavaikuttajina toimivat artisti Stig ja tuottaja Matias Melleri. Ensimmäinen julkaistu Lovi -niminen kappale esitettiin alkuvuodesta Levyraati-ohjelmassa sokkokuunteluna, eivätkä raatilaiset tunnistaneet esittäjää oikeasta ihmisestä. Kovinkaan hyviä pisteitä kappale ei kuitenkaan kerännyt, vaan kommentteina kuultiin muun muassa kappaleen jättävän vähän mitään sanomattoman olon. Kuuntele itse YouTubesta: Tello – Lovi (virallinen musiikkivideo)

Musiikin tuotantoon liittyy myös äänikloonit. Jo viime vuoden keväänä nousi ensimmäiset otsikot siitä, miten tunnettujen artistien, kuten Eminemin, Draken ja The Weekndin ääniä oli kopioitu ja tehty uudet kappaleet. Kanadalaislaulaja Grimes taas ui asiassa vastavirtaan ja kehotti vapaasti käyttämään hänestä tehtyä äänikloonia, kunhan puolet tehtyjen kappaleiden rojalteista siirtyy hänellä. Jotta äänikloonien tekemisestä ei tulisi aivan villi länsi, tähänkin on todennäköisesti tulossa myös ääniammattilaisilta linjausta. Suomessa esimerkiksi Lexofon -niminen yritys tekee nimenomaan ääniammattilaisten kanssa yhteistyötä äänikloonien tekemiseksi siten, että ääniammattilainenkin pääsee tienaamaan äänikloonillaan. Ääniklooneista voit lukea lisää aiemmasta artikkelistamme: Äänen kloonaus – mahdollisuudet ja väärinkäytökset

Puheteknologiaa hyödyntävät terveyssovellukset

Jatkuvan hoitajapulan ollessa tapetilla, terveydenhuollon saatavuutta ja tehokkuutta voisi parantaa ääniohjattavilla terveyssovelluksilla. Nämä tarjoaisivat tekoälyäkin hyödyntäen reaaliaikaista tukea ja neuvontaa asiakkaalle, parantaen potilaiden hoitoa ja helpottaen terveydenhuollon ammattilaisten työtaakkaa. Terveyssovellukset voivat olla erityisen hyödyllisiä kotonaan asuville ikääntyneille, mutta myös terveydenhuollon ruuhka-aikoina ja pitkien etäisyyksien päässä asuville. Ja päinvastoin helpottamaan diagnoosin tekemistä asiakkaan kirjausten perusteella.

Terveyssovellukset voisivat vaikuttaa pieniinkin terveyskäyttäytymisen muutoksiin ohjeistamalla, tukemalla ja kannustamalla käyttäjäänsä. Kuten tälläkin hetkellä jo käytössä olevat innovaatiot, esimerkiksi Oura-sormus tekee. Sovelluksissa voisi kuitenkin hyödyntää myös koneääniä, jolloin pääsisi vaikkapa keskustelemaan oman tekoälyassistentin kanssa. Ääni nimittäin vaikuttaa merkittävästi hyvinvointiimme, ja tekoäly kykenisi luomaan yksilöllisiä äänikokemuksia, jotka edistävät rentoutumista ja mielenrauhaa. Kuten räätälöityjä meditaatio- ja rentoutusääniraitoja, jotka helpottaisivat stressinhallinnassa ja univaikeuksissa.

Asiakaspalvelu ja biometrinen tunnistautuminen

Asiakaspalvelussa, erityisesti puheluista, kertyy puhedataa, jota voidaan hyödyntää yrityksen asiakaspalvelun parantamisessa ja jopa liiketoiminnan suuntia mietittäessä. Kertynyt puhedata tarjoaa arvokasta tietoa asiakkaiden tarpeista, ongelmista ja mieltymyksistä. Asiakaspuheluidenhan alussa sanotaan jo nyt, että puhelut nauhoitetaan, mutta nauhoitteita taidetaan pääosin hyödyntää ongelmatilanteissa. Seulomalla puhedataa tekoälyn avulla päästään kuitenkin vaivattomasti kategorisoimaan ja tunnistamaan asiakkaiden tarpeita ja kehittämään vaikkapa älykkäästi toimivia, koneäänellä puhuvia asiakaspalvelubotteja.

Biometrisella- tai biotunnistautumisella tarkoitetaan tällä hetkellä henkilöllisyyden tunnistamista lähinnä jonkin fyysisen ominaisuuden perusteella, kuten sormen jäljestä, silmän iiriksestä tai kasvojen tunnistuksesta. Tekoälypohjainen puheäänen tunnistaminen saattaa olla näihin ominaisuuksiin yleistyvä lisätapa tunnistautua. Puheääni voisi nimittäin toimia biometrisenä tunnisteena, joka mahdollistaa turvallisen pääsyn erilaisiin järjestelmiin ja fyysisiin tiloihin, alkaen esimerkiksi puhelimen näyttölukituksen avaamisesta kotioven avaamiseen. Tämä taas tekee arjestamme sujuvampaa. Oletuksena tietenkin, että puheentunnistusjärjestelmät tunnistaisivat äänikloonit ja estäisivät väärinkäytökset.

Mielenkiintoinen ajatus on myös sosiaalisessa verkostoitumisessa hyödynnettävä puheentunnistus. Puheentunnistusteknologiat voisivat auttaa verkostoitumisessa tunnistamalla ja yhdistämällä ihmisiä yhteisten kiinnostusten ja puhetapojen perusteella. Tämänkaltainen innovaatio sopisi hyvin vaikkapa jonkin somekanavan lisäominaisuudeksi.

Smart city

Smart city eli älykäs kaupunki on laaja käsite, mutta pääasiassa sillä tarkoitetaan teknisesti modernia kaupunkia, joka hyödyntää elektronisia menetelmiä halutun tiedon keräämisessä. Kerättyjä tietoja käytetään resurssien ja palveluiden hallintaan sekä kaupungin toimintojen ja asukkaiden kanssa käytävän vuorovaikutuksen parantamiseen. Puheteknologian, niin puheentunnistuksen kuin puhesynteesinkin, hyödyntäminen sopii hyvin älykäs kaupunki -konseptiin.

Älykkäässä kaupungissa eri toiminnot voivat aktivoitua äänellä. Esimerkiksi kaupungin infrastruktuuri reagoi ääniin, kuten äänikomentojen avulla hallittavat liikennevalot, julkisen liikenteen aikataulut ja hätätilanteiden hallinta. Nämä voivat olla myös hyvinkin pieniä arkea ilostuttavia asioita, kuten pysäköintihallien puhuvia parkkipaikkoja, kiitokset huikkaavia roskiksia, taikka museo- ja turistikierroksia vetävät tekoälyoppaat, jotka saavat luotua personoidumpaa kokemusta.

Julkisesta liikenteestä meiltä löytyykin jo elävä esimerkki Turun seudun joukkoliikenne Fölistä, jolle teimme koneäänellä toimivat pysäkkikuulutukset. Koneäänet luovat siis myös saavutettavuutta kaupunkiympäristöön. Tästä seuraava, vähän suurempi, askel ovatkin jo puheella ohjatut ajoneuvot. Nämä käyttäisivät ääntä ensisijaisena käyttöliittymänään, jolloin kyydissä olevat voivat antaa ajoneuvolle ohjeita ja saada reaaliaikaisia päivityksiä matkan aikana.

Ja mikseipä käyttäisi puheohjausta kaupungin rakentamis- ja korjaustöissäkin: monimutkaisiin ja vaarallisiin töihin sopii tekoälyavusteiset robotit, jotka pystyisivät kuuntelemaan ja seuraamaan puheella annettavia ohjeita suorittaakseen töitä, joita ei muuten pystyttäisi automatisoimaan.

Tässä oli nyt joitain mahdollisia tulevaisuuden arkielämän muutoksia – yhteenvetona voidaan todeta, että tekoälypohjaiset puheteknologian ratkaisut tarjoavat valtavasti mahdollisuuksia eri aloille. Niiden avulla voimme parantaa viestintää, oppimista, terveydenhuoltoa ja monia muita elämän osa-alueita. Kehitys jatkuu nopeasti, ja tekoälyn vaikutukset tulevat olemaan yhä merkittävämpiä tulevaisuuden arkielämässäkin. Jäämme siis mielenkiinnolla seuraamaan, mihin suuntaan tämä kehitys meitä vie.

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Mies istuu toimistolla työpöytänsä ääressä. Valokuva on otettu takaapäin, joten kuvassa näkyy henkilön selkä ja tietokoneen näytöt, takana näkyy sumealla muuta toimistoa.
16.8.2024
Case-esimerkki Ylelle toteutetusta kieliteknologian projektista, jossa hyödynnettiin CLIP-tekoälymallia kuvahaun sujuvoittamiseen materiaaliarkistoista.
Nainen istuu toimistotuolissa tietokoneen edessä ja katsoo näyttöä. Toinen käsi on näppäimistöllä. Taustalla on isot ikkunat.
16.5.2024
Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon
Henkilö istuu lattialla kirjan edessä tekemässä muistiinpanoja. Hänellä on kuulokkeet päässä. Kuvaotettu ylhäältäpäin.
23.4.2024
Tietoa voidaan kuluttaa monin eri tavoin: tämä monimuotoisuus tulisi huomioida myös sisältöä tuottaessa. Ääni ja teksti tukevat toisiaan ja antavat sisällön kuluttajalle valinnanvaraa päättää.
Läppäri, jonka näppäimistön päällä on kuulokkeet. Läppärin näytössä on eepressin etusivu.
2.4.2024
Konenäköä ja puhesynteesiä yhdistäneessä projektissa kehitimme ePress-näköislehtipalvelulle pipelinen, joka pystyy tunnistamaan näköislehtien artikkelit ja toimittamaan niistä ääniversiot.
Kuulokkeet tietokonepöydän päällä.
14.3.2024
Yle on ottanut käyttöön a.i.materin kehittämän kuuntelumahdollisuuden uutissivuilleen. Kuunteluominaisuus parantaa palvelun digitaalista saavutettavuutta.
Aimaterin työntekijät Roope ja Niko tutkivat työpöydän edessä tietokoneelta jotain. Roope juuri osoittaa kädellään näyttöä.
28.2.2024
Artikkelissa esitellään ja vertaillaan verkkosivulukijaa ja äänirajapintaa: miten ne toimivat ja mikä tapa sopii mihinkin tarkoitukseen.