Keskellä lukee huhtikuun ääniuutiset. Taustalla kuva henkilöstä kuulokkeet päässä ja avonaisesta kirjasta lattialla. Henkilö tekee muistiinpanoja postit-lappuun.

Huhtikuun ääniuutiset

Kuluneen kuukauden puheteknologiauutiset yhdessä artikkelissa! Kuunneltavat versiot koneääni-Ilonan lukemana a.i.materin YouTube-kanavalla.

AutoGPT, älysilmälasit ja keskustelua kuolleiden kanssa

AutoGPT

Auto-GPT on avoimeen lähdekoodiin perustuva kokeellinen projekti, joka on ikäänkuin ChatGPT:n seuraavan tason versio. AutoGPT eroaa ChatGPT:stä siten, että se pystyy tekemään päätöksiä itsenäisesti. AutoGPT päättää siis itse, mitä sen täytyy tehdä saavuttaakseen tietyt tavoitteet, toisin kuin ChatGPT, jolle ihmisen pitää antaa toimintakehotteita.

Itsenäistä päätöksentekokykyä pidetään tekoälyn seuraavana suurena tekijänä.

AutoGPT:llä voidaan esimerkiksi rakentaa verkkosivut muutamassa minuutissa, tehdä myynnin prospektointia, tutkimussuunnitelmaa, tuote-etsintää, markkinointisuunnitelmaa tai markkinatutkimusta. Tuottaa to-do listan ja tehdä sen tehtävät. Kertoa, miten tehdä rahaa tai aloittaa startup-yritys 100 dollarilla, analysoida osakemarkkinatietoja, luoda sovelluksia, tutkia ja varata seuraavan lomamatkan. Mahdollisuudet ovat siis laajat.

AutoGPT:een hyödyntäminen ei kuitenkaan ole vielä kovinkaan yleistä, johtuen monimutkaisemmasta käytöstä verrattuna selainpohjaiseen ChatGPT:hen.

Artistien äänten kopiointia

Spotifyn kuunnelluimpien artistien kärkipäässä viihtyvien Draken ja The Weekndin ääniä luvatta kopioinut kappale räjäytti sosiaalisen median ja internetin huhtikuun alkupuolella. TikTokiin ladattu kappale, Heart on my sleeve, ehti kerätä yhden viikonlopun aikana 10 miljoonaa katselukertaa ja Spotifyssa jopa 250 000 kuuntelukertaa. Kyseisten artistien levy-yhtiö, Universal Music Group otti kaiken kappaleeseen liittyvän median alas internetistä mahdollisimman nopeasti ja antoivat asiasta tiukan lausunnon. Haluavatko kuulijat olla artistien puolella, jotka ilmaisevat itseään, vai huijareiden puolella, jotka käyttävät artistien ääniä luvatta omaksi hyödykseen?

Levy-yhtiöt ja heidän artistinsa ovat varmoja, että tosifanit tunnistavat äänikloonin ja aidon äänen eron. Kun taas varma ei voi olla siitä, tunnistaako tätä eroa se tavallinen henkilö, joka haluaa vain jotain mukavan kuuloista musiikki. Äänien luvatta käyttäminen voi myös johtaa vakaviin tekijänoikeusrikkomuksiin.

Kanadalainen muusikko Grimes on kuitenkin päättänyt uida vastavirtaan suurten levy-yhtiöiden linjasta kieltää artistien äänikloonien käyttö. Grimes ilmoitti, että hänen ääntään voi käyttää ääniklooneihin vapaasti ilman rangaistusta, ja että hän jakaa 50 prosentin rojaltit kaikista menestyneistä tekoälyn luomista kappaleista, joissa hänen ääntään on käytetty.

Keskustelua kuolleiden kanssa

Kiinassa osa hautaustoimistoista on lisännyt palveluihinsa ihan uuden tason digitaalisuutta: mahdollisuuden puhua kuolleelle läheiselleen. Kyseessä on eräänlainen illuusio; koneoppimisen avulla toteutettu digitaalinen avatar, jonka tekemiseen tarvitaan vain valokuva ja äänitallenne edesmenneestä henkilöstä. Kielimalleja hyödyntäen äänitallenteesta luodaan synteettinen ääni, joka kuulostaa aivan läheiseltä.

Myös Yhdysvalloissa on alettu kehittää vastaavia palveluita. GPT-kielimallien nopea kehitys on edistänyt näitä projekteja entisestään. Kaikki eivät kuitenkaan ole kuolleisiin ihmisiin perustuvista avatareista innoissaan, vaan sosiaalisessa mediassa asia on saanut jopa vertauksia Black Mirror -sarjaan.

Koneääni auttaa potilaita seuraamaan aikatauluaan

Etelä-korealainen sairaala Severance Hospital on laajentanut tietoliikenneyhtiö KT:n koneäänibotin palvelemaan potilaita. Serabot-niminen avustaja auttaa potilaita muistamaan lääkäriajat, hoitamaan sisäänkirjautumiset ja muuttamaan jo sovittuja aikoja.

Serabot hyödyntää puheentunnistusta ja luonnollisen kielen käsittelyä, eli se pystyy käymään keskusteluja potilaiden kanssa. Botti esimerkiksi soittaa potilaalle ja muistuttaa tulevasta lääkäriajasta. Tällöin potilas voi halutessaan muuttaa aikaa välittömästi tai perua sen. Bottiin myös tallentuvat lääkärikäyntiä varten tarvittavat dokumentit ja muistiinpanot.

Sairaala kertoo pyrkivänsä tämän avulla uuden sukupolven asiakaspalveluun ja hyvään asiakaskokemukseen jo ennen lääkärikäynnille saapumista.

Tekoälyuutisankkurit

Intiassa India Today uutiskanavalle on otettu ensimmäinen kokopäiväinen tekoälyuutisankkuri. Sana-niminen botti näyttää ihmiseltä ja se lukee uutisia tekstistä puheeksi teknologialla. Vastaavia tekoälypohjaisia uutisankkureita on ollut jo pidempään Kiinassa käytössä.

Tekoäly tulee vaikuttamaan pysyvästi myös journalismiin. Muun muassa tiivistelmien ja perusartikkelien tekoa voidaan automatisoida ja teknologia toimiikin näissä hyvänä apuvälineenä. Toisaalta taas paikan päällä tapahtuvaan raportointiin ja tutkivaan journalismiin tuskin tulee kriittistä muutosta, sillä niissä tarvitaan erilaista havainnointia.

Älysilmälasit mukaan palavereihin

Stanfordin yliopiston tutkijaryhmä kehittää Rizz-GPT-nimisiä silmälaseja, jotka auttavat henkilöä tietämään, mitä sanoa missäkin tilanteissa. Älylasit hyödyntävät GPT-4:ää ja Whisperin puheentunnistusjärjestelmää.

Laseissa oleva pieni mikrofoni tallentaa meneillään olevaa keskustelua, jonka puheentunnistusjärjestelmä muuttaa tekstiksi. GPT-4 käsittelee tekstin ja antaa keskusteluun sopivia vastauksia luettavaksi suoraan käyttäjän silmälaseihin. Älylasit on suunniteltu auttamaan monimutkaisissa tilanteissa, kuten neuvotteluissa ja työhaastatteluissa.

Salaa älylaseja ei ainakaan vielä pääse käyttämään, sillä kyseisten lasien tekniikka on melko näkyvää. Toistaiseksi se näyttää nimittäin toiseen silmälasilinssiin kiinnitetyltä monokkelilta. Teknologia kuitenkin kehittyy ja tätäkin potentiaalista tuotetta päästää kehittämään ja soveltamaan uusiin kohteisiin.

Reaaliaikaista tekstitystä useille kielille

Cambridgessä toimiva teknologiayritys Speechmatics julkisti suunnitelmansa reaaliaikaisen käännösominaisuuden kehittämiseen. Tarkoituksena on purkaa kielimuureja, avata globaaleja markkinoita ja antaa ihmisille mahdollisuus kuluttaa live-sisältöjä kielitaidosta huolimatta. Se vastaa tarpeeseen kääntää välittömästi ja tekstittää automaattisesti TV-ohjelmia, uutisia, urheilu- ja tapahtumalähetyksiä, podcasteja, pelien striimausta ja muita sosiaalisen median videoita.

Sovellusliittymän avulla puhetta voidaan kääntää 69 kieliparilla ja useilla kielillä samanaikaisesti. Puhe voidaan tuottaa esimerkiksi tekstimuodossa englanniksi ja samaan aikaan käännöksenä japaniksi, ranskaksi, saksaksi, koreaksi ja hindiksi.

Käännössovellus pohjautuu Speechmaticsin omaan Ursa -nimiseen puheesta tekstiksi sovellukseen, jonka sanotaan olevan 25 % tarkempi kuin OpenAI:n Whisper ja 38 % tarkempi kuin Google.

Huhtikuun ääniversio kuunneltavissa YouTubessa:

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

18.10.2024
Suomen ensimmäistä tekoälyyn keskittyvää palkintogaalaa juhlitaan 23.10.2024 julkistamalla kunkin kategorian voittajat. a.i.mater on kolmen kärjessä asiakaskokemus-kategoriassa.
Kaksi henkilöä istuvat sohvalla läppärit sylissä. Kasvot on rajattu pois kuvasta.
9.9.2024
Digipalvelulaki ja esteettömyysdirektiivi laajenevat kesäkuussa 2025. Artikkelissa kerrotaan, keitä laki koskee myös jatkossa ja mitä saavutettavuusvaatimukset käytännössä ovat. Erityishuomiota kiinnitetään sähkö- ja äänikirjoihin.
Nainen istuu ulkona maalaustelineen kanssa ja katsoo juuri väripalettia kädessään. Taustalla on abstrakti maalaus. Valo tulee naisen takaa, joten hänen hiukset korostuvat muuten tummasta kuvasta. Naisella on kuulokkeet korvilla.
13.6.2024
Käsittelyssä kielimuurien häviäminen, henkilökohtaisemmat ääniassistentit, älykodit, äänikloonit, tekoälyllä tuotettava musiikki, median kulutus, terveyssovellukset, asiakaspalvelu, biometrinen tunnistautuminen ja smart city -ajatus.
Nainen istuu toimistotuolissa tietokoneen edessä ja katsoo näyttöä. Toinen käsi on näppäimistöllä. Taustalla on isot ikkunat.
16.5.2024
Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon
Henkilö istuu lattialla kirjan edessä tekemässä muistiinpanoja. Hänellä on kuulokkeet päässä. Kuvaotettu ylhäältäpäin.
23.4.2024
Tietoa voidaan kuluttaa monin eri tavoin: tämä monimuotoisuus tulisi huomioida myös sisältöä tuottaessa. Ääni ja teksti tukevat toisiaan ja antavat sisällön kuluttajalle valinnanvaraa päättää.
Läppäri, jonka näppäimistön päällä on kuulokkeet. Läppärin näytössä on eepressin etusivu.
2.4.2024
Konenäköä ja puhesynteesiä yhdistäneessä projektissa kehitimme ePress-näköislehtipalvelulle pipelinen, joka pystyy tunnistamaan näköislehtien artikkelit ja toimittamaan niistä ääniversiot.