Keskellä lukee huhtikuun ääniuutiset. Taustalla kuva henkilöstä kuulokkeet päässä ja avonaisesta kirjasta lattialla. Henkilö tekee muistiinpanoja postit-lappuun.

Huhtikuun ääniuutiset

Kuluneen kuukauden puheteknologiauutiset yhdessä artikkelissa! Kuunneltavat versiot koneääni-Ilonan lukemana a.i.materin YouTube-kanavalla.

AutoGPT, älysilmälasit ja keskustelua kuolleiden kanssa

AutoGPT

Auto-GPT on avoimeen lähdekoodiin perustuva kokeellinen projekti, joka on ikäänkuin ChatGPT:n seuraavan tason versio. AutoGPT eroaa ChatGPT:stä siten, että se pystyy tekemään päätöksiä itsenäisesti. AutoGPT päättää siis itse, mitä sen täytyy tehdä saavuttaakseen tietyt tavoitteet, toisin kuin ChatGPT, jolle ihmisen pitää antaa toimintakehotteita.

Itsenäistä päätöksentekokykyä pidetään tekoälyn seuraavana suurena tekijänä.

AutoGPT:llä voidaan esimerkiksi rakentaa verkkosivut muutamassa minuutissa, tehdä myynnin prospektointia, tutkimussuunnitelmaa, tuote-etsintää, markkinointisuunnitelmaa tai markkinatutkimusta. Tuottaa to-do listan ja tehdä sen tehtävät. Kertoa, miten tehdä rahaa tai aloittaa startup-yritys 100 dollarilla, analysoida osakemarkkinatietoja, luoda sovelluksia, tutkia ja varata seuraavan lomamatkan. Mahdollisuudet ovat siis laajat.

AutoGPT:een hyödyntäminen ei kuitenkaan ole vielä kovinkaan yleistä, johtuen monimutkaisemmasta käytöstä verrattuna selainpohjaiseen ChatGPT:hen.

Artistien äänten kopiointia

Spotifyn kuunnelluimpien artistien kärkipäässä viihtyvien Draken ja The Weekndin ääniä luvatta kopioinut kappale räjäytti sosiaalisen median ja internetin huhtikuun alkupuolella. TikTokiin ladattu kappale, Heart on my sleeve, ehti kerätä yhden viikonlopun aikana 10 miljoonaa katselukertaa ja Spotifyssa jopa 250 000 kuuntelukertaa. Kyseisten artistien levy-yhtiö, Universal Music Group otti kaiken kappaleeseen liittyvän median alas internetistä mahdollisimman nopeasti ja antoivat asiasta tiukan lausunnon. Haluavatko kuulijat olla artistien puolella, jotka ilmaisevat itseään, vai huijareiden puolella, jotka käyttävät artistien ääniä luvatta omaksi hyödykseen?

Levy-yhtiöt ja heidän artistinsa ovat varmoja, että tosifanit tunnistavat äänikloonin ja aidon äänen eron. Kun taas varma ei voi olla siitä, tunnistaako tätä eroa se tavallinen henkilö, joka haluaa vain jotain mukavan kuuloista musiikki. Äänien luvatta käyttäminen voi myös johtaa vakaviin tekijänoikeusrikkomuksiin.

Kanadalainen muusikko Grimes on kuitenkin päättänyt uida vastavirtaan suurten levy-yhtiöiden linjasta kieltää artistien äänikloonien käyttö. Grimes ilmoitti, että hänen ääntään voi käyttää ääniklooneihin vapaasti ilman rangaistusta, ja että hän jakaa 50 prosentin rojaltit kaikista menestyneistä tekoälyn luomista kappaleista, joissa hänen ääntään on käytetty.

Keskustelua kuolleiden kanssa

Kiinassa osa hautaustoimistoista on lisännyt palveluihinsa ihan uuden tason digitaalisuutta: mahdollisuuden puhua kuolleelle läheiselleen. Kyseessä on eräänlainen illuusio; koneoppimisen avulla toteutettu digitaalinen avatar, jonka tekemiseen tarvitaan vain valokuva ja äänitallenne edesmenneestä henkilöstä. Kielimalleja hyödyntäen äänitallenteesta luodaan synteettinen ääni, joka kuulostaa aivan läheiseltä.

Myös Yhdysvalloissa on alettu kehittää vastaavia palveluita. GPT-kielimallien nopea kehitys on edistänyt näitä projekteja entisestään. Kaikki eivät kuitenkaan ole kuolleisiin ihmisiin perustuvista avatareista innoissaan, vaan sosiaalisessa mediassa asia on saanut jopa vertauksia Black Mirror -sarjaan.

Koneääni auttaa potilaita seuraamaan aikatauluaan

Etelä-korealainen sairaala Severance Hospital on laajentanut tietoliikenneyhtiö KT:n koneäänibotin palvelemaan potilaita. Serabot-niminen avustaja auttaa potilaita muistamaan lääkäriajat, hoitamaan sisäänkirjautumiset ja muuttamaan jo sovittuja aikoja.

Serabot hyödyntää puheentunnistusta ja luonnollisen kielen käsittelyä, eli se pystyy käymään keskusteluja potilaiden kanssa. Botti esimerkiksi soittaa potilaalle ja muistuttaa tulevasta lääkäriajasta. Tällöin potilas voi halutessaan muuttaa aikaa välittömästi tai perua sen. Bottiin myös tallentuvat lääkärikäyntiä varten tarvittavat dokumentit ja muistiinpanot.

Sairaala kertoo pyrkivänsä tämän avulla uuden sukupolven asiakaspalveluun ja hyvään asiakaskokemukseen jo ennen lääkärikäynnille saapumista.

Tekoälyuutisankkurit

Intiassa India Today uutiskanavalle on otettu ensimmäinen kokopäiväinen tekoälyuutisankkuri. Sana-niminen botti näyttää ihmiseltä ja se lukee uutisia tekstistä puheeksi teknologialla. Vastaavia tekoälypohjaisia uutisankkureita on ollut jo pidempään Kiinassa käytössä.

Tekoäly tulee vaikuttamaan pysyvästi myös journalismiin. Muun muassa tiivistelmien ja perusartikkelien tekoa voidaan automatisoida ja teknologia toimiikin näissä hyvänä apuvälineenä. Toisaalta taas paikan päällä tapahtuvaan raportointiin ja tutkivaan journalismiin tuskin tulee kriittistä muutosta, sillä niissä tarvitaan erilaista havainnointia.

Älysilmälasit mukaan palavereihin

Stanfordin yliopiston tutkijaryhmä kehittää Rizz-GPT-nimisiä silmälaseja, jotka auttavat henkilöä tietämään, mitä sanoa missäkin tilanteissa. Älylasit hyödyntävät GPT-4:ää ja Whisperin puheentunnistusjärjestelmää.

Laseissa oleva pieni mikrofoni tallentaa meneillään olevaa keskustelua, jonka puheentunnistusjärjestelmä muuttaa tekstiksi. GPT-4 käsittelee tekstin ja antaa keskusteluun sopivia vastauksia luettavaksi suoraan käyttäjän silmälaseihin. Älylasit on suunniteltu auttamaan monimutkaisissa tilanteissa, kuten neuvotteluissa ja työhaastatteluissa.

Salaa älylaseja ei ainakaan vielä pääse käyttämään, sillä kyseisten lasien tekniikka on melko näkyvää. Toistaiseksi se näyttää nimittäin toiseen silmälasilinssiin kiinnitetyltä monokkelilta. Teknologia kuitenkin kehittyy ja tätäkin potentiaalista tuotetta päästää kehittämään ja soveltamaan uusiin kohteisiin.

Reaaliaikaista tekstitystä useille kielille

Cambridgessä toimiva teknologiayritys Speechmatics julkisti suunnitelmansa reaaliaikaisen käännösominaisuuden kehittämiseen. Tarkoituksena on purkaa kielimuureja, avata globaaleja markkinoita ja antaa ihmisille mahdollisuus kuluttaa live-sisältöjä kielitaidosta huolimatta. Se vastaa tarpeeseen kääntää välittömästi ja tekstittää automaattisesti TV-ohjelmia, uutisia, urheilu- ja tapahtumalähetyksiä, podcasteja, pelien striimausta ja muita sosiaalisen median videoita.

Sovellusliittymän avulla puhetta voidaan kääntää 69 kieliparilla ja useilla kielillä samanaikaisesti. Puhe voidaan tuottaa esimerkiksi tekstimuodossa englanniksi ja samaan aikaan käännöksenä japaniksi, ranskaksi, saksaksi, koreaksi ja hindiksi.

Käännössovellus pohjautuu Speechmaticsin omaan Ursa -nimiseen puheesta tekstiksi sovellukseen, jonka sanotaan olevan 25 % tarkempi kuin OpenAI:n Whisper ja 38 % tarkempi kuin Google.

Huhtikuun ääniversio kuunneltavissa YouTubessa:

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Henkilö istuu lattialla kirjan edessä tekemässä muistiinpanoja. Hänellä on kuulokkeet päässä. Kuvaotettu ylhäältäpäin.
23.4.2024
Tietoa on monia tapoja kuluttaa, ja meidän tulisi huomioida tämä monimuotoisuus sisältöä tuottaessa. Ääni ja teksti tukevat toisiaan ja antavat sisällön kuluttajalle valinnanvaraa päättää.
Läppäri, jonka näppäimistön päällä on kuulokkeet. Läppärin näytössä on eepressin etusivu.
2.4.2024
Konenäköä ja puhesynteesiä yhdistäneessä projektissa kehitimme ePress-näköislehtipalvelulle pipelinen, joka pystyy tunnistamaan näköislehtien artikkelit ja toimittamaan niistä ääniversiot.
Kuulokkeet tietokonepöydän päällä.
14.3.2024
Yle on ottanut käyttöön a.i.materin kehittämän kuuntelumahdollisuuden uutissivuilleen. Kuunteluominaisuus parantaa palvelun digitaalista saavutettavuutta.
Aimaterin työntekijät Roope ja Niko tutkivat työpöydän edessä tietokoneelta jotain. Roope juuri osoittaa kädellään näyttöä.
28.2.2024
Artikkelissa esitellään ja vertaillaan verkkosivulukijaa ja äänirajapintaa: miten ne toimivat ja mikä tapa sopii mihinkin tarkoitukseen.
Educa-messujen 2024 logo
29.1.2024
a.i.mater oli mukana Educa-messuilla näytteilleasettajan roolissa. Paljon kiinnostavia kohtaamisia, keskusteluja mahdollisten uusien asiakkaiden kanssa, sekä nykyisten asiakkaiden ja yhteistyökumppanien tapaamisia.
10.1.2024
Digiaudion kulutus kasvaa edelleen, ääni on yhä tärkeämpi osa brändistrategiaa ja ääniklooneja voi hyödyntää muuhunkin kuin hupailuun. Muun muassa näihin voi hyödyntää moderneja koneääniä kuluvana vuonna.