Huhtikuun ääniuutiset

28.04.2023

Kuluneen kuukauden puheteknologiauutiset yhdessä artikkelissa! Kuunneltavat versiot koneääni-Ilonan lukemana a.i.materin YouTube-kanavalla.

AutoGPT, älysilmälasit ja keskustelua kuolleiden kanssa

AutoGPT

Auto-GPT on avoimeen lähdekoodiin perustuva kokeellinen projekti, joka on ikäänkuin ChatGPT:n seuraavan tason versio. AutoGPT eroaa ChatGPT:stä siten, että se pystyy tekemään päätöksiä itsenäisesti. AutoGPT päättää siis itse, mitä sen täytyy tehdä saavuttaakseen tietyt tavoitteet, toisin kuin ChatGPT, jolle ihmisen pitää antaa toimintakehotteita.

Itsenäistä päätöksentekokykyä pidetään tekoälyn seuraavana suurena tekijänä.

AutoGPT:llä voidaan esimerkiksi rakentaa verkkosivut muutamassa minuutissa, tehdä myynnin prospektointia, tutkimussuunnitelmaa, tuote-etsintää, markkinointisuunnitelmaa tai markkinatutkimusta. Tuottaa to-do listan ja tehdä sen tehtävät. Kertoa, miten tehdä rahaa tai aloittaa startup-yritys 100 dollarilla, analysoida osakemarkkinatietoja, luoda sovelluksia, tutkia ja varata seuraavan lomamatkan. Mahdollisuudet ovat siis laajat.

AutoGPT:een hyödyntäminen ei kuitenkaan ole vielä kovinkaan yleistä, johtuen monimutkaisemmasta käytöstä verrattuna selainpohjaiseen ChatGPT:hen.

Artistien äänten kopiointia

Spotifyn kuunnelluimpien artistien kärkipäässä viihtyvien Draken ja The Weekndin ääniä luvatta kopioinut kappale räjäytti sosiaalisen median ja internetin huhtikuun alkupuolella. TikTokiin ladattu kappale, Heart on my sleeve, ehti kerätä yhden viikonlopun aikana 10 miljoonaa katselukertaa ja Spotifyssa jopa 250 000 kuuntelukertaa. Kyseisten artistien levy-yhtiö, Universal Music Group otti kaiken kappaleeseen liittyvän median alas internetistä mahdollisimman nopeasti ja antoivat asiasta tiukan lausunnon. Haluavatko kuulijat olla artistien puolella, jotka ilmaisevat itseään, vai huijareiden puolella, jotka käyttävät artistien ääniä luvatta omaksi hyödykseen?

Levy-yhtiöt ja heidän artistinsa ovat varmoja, että tosifanit tunnistavat äänikloonin ja aidon äänen eron. Kun taas varma ei voi olla siitä, tunnistaako tätä eroa se tavallinen henkilö, joka haluaa vain jotain mukavan kuuloista musiikki. Äänien luvatta käyttäminen voi myös johtaa vakaviin tekijänoikeusrikkomuksiin.

Kanadalainen muusikko Grimes on kuitenkin päättänyt uida vastavirtaan suurten levy-yhtiöiden linjasta kieltää artistien äänikloonien käyttö. Grimes ilmoitti, että hänen ääntään voi käyttää ääniklooneihin vapaasti ilman rangaistusta, ja että hän jakaa 50 prosentin rojaltit kaikista menestyneistä tekoälyn luomista kappaleista, joissa hänen ääntään on käytetty.

Keskustelua kuolleiden kanssa

Kiinassa osa hautaustoimistoista on lisännyt palveluihinsa ihan uuden tason digitaalisuutta: mahdollisuuden puhua kuolleelle läheiselleen. Kyseessä on eräänlainen illuusio; koneoppimisen avulla toteutettu digitaalinen avatar, jonka tekemiseen tarvitaan vain valokuva ja äänitallenne edesmenneestä henkilöstä. Kielimalleja hyödyntäen äänitallenteesta luodaan synteettinen ääni, joka kuulostaa aivan läheiseltä.

Myös Yhdysvalloissa on alettu kehittää vastaavia palveluita. GPT-kielimallien nopea kehitys on edistänyt näitä projekteja entisestään. Kaikki eivät kuitenkaan ole kuolleisiin ihmisiin perustuvista avatareista innoissaan, vaan sosiaalisessa mediassa asia on saanut jopa vertauksia Black Mirror -sarjaan.

Koneääni auttaa potilaita seuraamaan aikatauluaan

Etelä-korealainen sairaala Severance Hospital on laajentanut tietoliikenneyhtiö KT:n koneäänibotin palvelemaan potilaita. Serabot-niminen avustaja auttaa potilaita muistamaan lääkäriajat, hoitamaan sisäänkirjautumiset ja muuttamaan jo sovittuja aikoja.

Serabot hyödyntää puheentunnistusta ja luonnollisen kielen käsittelyä, eli se pystyy käymään keskusteluja potilaiden kanssa. Botti esimerkiksi soittaa potilaalle ja muistuttaa tulevasta lääkäriajasta. Tällöin potilas voi halutessaan muuttaa aikaa välittömästi tai perua sen. Bottiin myös tallentuvat lääkärikäyntiä varten tarvittavat dokumentit ja muistiinpanot.

Sairaala kertoo pyrkivänsä tämän avulla uuden sukupolven asiakaspalveluun ja hyvään asiakaskokemukseen jo ennen lääkärikäynnille saapumista.

Tekoälyuutisankkurit

Intiassa India Today uutiskanavalle on otettu ensimmäinen kokopäiväinen tekoälyuutisankkuri. Sana-niminen botti näyttää ihmiseltä ja se lukee uutisia tekstistä puheeksi teknologialla. Vastaavia tekoälypohjaisia uutisankkureita on ollut jo pidempään Kiinassa käytössä.

Tekoäly tulee vaikuttamaan pysyvästi myös journalismiin. Muun muassa tiivistelmien ja perusartikkelien tekoa voidaan automatisoida ja teknologia toimiikin näissä hyvänä apuvälineenä. Toisaalta taas paikan päällä tapahtuvaan raportointiin ja tutkivaan journalismiin tuskin tulee kriittistä muutosta, sillä niissä tarvitaan erilaista havainnointia.

Älysilmälasit mukaan palavereihin

Stanfordin yliopiston tutkijaryhmä kehittää Rizz-GPT-nimisiä silmälaseja, jotka auttavat henkilöä tietämään, mitä sanoa missäkin tilanteissa. Älylasit hyödyntävät GPT-4:ää ja Whisperin puheentunnistusjärjestelmää.

Laseissa oleva pieni mikrofoni tallentaa meneillään olevaa keskustelua, jonka puheentunnistusjärjestelmä muuttaa tekstiksi. GPT-4 käsittelee tekstin ja antaa keskusteluun sopivia vastauksia luettavaksi suoraan käyttäjän silmälaseihin. Älylasit on suunniteltu auttamaan monimutkaisissa tilanteissa, kuten neuvotteluissa ja työhaastatteluissa.

Salaa älylaseja ei ainakaan vielä pääse käyttämään, sillä kyseisten lasien tekniikka on melko näkyvää. Toistaiseksi se näyttää nimittäin toiseen silmälasilinssiin kiinnitetyltä monokkelilta. Teknologia kuitenkin kehittyy ja tätäkin potentiaalista tuotetta päästää kehittämään ja soveltamaan uusiin kohteisiin.

Reaaliaikaista tekstitystä useille kielille

Cambridgessä toimiva teknologiayritys Speechmatics julkisti suunnitelmansa reaaliaikaisen käännösominaisuuden kehittämiseen. Tarkoituksena on purkaa kielimuureja, avata globaaleja markkinoita ja antaa ihmisille mahdollisuus kuluttaa live-sisältöjä kielitaidosta huolimatta. Se vastaa tarpeeseen kääntää välittömästi ja tekstittää automaattisesti TV-ohjelmia, uutisia, urheilu- ja tapahtumalähetyksiä, podcasteja, pelien striimausta ja muita sosiaalisen median videoita.

Sovellusliittymän avulla puhetta voidaan kääntää 69 kieliparilla ja useilla kielillä samanaikaisesti. Puhe voidaan tuottaa esimerkiksi tekstimuodossa englanniksi ja samaan aikaan käännöksenä japaniksi, ranskaksi, saksaksi, koreaksi ja hindiksi.

Käännössovellus pohjautuu Speechmaticsin omaan Ursa -nimiseen puheesta tekstiksi sovellukseen, jonka sanotaan olevan 25 % tarkempi kuin OpenAI:n Whisper ja 38 % tarkempi kuin Google.

Huhtikuun ääniversio kuunneltavissa YouTubessa:

Sinua saattaisi kiinnostaa myös seuraavat artikkelit:

Alkuvuoden koneääniuutiset maailmalta

Helmikuun ääniuutiset

Maaliskuun ääniuutiset

Mikä ihmeen GPT – Koneoppimisinsinööri vastaa

Älykoti ja puheohjaus – ihmiset ja koneet vuorovaikutuksessa

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

13.6.2024

Miten puheteknologia näkyy tulevaisuuden arkielämässä?

Käsittelyssä kielimuurien häviäminen, henkilökohtaisemmat ääniassistentit, älykodit, äänikloonit, tekoälyllä tuotettava musiikki, median kulutus, terveyssovellukset, asiakaspalvelu, biometrinen tunnistautuminen ja smart city -ajatus.

16.5.2024

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon

23.4.2024

Huhtikuun ääniuutiset

AutoGPT, älysilmälasit ja keskustelua kuolleiden kanssa

AutoGPT

Artistien äänten kopiointia

Keskustelua kuolleiden kanssa

Koneääni auttaa potilaita seuraamaan aikatauluaan

Tekoälyuutisankkurit

Älysilmälasit mukaan palavereihin

Reaaliaikaista tekstitystä useille kielille

Huhtikuun ääniversio kuunneltavissa YouTubessa:

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Miten puheteknologia näkyy tulevaisuuden arkielämässä?

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Ääni vai teksti? Tiedon kuluttamisen monimuotoisuus

a.i.mater tuottaa ePress®-näköislehtipalvelun kuunneltavat artikkelit

Yle.fi-verkkosivujen ja -sovelluksen uutisartikkelit nyt kuunneltavissa

Miten saada verkkosivujen tekstisisällöt kuunneltavaan muotoon?

Kiinnostuitko?

On sinulla sitten valmis tarve tai kaipaat ideallesi vasta sparrailua, saamme sitä varmasti yhdessä eteenpäin. Ota yhteyttä, kuulemme mielellämme sinusta!

Sounds better