Kuluneen kuukauden puheteknologiauutiset yhdessä artikkelissa! Kuunneltavat versiot koneääni-Ilonan lukemana a.i.materin YouTube-kanavalla.
AutoGPT, älysilmälasit ja keskustelua kuolleiden kanssa
AutoGPT
Auto-GPT on avoimeen lähdekoodiin perustuva kokeellinen projekti, joka on ikäänkuin ChatGPT:n seuraavan tason versio. AutoGPT eroaa ChatGPT:stä siten, että se pystyy tekemään päätöksiä itsenäisesti. AutoGPT päättää siis itse, mitä sen täytyy tehdä saavuttaakseen tietyt tavoitteet, toisin kuin ChatGPT, jolle ihmisen pitää antaa toimintakehotteita.
Itsenäistä päätöksentekokykyä pidetään tekoälyn seuraavana suurena tekijänä.
AutoGPT:llä voidaan esimerkiksi rakentaa verkkosivut muutamassa minuutissa, tehdä myynnin prospektointia, tutkimussuunnitelmaa, tuote-etsintää, markkinointisuunnitelmaa tai markkinatutkimusta. Tuottaa to-do listan ja tehdä sen tehtävät. Kertoa, miten tehdä rahaa tai aloittaa startup-yritys 100 dollarilla, analysoida osakemarkkinatietoja, luoda sovelluksia, tutkia ja varata seuraavan lomamatkan. Mahdollisuudet ovat siis laajat.
AutoGPT:een hyödyntäminen ei kuitenkaan ole vielä kovinkaan yleistä, johtuen monimutkaisemmasta käytöstä verrattuna selainpohjaiseen ChatGPT:hen.
Artistien äänten kopiointia
Spotifyn kuunnelluimpien artistien kärkipäässä viihtyvien Draken ja The Weekndin ääniä luvatta kopioinut kappale räjäytti sosiaalisen median ja internetin huhtikuun alkupuolella. TikTokiin ladattu kappale, Heart on my sleeve, ehti kerätä yhden viikonlopun aikana 10 miljoonaa katselukertaa ja Spotifyssa jopa 250 000 kuuntelukertaa. Kyseisten artistien levy-yhtiö, Universal Music Group otti kaiken kappaleeseen liittyvän median alas internetistä mahdollisimman nopeasti ja antoivat asiasta tiukan lausunnon. Haluavatko kuulijat olla artistien puolella, jotka ilmaisevat itseään, vai huijareiden puolella, jotka käyttävät artistien ääniä luvatta omaksi hyödykseen?
Levy-yhtiöt ja heidän artistinsa ovat varmoja, että tosifanit tunnistavat äänikloonin ja aidon äänen eron. Kun taas varma ei voi olla siitä, tunnistaako tätä eroa se tavallinen henkilö, joka haluaa vain jotain mukavan kuuloista musiikki. Äänien luvatta käyttäminen voi myös johtaa vakaviin tekijänoikeusrikkomuksiin.
Kanadalainen muusikko Grimes on kuitenkin päättänyt uida vastavirtaan suurten levy-yhtiöiden linjasta kieltää artistien äänikloonien käyttö. Grimes ilmoitti, että hänen ääntään voi käyttää ääniklooneihin vapaasti ilman rangaistusta, ja että hän jakaa 50 prosentin rojaltit kaikista menestyneistä tekoälyn luomista kappaleista, joissa hänen ääntään on käytetty.
Keskustelua kuolleiden kanssa
Kiinassa osa hautaustoimistoista on lisännyt palveluihinsa ihan uuden tason digitaalisuutta: mahdollisuuden puhua kuolleelle läheiselleen. Kyseessä on eräänlainen illuusio; koneoppimisen avulla toteutettu digitaalinen avatar, jonka tekemiseen tarvitaan vain valokuva ja äänitallenne edesmenneestä henkilöstä. Kielimalleja hyödyntäen äänitallenteesta luodaan synteettinen ääni, joka kuulostaa aivan läheiseltä.
Myös Yhdysvalloissa on alettu kehittää vastaavia palveluita. GPT-kielimallien nopea kehitys on edistänyt näitä projekteja entisestään. Kaikki eivät kuitenkaan ole kuolleisiin ihmisiin perustuvista avatareista innoissaan, vaan sosiaalisessa mediassa asia on saanut jopa vertauksia Black Mirror -sarjaan.
Koneääni auttaa potilaita seuraamaan aikatauluaan
Etelä-korealainen sairaala Severance Hospital on laajentanut tietoliikenneyhtiö KT:n koneäänibotin palvelemaan potilaita. Serabot-niminen avustaja auttaa potilaita muistamaan lääkäriajat, hoitamaan sisäänkirjautumiset ja muuttamaan jo sovittuja aikoja.
Serabot hyödyntää puheentunnistusta ja luonnollisen kielen käsittelyä, eli se pystyy käymään keskusteluja potilaiden kanssa. Botti esimerkiksi soittaa potilaalle ja muistuttaa tulevasta lääkäriajasta. Tällöin potilas voi halutessaan muuttaa aikaa välittömästi tai perua sen. Bottiin myös tallentuvat lääkärikäyntiä varten tarvittavat dokumentit ja muistiinpanot.
Sairaala kertoo pyrkivänsä tämän avulla uuden sukupolven asiakaspalveluun ja hyvään asiakaskokemukseen jo ennen lääkärikäynnille saapumista.
Tekoälyuutisankkurit
Intiassa India Today uutiskanavalle on otettu ensimmäinen kokopäiväinen tekoälyuutisankkuri. Sana-niminen botti näyttää ihmiseltä ja se lukee uutisia tekstistä puheeksi teknologialla. Vastaavia tekoälypohjaisia uutisankkureita on ollut jo pidempään Kiinassa käytössä.
Tekoäly tulee vaikuttamaan pysyvästi myös journalismiin. Muun muassa tiivistelmien ja perusartikkelien tekoa voidaan automatisoida ja teknologia toimiikin näissä hyvänä apuvälineenä. Toisaalta taas paikan päällä tapahtuvaan raportointiin ja tutkivaan journalismiin tuskin tulee kriittistä muutosta, sillä niissä tarvitaan erilaista havainnointia.
Älysilmälasit mukaan palavereihin
Stanfordin yliopiston tutkijaryhmä kehittää Rizz-GPT-nimisiä silmälaseja, jotka auttavat henkilöä tietämään, mitä sanoa missäkin tilanteissa. Älylasit hyödyntävät GPT-4:ää ja Whisperin puheentunnistusjärjestelmää.
Laseissa oleva pieni mikrofoni tallentaa meneillään olevaa keskustelua, jonka puheentunnistusjärjestelmä muuttaa tekstiksi. GPT-4 käsittelee tekstin ja antaa keskusteluun sopivia vastauksia luettavaksi suoraan käyttäjän silmälaseihin. Älylasit on suunniteltu auttamaan monimutkaisissa tilanteissa, kuten neuvotteluissa ja työhaastatteluissa.
Salaa älylaseja ei ainakaan vielä pääse käyttämään, sillä kyseisten lasien tekniikka on melko näkyvää. Toistaiseksi se näyttää nimittäin toiseen silmälasilinssiin kiinnitetyltä monokkelilta. Teknologia kuitenkin kehittyy ja tätäkin potentiaalista tuotetta päästää kehittämään ja soveltamaan uusiin kohteisiin.
Reaaliaikaista tekstitystä useille kielille
Cambridgessä toimiva teknologiayritys Speechmatics julkisti suunnitelmansa reaaliaikaisen käännösominaisuuden kehittämiseen. Tarkoituksena on purkaa kielimuureja, avata globaaleja markkinoita ja antaa ihmisille mahdollisuus kuluttaa live-sisältöjä kielitaidosta huolimatta. Se vastaa tarpeeseen kääntää välittömästi ja tekstittää automaattisesti TV-ohjelmia, uutisia, urheilu- ja tapahtumalähetyksiä, podcasteja, pelien striimausta ja muita sosiaalisen median videoita.
Sovellusliittymän avulla puhetta voidaan kääntää 69 kieliparilla ja useilla kielillä samanaikaisesti. Puhe voidaan tuottaa esimerkiksi tekstimuodossa englanniksi ja samaan aikaan käännöksenä japaniksi, ranskaksi, saksaksi, koreaksi ja hindiksi.
Käännössovellus pohjautuu Speechmaticsin omaan Ursa -nimiseen puheesta tekstiksi sovellukseen, jonka sanotaan olevan 25 % tarkempi kuin OpenAI:n Whisper ja 38 % tarkempi kuin Google.
Huhtikuun ääniversio kuunneltavissa YouTubessa:
Sinua saattaisi kiinnostaa myös seuraavat artikkelit:
Alkuvuoden koneääniuutiset maailmalta
Mikä ihmeen GPT – Koneoppimisinsinööri vastaa
Älykoti ja puheohjaus – ihmiset ja koneet vuorovaikutuksessa