Maaliskuun ääniuutiset

30.03.2023

Ota kuluneen kuukauden mielenkiintoisimmat puheteknologiauutiset haltuun helposti yhdestä artikkelista! Helmikuussa alkanut ääniuutissarja saa taas jatkoa; kuunneltavat versiot YouTube-kanavaltamme.

GPT-4, Googlen puhemalli ja koneäänien uudet käyttötavat

ChatGPT:n uusi GPT-4 tekoälymalli

OpenAI:n julkaisema GPT-4 on multimodaalinen malli, joka omaa entistä paremman päättelykyvyn. Siihen voi syöttää sekä tekstiä että kuvia, ja pyytää näistä aiempaa luovempia ja teknisempiä vastauksia. Uusi malli ei ole edelleenkään täysin luotettava, koska se saattaa hallusinoida osan vastauksistaan ja tehdä päättelyvirheitä. Ihmisen tulee siis edelleen suhtautua varauksella kyseisen kielimallin tuottamiin vastauksiin, vaikka ohjelma kirjoittaisi kuinka sujuvaa tekstiä tahansa. GPT-4:n turvallisuutta on kuitenkin parannettu; se tuottaa asiallisempia vastauksia, eikä se vastaa niin helposti kielletyn sisällön pyyntöihin verrattuna aiempaan GPT-3.5 versioon. Uusi GPT-4 malli on jo otettu käyttöön muun muassa kieltenoppimispeli Duolingon lisäosaan Duolingo Maxiin. Kielen oppijalla on mahdollista saada palautetta vastauksistaan ja syventyä sen kautta kielioppiin, sekä roolipelillisesti keskustella hyvinkin spesifistä aiheesta.

Tekoälyn ylläpitämä RadioGPT

RadioGPT on yhdysvaltalaisen ohjelmistoyritys Futuri Median työkalu, joka voidaan kytkeä radioaseman automaatiojärjestelmään tekemään omaa automaattista radio-ohjelmaa. Ohjelmisto toimii seuraavasti: Futuri Median toinen työkalu nimeltään TopicPulse skannaa automaattisesti somekanavia ja yli 250 000 uutislähdettä. Aiheet voidaan määritellä esimerkiksi siten, että ohjelmisto tarkkailee enemmän paikallisia sisältöjä. Kiinnostavista uutisista se luo ChatGPT:ssä uudet tekstit, joita ihmismäiseltä kuulostava koneääni lukee suorassa lähetyksessä. Ohjelmisto on myös opetettu tuntemaan kaikki kanavalla soitetut musiikit, joten se osaa radiojuontajan tapaan esitellä kappaleet ja kertoa niistä faktoja. RadioGPT:tä testataan parhaillaan Yhdysvalloissa ja Kanadassa, joissa se on saanut suhteellisen hyvää palautetta. Futuri Median toimitusjohtajan Daniel Anstandigin mukaan RadioGPT soveltuu erityisesti työvuoroihin, joissa ei ole henkilökuntaa. Esimerkiksi öisin voitaisiin lähettää RadioGPT:n juontamaa ohjelmaa. Tarkoituksena ei hänen mukaansa ole korvata ihmisjuontajia, vaan saada kuulijat viihtymään entistä paremmin radiokanavan parissa.

Personoituja podcasteja

Jos RadioGPT tuottaa automaattisia radio-ohjelmia, niin nyt Ellipsis Podcasts -niminen yritys tarjoaa tekoälyllä räätälöityjä podcasteja. Ellipsis hyödyntää niin ikään OpenAI:n teknologiaa ja koneääniä. Käyttäjä kirjoittaa sovellukseen ensin podcastjakson aiheen, ja valitsee sitten sävyn, jakson pituuden, sekä lukijan äänen. Tämän jälkeen sovellus luo valmiin jakson. Kyseinen tapa tuoda personoituja sisältöjä on täysin uusi suunta podcast-alalla. Yritys kertookin missiokseen tarjota yksilöille mahdollisuutta uniikkiin sisältöön, joka inspiroi ja informoi kuulijaansa.

Spotifyn oma tekoäly-dj

Spotify lisäsi sovellukseensa uuden tekoäly-dj:n, joka oppii tuntemaan käyttäjänsä musiikkimaun ja kuratoi sopivaa musiikkia käyttäjänsä kuunneltavaksi. Tavoitteena on tehdä Spotifysta interaktiivisempi ja luoda asiakkaalle personoidumpaa musiikinkuuntelukokemusta. Sovellus oppii jatkuvasti käyttäjänsä antamasta palautteesta tekoäly-dj:lle eli mitä enemmän Spotifyita kuuntelee ja antaa palautetta, sitä parempia suosituksia dj antaa. Koska kyseessä on dj, sillä on tottakai myös oma puheääni, joka kertoo kommentteja musiikkisuositusten ohella. Koneäänet on luonut moderneja ja ihmismäisen kuuloisia koneääniä tuottava yritys nimeltään Sonantic, jonka Spotify osti omistukseensa viime vuonna. Ensimmäisen koneäänen takana toimii Spotifyn ensimmäisissä podcasteissa juontanut Xavier Jerniganin. Uusi ominaisuus on julkaistu toistaiseksi vasta Yhdysvalloissa ja Kanadassa.

Googlen tavoitteena tunnistaa tuhat puhutuinta kieltä

Google esitteli uuden Universal Speech Modelin eli puhemallin, joka tunnistaa ja ymmärtää puhuttua kieltä sadoilla eri kielillä ja aksenteilla. Universaali puhemalli on koulutettu jopa 12 miljoonalla puhetunnilla ja 28 miljardilla lauseella tekstiä. Sitä voidaan käyttää luonnollisen kielen käsittelyssä, puhesynteesissä, sekä automaattisessa puheentunnistuksessa, kuten YouTuben tekstityksien tekemiseen. Malli pystyy siis esimerkiksi litteroimaan puhuttua kieltä erittäin tarkasti, tai niiden avulla koneet voivat olla entistä luonnollisemmassa vuorovaikutuksessa ihmisten kanssa, kuten virtuaaliassistenteissa tai puheohjauksella toimivissa ohjelmistoissa. Tällä hetkellä malli pystyy käsittelemään noin 300 kieltä, mutta Googlen kunnianhimoisena tavoitteena on kuitenkin koneoppimismalli, joka pystyisi tunnistamaan maailman tuhat puhutuinta kieltä.

Puheäänen saaminen takaisin synteettisen äänen avulla

Kiinalainen tutkijaryhmä julkaisi kehittämänsä laitteen, jonka ansiosta leikkauksen tai sairauden seurauksena puheäänensä menettänyt voi saada äänensä takaisin. Pienikokoinen laite asennetaan kurkkuun, jossa se voimistaa hiljaisimmatkin äänet ja kuiskaukset normaalille voimakkuudelle synteettisen puheäänen avulla. Kokeellisten tutkimusten perusteella puheen äänteitä ja sanoja voitiin havaita 99 prosentin tarkkuudella. Henkilöiltä, joille oli aiemmin tehty kurkunpään poisto, laite pystyi toistamaan henkilön yrittämät sanat oikein yli 90 prosentin tarkkuudella. Laitetta voidaan käyttää kovaäänisissäkin ympäristöissä, eikä siihen vaikuta ulkopuoliset melunlähteet. Kyseisen innovaation odotetaan tuovan uutta näkökulmaa puheentunnistukseen, mutta myös mekaanisten antureiden käyttöön muun muassa terveyden seurannassa.

Laita äänikloonisi puhumaan eri kieliä

Microsoft julkaisi tämän vuoden tammikuussa VALL-E nimisen tekstistä puheeksi -työkalun, joka pystyy luomaan synteettisen äänikloonin jopa kolmen sekunnin ääninäytteestä ihmisen puhetta. Ohjelma pystyy myös säilyttämään puhujan tunnetilan, eli puhumaan esimerkiksi väsyneesti tai vihaisesti. Jotta tämä on mahdollista, VALL-E:n kouluttamiseen käytettiin yhteensä jopa 60 000 tuntia puhetta yli 7000 ihmiseltä. Nyt kyseistä tekoälymallia on laajennettu VALL E X:ksi. Uuden laajennuksen avulla ääniklooni pystyy puhumaan eri kielillä, säilyttäen alkuperäisen puhujan äänen, tunnetilan ja akustisen ympäristön. Yksinkertaistettuna ohjelma toimii niin, että ihminen antaa sille vähintään kolmen sekunnin ääninäytteensä, josta ohjelma tekee koneäänen. Tämän jälkeen henkilö voi kirjoittaa omalla äidinkielellään tekstin, jonka ohjelma sanoo samaisella koneäänellä esimerkiksi kiinaksi. Näin henkilöt pystyisivät kommunikoimaan vierailla kielillä omalla äänellään. VALL E X:ää ei kuitenkaan ole ainakaan vielä toistaiseksi saatavilla julkiseen käyttöön.

Äänikloonien käyttö puhelinhuijauksissa

Ihmisten äänistä pystytään tekemään ääniklooneja entistä helpommin, sillä äänikloonin tekemiseen riittää nykyään pienikin pätkä nauhoitettua puhetta. Nauhoitettua puhetta on helppo saada esimerkiksi somevideoista, varsinkin kun äänikloonin tekemiseen tarvitaan puhetta parhaimmillaan vain muutamia sekunteja. Myös tuntemattomasta numerosta soittava saattaa haluta nauhoittaa puheluun vastaavan ääntä äänikloonin tekoa varten. Äänikloonin avulla huijarit voivat esittää haluamaansa henkilöä ja ottaa yhteyttä esimerkiksi tämän sukulaisiin. Kanadassa iäkäs pariskunta sai puhelun, jossa lapsenlapsi kertoi joutuneensa vankilaan ja tarvitsevansa 21000 dollaria rahaa takuiden maksuun. Isovanhemmat ehtivät nostaa pankista osan rahasummasta, mutta koska nostoraja tuli vastaan, joutuivat he menemään myös toiseen pankkikonttoriin nostamaan lisää rahaa. Toisessa pankissa työntekijä kuitenkin tunnisti aiemman tapauksen perusteella kyseessä olevan samanlainen huijaus. Lapsenlapsen äänestä oli tehty ääniklooni, jota puhelimen välityksellä oli hyvin vaikea tunnistaa aidoksi. Vastaavanlaisia huijauksia on nyt ollut esillä useampiakin, joten tästä uudesta rahanlähettämishuijauksen muodosta on syytä olla tietoinen.

Maaliskuun ääniversio kuunneltavissa a.i.materin Youtubessa:

Sinua saattaisi kiinnostaa myös seuraavat artikkelit:

Alkuvuoden koneääniuutiset maailmalta

Helmikuun ääniuutiset

Huhtikuun ääniuutiset

Äänen kloonaus – mahdollisuudet ja väärinkäytökset

Mikä ihmeen GPT – Koneoppimisinsinööri vastaa

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

13.6.2024

Miten puheteknologia näkyy tulevaisuuden arkielämässä?

Käsittelyssä kielimuurien häviäminen, henkilökohtaisemmat ääniassistentit, älykodit, äänikloonit, tekoälyllä tuotettava musiikki, median kulutus, terveyssovellukset, asiakaspalvelu, biometrinen tunnistautuminen ja smart city -ajatus.

16.5.2024

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon

23.4.2024

Maaliskuun ääniuutiset

GPT-4, Googlen puhemalli ja koneäänien uudet käyttötavat

ChatGPT:n uusi GPT-4 tekoälymalli

Tekoälyn ylläpitämä RadioGPT

Personoituja podcasteja

Spotifyn oma tekoäly-dj

Googlen tavoitteena tunnistaa tuhat puhutuinta kieltä

Puheäänen saaminen takaisin synteettisen äänen avulla

Laita äänikloonisi puhumaan eri kieliä

Äänikloonien käyttö puhelinhuijauksissa

Maaliskuun ääniversio kuunneltavissa a.i.materin Youtubessa:

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Miten puheteknologia näkyy tulevaisuuden arkielämässä?

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Ääni vai teksti? Tiedon kuluttamisen monimuotoisuus

a.i.mater tuottaa ePress®-näköislehtipalvelun kuunneltavat artikkelit

Yle.fi-verkkosivujen ja -sovelluksen uutisartikkelit nyt kuunneltavissa

Miten saada verkkosivujen tekstisisällöt kuunneltavaan muotoon?

Kiinnostuitko?

On sinulla sitten valmis tarve tai kaipaat ideallesi vasta sparrailua, saamme sitä varmasti yhdessä eteenpäin. Ota yhteyttä, kuulemme mielellämme sinusta!

Sounds better