Äänen kloonaus – mahdollisuudet ja väärinkäytökset

09.02.2023

Koneäänten kehityksessä käytettävät koneoppimismallit oppivat opetusdatana käytettävästä äänestä puhujan äänen lisäksi myös tämän tavan puhua. Menetelmien kehittyessä päästään yhä lähemmäs alkuperäisen ihmisen kuuloista koneääntä, erityisesti korkealaatuista lähtödataa käytettäessä. Nopeasti yleistyvä termi tälle on äänen kloonaus – todellisesta kloonaamisesta voidaan puhua kun koneääntä ei enää voi erottaa alkuperäisestä.

Äänen kloonaamisella (voice cloning) on mahdollista nykyteknologiallakin päästä niin aidonkuuloiseen lopputulokseen, että ihmiskuulija ei välttämättä enää tilanteesta riippuen osaa erottaa ihmistä koneäänestä. Luonnollisimman kuuloiseen lopputulokseen päästään kasvattamalla äänidatan määrä ja varmistamalla sen mahdollisimman hyvä laatu; suuri merkitys on esimerkiksi sillä onko ääni nauhoitettu korkealaatuisesti hiljaisessa studiossa vai onko koulutukseen käytettävät äänipätkät napattu uutis- tai somevideoista.

EI PELKKÄÄ "HUPAILUA"

Äänen kloonauksesta puhuttaessa ensimmäisenä mieleen saattaa tulla ihmisten kustannuksella tehdyt pilat ja erilaiset väärinkäytökset mediassa ja somessa kiertävien juttujen takia. Hyviäkin puolia ja oikeita käyttökohteita kuitenkin on. Äänen kloonausta käytetään tekijänoikeuksia kunnioittaen muun muassa elokuvissa, äänikirjoissa, peleissä, asiakaspalvelussa ja erilaisten räätälöityjen brändiäänien yhteydessä. Sitä voidaan käyttää siis kaikkeen, mihin koneääntä ylipäätänsä voidaan käyttää. Automatisoitu sisällöntuotanto on ChatGPT:nkin luomien mahdollisuuksien ansiosta yleistymässä – yksi esimerkki tällaisesta on RadioGTP, täysin automaattinen, tekoälypohjainen radiokanava. Yhdistettynä tekstiä tuottavaan komponenttiin puhesynteesi voi siis mullistaa ja automatisoida kokonaisia toimialoja.

Äänen kloonaus voi avata mielenkiintoisia lisätienestimahdollisuuksia äänenkäytön ammattilaisille: koneäänet pystyvät lukemaan ääneen ihmistä suuremman määrän sisältöjä. Mikäli äänen hyödyntämisen sopimus mahdollistaa äänen laajan hyödyntämisen, koneääntä voidaan käyttää moniinkin eri tarkoituksiin kun näyttelijän ääni on kerran kloonattu. Sisältöjen korjaamisen voisi niin ikään ajatella helpottuvan huomattavasti jos koneääntä voidaan hyödyntää tähän.

Äänen kloonauksella äänisisältöä on mahdollista lokalisoida toiselle kielelle, aksentille tai murteelle saman ihmisäänen äänellä. Sisällön tuottaminen eri alueille helpottuu.

Äänen kloonaus säästää siis aikaa ja rahaa ja uutta äänisisältöä voidaan luoda hetkessä, ilman studionauhoituksia.

Äänen kloonauksella on myös elämänlaatua parantavia vaikutuksia. Jos henkilö on onnettomuuden tai sairauden seurauksena menettänyt äänensä, ääni voidaan luoda uudelleen onnettomuutta ennen kertyneestä äänidatasta. Elokuvissa taas on saatu tehtyä ääninäyttely alkuperäistä muistuttavalla äänellä, vaikka henkilö olisi jo nauttimassa eläkepäivistään. Esimerkiksi Star Warsissa Darth Vaderin äänenä vuodesta 1977 asti toiminut James Earl Jones antoi luvan tehdä äänestään koneäänen, jotta samaa ääntä voitaisiin käyttää jatkossakin.

Aiheeseen liittyy eettisiä ja vastuullisia kysymyksiä. Siksi on tärkeää varmistaa, että jo alkuperäinenkin äänidata on kerätty ja sitä käytetään alkuperäisen äänen omistajan luvalla.

Henkilön menehtyessä nousee keskustelut siitä, kenellä on oikeus ääneen. Onko esimerkiksi omaisilla oikeus antaa lupa tehdä jo menehtyneen äänidatasta koneääni? Tämänlainen kysymys tuli vastaan, kun kävi ilmi, että menehtyneen kirjailija ja kokki Anthony Bourdainin ääntä oli kloonattu hänen elämästään kertovaan dokumenttielokuvaan mahdollisesti ilman lupaa.

Syväväärennökset

Muun muassa äänen kloonauksen väärinkäyttöjen yhteydessä käytetään termiä syväväärennös, deepfake. Syväväärennöksistä puhuttaessa tarkoitetaan aidolta vaikuttavaa sisältöä, kuten ääntä, kuvaa tai videota, joka on tuotettu tekoälyn avulla. Kuvista ja videoista on tehty jo pidempään syväväärennöksiä, mutta ihmisen äänestä on ollut vaikeampi tehdä uskottavaa väärennöstä.

Syväväärennökset voivat mahdollistaa huijauksia ja aiheuttaa merkittävää mainehaittaa, josta esimerkkinä toimii julkkisten tai poliitikkojen äänikloonauksilla väärennetyt lausunnot tai mielipiteet. Äänen kloonaus mahdollistaa sanojen laittamisen toisen suuhun ja muun muassa propagandan tekemisen.

Vuonna 2022 perustettu startup-yritys ElevenLabs julkaisi vain pari viikkoa sitten ilmaisen beta-version kehittämästään äänikloonaustyökalusta. Työkalu julkaistiin sisällöntuottajia ja mediajulkaisijoita ajatellen. Äänikloonaus aiheutti kuitenkin heti väärinkäytöksiä, sillä se oli vapaasti kaikkien käytössä. ElevenLabs ilmoittikin vain paria päivää julkistuksensa jälkeen lisäsuojatoimista ja esti ilmaistason käyttäjien pääsyn työkaluun. Väärinkäytökset koskivat lähinnä julkkisten ja tubettajien äänillä tehtyjä ”hauskoja vitsejä”, mutta myös mainehaittaa aiheuttavia väärennöksiä; muun muassa Harry Pottereista tutun näyttelijä Emma Watsonin äänikloonilla luettiin kappale Hitlerin Mein Kampfista ja sitä levitettiin somessa.

Suomen Kuvalehti taas kirjoitti jutun syväväärennöksistä, jossa esihenkilö oli puhelimessa saanut pyynnön ”pomoltaan” siirtää ison summan yrityksen rahoja toiselle tilille. Työntekijä oli totellut puhelimessa aidolta kuulostanutta esimiestään, koska oli tunnistanut selvästi tämän aksentin ja äänen. Kyseessä oli kuitenkin ollut syväväärennös pomon äänestä. Tämä mielenkiintoinen Suomen Kuvalehden juttu on kuunneltavissa kokonaisuudessaan koneääni-Ilonan lukemana täältä.

Syväväärennöksen tunnistaminen

Teknologia kehittyy koko ajan, jolloin syväväärennöksistä tulee entistä aidomman oloisia. Miten siis syväväärennettyjä tapauksia voidaan ehkäistä ja miten voimme tunnistaa, onko kyseessä ihmisääni vai tästä tehty synteettinen kopio?

Hyvällä medialukutaidolla pääsee jo pitkälle, kun kyseessä on somessa leviävät videot, kuvat ja nauhoitteet. Erityisen epäselvissä tapauksissa voi teknologiasta olla hyötyä: sekä audio- että videosyväväärennösten tunnistamiseen on kehitetty koneoppimismetelmiin perustuvia työkaluja. Samankaltaiset menetelmät ovat yleistymässä myös tekstiä tuottavien työkalujen, kuten ChatGPT:n sisältöjen tunnistamisessa.

Vastuu näissä asioissa on ensisijaisesti palveluntuottajilla ja tutkimuksessa keskustellaan paljon tekoälyn tuottamien sisältöjen merkitsemisestä esimerkiksi vesileimoin. Tekoälyn vastuullisen hyödyntämisen keskusteluissa yleinen aihe on ihmisen ja tekoälyn tuottamien sisältöjen merkitsemisen tärkeys. Tästä saanemme tulevaisuudessa selkeämpiä linjauksia muun muassa uuden lainsäädännön muodossa.

Sinua saattaisi kiinnostaa myös seuraavat artikkelit:

Mikä ihmeen GPT – koneoppimisinsinööri vastaa

Yle.fi-verkkosivujen ja -sovelluksen uutisartikkelit nyt kuunneltavissa

Räätälöity koneääni osana yrityksesi audiobrändiä

Esittelyssä suomenruotsalainen koneääni Amanda

Fölin pysäkkikuulutuksiin teetettiin oma koneääni

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

13.6.2024

Miten puheteknologia näkyy tulevaisuuden arkielämässä?

Käsittelyssä kielimuurien häviäminen, henkilökohtaisemmat ääniassistentit, älykodit, äänikloonit, tekoälyllä tuotettava musiikki, median kulutus, terveyssovellukset, asiakaspalvelu, biometrinen tunnistautuminen ja smart city -ajatus.

16.5.2024

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon

23.4.2024

Äänen kloonaus – mahdollisuudet ja väärinkäytökset

EI PELKKÄÄ "HUPAILUA"

Äänen kloonaus säästää siis aikaa ja rahaa ja uutta äänisisältöä voidaan luoda hetkessä, ilman studionauhoituksia.

Syväväärennökset

Syväväärennöksen tunnistaminen

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Miten puheteknologia näkyy tulevaisuuden arkielämässä?

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Ääni vai teksti? Tiedon kuluttamisen monimuotoisuus

a.i.mater tuottaa ePress®-näköislehtipalvelun kuunneltavat artikkelit

Yle.fi-verkkosivujen ja -sovelluksen uutisartikkelit nyt kuunneltavissa

Miten saada verkkosivujen tekstisisällöt kuunneltavaan muotoon?

Kiinnostuitko?

On sinulla sitten valmis tarve tai kaipaat ideallesi vasta sparrailua, saamme sitä varmasti yhdessä eteenpäin. Ota yhteyttä, kuulemme mielellämme sinusta!

Sounds better