Mies istuu tietokoneen edessä kuulokkeet päässä. Hän nauhoittaa studiomikkiin puhettaan. Takana on ristikkoikkunat, joista näkyy vihreää luontoa.

Äänen kloonaus – mahdollisuudet ja väärinkäytökset

Koneäänten kehityksessä käytettävät koneoppimismallit oppivat opetusdatana käytettävästä äänestä puhujan äänen lisäksi myös tämän tavan puhua. Menetelmien kehittyessä päästään yhä lähemmäs alkuperäisen ihmisen kuuloista koneääntä, erityisesti korkealaatuista lähtödataa käytettäessä. Nopeasti yleistyvä termi tälle on äänen kloonaus – todellisesta kloonaamisesta voidaan puhua kun koneääntä ei enää voi erottaa alkuperäisestä. 

Äänen kloonaamisella (voice cloning) on mahdollista nykyteknologiallakin päästä niin aidonkuuloiseen lopputulokseen, että ihmiskuulija ei välttämättä enää tilanteesta riippuen osaa erottaa ihmistä koneäänestä. Luonnollisimman kuuloiseen lopputulokseen päästään kasvattamalla äänidatan määrä ja varmistamalla sen mahdollisimman hyvä laatu; suuri merkitys on esimerkiksi sillä onko ääni nauhoitettu korkealaatuisesti hiljaisessa studiossa vai onko koulutukseen käytettävät äänipätkät napattu uutis- tai somevideoista.

EI PELKKÄÄ "HUPAILUA"

Äänen kloonauksesta puhuttaessa ensimmäisenä mieleen saattaa tulla ihmisten kustannuksella tehdyt pilat ja erilaiset väärinkäytökset mediassa ja somessa kiertävien juttujen takia. Hyviäkin puolia ja oikeita käyttökohteita kuitenkin on. Äänen kloonausta käytetään tekijänoikeuksia kunnioittaen muun muassa elokuvissa, äänikirjoissa, peleissä, asiakaspalvelussa ja erilaisten räätälöityjen brändiäänien yhteydessä. Sitä voidaan käyttää siis kaikkeen, mihin koneääntä ylipäätänsä voidaan käyttää. Automatisoitu sisällöntuotanto on ChatGPT:nkin luomien mahdollisuuksien ansiosta yleistymässä – yksi esimerkki tällaisesta on RadioGTP, täysin automaattinen, tekoälypohjainen radiokanava. Yhdistettynä tekstiä tuottavaan komponenttiin puhesynteesi voi siis mullistaa ja automatisoida kokonaisia toimialoja. 

Äänen kloonaus voi avata mielenkiintoisia lisätienestimahdollisuuksia äänenkäytön ammattilaisille: koneäänet pystyvät lukemaan ääneen ihmistä suuremman määrän sisältöjä. Mikäli äänen hyödyntämisen sopimus mahdollistaa äänen laajan hyödyntämisen, koneääntä voidaan käyttää moniinkin eri tarkoituksiin kun näyttelijän ääni on kerran kloonattu. Sisältöjen korjaamisen voisi niin ikään ajatella helpottuvan huomattavasti jos koneääntä voidaan hyödyntää tähän.  

Äänen kloonauksella äänisisältöä on mahdollista lokalisoida toiselle kielelle, aksentille tai murteelle saman ihmisäänen äänellä. Sisällön tuottaminen eri alueille helpottuu.

Äänen kloonaus säästää siis aikaa ja rahaa ja uutta äänisisältöä voidaan luoda hetkessä, ilman studionauhoituksia.

Äänen kloonauksella on myös elämänlaatua parantavia vaikutuksia. Jos henkilö on onnettomuuden tai sairauden seurauksena menettänyt äänensä, ääni voidaan luoda uudelleen onnettomuutta ennen kertyneestä äänidatasta. Elokuvissa taas on saatu tehtyä ääninäyttely alkuperäistä muistuttavalla äänellä, vaikka henkilö olisi jo nauttimassa eläkepäivistään. Esimerkiksi Star Warsissa Darth Vaderin äänenä vuodesta 1977 asti toiminut James Earl Jones antoi luvan tehdä äänestään koneäänen, jotta samaa ääntä voitaisiin käyttää jatkossakin.

Aiheeseen liittyy eettisiä ja vastuullisia kysymyksiä. Siksi on tärkeää varmistaa, että jo alkuperäinenkin äänidata on kerätty ja sitä käytetään alkuperäisen äänen omistajan luvalla.

Henkilön menehtyessä nousee keskustelut siitä, kenellä on oikeus ääneen. Onko esimerkiksi omaisilla oikeus antaa lupa tehdä jo menehtyneen äänidatasta koneääni? Tämänlainen kysymys tuli vastaan, kun kävi ilmi, että menehtyneen kirjailija ja kokki Anthony Bourdainin ääntä oli kloonattu hänen elämästään kertovaan dokumenttielokuvaan mahdollisesti ilman lupaa. 

Syväväärennökset

Muun muassa äänen kloonauksen väärinkäyttöjen yhteydessä käytetään termiä syväväärennös, deepfake. Syväväärennöksistä puhuttaessa tarkoitetaan aidolta vaikuttavaa sisältöä, kuten ääntä, kuvaa tai videota, joka on tuotettu tekoälyn avulla. Kuvista ja videoista on tehty jo pidempään syväväärennöksiä, mutta ihmisen äänestä on ollut vaikeampi tehdä uskottavaa väärennöstä.

Syväväärennökset voivat mahdollistaa huijauksia ja aiheuttaa merkittävää mainehaittaa, josta esimerkkinä toimii julkkisten tai poliitikkojen äänikloonauksilla väärennetyt lausunnot tai mielipiteet. Äänen kloonaus mahdollistaa sanojen laittamisen toisen suuhun ja muun muassa propagandan tekemisen.

Vuonna 2022 perustettu startup-yritys ElevenLabs julkaisi vain pari viikkoa sitten ilmaisen beta-version kehittämästään äänikloonaustyökalusta. Työkalu julkaistiin sisällöntuottajia ja mediajulkaisijoita ajatellen. Äänikloonaus aiheutti kuitenkin heti väärinkäytöksiä, sillä se oli vapaasti kaikkien käytössä. ElevenLabs ilmoittikin vain paria päivää julkistuksensa jälkeen lisäsuojatoimista ja esti ilmaistason käyttäjien pääsyn työkaluun. Väärinkäytökset koskivat lähinnä julkkisten ja tubettajien äänillä tehtyjä ”hauskoja vitsejä”, mutta myös mainehaittaa aiheuttavia väärennöksiä; muun muassa Harry Pottereista tutun näyttelijä Emma Watsonin äänikloonilla luettiin kappale Hitlerin Mein Kampfista ja sitä levitettiin somessa.

Suomen Kuvalehti taas kirjoitti jutun syväväärennöksistä, jossa esihenkilö oli puhelimessa saanut pyynnön ”pomoltaan” siirtää ison summan yrityksen rahoja toiselle tilille. Työntekijä oli totellut puhelimessa aidolta kuulostanutta esimiestään, koska oli tunnistanut selvästi tämän aksentin ja äänen. Kyseessä oli kuitenkin ollut syväväärennös pomon äänestä. Tämä mielenkiintoinen Suomen Kuvalehden juttu on kuunneltavissa kokonaisuudessaan koneääni-Ilonan lukemana täältä.

Syväväärennöksen tunnistaminen

Teknologia kehittyy koko ajan, jolloin syväväärennöksistä tulee entistä aidomman oloisia. Miten siis syväväärennettyjä tapauksia voidaan ehkäistä ja miten voimme tunnistaa, onko kyseessä ihmisääni vai tästä tehty synteettinen kopio?

Hyvällä medialukutaidolla pääsee jo pitkälle, kun kyseessä on somessa leviävät videot, kuvat ja nauhoitteet. Erityisen epäselvissä tapauksissa voi teknologiasta olla hyötyä: sekä audio- että videosyväväärennösten tunnistamiseen on kehitetty koneoppimismetelmiin perustuvia työkaluja. Samankaltaiset menetelmät ovat yleistymässä myös tekstiä tuottavien työkalujen, kuten ChatGPT:n sisältöjen tunnistamisessa.

Vastuu näissä asioissa on ensisijaisesti palveluntuottajilla ja tutkimuksessa keskustellaan paljon tekoälyn tuottamien sisältöjen merkitsemisestä esimerkiksi vesileimoin. Tekoälyn vastuullisen hyödyntämisen keskusteluissa yleinen aihe on ihmisen ja tekoälyn tuottamien sisältöjen merkitsemisen tärkeys. Tästä saanemme tulevaisuudessa selkeämpiä linjauksia muun muassa uuden lainsäädännön muodossa.

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Nainen istuu toimistotuolissa tietokoneen edessä ja katsoo näyttöä. Toinen käsi on näppäimistöllä. Taustalla on isot ikkunat.
16.5.2024
Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon
Henkilö istuu lattialla kirjan edessä tekemässä muistiinpanoja. Hänellä on kuulokkeet päässä. Kuvaotettu ylhäältäpäin.
23.4.2024
Tietoa voidaan kuluttaa monin eri tavoin: tämä monimuotoisuus tulisi huomioida myös sisältöä tuottaessa. Ääni ja teksti tukevat toisiaan ja antavat sisällön kuluttajalle valinnanvaraa päättää.
Läppäri, jonka näppäimistön päällä on kuulokkeet. Läppärin näytössä on eepressin etusivu.
2.4.2024
Konenäköä ja puhesynteesiä yhdistäneessä projektissa kehitimme ePress-näköislehtipalvelulle pipelinen, joka pystyy tunnistamaan näköislehtien artikkelit ja toimittamaan niistä ääniversiot.
Kuulokkeet tietokonepöydän päällä.
14.3.2024
Yle on ottanut käyttöön a.i.materin kehittämän kuuntelumahdollisuuden uutissivuilleen. Kuunteluominaisuus parantaa palvelun digitaalista saavutettavuutta.
Aimaterin työntekijät Roope ja Niko tutkivat työpöydän edessä tietokoneelta jotain. Roope juuri osoittaa kädellään näyttöä.
28.2.2024
Artikkelissa esitellään ja vertaillaan verkkosivulukijaa ja äänirajapintaa: miten ne toimivat ja mikä tapa sopii mihinkin tarkoitukseen.
Educa-messujen 2024 logo
29.1.2024
a.i.mater oli mukana Educa-messuilla näytteilleasettajan roolissa. Paljon kiinnostavia kohtaamisia, keskusteluja mahdollisten uusien asiakkaiden kanssa, sekä nykyisten asiakkaiden ja yhteistyökumppanien tapaamisia.