Asiantuntija-artikkelKuvan taustalla istuu nainen kuulokkeet päässä ja kirja lattialla, hän tekee muistiinpanoja. Kuvan päällä lukee kieliteknologia.

Kieliteknologia & Bertin päiväkirja

a.i.materin johtava tutkija Kai Hakala käsittelee artikkelissa sitä, miten nykypäivän kustannustehokkaat kieli- ja puheteknologian ratkaisut perustuvat esikoulutettuihin kielimalleihin ja koneoppimiseen. Miten kielifilosofiasta päädytään käytännön työkaluihin ja miten a.i.mater liittyy avoimesti jaetun FinBert-kielimallin kehittämiseen. Lopussa kerrotaan Lahjoita puhetta -hankkeesta, jonka kautta sinäkin voit edistää suomenkielisten kieliteknologiaratkaisujen eteenpäin viemistä.

Kaikki lähtee kielifilosofiasta

Yksi kieliteknologian suurimmista haasteista on luoda menetelmiä, jotka ymmärtävät kielen merkityksiä eli niitä ajatuksia ja aikomuksia, joita pyrimme puheellamme ja teksteillämme viestimään. Kielitieteissä ja -filosofiassa sanojen merkityksen sidonnaisuutta kontekstiin on tutkittu paljon. Osa tutkijoista on valinnut näkökulman, jonka mukaan konteksti itsessään kuvaa sanan merkitystä.

Esimerkiksi filosofi Ludwig Wittgenstein ja kielitieteilijä J. R. Firth ovat usein mainittu uranuurtajina kielen käyttötapojen ja merkitysten tutkimuksessa eri toiminnoissa ja ympäristöissä. He molemmat painottivat kontekstin keskeistä roolia merkitysten muodostamisessa ja esittämisessä.

Tällainen näkökulma voidaan kiteyttää ajatukseen, että sanan merkitys on sen esiintymiskontekstien summa. J. R. Firth muotoili tämän ajatuksen ytimekkäästi lausahdukseensa You shall know a word by the company it keeps.

Kieliteknologian kannalta oleellisinta näissä teorioissa on kysymys siitä, miten sanan tai virkkeen merkitys voidaan johtaa sen kontekstista. Kielimallit ovat insinöörimäinen yksinkertaistus näistä kielitieteen ja -filosofian ajatuksista (hieman niin kuin tämä artikkelikin). Kielimallit kuvaavat sanojen esiintymistodennäköisyyksiä tietyissä konteksteissa.

Nykypäivän kieliteknologia perustuu koneoppimiseen

Kieliteknologia perustuu nykyään vahvasti koneoppimismenetelmiin, sillä kielimallit oppivat arvioimaan esiintymistodennäköisyyksiä nimenomaan koulutusaineiston perusteella. Ne siis ovat oikeastaan Firthin ideaan perustuvia kontekstista johdettuja esityksiä sanojen merkityksistä. Tällä hetkellä trendikkäitä ovat erityisesti neuroverkkoihin perustuvat kielimallit, joskin neuroverkko-termin alle on nykyään upotettu laaja joukko erilaisia koneoppimismenetelmiä.

Koneoppimisen koulutusvaiheessa kielimalleille esitetään tekstiä, jossa osa sanoista on piilotettu ja kielimallin on pyrittävä ennustamaan tekstistä puuttuvia sanoja.

Perinteisemmät kielimallit ovat keskittyneet ainoastaan toispuoleiseen kontekstiin: ne pyrkivät ennustamaan seuraavaa sanaa, kun edellisten sanojen jono on tunnettu. Nykyään osa kielimalleista on sen sijaan koulutettu tarkkailemaan kontekstia ennustettavan sanan molemmilta puolilta. Tämä cloze-testiksi kutsuttu harjoitustehtävä on monille meistäkin tuttu kielten opiskelusta.

Esimerkki cloze-testin kaltaisesta täydennystehtävästä. Kuvassa lukee aimaterin Ilona-koneäänen esittely muutamalla puuttuvalla sanalla.
Esimerkki cloze-testin kaltaisesta täydennystehtävästä.

Siinä missä me olemme joutuneet tekemään tällaisia harjoituksia joitakin kymmeniä opiskelu-uriemme aikana, neuroverkkopohjaiset kielimallit harjoittelevat miljoonien ja miljoonien täydennystehtävien kanssa ja oppivat monimutkaisia sanojen riippuvuussuhteita ja kielen rakenteita, joita ne matemaattisesti kuvaavat.

Tässä välissä on hyvä huomauttaa, etteivät Wittgenstein tai Firth ajatelleet sanojen kontekstia ainoastaan niiden ympärillä esiintyvinä sanoina eli sanojen kollokaationa. Sen sijaan kontekstin käsite pitää sisällään koko ympäröivän maailman: sosiaaliset normit, tilan, ajan, vuorovaikutuksessa olevat henkilöt, aistimukset ja niin edelleen.

Näin laajan kontekstin hyödyntäminen on kuitenkin nykyteknologian ulottumattomissa, joten toistaiseksi meidän on tyydyttävä ainoastaan tarkastelemaan kirjoitettua kontekstia, joskin esimerkiksi kuvia ja tekstiä yhdisteleviä multimodaalisiakin malleja on jo tutkittu.

Tämä tarkoittaa sitä, etteivät kielimallimme pysty assosioimaan esimerkiksi sanaa “kuuma” niihin aistimuksiin, joita tunnemme käydessämme saunassa tai juodessamme kupin kahvia, vaan ne joutuvat tyytymään kuvauksiin tästä tunteesta.

Elmon jälkeen tuli bert

Edellä kuvatun kaltainen kielimalli ei itsessään ole hyödyllinen kuin hyvin harvoihin käytännön sovelluksiin: lähinnä niihin, joissa on koneellisesti tuotettava uutta tekstiä tai tarkistettava olemassa olevan tekstin oikeellisuutta. Sen sijaan koneoppimismenetelmät pystyvät siirtämään kielimallien oppimaa ymmärrystä kielen rakenteesta uusiin tehtäviin, samoin kuin ihminen voi hyödyntää aiempaa osaamistaan uusia haasteita kohdatessaan. Tällöin uusi tehtävä on opittavissa huomattavasti pienemmän koulutusaineiston perusteella.

Koska alkuperäistä kielimallia ei tämän jatkokoulutuksen jälkeen useinkaan enää käytetä, kutsutaan kielimallikoulutusta esikoulutukseksi (pretraining). Sovelluskohtaisen koulutusdatan hankkiminen on monien kieliteknologiaprojektien työläin ja kallein osuus, joten tämän vaiheen minimointi on kustannustehokkuuden kannalta oleellista. Esikoulutus ei taasen vaadi kuin raakatekstiä koulutusaineistokseen.

Kielimallit ovat jo varsin vanha keksintö ja neuroverkkopohjaistenkin kielimallien hyödyntämistä esikoulutuksessa on ehdotettu jo pari vuosikymmentä sitten. Esikoulutus on kuitenkin vakiinnuttanut asemansa kieliteknologiassa vasta viimeisen kymmenen vuoden aikana.

Viimeisin suuri harppaus nähtiin vuonna 2018, kun Google julkaisi Bert-nimisen mallinsa, joka rikkoi liudan aiempia kieliteknologian suorituskykyennätyksiä, vieläpä suurella marginaalilla. Bert yhdistelee parhaimpia puolia monista edeltäneistä malleista ja on ennen kaikkea kooltaan huomattavasti suurempi kuin aiemmat mallit: se kuvaa kielen rakenteita satojen miljoonien muuttujien eli lukuarvojen avulla. Uudemmat mallit ovat vielä kertaluokkaa suurempia ja muuttujien määrät alkavat lähennellä ihmisaivojen neuronien ja linnunradan galaksin tähtien lukumäärää.

Esikoulutus voidaan nähdä analogisena meidänkin koulutusjärjestelmällemme, jossa ensin käydään yleissivistävä peruskoulu ja vasta sen jälkeen erikoistutaan ammattiin. Ilman esikoulutusta koneoppimismalli on aidosti tabula rasa, tyhjä taulu, toisin kuin ihminen, jolle geneettisesti ja epigeneettisesti siirtyy osa aiempien sukupolvien ominaisuuksista.

Kuvainnollisesti esikoulutuksen poisjättäminen on vieläkin radikaalimpi koulutusmuoto kuin vastasyntyneen raahaaminen yliopiston luennoille.

Koneoppimismallien merkittävin etu on niiden rajaton kopiointimahdollisuus

Siinä missä jokainen Maija ja Matti Meikäläinen joutuu käymään peruskoulun läpi, jotta meillä olisi riittävästi työvoimaa, voidaan kielimalli esikouluttaa kerran ja tämän jälkeen kloonata eri sovelluskohtaisiin jatkokoulutuksiin. Erityisen hieno ominaisuus tämä on kahdesta syystä:

  1. Esikoulutus on kallista. Arviot nykyisin käytössä olevien kielimallien esikoulutusprojektien kustannuksista liikkuvat kymmenien tuhansien ja kymmenien miljoonien eurojen välillä, mallien koosta riippuen.
  2. Esikoulutukseen on kerättävä laaja, useiden miljardien sanojen tekstiaineisto, josta cloze-testin kaltaiset harjoitustehtävät muodostetaan. Riittävän suuri aineisto on kyllä saatavilla internetiä indeksoimalla, mutta osa tästä sisällöstä on tekijänoikeudellisesti suojattua, eikä aineiston käyttö ole tällöin mahdollista.

Bertin kehittänyt Google jakoi tutkimuksen julkaistessaan ainoastaan englanninkielisen mallin sekä monikielisen suppeammalla aineistolla koulutetun mallin. Suomenkielisen mallin kouluttaminen jäi täten paikallisten toimijoiden harteille. Onneksemme Turun yliopisto ryhtyi toimeen ja jakoi kouluttamansa suomenkielisen FinBert-kielimallin avoimesti yhtenä ensimmäisistä ei-englanninkielisistä Bert-malleista. Tällaisen mallin kehittämisen mahdollisti Tieteen tietotekniikan keskuksen tarjoamat laskentaresurssit sekä yliopistojen ja Kopioston välinen sopimus tekijänoikeuden suojaamien aineistojen käytöstä tutkimuksessa.

Mainittakoon, että yksi FinBertin pääkehittäjistä on a.i.materin Antti, ja kaikkiaan neljä työntekijäämme ovat työskennelleet Turun yliopiston kieliteknologiaryhmässä.

Suomenkielinen kieliteknologia kehittyy entisestään

Vaikka Bertkin alkaa olla vanhentunutta teknologiaa nopeasti kehittyvällä kieliteknologia-alalla, ei sille ole vielä suomenkielisiä korvaajia. Uudempi malli on toki jo Turun yliopistolla kehityksessä, mutta se on käyttötarkoitukseltaan hieman erilainen, vain toispuoleista kontekstia hyödyntävä. Toistaiseksi FinBert on siis usein paras lähtökohta suomenkielisiin tekstinlouhintasovelluksiin.

a.i.materilla FinBert on käytössä useissa projekteissa, ehkä näkyvimmin Erin-tuotteessamme. Kun Erin analysoi syötteenään saamaansa teosta, se siis hyödyntää esikoulutuksen aikana yli sataan miljoonaa lukuarvoon tallentamaansa tietoa suomen kielen rakenteista ja sanojen merkityksistä. Esikoulutuksen ansiosta Erin pääseekin ihmistasoisiin tuloksiin varsin maltillisella koulutusdatamäärällä.

Kielimallien kaltainen esikoulutus ei rajoitu pelkästään tekstiaineistoihin, vaan vastaavanlaisia malleja hyödynnetään niin konenäössä, puheentunnistuksessa kuin proteiinisekvenssien analysoinnissa. Suomenkielisen puheentunnistuksenkin saralla on tosin todettava, ettei esikoulutukseen kelpaavaa puheaineistoa, saati valmiiksi koulutettua mallia toistaiseksi ole saatavilla. Tähän toivottavasti Helsingin yliopiston ja Ylen Lahjoita puhetta -hanke tekee lähitulevaisuudessa muutoksen.

Voit kasvattaa suomenkielisen puheaineiston määrää ja siten edistää teknologian kehittämistä lahjoittamalla omaa puhettasi täältä.

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Läppäri, jonka näppäimistön päällä on kuulokkeet. Läppärin näytössä on eepressin etusivu.
2.4.2024
Konenäköä ja puhesynteesiä yhdistäneessä projektissa kehitimme ePress-näköislehtipalvelulle pipelinen, joka pystyy tunnistamaan näköislehtien artikkelit ja toimittamaan niistä ääniversiot.
Lähikuva kädestä, joka on tietokoneen hiiren päällä. Taustalla näppäimistä, kaksi näyttöä, läppärin kulma ja kahvimuki.
29.11.2023
Turun yliopiston tutkimusryhmä TurkuNLP on avannut sivuston, jonka kautta sinäkin voit osallistua suomenkielisen keskustelevan tekoälyn kehitykseen. Artikkelissa avataan enemmän kielimallien kehityksen taustoja.
Nainen istuu kesällä puutarhassa taidemaalaustarvikkeiden kanssa. Päässä on kuulokkeet.
14.9.2023
Yhdysvalloissa parhaillaan käynnissä olevassa näyttelijöiden ja käsikirjoittajien lakossa on kysymys myös tekoälyn käytöstä. Huolenaiheet koskevat muun muassa työpaikkoja ja taiteellista luovuutta.
Keskellä lukee toukokuun ääniuutiset. Taustalla kuva kuulokkeista kirjapinon päällä, kuulokkeiden vieressä on juomalasi, jossa sitruunaviipale ja kukkiva omenapuun oksa.
31.5.2023
Toukokuun ääniuutisten aiheina Google Bard, Metan uusi kielimalli, Applen uudet saavutettavuusominaisuudet, kielivähemmistöille suunnattu chatbot ja älykkäät NPC:t.
Nainen istuu auton etupenkillä kuulokkeet päässä ja pädi sylissä.
17.5.2023
Tekoäly ja kieliteknologia mahdollistavat uudenlaisia ja kiinnostavampia tapoja oppia uusia kieliä. Esimerkiksi kieltenoppimissovellukset hyödyntävät luonnollisen kielen käsittelyä.
Keskellä lukee huhtikuun ääniuutiset. Taustalla kuva henkilöstä kuulokkeet päässä ja avonaisesta kirjasta lattialla. Henkilö tekee muistiinpanoja postit-lappuun.
28.4.2023
Kokosimme yhteen artikkeliin huhtikuun kiinnostavimmat puheteknologiauutiset maailmalta. Aiheina muun muassa AutoGPT, äänikloonien teko artistien äänistä, älysilmälasit ja tekoälyuutisankkurit.