Kieliteknologia & Bertin päiväkirja

01.02.2022

a.i.materin johtava tutkija Kai Hakala käsittelee artikkelissa sitä, miten nykypäivän kustannustehokkaat kieli- ja puheteknologian ratkaisut perustuvat esikoulutettuihin kielimalleihin ja koneoppimiseen. Miten kielifilosofiasta päädytään käytännön työkaluihin ja miten a.i.mater liittyy avoimesti jaetun FinBert-kielimallin kehittämiseen. Lopussa kerrotaan Lahjoita puhetta -hankkeesta, jonka kautta sinäkin voit edistää suomenkielisten kieliteknologiaratkaisujen eteenpäin viemistä.

Kaikki lähtee kielifilosofiasta

Yksi kieliteknologian suurimmista haasteista on luoda menetelmiä, jotka ymmärtävät kielen merkityksiä eli niitä ajatuksia ja aikomuksia, joita pyrimme puheellamme ja teksteillämme viestimään. Kielitieteissä ja -filosofiassa sanojen merkityksen sidonnaisuutta kontekstiin on tutkittu paljon. Osa tutkijoista on valinnut näkökulman, jonka mukaan konteksti itsessään kuvaa sanan merkitystä.

Esimerkiksi filosofi Ludwig Wittgenstein ja kielitieteilijä J. R. Firth ovat usein mainittu uranuurtajina kielen käyttötapojen ja merkitysten tutkimuksessa eri toiminnoissa ja ympäristöissä. He molemmat painottivat kontekstin keskeistä roolia merkitysten muodostamisessa ja esittämisessä.

Tällainen näkökulma voidaan kiteyttää ajatukseen, että sanan merkitys on sen esiintymiskontekstien summa. J. R. Firth muotoili tämän ajatuksen ytimekkäästi lausahdukseensa You shall know a word by the company it keeps.

Kieliteknologian kannalta oleellisinta näissä teorioissa on kysymys siitä, miten sanan tai virkkeen merkitys voidaan johtaa sen kontekstista. Kielimallit ovat insinöörimäinen yksinkertaistus näistä kielitieteen ja -filosofian ajatuksista (hieman niin kuin tämä artikkelikin). Kielimallit kuvaavat sanojen esiintymistodennäköisyyksiä tietyissä konteksteissa.

Nykypäivän kieliteknologia perustuu koneoppimiseen

Kieliteknologia perustuu nykyään vahvasti koneoppimismenetelmiin, sillä kielimallit oppivat arvioimaan esiintymistodennäköisyyksiä nimenomaan koulutusaineiston perusteella. Ne siis ovat oikeastaan Firthin ideaan perustuvia kontekstista johdettuja esityksiä sanojen merkityksistä. Tällä hetkellä trendikkäitä ovat erityisesti neuroverkkoihin perustuvat kielimallit, joskin neuroverkko-termin alle on nykyään upotettu laaja joukko erilaisia koneoppimismenetelmiä.

Koneoppimisen koulutusvaiheessa kielimalleille esitetään tekstiä, jossa osa sanoista on piilotettu ja kielimallin on pyrittävä ennustamaan tekstistä puuttuvia sanoja.

Perinteisemmät kielimallit ovat keskittyneet ainoastaan toispuoleiseen kontekstiin: ne pyrkivät ennustamaan seuraavaa sanaa, kun edellisten sanojen jono on tunnettu. Nykyään osa kielimalleista on sen sijaan koulutettu tarkkailemaan kontekstia ennustettavan sanan molemmilta puolilta. Tämä cloze-testiksi kutsuttu harjoitustehtävä on monille meistäkin tuttu kielten opiskelusta.

Siinä missä me olemme joutuneet tekemään tällaisia harjoituksia joitakin kymmeniä opiskelu-uriemme aikana, neuroverkkopohjaiset kielimallit harjoittelevat miljoonien ja miljoonien täydennystehtävien kanssa ja oppivat monimutkaisia sanojen riippuvuussuhteita ja kielen rakenteita, joita ne matemaattisesti kuvaavat.

Tässä välissä on hyvä huomauttaa, etteivät Wittgenstein tai Firth ajatelleet sanojen kontekstia ainoastaan niiden ympärillä esiintyvinä sanoina eli sanojen kollokaationa. Sen sijaan kontekstin käsite pitää sisällään koko ympäröivän maailman: sosiaaliset normit, tilan, ajan, vuorovaikutuksessa olevat henkilöt, aistimukset ja niin edelleen.

Näin laajan kontekstin hyödyntäminen on kuitenkin nykyteknologian ulottumattomissa, joten toistaiseksi meidän on tyydyttävä ainoastaan tarkastelemaan kirjoitettua kontekstia, joskin esimerkiksi kuvia ja tekstiä yhdisteleviä multimodaalisiakin malleja on jo tutkittu.

Tämä tarkoittaa sitä, etteivät kielimallimme pysty assosioimaan esimerkiksi sanaa “kuuma” niihin aistimuksiin, joita tunnemme käydessämme saunassa tai juodessamme kupin kahvia, vaan ne joutuvat tyytymään kuvauksiin tästä tunteesta.

Elmon jälkeen tuli bert

Edellä kuvatun kaltainen kielimalli ei itsessään ole hyödyllinen kuin hyvin harvoihin käytännön sovelluksiin: lähinnä niihin, joissa on koneellisesti tuotettava uutta tekstiä tai tarkistettava olemassa olevan tekstin oikeellisuutta. Sen sijaan koneoppimismenetelmät pystyvät siirtämään kielimallien oppimaa ymmärrystä kielen rakenteesta uusiin tehtäviin, samoin kuin ihminen voi hyödyntää aiempaa osaamistaan uusia haasteita kohdatessaan. Tällöin uusi tehtävä on opittavissa huomattavasti pienemmän koulutusaineiston perusteella.

Koska alkuperäistä kielimallia ei tämän jatkokoulutuksen jälkeen useinkaan enää käytetä, kutsutaan kielimallikoulutusta esikoulutukseksi (pretraining). Sovelluskohtaisen koulutusdatan hankkiminen on monien kieliteknologiaprojektien työläin ja kallein osuus, joten tämän vaiheen minimointi on kustannustehokkuuden kannalta oleellista. Esikoulutus ei taasen vaadi kuin raakatekstiä koulutusaineistokseen.

Kielimallit ovat jo varsin vanha keksintö ja neuroverkkopohjaistenkin kielimallien hyödyntämistä esikoulutuksessa on ehdotettu jo pari vuosikymmentä sitten. Esikoulutus on kuitenkin vakiinnuttanut asemansa kieliteknologiassa vasta viimeisen kymmenen vuoden aikana.

Viimeisin suuri harppaus nähtiin vuonna 2018, kun Google julkaisi Bert-nimisen mallinsa, joka rikkoi liudan aiempia kieliteknologian suorituskykyennätyksiä, vieläpä suurella marginaalilla. Bert yhdistelee parhaimpia puolia monista edeltäneistä malleista ja on ennen kaikkea kooltaan huomattavasti suurempi kuin aiemmat mallit: se kuvaa kielen rakenteita satojen miljoonien muuttujien eli lukuarvojen avulla. Uudemmat mallit ovat vielä kertaluokkaa suurempia ja muuttujien määrät alkavat lähennellä ihmisaivojen neuronien ja linnunradan galaksin tähtien lukumäärää.

Esikoulutus voidaan nähdä analogisena meidänkin koulutusjärjestelmällemme, jossa ensin käydään yleissivistävä peruskoulu ja vasta sen jälkeen erikoistutaan ammattiin. Ilman esikoulutusta koneoppimismalli on aidosti tabula rasa, tyhjä taulu, toisin kuin ihminen, jolle geneettisesti ja epigeneettisesti siirtyy osa aiempien sukupolvien ominaisuuksista.

Kuvainnollisesti esikoulutuksen poisjättäminen on vieläkin radikaalimpi koulutusmuoto kuin vastasyntyneen raahaaminen yliopiston luennoille.

Koneoppimismallien merkittävin etu on niiden rajaton kopiointimahdollisuus

Siinä missä jokainen Maija ja Matti Meikäläinen joutuu käymään peruskoulun läpi, jotta meillä olisi riittävästi työvoimaa, voidaan kielimalli esikouluttaa kerran ja tämän jälkeen kloonata eri sovelluskohtaisiin jatkokoulutuksiin. Erityisen hieno ominaisuus tämä on kahdesta syystä:

Esikoulutus on kallista. Arviot nykyisin käytössä olevien kielimallien esikoulutusprojektien kustannuksista liikkuvat kymmenien tuhansien ja kymmenien miljoonien eurojen välillä, mallien koosta riippuen.
Esikoulutukseen on kerättävä laaja, useiden miljardien sanojen tekstiaineisto, josta cloze-testin kaltaiset harjoitustehtävät muodostetaan. Riittävän suuri aineisto on kyllä saatavilla internetiä indeksoimalla, mutta osa tästä sisällöstä on tekijänoikeudellisesti suojattua, eikä aineiston käyttö ole tällöin mahdollista.

Bertin kehittänyt Google jakoi tutkimuksen julkaistessaan ainoastaan englanninkielisen mallin sekä monikielisen suppeammalla aineistolla koulutetun mallin. Suomenkielisen mallin kouluttaminen jäi täten paikallisten toimijoiden harteille. Onneksemme Turun yliopisto ryhtyi toimeen ja jakoi kouluttamansa suomenkielisen FinBert-kielimallin avoimesti yhtenä ensimmäisistä ei-englanninkielisistä Bert-malleista. Tällaisen mallin kehittämisen mahdollisti Tieteen tietotekniikan keskuksen tarjoamat laskentaresurssit sekä yliopistojen ja Kopioston välinen sopimus tekijänoikeuden suojaamien aineistojen käytöstä tutkimuksessa.

Mainittakoon, että yksi FinBertin pääkehittäjistä on a.i.materin Antti, ja kaikkiaan neljä työntekijäämme ovat työskennelleet Turun yliopiston kieliteknologiaryhmässä.

Suomenkielinen kieliteknologia kehittyy entisestään

Vaikka Bertkin alkaa olla vanhentunutta teknologiaa nopeasti kehittyvällä kieliteknologia-alalla, ei sille ole vielä suomenkielisiä korvaajia. Uudempi malli on toki jo Turun yliopistolla kehityksessä, mutta se on käyttötarkoitukseltaan hieman erilainen, vain toispuoleista kontekstia hyödyntävä. Toistaiseksi FinBert on siis usein paras lähtökohta suomenkielisiin tekstinlouhintasovelluksiin.

a.i.materilla FinBert on käytössä useissa projekteissa, ehkä näkyvimmin Erin-tuotteessamme. Kun Erin analysoi syötteenään saamaansa teosta, se siis hyödyntää esikoulutuksen aikana yli sataan miljoonaa lukuarvoon tallentamaansa tietoa suomen kielen rakenteista ja sanojen merkityksistä. Esikoulutuksen ansiosta Erin pääseekin ihmistasoisiin tuloksiin varsin maltillisella koulutusdatamäärällä.

Kielimallien kaltainen esikoulutus ei rajoitu pelkästään tekstiaineistoihin, vaan vastaavanlaisia malleja hyödynnetään niin konenäössä, puheentunnistuksessa kuin proteiinisekvenssien analysoinnissa. Suomenkielisen puheentunnistuksenkin saralla on tosin todettava, ettei esikoulutukseen kelpaavaa puheaineistoa, saati valmiiksi koulutettua mallia toistaiseksi ole saatavilla. Tähän toivottavasti Helsingin yliopiston ja Ylen Lahjoita puhetta -hanke tekee lähitulevaisuudessa muutoksen.

Voit kasvattaa suomenkielisen puheaineiston määrää ja siten edistää teknologian kehittämistä lahjoittamalla omaa puhettasi täältä.

Sinua saattaisi kiinnostaa myös artikkelit:

Mikä ihmeen GPT – Koneoppimisinsinööri vastaa

Tehosta äänikirjan tuottamista Erinin avulla

Tekstinlouhinta – Tekstisisältöjen hyödyntäminen liiketoiminnassa

Mitä puheentunnistus on?

Mikä on puhekäyttöliittymä? Edut, ongelmat, suunnittelu

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

16.5.2024

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon

2.4.2024

Kieliteknologia & Bertin päiväkirja

Kaikki lähtee kielifilosofiasta

Nykypäivän kieliteknologia perustuu koneoppimiseen

Koneoppimisen koulutusvaiheessa kielimalleille esitetään tekstiä, jossa osa sanoista on piilotettu ja kielimallin on pyrittävä ennustamaan tekstistä puuttuvia sanoja.

Tämä tarkoittaa sitä, etteivät kielimallimme pysty assosioimaan esimerkiksi sanaa “kuuma” niihin aistimuksiin, joita tunnemme käydessämme saunassa tai juodessamme kupin kahvia, vaan ne joutuvat tyytymään kuvauksiin tästä tunteesta.

Elmon jälkeen tuli bert

Kuvainnollisesti esikoulutuksen poisjättäminen on vieläkin radikaalimpi koulutusmuoto kuin vastasyntyneen raahaaminen yliopiston luennoille.

Koneoppimismallien merkittävin etu on niiden rajaton kopiointimahdollisuus

Mainittakoon, että yksi FinBertin pääkehittäjistä on a.i.materin Antti, ja kaikkiaan neljä työntekijäämme ovat työskennelleet Turun yliopiston kieliteknologiaryhmässä.

Suomenkielinen kieliteknologia kehittyy entisestään

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

a.i.mater tuottaa ePress®-näköislehtipalvelun kuunneltavat artikkelit

Avoimet kielimallit: mitä, miksi ja miten

Tekoäly ja viihde – lakko Hollywoodissa

Toukokuun ääniuutiset

Kieliteknologian rooli uuden kielen oppimisessa

Kiinnostuitko?

On sinulla sitten valmis tarve tai kaipaat ideallesi vasta sparrailua, saamme sitä varmasti yhdessä eteenpäin. Ota yhteyttä, kuulemme mielellämme sinusta!

Sounds better