Lähikuva kädestä, joka on tietokoneen hiiren päällä. Taustalla näppäimistä, kaksi näyttöä, läppärin kulma ja kahvimuki.

Avoimet kielimallit: mitä, miksi ja miten

Turun yliopiston TurkuNLP-tutkimusryhmä on avannut Avoimen Avustajan, jonka kautta kuka vain voi päästä mukaan kehittämään suomenkielistä keskustelevaa tekoälyä. Mutta miksi sinua pitäisi kiinnostaa? Tässä artikkelissa kerrotaan, mitä avoimet kielimallit ovat, miksi näitä on oleellista kehittää ja miten pääset itse osallistumaan.

ChatGPT ja tekoälyhype

Vuoden 2022 lopussa julkaistu ChatGPT on tuonut valtavasti kierroksia tekoälyä ympäröivään keskustelun, ja luonut koko vuoden 2023 kestäneen hypen aiheen ympärille. Hypen seurauksena kaikki tuntuvat tarjoavan mullistavia tekoälyyn liittyviä palveluita: ainoa kielimallien koulutusparametrien määrää nopeammin kasvanut asia on AI-kirjainyhdistelmän esiintyvyys yritysten verkkosivuilla ja ihmisten LinkedIn-profiilien kuvauksissa.

Muutos on ollut niin merkittävä, että (aiemmin vielä kenties hähmäisemmin käytetyllä) tekoäly-termillä viitataan nykyään miltei yksinomaan GPT:n kaltaisiin kielimalleihin. Kielimallejahan on ollut olemassa jo pitkään, mutta ne ovat ennen viime vuoden loppua aiheuttaneet innostusta lähinnä kieliteknologian tutkijoiden ja muutoin alaan vihkiytyneiden parissa.

Kehityksen keihäänkärjessä kulkevat, yllätys yllätys, yhdysvaltalaisyhtiöt. Populaarikulttuurin viittauksista päätellen ongelmien ratkaiseminen rahalla (solving a problem by throwing money at it) on Amerikassa yleinen toimintatapa. Kielimallien kehitys on osoitus siitä, että tämä lähestymistapa toimii ainakin joissain tapauksissa.

Edes kielimalleja kehittävät tutkijat eivät nimittäin tiedä, mitä koulutusajoissa tarkalleen tapahtuu – he tietävät, että mallin tarkkuutta voi parantaa muokkaamalla yksittäisiä parametrejä iteratiivisesti ja ennen kaikkea lisäämällä parametrien määrää. Niinpä paras tapa kehittää yhä parempia kielimalleja on käyttää yhä suurempaa määrää dataa koulutusajoissa.

Käytössä olevat resurssit määrittelevät kielimallien tason

Vaikuttaa vahvasti siltä, että muu maailma on jäämässä markkinajohtajien jalkoihin kehityksessä – ChatGPT:n kaltaisten mallien pohjalla olevien foundation-mallien koulutuksessa saavutetaan sitä parempia tuloksia, mitä enemmän resursseja, eli laskentakapasiteettia koulutukseen on saatavilla. State-of-the-art kielimallien kehityksestä kilpailevien yritysten koulutusajojen kustannukset ovat nykyisellään kymmenien, ellei jopa satojen miljoonien dollarien suuruusluokkaa.

Voi siis olla, että eurooppalaiset yhtiöt eivät mallien tarkkuudella mitattuna koskaan kykene uskottavasti kilpailemaan markkinajohtajien, kuten OpenAI:n, Anthropicin tai Googlen kanssa. Nämä teknologiayhtiöt eivät myöskään ole julkaisseet kehittämiensä mallien arkkitehtuureja, jolloin mallien hyödyntäminen voi esimerkiksi GDPR-syistä olla haasteellista eurooppalaisyhtiöille. Mallien käyttö onnistuu vain niiden omistavien yhtiöiden hallinnoimien käyttöliittymien kautta, mikä tarkoittaa sitä, että kaikki malliin syötetty data päätyy kyseisten yhtiöiden palvelimille ja käyttöön.

Jotta pelikenttää voitaisiin tasata ja jotta eurooppalaiset yhtiöt voisivat GDPR-määräysten mukaisesti hyödyntää kielimalleja työssään, tarvitaan avoimen lähdekoodin vaihtoehtoja. Kuten Silo AI on toistuvasti maininnut, oikeastaan kyse on Euroopan digitaalisesta itsemääräämisoikeudesta. Nykymeno on osoittanut, että riippuvuus millään osa-alueella yksittäisistä maista (tämän viittauksen taitaa kaikki tajuta) tai toimijoista (esim. OpenAI:n sisäisestä valtakamppailusta aiheutunut kriisi) on riskaabelia puuhaa.

Suomenkielisen kielimallin kehityksestä

Jo ennen Silo AI:n ja yhteistyökumppanien Poro-hankkeen käynnistymistä Suomessa on tehty tärkeää työtä avoimen lähdekoodin mallien parissa. TurkuNLP, eli Turun Yliopiston Kieliteknologian tutkimusryhmä on kehittänyt suomenkielisiä avoimen lähdekoodin kielimalleja, kuten FinGPT:tä jo jonkin aikaa. Nyt Silo-vetoisen konsortion ansiosta muskelit suuren foundation-mallin kehitykseen ovat uudella tasolla. Foundation-mallin lisäksi tarvitaan kuitenkin vielä muutakin, jotta käyttäjät pääsevät nauttimaan ChatGPT:n kaltaisesta loistavasta käyttäjäkokemuksesta myös suomeksi.

Foundation-mallin koulutuksen jälkeen mallia on mahdollista hienosäätää (fine-tune) erilaisiin käyttötarkoituksiin paremmin sopivaksi. Tässä vaiheessa koulutusprosessissa muutetaan koulutusmateriaali: internetistä ladattujen tekstidokumenttien sijasta koulutusaineistona käytetään keskusteludataa, eli siis ihmisten kirjoittamia kysymyksiä ja vastauksia. ChatGPT:n kohdalla tämä on tarkoittanut noin 100 000 kysymys-vastaus -parin kirjoittamista ja käyttämistä koulutusmateriaalina. Mallin vastauksia myös arvioidaan ihmisvoimin ja siten mallia ohjataan oikeaan suuntaan. Verrattuna foundation-mallin koulutukseen pullonkaulana ei olekaan laskentakapasiteetti, vaan datan saatavuus.

Suomenkielisen koulutusdatan keräämistä varten TurkuNLP on avannut Avoimen Avustajan, jossa kuka vain voi kirjoittaa kysymyksiä ja vastauksia keskustelevan tekoälyn kehittämiseksi tai arvioida mallin tuottamia vastauksia kysymyksiin. Saatat muistaa Lahjoita puhetta -kampanjan, jossa Helsingin Yliopisto ja Yle keräsivät tavallisten ihmisten puheääntä suomenkielisen puheentunnistuksen kehittämiseksi. Tässä on kyse samasta asiasta – crowdsourcingista – jonka avulla voidaan päästä huikeisiinkin tuloksiin lyhyessä ajassa.

a.i.mater haastaa kaikki tämän postauksen huomanneet kirjoittamaan viisi kysymys-vastaus paria Avoimeen Avustajaan. Näin autamme suomenkielisen keskustelevan tekoälyn kehityksessä, edistämme avoimen lähdekoodin kielimallien kehitystä ja edistämme digitaalista itsemääräämisoikeuttamme.

Kuten Shia LaBeouf sanoisi:

DO IT!

Pääset osallistumaan kampanjaan Avoimen Avustajan verkkosivuilta.

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Kaksi henkilöä istuvat sohvalla läppärit sylissä. Kasvot on rajattu pois kuvasta.
9.9.2024
Digipalvelulaki ja esteettömyysdirektiivi laajenevat kesäkuussa 2025. Artikkelissa kerrotaan, keitä laki koskee myös jatkossa ja mitä saavutettavuusvaatimukset käytännössä ovat. Erityishuomiota kiinnitetään sähkö- ja äänikirjoihin.
Nainen istuu ulkona maalaustelineen kanssa ja katsoo juuri väripalettia kädessään. Taustalla on abstrakti maalaus. Valo tulee naisen takaa, joten hänen hiukset korostuvat muuten tummasta kuvasta. Naisella on kuulokkeet korvilla.
13.6.2024
Käsittelyssä kielimuurien häviäminen, henkilökohtaisemmat ääniassistentit, älykodit, äänikloonit, tekoälyllä tuotettava musiikki, median kulutus, terveyssovellukset, asiakaspalvelu, biometrinen tunnistautuminen ja smart city -ajatus.
Nainen istuu toimistotuolissa tietokoneen edessä ja katsoo näyttöä. Toinen käsi on näppäimistöllä. Taustalla on isot ikkunat.
16.5.2024
Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon
Henkilö istuu lattialla kirjan edessä tekemässä muistiinpanoja. Hänellä on kuulokkeet päässä. Kuvaotettu ylhäältäpäin.
23.4.2024
Tietoa voidaan kuluttaa monin eri tavoin: tämä monimuotoisuus tulisi huomioida myös sisältöä tuottaessa. Ääni ja teksti tukevat toisiaan ja antavat sisällön kuluttajalle valinnanvaraa päättää.
10.1.2024
Digiaudion kulutus kasvaa edelleen, ääni on yhä tärkeämpi osa brändistrategiaa ja ääniklooneja voi hyödyntää muuhunkin kuin hupailuun. Muun muassa näihin voi hyödyntää moderneja koneääniä kuluvana vuonna.
Nainen makoilee sängyllä kuulokkeet päässä, katselee vieressä olevaa kulhollista hedelmiä.
29.9.2023
Käydään läpi digiaudiotutkimusta, jossa syvennytään suomalaisten kuuntelutottumuksiin. Vastauksissa näkyy, miten digiaudion kuuntelusta on tullut valtavirtaa.