Turun yliopiston TurkuNLP-tutkimusryhmä on avannut Avoimen Avustajan, jonka kautta kuka vain voi päästä mukaan kehittämään suomenkielistä keskustelevaa tekoälyä. Mutta miksi sinua pitäisi kiinnostaa? Tässä artikkelissa kerrotaan, mitä avoimet kielimallit ovat, miksi näitä on oleellista kehittää ja miten pääset itse osallistumaan.
ChatGPT ja tekoälyhype
Vuoden 2022 lopussa julkaistu ChatGPT on tuonut valtavasti kierroksia tekoälyä ympäröivään keskustelun, ja luonut koko vuoden 2023 kestäneen hypen aiheen ympärille. Hypen seurauksena kaikki tuntuvat tarjoavan mullistavia tekoälyyn liittyviä palveluita: ainoa kielimallien koulutusparametrien määrää nopeammin kasvanut asia on AI-kirjainyhdistelmän esiintyvyys yritysten verkkosivuilla ja ihmisten LinkedIn-profiilien kuvauksissa.
Muutos on ollut niin merkittävä, että (aiemmin vielä kenties hähmäisemmin käytetyllä) tekoäly-termillä viitataan nykyään miltei yksinomaan GPT:n kaltaisiin kielimalleihin. Kielimallejahan on ollut olemassa jo pitkään, mutta ne ovat ennen viime vuoden loppua aiheuttaneet innostusta lähinnä kieliteknologian tutkijoiden ja muutoin alaan vihkiytyneiden parissa.
Kehityksen keihäänkärjessä kulkevat, yllätys yllätys, yhdysvaltalaisyhtiöt. Populaarikulttuurin viittauksista päätellen ongelmien ratkaiseminen rahalla (solving a problem by throwing money at it) on Amerikassa yleinen toimintatapa. Kielimallien kehitys on osoitus siitä, että tämä lähestymistapa toimii ainakin joissain tapauksissa.
Edes kielimalleja kehittävät tutkijat eivät nimittäin tiedä, mitä koulutusajoissa tarkalleen tapahtuu – he tietävät, että mallin tarkkuutta voi parantaa muokkaamalla yksittäisiä parametrejä iteratiivisesti ja ennen kaikkea lisäämällä parametrien määrää. Niinpä paras tapa kehittää yhä parempia kielimalleja on käyttää yhä suurempaa määrää dataa koulutusajoissa.
Käytössä olevat resurssit määrittelevät kielimallien tason
Vaikuttaa vahvasti siltä, että muu maailma on jäämässä markkinajohtajien jalkoihin kehityksessä – ChatGPT:n kaltaisten mallien pohjalla olevien foundation-mallien koulutuksessa saavutetaan sitä parempia tuloksia, mitä enemmän resursseja, eli laskentakapasiteettia koulutukseen on saatavilla. State-of-the-art kielimallien kehityksestä kilpailevien yritysten koulutusajojen kustannukset ovat nykyisellään kymmenien, ellei jopa satojen miljoonien dollarien suuruusluokkaa.
Voi siis olla, että eurooppalaiset yhtiöt eivät mallien tarkkuudella mitattuna koskaan kykene uskottavasti kilpailemaan markkinajohtajien, kuten OpenAI:n, Anthropicin tai Googlen kanssa. Nämä teknologiayhtiöt eivät myöskään ole julkaisseet kehittämiensä mallien arkkitehtuureja, jolloin mallien hyödyntäminen voi esimerkiksi GDPR-syistä olla haasteellista eurooppalaisyhtiöille. Mallien käyttö onnistuu vain niiden omistavien yhtiöiden hallinnoimien käyttöliittymien kautta, mikä tarkoittaa sitä, että kaikki malliin syötetty data päätyy kyseisten yhtiöiden palvelimille ja käyttöön.
Jotta pelikenttää voitaisiin tasata ja jotta eurooppalaiset yhtiöt voisivat GDPR-määräysten mukaisesti hyödyntää kielimalleja työssään, tarvitaan avoimen lähdekoodin vaihtoehtoja. Kuten Silo AI on toistuvasti maininnut, oikeastaan kyse on Euroopan digitaalisesta itsemääräämisoikeudesta. Nykymeno on osoittanut, että riippuvuus millään osa-alueella yksittäisistä maista (tämän viittauksen taitaa kaikki tajuta) tai toimijoista (esim. OpenAI:n sisäisestä valtakamppailusta aiheutunut kriisi) on riskaabelia puuhaa.
Suomenkielisen kielimallin kehityksestä
Jo ennen Silo AI:n ja yhteistyökumppanien Poro-hankkeen käynnistymistä Suomessa on tehty tärkeää työtä avoimen lähdekoodin mallien parissa. TurkuNLP, eli Turun Yliopiston Kieliteknologian tutkimusryhmä on kehittänyt suomenkielisiä avoimen lähdekoodin kielimalleja, kuten FinGPT:tä jo jonkin aikaa. Nyt Silo-vetoisen konsortion ansiosta muskelit suuren foundation-mallin kehitykseen ovat uudella tasolla. Foundation-mallin lisäksi tarvitaan kuitenkin vielä muutakin, jotta käyttäjät pääsevät nauttimaan ChatGPT:n kaltaisesta loistavasta käyttäjäkokemuksesta myös suomeksi.
Foundation-mallin koulutuksen jälkeen mallia on mahdollista hienosäätää (fine-tune) erilaisiin käyttötarkoituksiin paremmin sopivaksi. Tässä vaiheessa koulutusprosessissa muutetaan koulutusmateriaali: internetistä ladattujen tekstidokumenttien sijasta koulutusaineistona käytetään keskusteludataa, eli siis ihmisten kirjoittamia kysymyksiä ja vastauksia. ChatGPT:n kohdalla tämä on tarkoittanut noin 100 000 kysymys-vastaus -parin kirjoittamista ja käyttämistä koulutusmateriaalina. Mallin vastauksia myös arvioidaan ihmisvoimin ja siten mallia ohjataan oikeaan suuntaan. Verrattuna foundation-mallin koulutukseen pullonkaulana ei olekaan laskentakapasiteetti, vaan datan saatavuus.
Suomenkielisen koulutusdatan keräämistä varten TurkuNLP on avannut Avoimen Avustajan, jossa kuka vain voi kirjoittaa kysymyksiä ja vastauksia keskustelevan tekoälyn kehittämiseksi tai arvioida mallin tuottamia vastauksia kysymyksiin. Saatat muistaa Lahjoita puhetta -kampanjan, jossa Helsingin Yliopisto ja Yle keräsivät tavallisten ihmisten puheääntä suomenkielisen puheentunnistuksen kehittämiseksi. Tässä on kyse samasta asiasta – crowdsourcingista – jonka avulla voidaan päästä huikeisiinkin tuloksiin lyhyessä ajassa.
a.i.mater haastaa kaikki tämän postauksen huomanneet kirjoittamaan viisi kysymys-vastaus paria Avoimeen Avustajaan. Näin autamme suomenkielisen keskustelevan tekoälyn kehityksessä, edistämme avoimen lähdekoodin kielimallien kehitystä ja edistämme digitaalista itsemääräämisoikeuttamme.
Kuten Shia LaBeouf sanoisi:
DO IT!
Pääset osallistumaan kampanjaan Avoimen Avustajan verkkosivuilta.