Mikä ihmeen GPT? – Koneoppimisinsinööri vastaa

11.04.2023

ChatGPT ja sen jälkeen julkaistu GPT-4 ovat saaneet suurta huomiota IT- ja koneoppimisalojen lisäksi yleisessäkin mediassa. Tämä artikkeli toimii oppaana ja käy läpi mitä GPT tarkoittaa, mikä se on, teknologian kehityshistoriaa ja mihin sitä voi käyttää. Artikkelin on kirjoittanut a.i.materin koneoppimisinsinööri Antti Virtanen.

GPT-mallit ovat tekstiä tuottavia kielimalleja. Nimi GPT tulee englannin kielen sanoista Generative pre-trained transformers. Suomeksi tämä tarkoittaa generoivaa esikoulutettua transformer-mallia. Transformer on eräänlainen neuroverkkoarkkitehtuuri, joka ensimmäisen kerran kuvattiin vuonna 2017 Googlen tutkijoiden julkaisemassa tieteellisessä artikkelissa. Arkkitehtuuri kehitettiin alun perin konekääntämistä varten.

Esikoulutuksella taas tarkoitetaan prosessia, jossa mallille syötetään miljardeja sanoja tekstiä, josta malli oppii ennustamaan seuraavaa sanaa ja oppii samalla sanojen suhteita toisiinsa. Näin malli luo käsityksen sanojen merkityksistä. Mallia voi esikoulutuksen jälkeen niin sanotusti hienosäätää (fine-tuning) eri tarkoituksiin, kuten esimerkiksi chattaamiseen tai kysymyksiin vastaamiseen. Hienosäätö vaatii huomattavasti vähemmän dataa ja laskentaresursseja.

BERTille sukua

Myös aikaisemmin blogissamme kuvailtu BERT on transformeriin perustuva malli. Alkuperäiseen transformer-arkkitehtuuriin kuului kaksi osaa: encoder eli koodaaja ja decoder eli koodinpurkaja. BERT käyttää ensimmäistä osaa, joka analysoi tekstiä alusta loppuun sekä lopusta alkuun koodaten sen numeeriseen muotoon ja GPT jälkimmäistä osaa, joka tuottaa tekstiä sanan kerrallaan edellisten tuotosten perusteella. BERT ja GPT ovat siis yksinkertaistaen saman kokonaisuuden kaksi eri puolta.

Yleistäen voidaan sanoa, että BERT:iä käytetään tekstin analysointiin, kun taas GPT:tä tekstin tuottamiseen.

Avoimesta kielimallista yksityiseksi palveluksi

GPT:n kehityshistoria alkaa, kun 2015 perustettu OpenAI julkaisi alkuperäisen englanninkielisen GPT-mallin kesäkuussa 2018. Mallin koulutukseen käytettiin noin miljardin sanan kokoista tekstikorpusta, joka koostui ilmaiseksi saatavilla olevien kirjojen tekstistä (samaa korpusta käytettiin myös alkuperäisen BERT:in koulutukseen).

Seuraavan mallin koulutusdata kymmenkertaistettiin käyttämällä kahdeksan miljoonan verkkosivun tekstiä. Myös neuroverkon parametrien määrä hieman yli kymmenkertaistui. Vertauskuvana voidaan sanoa, että GPT:n aivojen koko kymmenkertaistui. GPT-2 julkistettiin helmikuussa 2019, mutta mallia ja sen kouluttamiseen käytettyä koodia ei julkaistu kaikkien saataville. OpenAI vetosi mahdollisiin uhkiin, joita työkalun vapaassa jakelussa nähtiin. Elokuussa 2019 kuitenkin julkaistiin osittainen versio ja marraskuussa viimein täysi versio.

Kesäkuussa 2020 julkistettiin GPT-3. Koulutusdatan määrä oli jälleen yli kymmenkertainen edelliseen malliin verrattuna ollen satoja miljardeja sanoja, ja parametrien määrä jopa yli 100-kertainen. Saman vuoden syyskuussa Microsoft ilmoitti saaneensa eksklusiivisen lisenssin GPT-3:n käyttöön. Muille käyttäjille on saatavilla julkinen rajapinta, mutta vain Microsoftilla on suora pääsy malliin.

ChatGPT julkaistiin marraskuussa 2022. Nimen jakavat sekä koneoppimismalli että palvelu, jolla mallia voidaan käyttää. Alkuperäinen kielimalli perustuu paranneltuun versioon GPT-3:sta (GPT-3.5), jota oli hienosäädetty keskustelemaan ihmissyötteen avulla.

ChatGPT:n käyttäjät voivat myös antaa palautetta saamistaan vastauksista. Palvelua kehitetään jatkuvasti käyttäjiltä kerätyllä datalla. Tästä syystä kannattaa olla varovainen, jos harkitsee herkkäluontoisen materiaalin kopioimista palveluun.

GPT-4 on OpenAI:n viimeisin malli ja julkaistiin käyttöön ChatGPT-palvelussa maaliskuussa 2023. Malli pystyy käyttämään syötteenä sekä tekstiä että kuvia. Se on koulutettu aikaisempien mallien tavoin ennustamaan seuraavaa sanaa mutta myös hienosäädetty ChatGPT:n tavoin. Kumpaakaan keskusteluun hienosäädettyä mallia ei ole julkaistu avoimesti. GPT-4:stä ei myöskään tiedetä sen koulutusdatasta tai mallin koosta, sillä OpenAI ei ole näitä tietoja julkaissut. Mallin on myös väitetty olevan aikainen, keskeneräinen versio yleisestä tekoälystä Microsoftin julkaisemassa artikkelissa perustuen sen luovuuteen, päättelykykyyn ja tietoon.

Yllä lueteltujen päämallien lisäksi on myös luotu lukuisia derivatiiveja, kuten proteiinisekvensseille luotu ProtGPT2 ja biolääketieteellisellä tekstillä koulutettu BioGPT. Avoimiakin versioita OpenAI:n suljetuista malleista on koulutettu. Myös suomenkielisellä tekstillä koulutettuja GPT-malleja on olemassa, kuten Turun Yliopiston TurkuNLP-tutkimusryhmän mallit.

GPT:n käyttömahdollisuuksia etsimässä

Tekstiä generoiville malleille löytyy useita käyttökohteita, ja uusia etsitään jatkuvasti. Esimerkiksi seuraavissa käyttötarkoituksissa voidaan hyötyä GPT-mallista:

Luova kirjoittaminen. Uusien ideoiden tai ilmaisutapojen luonnostelu.
Ohjelmointi. ChatGPT ja koodiin erikoistuneet mallit, kuten Githubin Copilot kykenevät kirjoittamaan usean kymmenen rivin pituisia lähdekooditiedostoja pelkän selkokielisen ohjeistuksen avulla. Koodi ei kuitenkaan aina ole virheetöntä tai edes suoritettavissa mallin tekemien virheiden takia.
Tiivistäminen. Malleille on mahdollista syöttää teksti ja pyytää niitä tiivistämään se lyhyempään muotoon. Tässäkin tapauksessa kannattaa olla asiasisällön osalta tarkka, sillä mallit eivät aina pysy alkuperäisen tekstin faktoissa tai argumenteissa, vaan niin sanotusti hallusinoivat osan vastauksesta.
Kääntäminen. Generoivien mallien avulla on mahdollista kääntää tekstiä kielestä toiseen, usein varsin hyvin. ChatGPT osaa kääntää suomea englanniksi, joskin joskus hieman kankeasti.
Keskustelu. ChatGPT on käytännössä keskustelubotti, jonka kanssa voi puhua lähes mistä vain.
Tyylin muuttaminen. Kielimallille voi syöttää jonkin tekstin ja pyytää sitä kirjoittamaan saman tekstin esimerkiksi raamatulliseen tyyliin. Esimerkiksi markkinointitekstien tone of voicea on helppo kokeilla eri tyyleillä.
Hakukoneet. Microsoft on alkanut testaamaan Bing-hakukoneessaan OpenAI:n GPT-malleja. Hakukoneelta voi tavallisen haun sijaan pyytää selkokielellä haluamansa asian, jonka jälkeen se luo tekstimuotoisen vastauksen ja antaa linkkejä tukeakseen vastaustaan.

Jos kaipaat lisätietoa kielimallien käyttömahdollisuuksista tai apua niiden käyttöönotossa, voit olla meihin yhteydessä!

Sinua saattaisi kiinnostaa myös seuraavat artikkelit:

Avoimet kielimallit: mitä, miksi ja miten

Tekstinlouhinta – Tekstisisältöjen hyödyntäminen liiketoiminnassa

Kieliteknologia & Bertin päiväkirja

Miten saada verkkosivujen tekstisisällöt kuunneltavaan muotoon?

Yle.fi-verkkosivujen ja -sovelluksen uutisartikkelit nyt kuunneltavissa

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

16.5.2024

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon

29.11.2023

Mikä ihmeen GPT? – Koneoppimisinsinööri vastaa

BERTille sukua

Yleistäen voidaan sanoa, että BERT:iä käytetään tekstin analysointiin, kun taas GPT:tä tekstin tuottamiseen.

Avoimesta kielimallista yksityiseksi palveluksi

ChatGPT julkaistiin marraskuussa 2022. Nimen jakavat sekä koneoppimismalli että palvelu, jolla mallia voidaan käyttää. Alkuperäinen kielimalli perustuu paranneltuun versioon GPT-3:sta (GPT-3.5), jota oli hienosäädetty keskustelemaan ihmissyötteen avulla.

GPT:n käyttömahdollisuuksia etsimässä

Jos kaipaat lisätietoa kielimallien käyttömahdollisuuksista tai apua niiden käyttöönotossa, voit olla meihin yhteydessä!

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Avoimet kielimallit: mitä, miksi ja miten

Tekoäly ja viihde – lakko Hollywoodissa

Toukokuun ääniuutiset

Kieliteknologian rooli uuden kielen oppimisessa

Huhtikuun ääniuutiset

Kiinnostuitko?

On sinulla sitten valmis tarve tai kaipaat ideallesi vasta sparrailua, saamme sitä varmasti yhdessä eteenpäin. Ota yhteyttä, kuulemme mielellämme sinusta!

Sounds better

Mikä ihmeen GPT? – Kone­oppimisinsinööri vastaa

BERTille sukua

Yleistäen voidaan sanoa, että BERT:iä käytetään tekstin analysointiin, kun taas GPT:tä tekstin tuottamiseen.

Avoimesta kielimallista yksityiseksi palveluksi

ChatGPT julkaistiin marraskuussa 2022. Nimen jakavat sekä koneoppimismalli että palvelu, jolla mallia voidaan käyttää. Alkuperäinen kielimalli perustuu paranneltuun versioon GPT-3:sta (GPT-3.5), jota oli hienosäädetty keskustelemaan ihmissyötteen avulla.

GPT:n käyttömahdollisuuksia etsimässä

Jos kaipaat lisätietoa kielimallien käyttömahdollisuuksista tai apua niiden käyttöönotossa, voit olla meihin yhteydessä!

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Avoimet kielimallit: mitä, miksi ja miten

Tekoäly ja viihde – lakko Hollywoodissa

Toukokuun ääniuutiset

Kieliteknologian rooli uuden kielen oppimisessa

Huhtikuun ääniuutiset

Kiinnostuitko?

On sinulla sitten valmis tarve tai kaipaat ideallesi vasta sparrailua, saamme sitä varmasti yhdessä eteenpäin. Ota yhteyttä, kuulemme mielellämme sinusta!

Sounds better

Mikä ihmeen GPT? – Koneoppimisinsinööri vastaa