CLIP-projekti Ylelle: kuvasisällön hakeminen arkistosta

16.08.2024

Pääsimme toteuttamaan Ylelle projektin, jossa pilotoidaan kuvasisältöjen hakemista tekstisyötteellä ilman, että kuvissa on etukäteen kirjattuja metatietoja. Tavoitteena on helpottaa ja nopeuttaa sopivien sisältöjen löytämistä.

Sisällön hakeminen kuvista ja videoista on Ylen Arkistossa aiemmin perustunut ihmisten kirjoittamiin tägeihin, sisältökuvauksiin ynnä muihin vastaaviin metatietoihin. Tämän helpottamiseksi syntyi ajatus selvittää OpenAI:n CLIP-tekoälymallin hyödyntämisestä sisällön hakemiseen. Mallin avulla pystyttäisiin nimittäin hakemaan sopivia sisältöjä – ilman että arkistomateriaalin kuvissa ja videoissa on aiemmin kirjattuja metatietoja.

Mikä CLIP-tekoälymalli on?

CLIP on tekoälymalli, joka on koulutettu valtavalla määrällä kuva-teksti-pareja. Tämän ansiosta CLIP osaa tulkita sekä kuvien sisältöä että niihin liittyviä tekstejä – nimenomaan kuvia ja tekstejä, joita malli ei ole ennen nähnyt. Esimerkiksi, jos CLIP:lle näytetään kuva koirasta ja annetaan sana ”koira”, se osaa yhdistää nämä kaksi asiaa toisiinsa. Malli osaa siis yhdistää näkemäänsä kuvaan liittyvän tekstin, ja päinvastoin: etsiä tekstiin sopivan kuvan. Lisäksi malli osaa tuottaa näkemästään kuvasta kuvailevan tekstin, kuten “koira juoksee nurmikolla”.

CLIP (Contrastive Language–Image Pre-Training) esiteltiin ensimmäisen kerran julkisesti tammikuussa 2021. OpenAI julkaisi CLIP:n tutkimusartikkelin ja mallin avoimen lähdekoodin projektina, joten sitä pääsee hyödyntämään omissa projekteissa.

Luonnollisen kielen käsittely (NLP), liittyy olennaisesti CLIP:iin. Jotta CLIP pystyy yhdistämään kuvia ja tekstiä toisiinsa, sen tulee ymmärtää tekstiä: sanoja, lauseita ja fraaseja. Perussanojen lisäksi (“koira”) malli ymmärtää abstrakteja käsitteitä (“kauhu”) sekä pidempiä lauseita, kuten “ihminen keltaisessa takissa kävelee sateessa”, ja osaa antaa näihin liittyviä kuvia. Tämä mahdollistaa monia uusia sovelluksia, kuten parannetun kuvahaun, automaattisen kuvien luokittelun kategorioihin ja monia muita älykkäitä toimintoja – näistä hyödyntämismahdollisuuksista lisää tekstin lopussa.

Kuvahaun kehittäminen

Yle Arkiston kehityspäällikkö Lauri Saarikoski lähestyi a.i.materia CLIP:n kokeilemiseen liittyen. Lopputuloksena kehitimme CLIP-mallia hyödyntävän MVP-ohjelmiston, jonka avulla Ylellä voidaan tehdä omista video- ja kuva-arkistoista kuvasisältöjen hakemista tekstimuotoisilla hakulausekkeilla. Ohjelmiston tarkoituksena on ensin tehdä selvitystyötä eli kerätä sitä käyttävien toimittajien palautetta toiminnallisuudesta.

Projekti lähti liikkeelle Yleltä saatujen kuvien esikäsittelyllä ja niiden tallentamisella vektoritietokantaan. Tarvittavien taustapalvelujen käyttöönoton ja rakentamisen jälkeen toteutimme pelkistetyn hakukoneen – backend-kehityksestä valmiiseen käyttöliittymään. Käyttöliittymän toiminnallisuuksien kehittämisessä kiinnitettiin huomiota myös hakutulosten esittämiseen tiettyjen ryhmien mukaan sekä helppoon käyttäjäpalautteen antamiseen ja keräämiseen.

Tässä vaiheessa vasta kokeillaan hakukoneen hyötyä, mutta tulevaisuudessa tämänkaltainen toiminnallisuus toivottavasti sujuvoittaisi toimittajien työtä sisällön hakemisessa arkistosta sekä säästäisi aikaa tekstimuotoisten metatietojen kirjoittamisesta.

CLIP:n konkreettiset hyödyntämismahdollisuudet

Tekoälymallin kykyä kuvien ja tekstien yhdistämisessä voidaan hyödyntää moniin erilaisiin tehtäviin. Alla muutamia konkreettisia esimerkkejä siitä, mihin CLIP:ä voidaan käyttää:

Parannettuun kuvahakuun:
CLIP voi auttaa hakukoneita löytämään kuvia tarkemmin annettujen tekstikyselyjen perusteella. Esimerkiksi, jos haet sanaa ”koira”, CLIP osaa löytää kuvia, joissa on koiria, vaikka kuvia ei olisi erikseen merkitty tällä sanalla. Eli sama toiminnallisuus, jonka toteutimme Ylelle testattavaksi.
Kuvien automaattiseen luokitteluun:
Kuvia voidaan luokitella ilman, että niille on annettu valmiiksi kategoriaa. Tekoälymalli osaa esimerkiksi erottaa luontokuvat kaupunkikuvista tai ruoka-aiheiset kuvat urheilukuvista.
Sisällön moderointiin:
CLIP:ä voidaan käyttää verkkosisällön moderointiin. Se voi tunnistaa kuvia ja tekstejä, jotka sisältävät sopimatonta tai haitallista sisältöä, ja auttaa siten ylläpitäjiä pitämään palvelut turvallisina.
Kuvatekstien luomiseen:
CLIP:ä pystytään hyödyntämään osana kuvatekstien automaattista luomista. Tämä auttaa muun muassa laajojen kuvapankkien hallinnassa, arkistomateriaalien päivittämisessä ja kuvien saavutettavuutta lisäävien alt-tekstien kirjoittamisessa.
Tuotesuosituksiin ja verkkokauppoihin:
Verkkokaupoissa CLIP voi auttaa löytämään tai suosittelemaan käyttäjälle tuotteita, jotka vastaavat hänen hakemiaan ominaisuuksia tai ovat samantyylisiä kuin käyttäjä on jo hakutuloksista klikannut auki. Näin parannetaan asiakkaan käyttökokemusta verkkokaupasta ja toteutetaan asiakkaallekin hyödyllistä myynninedistämistä.
Monikieliseen kuvan ja tekstin ymmärtämiseen:
CLIP on toimiva myös monikielisessä ympäristössä, sillä se osaa yhdistää kuvia ja tekstiä eri kielillä. Tämä on hyödyllistä esimerkiksi kansainvälisissä hakupalveluissa.

Huomioitavat rajoitteet

Vaikka CLIP on erittäin tehokas ja monipuolinen työkalu, sillä on kuitenkin omat rajoitteensa ja ongelmansa. Malli voi esimerkiksi antaa vinoutuneita tuloksia, jotka heijastavat ennakkoluuloja ja stereotypioita. Niin ikään harvinaisemmissa tapauksissa hakutulokset voivat epäonnistua tai antaa virheellisiä tuloksia, joka johtuu koulutusdatassa käytettyjen materiaalien määristä – koulutusdatassa on runsaasti yleisiä tekstejä ja kuvia ja vain vähän harvinaisempia sisältöjä.

Vaikka CLIP yhdistää kuvia ja tekstiä, se ei voi prosessoida monimutkaisempia multimodaalisia tietoja, kuten videoita tai ääntä yhtä tehokkaasti. Tämä rajoittaa sen sovellusalueita. Näitä pystyy tosin kiertämään: video voidaan jakaa useiksi pysäytyskuviksi, jolloin kuvahaun tapaan videoistakin pystytään hakemaan haluttuja sisältöjä.

Vielä yksi huomioitava asia on korkean laskentatehon tarve, kun organisaatioon kehitetään sisäistä työkalua. CLIP-tekoälymallin käyttö vaatii nimittäin suuren määrän laskentatehoa, erityisesti suurilla datamäärillä. Tämä voi olla haasteellista organisaatioille, joilla ei ole pääsyä riittävän tehokkaisiin laitteistoihin.

Tämä oli case-esimerkki yhdestä a.i.materin kieliteknologian projektista.

Ota meihin matalalla kynnyksellä yhteyttä, niin keskustellaan kielen käsittelyn ja puheteknologian hyödyntämisestä teidän yrityksessänne.