Tekstinlouhinta on tekoälypohjainen menetelmä, jolla tekstimassoista löydetään niihin piiloutuvaa tietoa. Kuvassa mies istuu Excelin edessä ja takana vaaleat ruudukkoikkunat kesämaisemalla.

Tekstinlouhinta – Tekstisisältöjen hyödyntäminen liiketoiminnassa

Laajoista ja jäsentelemättömistä tekstisisällöistä saadaan purettua nopeammin ja kattavammin tietoa tekoälypohjaisia työkaluja hyödyntäen. Kohteena oleva tekstisisältöjen joukko on laaja: tilauslistat, mielipidetutkimukset, asiakaspalautteet, haastattelut, digitaaliset kirjat, dokumentit ja tiedostot, uutisartikkelit, chat-keskustelut, keskustelupalstat ja somekeskustelut. Tässä artikkelissa tutustutaan tarkemmin, miten strukturoimattomista testimassoista saadaan enemmän irti tekstinlouhinnan työkaluilla.

Tekstinlouhinta (text mining) tarkoittaa jäsentelemättömän tekstisisällön järjestämistä sellaiseen muotoon, että siitä voidaan havaita jotain tärkeää, kuten tiettyjä näkemyksiä, ilmiöitä, kokonaisuuksia tai trendejä, jotka auttavat edelleen tekemään päätöksiä, parantamaan prosesseja, säästämään aikaa, alentamaan kustannuksia tai esimerkiksi ymmärtämään asiakkaiden mieltymyksiä.

Tekstinlouhinnassa NLP:llä (natural languege processing) ja koneoppimisella on tärkeä rooli. NLP:n avulla koneet saadaan ymmärtämään tekstiä ja puhetta samaan tapaan kuin ihmiset. Koneoppimisen avulla taas koneet voidaan kouluttaa tekemään haluttua asiaa tietyllä tavalla, toimimaan jatkossa oppimansa perusteella ja oppimaan siitä taas edelleen.

Tekstinlouhinta auttaa löytämään tietoja, jotka muuten piiloutuisivat massaan

Jäsentämättömän digitaalisen tekstidatan määrä kasvaa koko ajan hurjaa tahtia. Tietomäärää onkin miltei mahdotonta jäsentää kattavasti havaintojen löytämiseksi, jos apuna ei olisi tekstinlouhinnan työkaluja. Tekoälypohjaisten työkalujen avulla tekstisisällöstä voidaan:

  • Huomata ilmiöitä ja trendejä: Suuresta jäsentämättömästä määrästä tekstiä, kuten asiakaspalautteesta, tutkimusdatasta tai somesta havaitaan helpommin ilmiöitä ja trendejä, jotka eivät välttämättä muuten näkyisi.
  • Hahmottaa kokonaisuuksia: Tekstisisällöstä nähdään helpommin eri kokonaisuuksia ja voidaan ymmärtää suhteet ja loogiset yhteydet näiden välillä.
  • Löytää mielipiteitä ja tunteita: Suuresta määrästä tekstidataa löydetään nopeammin, mitä mieltä ihmiset ovat tietystä tuotteesta, brändistä tai asiasta; koetaanko tuote tai brändi positiivisena, negatiivisena vai neutraalina.
  • Tunnistaa aiheita ja teemoja: Datasta löydetään nopeasti pinnalla olevat puheenaiheet. Tämä auttaa tutkimaan viimeisimpiä trendejä ja tunnistamaan mahdollisia ongelmia esimerkiksi  tuotteessa tai tuotantoprosessissa.
  • Luokitella tekstiä: Dataa saadaan nopeasti luokiteltua eri kategorioihin ja ryhmiin, jotka perustuvat tiettyyn sisältöön. Esimerkiksi tutkimushaastattelujen vastaukset voidaan luokitella automaattisesti niissä käytetyn kielen perusteella, tai sen mukaan, mitä mieltä vastaajat ovat.
  • Poimia tietoja: Tekstistä saadaan kerättyä tärkeitä ja eniten käytettyjä avainsanoja. Myös tiettyjä ominaisuuksia voidaan poimia lauseista. Esimerkiksi tekstissä esiintyvät puhelinnumerot, osoitteet, vaatekoot yms. Tai sitten tekstistä voidaan poimia kaikki vierasperäiset sanat; tästä artikkelin viimeisessä kappaleessa lisää!

Päätöksentekoprosessin parantaminen ja asiakasymmärryksen kerääminen

Mielipidetutkimuksissa ja asiakaspalautteissa on usein avoimia kysymyksiä, joihin asiakasta pyydetään kuvailemaan tuotetta myös omin sanoin. Näistä avoimista vastauksista saadaan poimittua arvokkaita oivalluksia, mutta niiden manuaalinen läpikäynti vie paljon aikaa. Tämä sama pätee asiakasarvostelujen, sähköpostien, verkkosivujen palautelomakkeiden ja somejulkaisujen kommenttien läpikäyntiin.

Tekoälypohjaisen työkalun avulla vastauksia voidaan esimerkiksi lajitella automaattisesti negatiivisiin ja positiivisiin, tai poimia niistä tiettyjä asioita, jolloin saadaan kokonaisvaltainen käsitys asiakkaiden suhtautumisesta yrityksen tuotteisiin tai brändiin. Vastaustuloksiin päästään lisäksi reagoimaan nopeammin.

Parhaimmillaan tekstinlouhinnalla saadaan kilpailuetua omalla toimialalla: kehitettyä asiakasymmärrystä, tuotetta, prosessia tai markkinointia.

Muutamia esimerkkejä tekstinlouhinnan mahdollisuuksista:

  • Terveydenhuollossa ja sosiaalipalveluissa: Mahdollisuus analysoida nopeammin terveystietoja ja havaita esimerkiksi lääkkeiden haittavaikutuksia. Tunnistaa tilastollisia riippuvuuksia ja huomata sen perusteella mikä ilmiö tai oire aiheuttaa toisen ilmiön tai oireen taas toisaalla. Näin voidaan nähdä esimerkiksi riskitekijöitä ja suojaavia tekijöitä, jotka voivat auttaa tai nopeuttaa muun muassa tuotekehityksessä.
  • Rahoitus- ja vakuutusalalla: Pystytään analysoimaan uutisartikkeleita ja talousraportteja, havaitsemaan niistä markkinatrendejä ja ennustamaan osakekurssien liikkeitä, sekä tekemään riskianalyysejä. Vakuutusalalla voidaan nopeuttaa käytäntöjen tarkastusta sekä automatisoida korvausvaatimuksia ja riskisuunnittelua.
  • Kaupan alalla ja teollisuudessa: Asiakaspalautteiden ja -arvostelujen analysointi asiakasymmärryksen lisäämiseksi, tuoteongelmien löytäminen, markkinoinnin optimointi ja asiakaspalvelun kehittäminen. Tekstinlouhinta nopeuttaa lisäksi tilauslistojen luokittelussa ja käsittelyssä sekä valmistus- ja toimitusongelmien tunnistamisessa.

Hakukone koneoppimispohjaisella elementillä

Tekstinlouhinta mahdollistaa myös hakukoneiden olemassaolon; internetin valtavasta määrästä löydetään nopeasti ja tarkasti haluttua tietoa. Hakukoneisiin saadaan liitettyä koneoppimispohjaisia elementtejä, jolloin tekstistä saadaan haettu tietoja esimerkiksi tiettyjen teemojen ja aiheiden mukaan.

Näin toimii myös kehittämämme Erin-työkalu, joka poimii digitaalisesta tekstistä vierasperäiset sanat automaattisesti. Tämä hyödyttää kustantamoita ja studioita, jotka tuottavat äänikirjoja. Äänikirjan lukijalle tehtävät lausumisohjeet valmistuvat tekoälypohjaista työkalua käyttäen huomattavasti nopeammin kuin tapauksessa, jossa kaikki vierasperäiset sanat etsittäisiin kirjasta ensin manuaalisesti; Erin-työkalu etsii sanat noin vartissa, kun taas ihmiseltä tähän kuluisi noin työpäivän verran aikaa. Vastaavanlaisilla työkaluilla voidaan siis muuttaa manuaalisia prosesseja paljon kustannustehokkaammiksi.

Pystymme toteuttamaan monipuolisesti erilaisia tekoälypohjaisia kieliteknologian ratkaisuja, joilla säästetään työaikaa ja helpotetaan halutun tiedon löytymistä tekstimassoista. Ota yhteyttä!

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

18.10.2024
Suomen ensimmäistä tekoälyyn keskittyvää palkintogaalaa juhlitaan 23.10.2024 julkistamalla kunkin kategorian voittajat. a.i.mater on kolmen kärjessä asiakaskokemus-kategoriassa.
Kaksi henkilöä istuvat sohvalla läppärit sylissä. Kasvot on rajattu pois kuvasta.
9.9.2024
Digipalvelulaki ja esteettömyysdirektiivi laajenevat kesäkuussa 2025. Artikkelissa kerrotaan, keitä laki koskee myös jatkossa ja mitä saavutettavuusvaatimukset käytännössä ovat. Erityishuomiota kiinnitetään sähkö- ja äänikirjoihin.
Mies istuu toimistolla työpöytänsä ääressä. Valokuva on otettu takaapäin, joten kuvassa näkyy henkilön selkä ja tietokoneen näytöt, takana näkyy sumealla muuta toimistoa.
16.8.2024
Case-esimerkki Ylelle toteutetusta kieliteknologian projektista, jossa hyödynnettiin CLIP-tekoälymallia kuvahaun sujuvoittamiseen materiaaliarkistoista.
Nainen istuu ulkona maalaustelineen kanssa ja katsoo juuri väripalettia kädessään. Taustalla on abstrakti maalaus. Valo tulee naisen takaa, joten hänen hiukset korostuvat muuten tummasta kuvasta. Naisella on kuulokkeet korvilla.
13.6.2024
Käsittelyssä kielimuurien häviäminen, henkilökohtaisemmat ääniassistentit, älykodit, äänikloonit, tekoälyllä tuotettava musiikki, median kulutus, terveyssovellukset, asiakaspalvelu, biometrinen tunnistautuminen ja smart city -ajatus.
Nainen istuu toimistotuolissa tietokoneen edessä ja katsoo näyttöä. Toinen käsi on näppäimistöllä. Taustalla on isot ikkunat.
16.5.2024
Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon
Henkilö istuu lattialla kirjan edessä tekemässä muistiinpanoja. Hänellä on kuulokkeet päässä. Kuvaotettu ylhäältäpäin.
23.4.2024
Tietoa voidaan kuluttaa monin eri tavoin: tämä monimuotoisuus tulisi huomioida myös sisältöä tuottaessa. Ääni ja teksti tukevat toisiaan ja antavat sisällön kuluttajalle valinnanvaraa päättää.