Studiomikrofoni ja taustalla valoisa ikkuna.

Litterointi on työläs prosessi – Automaattinen puheentunnistus apuna

Litterointi on hidasta ja uuvuttavaa työtä. Äänitteen sisällöstä ja litteroinnin tarkkuudesta riippuen ihmiseltä menee sen tekemiseen 4–12 tuntia per tunnin äänite. Litteroinnin avuksi kannattaa ottaa automaattinen puheentunnistus, jolloin kone hoitaa litteroinnin ja ihmisen tehtäväksi jää viimeistely.

Litterointi tarkoittaa ääni- tai videotallenteen kirjoittamista tekstimuotoon. Hyvän litteroinnin ansiosta alkuperäiseen aineistoon ei tarvitse palata, vaan tekstimuotoisesta aineistosta voidaan hahmottaa kokonaisuus nopeallakin silmäilyllä.

Litterointia käytetään yleisesti mediatoimituksissa, korkeakouluissa ja tutkimuslaitoksissa, terveystaloissa, asianajotoimistoissa, sekä virastojen ja järjestöjen toiminnassa.

Litteroinnin tasot

Litterointi tapahtuu kuuntelemalla tallennetta ja kirjoittamalla sisältö ylös. Tämä voidaan tehdä useammalla tarkkuustasolla:

  • Tarkimmassa mahdollisessa, eksaktissa litteroinnissa kaikki toistetaan tekstissä sanatarkasti mukaan lukien täytesanat (niiku, tota, no), äännähdykset (hmm, öö, naurahdus) sekä taustalta kuuluvat äänet (puhelin soi, koira haukkuu)
  • Peruslitteroinnissa edellä luetellut jätetään pois, mutta muuten kirjoitetaan kaikki puhe niin kuin puhujat puhekielellään puhuvat
  • Yleiskielisessä litteroinnissa murteet jätetään pois ja puhe kirjoitetaan kirjakielellä
  • Selkokielisessä litteroinnissa puhe muutetaan kirjakielellä ja vaikeimpia lauserakenteita selkeytetään
  • Osittaisessa litteroinnissa vain aiheeseen liittyvä sisältö kirjoitetaan ylös ja sivuraiteille menevät puheet jätetään tekstistä pois
  • Referoivassa litteroinnissa tallenteesta tehdään pelkät tiivistävät muistiinpanot esimerkiksi ranskalaisin viivoin
  • Käännöslitteroinnissa tallenne puretaan suoraan halutulle vieraalle kielelle

Litteroitavasta aineistosta voidaan tehdä uusia huomioita

Litteroitavat aineistot ovat saneluja, haastatteluja, lausuntoja, asioiden valmisteluja, luentoja ja seminaareja, muistioita ja pöytäkirjoja sekä juridisia aineistoja, kuten oikeudenkäyntinauhoitteita ja sovittelutilaisuuksia.

Nämä tekstimuotoon siirrettävät aineistot muodostavat uuden tietolähteen, jossa puhemassasta saa asian selville nopealla silmäilyllä. Aineistosta pystyy tekemään tärkeitä syvällisempiä havaintoja, tulkintoja, järjestelyjä, luokitteluja, hakutoiminnon käyttöä, sekä yhtäläisyyksien ja eroavaisuuksien löytämisiä.

Litterointiprosessin yleisimpiä ongelmia ovat:

  • menetelmän hitaus, jota epäselvä puhe ja taustameteli hidastavat entisestään
  • ruuhkahuiput, jolloin äänitiedostojen purkamiset viivästyvät
  • litteroitsijan osaamisesta johtuvat kirjoitusvirheet ja alan sanastoon liittyvien termien hallitsemattomuus.

Automaattisen puheentunnistuksen käyttäminen nopeuttaa tekstimuotoon saattamista merkittävästi:

Litterointi tukee saavutettavuutta

Puhesisältöjen siirtäminen tekstimuotoon on aiemmin mainittujen hyötyjen lisäksi saavutettavuutta tukevaa.

Saavutettavuusdirektiivin vaatimusten mukaan videoissa ja äänitteissä oleva tieto on oltava tekstimuodossa 14 vuorokauden kuluttua julkaisemisesta, joko verkkosivun omana tekstisisältönä tai erillisenä saavutettavana tiedostona.

Podcastit ovat uusi litteroinnin kohde perinteisten aineistojen rinnalle. Niille tehdään mahdollisimman tarkka tekstivastine, joka sisältää puheet, olennaiset muut äänet, kuten musiikki ja nauru, puhujien jaottelun, kappalejaon sekä mahdollisen tiivistelmän sisällöstä. Automaattinen puheentunnistus nopeuttaa huomattavasti sellaisten podcastien litterointia, joita ei ole etukäteen käsikirjoitettu.

Suomenkielinen puheentunnistus ja automaattinen litterointi

Suomenkielellä automaattinen puheentunnistus toimii jo kelvollisesti, kun puhe on selkeää eikä taustamelua ole merkittävästi. Virheiden korjaamiseen on kuitenkin syytä varautua. Parempiin lopputuloksiin päästään, kun käytössä on puheentunnistusmalli, joka voidaan mukauttaa käyttäjän puheeseen ja toimialan sanastoon, jolloin puheentunnistuksen laatu paranee merkittävästi jo lyhyen käytön jälkeen.

Haastavimpia puheentunnistuksessa ovat keskustelulliset tilanteet, joissa puhe on katkonaista ja keskustelijat saattavat puhua toistensa päälle.

Puheentunnistusteknologia ja ohjelmistojen suomenkielen ymmärtäminen kehittyvät koko ajan paremmiksi. Puheentunnistusta hyödyntäen litterointia voidaan nopeuttaa automaattisella purkamisella. Aikaa säästetään tunneilla, kun kone tekee alustavan tekstiluonnoksen, jonka ihminen lopuksi editoi ja viimeistelee arkistoitavaan muotoonsa.

Meiltä onnistuvat laadukkaat ja tarpeisiisi räätälöidyt puheesta tekstiksi -palvelut, ota yhteyttä! 

Kiinnostuitko? Ota Yhteyttä!

Jaa artikkeli

LinkedIn
Twitter
Facebook
Mies istuu kuulokkeet päässä hymyillen ja katsoo horisonttiin. Taustalla on paljon sinistä taivasta ja harsopilviä.
Olimme kesäkuussa messuilla, johon toteutimme vierailijoille kuunneltavaksi äänikirjan. Kuuntele, miltä satukirja kuulostaa Ilonan lukemana!
Jukolan telttakylää ilta-auringossa.
Osallistuimme Jukolan viestiin 2022 niin kisailijoina kuin osuusisäntinä. Artikkelissa tunnelmat viikonlopusta.
Kirjakauppaliiton Bisneksenä kirjat toimialapäivä. Ihmiset istuvat tuoleillaan ja kuuntelevat lavalla olevaa puhujaa.
Pääsimme kevään aikana keskenään hyvin erilaisiin tapahtumiin: yliopistolle kielitieteen konferenssiin, kirja-alan toimialapäiville ja bioteknologian ammattilaismessuille.
Nainen istuu tietokoneen edessä ja päässä on headset.
Asiantuntijahaastattelussa perehdytään puheentunnistukseen. Mitä puheentunnistus tarkoittaa ja mihin sitä käytetään? Kerromme, mitä puheentunnistuksessa tapahtuu, jotta se ymmärtää puhettamme.
Nainen kuulokkeet päässä, tekee muistiinpanoja aukinaisesta kirjasta postit-lappuun.
Artikkelissa perehdytään, miten sähköisten palveluiden käyttöä voidaan helpottaa puheteknologian, erityisesti koneäänien ja puheentunnistuksen avulla.
Kasa kirjoja aurinkoisella puuterassilla. Kirjojen päällä puhelin ja lasillinen mehua.
Lukemisella tarkoitetaan tiettyä syvempää toimintoa, joka vaatii tekstin vastaanottamista, ymmärtämistä ja tulkitsemista. Myös äänikirjan kuunteleminen on siis lukemista.