Litterointi on hidasta ja uuvuttavaa työtä. Äänitteen sisällöstä ja litteroinnin tarkkuudesta riippuen ihmiseltä menee sen tekemiseen 4–12 tuntia per tunnin äänite. Litteroinnin avuksi kannattaa ottaa automaattinen puheentunnistus, jolloin kone hoitaa litteroinnin ja ihmisen tehtäväksi jää viimeistely.
Litterointi tarkoittaa ääni- tai videotallenteen kirjoittamista tekstimuotoon. Hyvän litteroinnin ansiosta alkuperäiseen aineistoon ei tarvitse palata, vaan tekstimuotoisesta aineistosta voidaan hahmottaa kokonaisuus nopeallakin silmäilyllä.
Litterointia käytetään yleisesti mediatoimituksissa, korkeakouluissa ja tutkimuslaitoksissa, terveystaloissa, asianajotoimistoissa, sekä virastojen ja järjestöjen toiminnassa.
Litteroinnin tasot
Litterointi tapahtuu kuuntelemalla tallennetta ja kirjoittamalla sisältö ylös. Tämä voidaan tehdä useammalla tarkkuustasolla:
- Tarkimmassa mahdollisessa, eksaktissa litteroinnissa kaikki toistetaan tekstissä sanatarkasti mukaan lukien täytesanat (niiku, tota, no), äännähdykset (hmm, öö, naurahdus) sekä taustalta kuuluvat äänet (puhelin soi, koira haukkuu)
- Peruslitteroinnissa edellä luetellut jätetään pois, mutta muuten kirjoitetaan kaikki puhe niin kuin puhujat puhekielellään puhuvat
- Yleiskielisessä litteroinnissa murteet jätetään pois ja puhe kirjoitetaan kirjakielellä
- Selkokielisessä litteroinnissa puhe muutetaan kirjakielellä ja vaikeimpia lauserakenteita selkeytetään
- Osittaisessa litteroinnissa vain aiheeseen liittyvä sisältö kirjoitetaan ylös ja sivuraiteille menevät puheet jätetään tekstistä pois
- Referoivassa litteroinnissa tallenteesta tehdään pelkät tiivistävät muistiinpanot esimerkiksi ranskalaisin viivoin
- Käännöslitteroinnissa tallenne puretaan suoraan halutulle vieraalle kielelle
Litteroitavasta aineistosta voidaan tehdä uusia huomioita
Litteroitavat aineistot ovat saneluja, haastatteluja, lausuntoja, asioiden valmisteluja, luentoja ja seminaareja, muistioita ja pöytäkirjoja sekä juridisia aineistoja, kuten oikeudenkäyntinauhoitteita ja sovittelutilaisuuksia.
Nämä tekstimuotoon siirrettävät aineistot muodostavat uuden tietolähteen, jossa puhemassasta saa asian selville nopealla silmäilyllä. Aineistosta pystyy tekemään tärkeitä syvällisempiä havaintoja, tulkintoja, järjestelyjä, luokitteluja, hakutoiminnon käyttöä, sekä yhtäläisyyksien ja eroavaisuuksien löytämisiä.
Litterointiprosessin yleisimpiä ongelmia ovat:
- menetelmän hitaus, jota epäselvä puhe ja taustameteli hidastavat entisestään
- ruuhkahuiput, jolloin äänitiedostojen purkamiset viivästyvät
- litteroitsijan osaamisesta johtuvat kirjoitusvirheet ja alan sanastoon liittyvien termien hallitsemattomuus.
Automaattisen puheentunnistuksen käyttäminen nopeuttaa tekstimuotoon saattamista merkittävästi:
- Puheella pystytään kirjoittamaan 125-150 sanaa minuutissa
- Tietokoneen näppäimistöllä 35-65 sanaa minuutissa
- Kosketusnäytöllä keskimäärin 38 sanaa minuutissa
Litterointi tukee saavutettavuutta
Puhesisältöjen siirtäminen tekstimuotoon on aiemmin mainittujen hyötyjen lisäksi saavutettavuutta tukevaa.
Saavutettavuusdirektiivin vaatimusten mukaan videoissa ja äänitteissä oleva tieto on oltava tekstimuodossa 14 vuorokauden kuluttua julkaisemisesta, joko verkkosivun omana tekstisisältönä tai erillisenä saavutettavana tiedostona.
Podcastit ovat uusi litteroinnin kohde perinteisten aineistojen rinnalle. Niille tehdään mahdollisimman tarkka tekstivastine, joka sisältää puheet, olennaiset muut äänet, kuten musiikki ja nauru, puhujien jaottelun, kappalejaon sekä mahdollisen tiivistelmän sisällöstä. Automaattinen puheentunnistus nopeuttaa huomattavasti sellaisten podcastien litterointia, joita ei ole etukäteen käsikirjoitettu.
Suomenkielinen puheentunnistus ja automaattinen litterointi
Suomenkielellä automaattinen puheentunnistus toimii jo kelvollisesti, kun puhe on selkeää eikä taustamelua ole merkittävästi. Virheiden korjaamiseen on kuitenkin syytä varautua. Parempiin lopputuloksiin päästään, kun käytössä on puheentunnistusmalli, joka voidaan mukauttaa käyttäjän puheeseen ja toimialan sanastoon, jolloin puheentunnistuksen laatu paranee merkittävästi jo lyhyen käytön jälkeen.
Haastavimpia puheentunnistuksessa ovat keskustelulliset tilanteet, joissa puhe on katkonaista ja keskustelijat saattavat puhua toistensa päälle.
Puheentunnistusteknologia ja ohjelmistojen suomenkielen ymmärtäminen kehittyvät koko ajan paremmiksi. Puheentunnistusta hyödyntäen litterointia voidaan nopeuttaa automaattisella purkamisella. Aikaa säästetään tunneilla, kun kone tekee alustavan tekstiluonnoksen, jonka ihminen lopuksi editoi ja viimeistelee arkistoitavaan muotoonsa.
Meiltä onnistuvat laadukkaat ja tarpeisiisi räätälöidyt puheesta tekstiksi -palvelut, ota yhteyttä!