Litterointi ja aimaterin automaattinen puheentunnistus. Kuvassa studiomikrofoni ja taustalla valoisa ikkuna.

Litterointi on työläs prosessi – Automaattinen puheentunnistus apuna

Litterointi on hidasta ja uuvuttavaa työtä. Äänitteen sisällöstä ja litteroinnin tarkkuudesta riippuen ihmiseltä menee sen tekemiseen 4–12 tuntia per tunnin äänite. Litteroinnin avuksi kannattaa ottaa automaattinen puheentunnistus, jolloin kone hoitaa litteroinnin ja ihmisen tehtäväksi jää viimeistely.

Litterointi tarkoittaa ääni- tai videotallenteen kirjoittamista tekstimuotoon. Hyvän litteroinnin ansiosta alkuperäiseen aineistoon ei tarvitse palata, vaan tekstimuotoisesta aineistosta voidaan hahmottaa kokonaisuus nopeallakin silmäilyllä.

Litterointia käytetään yleisesti mediatoimituksissa, korkeakouluissa ja tutkimuslaitoksissa, terveystaloissa, asianajotoimistoissa, sekä virastojen ja järjestöjen toiminnassa.

Litteroinnin tasot

Litterointi tapahtuu kuuntelemalla tallennetta ja kirjoittamalla sisältö ylös. Tämä voidaan tehdä useammalla tarkkuustasolla:

  • Tarkimmassa mahdollisessa, eksaktissa litteroinnissa kaikki toistetaan tekstissä sanatarkasti mukaan lukien täytesanat (niiku, tota, no), äännähdykset (hmm, öö, naurahdus) sekä taustalta kuuluvat äänet (puhelin soi, koira haukkuu)
  • Peruslitteroinnissa edellä luetellut jätetään pois, mutta muuten kirjoitetaan kaikki puhe niin kuin puhujat puhekielellään puhuvat
  • Yleiskielisessä litteroinnissa murteet jätetään pois ja puhe kirjoitetaan kirjakielellä
  • Selkokielisessä litteroinnissa puhe muutetaan kirjakielellä ja vaikeimpia lauserakenteita selkeytetään
  • Osittaisessa litteroinnissa vain aiheeseen liittyvä sisältö kirjoitetaan ylös ja sivuraiteille menevät puheet jätetään tekstistä pois
  • Referoivassa litteroinnissa tallenteesta tehdään pelkät tiivistävät muistiinpanot esimerkiksi ranskalaisin viivoin
  • Käännöslitteroinnissa tallenne puretaan suoraan halutulle vieraalle kielelle

Litteroitavasta aineistosta voidaan tehdä uusia huomioita

Litteroitavat aineistot ovat saneluja, haastatteluja, lausuntoja, asioiden valmisteluja, luentoja ja seminaareja, muistioita ja pöytäkirjoja sekä juridisia aineistoja, kuten oikeudenkäyntinauhoitteita ja sovittelutilaisuuksia.

Nämä tekstimuotoon siirrettävät aineistot muodostavat uuden tietolähteen, jossa puhemassasta saa asian selville nopealla silmäilyllä. Aineistosta pystyy tekemään tärkeitä syvällisempiä havaintoja, tulkintoja, järjestelyjä, luokitteluja, hakutoiminnon käyttöä, sekä yhtäläisyyksien ja eroavaisuuksien löytämisiä.

Litterointiprosessin yleisimpiä ongelmia ovat:

  • menetelmän hitaus, jota epäselvä puhe ja taustameteli hidastavat entisestään
  • ruuhkahuiput, jolloin äänitiedostojen purkamiset viivästyvät
  • litteroitsijan osaamisesta johtuvat kirjoitusvirheet ja alan sanastoon liittyvien termien hallitsemattomuus.

Automaattisen puheentunnistuksen käyttäminen nopeuttaa tekstimuotoon saattamista merkittävästi:

Litterointi tukee saavutettavuutta

Puhesisältöjen siirtäminen tekstimuotoon on aiemmin mainittujen hyötyjen lisäksi saavutettavuutta tukevaa.

Saavutettavuusdirektiivin vaatimusten mukaan videoissa ja äänitteissä oleva tieto on oltava tekstimuodossa 14 vuorokauden kuluttua julkaisemisesta, joko verkkosivun omana tekstisisältönä tai erillisenä saavutettavana tiedostona.

Podcastit ovat uusi litteroinnin kohde perinteisten aineistojen rinnalle. Niille tehdään mahdollisimman tarkka tekstivastine, joka sisältää puheet, olennaiset muut äänet, kuten musiikki ja nauru, puhujien jaottelun, kappalejaon sekä mahdollisen tiivistelmän sisällöstä. Automaattinen puheentunnistus nopeuttaa huomattavasti sellaisten podcastien litterointia, joita ei ole etukäteen käsikirjoitettu.

Suomenkielinen puheentunnistus ja automaattinen litterointi

Suomenkielellä automaattinen puheentunnistus toimii jo kelvollisesti, kun puhe on selkeää eikä taustamelua ole merkittävästi. Virheiden korjaamiseen on kuitenkin syytä varautua. Parempiin lopputuloksiin päästään, kun käytössä on puheentunnistusmalli, joka voidaan mukauttaa käyttäjän puheeseen ja toimialan sanastoon, jolloin puheentunnistuksen laatu paranee merkittävästi jo lyhyen käytön jälkeen.

Haastavimpia puheentunnistuksessa ovat keskustelulliset tilanteet, joissa puhe on katkonaista ja keskustelijat saattavat puhua toistensa päälle.

Puheentunnistusteknologia ja ohjelmistojen suomenkielen ymmärtäminen kehittyvät koko ajan paremmiksi. Puheentunnistusta hyödyntäen litterointia voidaan nopeuttaa automaattisella purkamisella. Aikaa säästetään tunneilla, kun kone tekee alustavan tekstiluonnoksen, jonka ihminen lopuksi editoi ja viimeistelee arkistoitavaan muotoonsa.

Meiltä onnistuvat laadukkaat ja tarpeisiisi räätälöidyt puheesta tekstiksi -palvelut, ota yhteyttä! 

Sinua saattaisi kiinnostaa myös seuraavat artikkelit:

Mitä puheteknologia on?

Laajenna sisällön saavutettavuutta puheteknologian avulla

 

Kiinnostuitko? Ota Yhteyttä!

Jaa artikkeli

Share on linkedin
LinkedIn
Share on twitter
Twitter
Share on facebook
Facebook
Tulevat äänitrendit: Audiobrändäys ja puheohjaus

Tulevat äänitrendit: Audiobrändäys ja puheohjaus

Artikkelissa kerrotaan tulevista äänitrendeistä, kuten puheohjauksesta, audiobrändäyksestä sekä äänikirjoista opiskelussa.
a.i.materin vuosi 2021 paketissa

a.i.materin vuosi 2021 paketissa

a.i.materin vuoteen 2021 mahtui paljon. Artikkelissa Lauri kertoo, miten yritystoimintaa kehitettiin, asiakkuudet etenivät,…
Verkkosivulukija - kuunneltavat verkkosivut

Verkkosivulukija - kuunneltavat verkkosivut

Verkkosivulukijan avulla käyttäjä voi kuunnella verkkosivun tekstit ääneen luettuna, ilman että vierailijan tarvitsee…
Mikä on digioppikirja ja mitä etuja se tuo?

Mikä on digioppikirja ja mitä etuja se tuo?

Digikirjat ovat paljon enemmän kuin pelkkä painetun kirjan pdf-versio. Digioppikirjat ovat interaktiivisia ja…
Äänikirjojen suosion kasvu - Käyttäjämäärät kolminkertaistuneet

Äänikirjojen suosion kasvu - Käyttäjämäärät kolminkertaistuneet

Äänikirjojen suosio alkoi vuonna 2019, jonka jälkeen suosio on kasvanut entisestään. Taulukoimme suosion…
Äänikirjan lukemisen vaiheet - Studiossa tapahtuva luenta on vain yksi osa

Äänikirjan lukemisen vaiheet - Studiossa tapahtuva luenta on vain yksi osa

Studiossa tapahtuva luenta on vain yksi, vaikkakin kuuluvin osa äänikirjaprosessia. Avataan enemmän, mitä…
Hyödynnä puheteknologiaa maatalous- ja puutarha-alalla

Hyödynnä puheteknologiaa maatalous- ja puutarha-alalla

Teknologia, kuten puheteknologia, ja digitaaliset apuvälineet vähentävät maatalous- ja puutarha-alan työntekijöiden kuormittavuutta. Puheohjattavaa…
Koneääni: Ennakkoluulot vs. Todellisuus

Koneääni: Ennakkoluulot vs. Todellisuus

Minkälaisia mielikuvia sanasta koneääni syntyy? Koneäänet saadaan nykyään kuulostamaan hyvinkin luonnollisilta ja miellyttäviltä…
Mitä puheteknologia on?

Mitä puheteknologia on?

Mitä puheteknologia tarkoittaa ja mitä mahdollisuuksia se tarjoaa? Entä mitä puhesynteesi on ja…