Keskellä lukee toukokuun ääniuutiset. Taustalla kuva kuulokkeista kirjapinon päällä, kuulokkeiden vieressä on juomalasi, jossa sitruunaviipale ja kukkiva omenapuun oksa.

Toukokuun ääniuutiset

Kootaan taas kuluneen kuukauden kieliteknologian uutisia yhteen artikkeliin!

Kielimallien, saavutettavuuden ja älykkäiden NPC:n kehitystä

Googlen Bardista entistä älykkäämpi

Toukokuun alkupuolella pidetyssä vuosittaisessa Googlen I/O -tapahtumassa kerrottiin taas Googlen kehityksestä. Tämän vuoden tapahtuman keskiössä oli Bard: Googlen vastine ChatGPT:lle. Bard julkistettiin jo pari kuukautta sitten helmikuussa, mutta nyt se on päivitetty aiemmasta LaMDA-kielimallista PaLM-kielimalliin, joka on Googlen suurin luonnollisen kielen käsittelymalli. Bard pystyy GPT 4:n tavoin käsittelemään nyt myös kuvia, luomaan koodia tekstistä ja vastata matemaattisiin ongelmiin. Uusi multimodaalinen malli on kuitenkin jo koulutuksessa ja Bard tulee jossain vaiheessa siirtymään Gemini-nimisen mallin käyttöön.

Bard on käytettävissä tällä hetkellä 180 maassa, mutta ei edelleenkään EU-maissa; syyksi arvellaan EU:n tietosuoja-asetuksia.

Meta julkisti uuden avoimen lähdekoodin kielimallin

Metan vetämä MMS-projekti (massively multilingual speech) julkisti puheesta tekstiksi- ja tekstistä puheeksi tekoälymalleja yli 1100 kielelle. Puhemalli pystyy tunnistamaan lähes 4000 kieltä. Kyseisten koneoppimismallien koulutukseen tarvittiin tuhansia tunteja puhetta ja niitä vastaavia tekstisisältöjä useilta kieliltä. Meta sanoo käyttäneensä tähän muun muassa raamattua ja muita uskonnollisia tekstejä, koska niitä on käännetty useille kielille ja niistä on saatavilla julkisia äänitallenteita.

Meta jakoi mallinsa ja koodinsa avoimesti, jotta muutkin voisivat hyötyä niistä. Metan mukaan nykyiset puheteknologiaratkaisut kiihdyttävät vähemmistökielien katoamista, joten he haluavat omalta osaltaan edesauttaa kielellisen monimuotoisuuden säilymistä tarjoamalla ihmisille mahdollisuuksia käyttää teknologiaa omalla kielellään.

Uusia saavutettavuusominaisuuksia

Apple esitteli uusia saavutettavuusominaisuuksia, jotka tulevat loppuvuodesta käyttöön Applen laitteille. Assistive Access sisältää muun muassa Point and Speak -nimisen ominaisuuden, joka lukee laitteen kameran ja konenäön avulla fyysisissä kohteissa olevia tekstejä ääneen, esimerkiksi opastetauluja.

Toinen puheteknologian näkökulmasta mielenkiintoinen ominaisuus on Personal Voice, joka mahdollistaa oman koneäänen luomisen. Omasta äänestään pystyy siis luomaan koneäänen lukemalla ääneen 15 minuutin ajan sovelluksen antamia tekstejä. Syntetisoitua ääntä voidaan käyttää esimerkiksi Sirin tilalla tai tekstistä puheeksi toimintona. Ominaisuus on suunniteltu etenkin heille, jotka ovat etenevän sairauden, kuten ALS:n, takia menettämässä puhekykynsä. Applen mukaan valmista koneääntä ei yhdistetä Apple ID:n kanssa tai jaeta kenellekään, edes Applelle, jotta väärinkäytöksien riskejä ei pääsisi syntymään.

ChatGPT:stä sovellus

Selaimessa käytettävästä ChatGPT:sta julkaistiin Applen käyttöjärjestelmissä toimiva sovellus. Sovellus on tarkoitettu käytettäväksi iPhonessa ja iPadissä. Sovelluksessa on uutena ominaisuutena mahdollisuus jutella ääneen chatbotin kanssa. Äänen tallennus pitää manuaalisesti aloittaa ja lopettaa, eli sovellus ei kuuntele käyttäjäänsä koko ajan. Puheesta tekstiksi ominaisuus käyttää Whisper-puheentunnistusmallia. ChatGPT:n Android-versio on tulossa myöhemmin.

Chatbot kielivähemmistöille

Intian hallituksen tukeman aloitteen myötä syntyi Jugalbandi -chatbot, jonka toivotaan olevan hyödyksi etenkin Intian maaseuduilla asuville kielivähemmistöille. Nykyisin botti kattaa kymmenen kieltä Intian 22:sta virallisesta kielestä. Jugalbandin tarkoituksena on helpottaa tietojen hakemista hallituksen ohjelmista omalla kielellään. Chatbotin nähdään toimivan jatkossa myös eri instituutioiden kanssa asioimisessa; esimerkiksi lääketieteellisen tiedon tai oikeuden asiakirjojen hakeminen olisi helpompaa.

Jugalbandi toimii WhatsAppin kautta: käyttäjä lähettää ääni- tai tekstiviestin Jugalbandin WhatsApp numeroon, ääniviesti litteroidaan puheentunnistusmallin avulla tekstiksi, viesti käännetään automaattisesti englanniksi, palvelu etsii vastauksen käyttäjän kysymykseen, ja lopuksi käyttäjä saa omalla kielellään olevan vastauksen suoraan Whatspp-keskusteluun tekstimuodossa ja koneäänen lukemana ääniviestinä. Chatbotissa hyödynnetään Microsoft Azuren OpenAI palvelun GPT-malleja.

Älykkäät NPC:t keskustelevat

Peleihin, elokuviin ja virtuaalimaailmaan koneääniä tuottava Replica Studios ilmoitti kehittävänsä älykkäitä NPC eli ei-pelaajahahmoja. Hahmoissa yhdistyvät Replica Studiosin koneäänet ja OpenAI:n kielimallien tarjoamat keskustelumahdollisuudet. Pelaajat voivat siis käydä ihmismäisempiä keskusteluja myös NPC:n kanssa, niin että hahmot muuttavat vuoropuheluaan, tunnetilaansa sekä kehon ja huulien liikkeitään pelaajan käymän keskustelun mukaan.

Replica Studiosin toimitusjohtaja Shreyas Nivas sanoo tämän tuovan varsinkin pieni-resurssisille pelistudioille mahdollisuudet laajentaa tarinallisia pelejään eeppisiksi seikkailuiksi: tarinankerronnasta saadaan syvempää ja toiminnallisempaa satojen hahmojen ja jatkuvasti laajenevien tarinoiden avulla. Älykäs NPC -laajennus julkaistaan myöhemmin tänä vuonna.

Toukokuun ääniversio kuunneltavissa a.i.materin YouTube-kanavalla:

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Henkilö istuu lattialla kirjan edessä tekemässä muistiinpanoja. Hänellä on kuulokkeet päässä. Kuvaotettu ylhäältäpäin.
23.4.2024
Tietoa on monia tapoja kuluttaa ja meidän tulisi huomioida tämä monimuotoisuus sisältöä tuottaessa Ääni ja teksti tukevat toisiaan ja antavat sisällön kuluttajalle valinnanvaraa päättää
Läppäri, jonka näppäimistön päällä on kuulokkeet. Läppärin näytössä on eepressin etusivu.
2.4.2024
Konenäköä ja puhesynteesiä yhdistäneessä projektissa kehitimme ePress näköislehtipalvelulle pipelinen joka pystyy tunnistamaan näköislehtien artikkelit ja toimittamaan niistä ääniversiot
Kuulokkeet tietokonepöydän päällä.
14.3.2024
Yle on ottanut käyttöön a i materin kehittämän kuuntelumahdollisuuden uutissivuilleen Kuunteluominaisuus parantaa palvelun digitaalista saavutettavuutta
Aimaterin työntekijät Roope ja Niko tutkivat työpöydän edessä tietokoneelta jotain. Roope juuri osoittaa kädellään näyttöä.
28.2.2024
Artikkelissa esitellään ja vertaillaan verkkosivulukijaa ja äänirajapintaa miten ne toimivat ja mikä tapa sopii mihinkin tarkoitukseen
Educa-messujen 2024 logo
29.1.2024
a i mater oli mukana Educa messuilla näytteilleasettajan roolissa Paljon kiinnostavia kohtaamisia keskusteluja mahdollisten uusien asiakkaiden kanssa sekä nykyisten asiakkaiden ja yhteistyökumppanien tapaamisia
10.1.2024
Digiaudion kulutus kasvaa edelleen ääni on yhä tärkeämpi osa brändistrategiaa ja ääniklooneja voi hyödyntää muuhunkin kuin hupailuun Muun muassa näihin voi hyödyntää moderneja koneääniä kuluvana vuonna