Toukokuun ääniuutiset

31.05.2023

Kootaan taas kuluneen kuukauden kieliteknologian uutisia yhteen artikkeliin!

Kielimallien, saavutettavuuden ja älykkäiden NPC:n kehitystä

Googlen Bardista entistä älykkäämpi

Toukokuun alkupuolella pidetyssä vuosittaisessa Googlen I/O -tapahtumassa kerrottiin taas Googlen kehityksestä. Tämän vuoden tapahtuman keskiössä oli Bard: Googlen vastine ChatGPT:lle. Bard julkistettiin jo pari kuukautta sitten helmikuussa, mutta nyt se on päivitetty aiemmasta LaMDA-kielimallista PaLM-kielimalliin, joka on Googlen suurin luonnollisen kielen käsittelymalli. Bard pystyy GPT 4:n tavoin käsittelemään nyt myös kuvia, luomaan koodia tekstistä ja vastata matemaattisiin ongelmiin. Uusi multimodaalinen malli on kuitenkin jo koulutuksessa ja Bard tulee jossain vaiheessa siirtymään Gemini-nimisen mallin käyttöön.

Bard on käytettävissä tällä hetkellä 180 maassa, mutta ei edelleenkään EU-maissa; syyksi arvellaan EU:n tietosuoja-asetuksia.

Meta julkisti uuden avoimen lähdekoodin kielimallin

Metan vetämä MMS-projekti (massively multilingual speech) julkisti puheesta tekstiksi- ja tekstistä puheeksi tekoälymalleja yli 1100 kielelle. Puhemalli pystyy tunnistamaan lähes 4000 kieltä. Kyseisten koneoppimismallien koulutukseen tarvittiin tuhansia tunteja puhetta ja niitä vastaavia tekstisisältöjä useilta kieliltä. Meta sanoo käyttäneensä tähän muun muassa raamattua ja muita uskonnollisia tekstejä, koska niitä on käännetty useille kielille ja niistä on saatavilla julkisia äänitallenteita.

Meta jakoi mallinsa ja koodinsa avoimesti, jotta muutkin voisivat hyötyä niistä. Metan mukaan nykyiset puheteknologiaratkaisut kiihdyttävät vähemmistökielien katoamista, joten he haluavat omalta osaltaan edesauttaa kielellisen monimuotoisuuden säilymistä tarjoamalla ihmisille mahdollisuuksia käyttää teknologiaa omalla kielellään.

Uusia saavutettavuusominaisuuksia

Apple esitteli uusia saavutettavuusominaisuuksia, jotka tulevat loppuvuodesta käyttöön Applen laitteille. Assistive Access sisältää muun muassa Point and Speak -nimisen ominaisuuden, joka lukee laitteen kameran ja konenäön avulla fyysisissä kohteissa olevia tekstejä ääneen, esimerkiksi opastetauluja.

Toinen puheteknologian näkökulmasta mielenkiintoinen ominaisuus on Personal Voice, joka mahdollistaa oman koneäänen luomisen. Omasta äänestään pystyy siis luomaan koneäänen lukemalla ääneen 15 minuutin ajan sovelluksen antamia tekstejä. Syntetisoitua ääntä voidaan käyttää esimerkiksi Sirin tilalla tai tekstistä puheeksi toimintona. Ominaisuus on suunniteltu etenkin heille, jotka ovat etenevän sairauden, kuten ALS:n, takia menettämässä puhekykynsä. Applen mukaan valmista koneääntä ei yhdistetä Apple ID:n kanssa tai jaeta kenellekään, edes Applelle, jotta väärinkäytöksien riskejä ei pääsisi syntymään.

ChatGPT:stä sovellus

Selaimessa käytettävästä ChatGPT:sta julkaistiin Applen käyttöjärjestelmissä toimiva sovellus. Sovellus on tarkoitettu käytettäväksi iPhonessa ja iPadissä. Sovelluksessa on uutena ominaisuutena mahdollisuus jutella ääneen chatbotin kanssa. Äänen tallennus pitää manuaalisesti aloittaa ja lopettaa, eli sovellus ei kuuntele käyttäjäänsä koko ajan. Puheesta tekstiksi ominaisuus käyttää Whisper-puheentunnistusmallia. ChatGPT:n Android-versio on tulossa myöhemmin.

Chatbot kielivähemmistöille

Intian hallituksen tukeman aloitteen myötä syntyi Jugalbandi -chatbot, jonka toivotaan olevan hyödyksi etenkin Intian maaseuduilla asuville kielivähemmistöille. Nykyisin botti kattaa kymmenen kieltä Intian 22:sta virallisesta kielestä. Jugalbandin tarkoituksena on helpottaa tietojen hakemista hallituksen ohjelmista omalla kielellään. Chatbotin nähdään toimivan jatkossa myös eri instituutioiden kanssa asioimisessa; esimerkiksi lääketieteellisen tiedon tai oikeuden asiakirjojen hakeminen olisi helpompaa.

Jugalbandi toimii WhatsAppin kautta: käyttäjä lähettää ääni- tai tekstiviestin Jugalbandin WhatsApp numeroon, ääniviesti litteroidaan puheentunnistusmallin avulla tekstiksi, viesti käännetään automaattisesti englanniksi, palvelu etsii vastauksen käyttäjän kysymykseen, ja lopuksi käyttäjä saa omalla kielellään olevan vastauksen suoraan Whatspp-keskusteluun tekstimuodossa ja koneäänen lukemana ääniviestinä. Chatbotissa hyödynnetään Microsoft Azuren OpenAI palvelun GPT-malleja.

Älykkäät NPC:t keskustelevat

Peleihin, elokuviin ja virtuaalimaailmaan koneääniä tuottava Replica Studios ilmoitti kehittävänsä älykkäitä NPC eli ei-pelaajahahmoja. Hahmoissa yhdistyvät Replica Studiosin koneäänet ja OpenAI:n kielimallien tarjoamat keskustelumahdollisuudet. Pelaajat voivat siis käydä ihmismäisempiä keskusteluja myös NPC:n kanssa, niin että hahmot muuttavat vuoropuheluaan, tunnetilaansa sekä kehon ja huulien liikkeitään pelaajan käymän keskustelun mukaan.

Replica Studiosin toimitusjohtaja Shreyas Nivas sanoo tämän tuovan varsinkin pieni-resurssisille pelistudioille mahdollisuudet laajentaa tarinallisia pelejään eeppisiksi seikkailuiksi: tarinankerronnasta saadaan syvempää ja toiminnallisempaa satojen hahmojen ja jatkuvasti laajenevien tarinoiden avulla. Älykäs NPC -laajennus julkaistaan myöhemmin tänä vuonna.

Toukokuun ääniversio kuunneltavissa a.i.materin YouTube-kanavalla:

Sinua saattaisi kiinnostaa myös seuraavat artikkelit:

Huhtikuun ääniuutiset

Maaliskuun ääniuutiset

Helmikuun ääniuutiset

Alkuvuoden koneääniuutiset maailmalta

Mikä ihmeen GPT? – Koneoppimisinsinööri vastaa

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

13.6.2024

Miten puheteknologia näkyy tulevaisuuden arkielämässä?

Käsittelyssä kielimuurien häviäminen, henkilökohtaisemmat ääniassistentit, älykodit, äänikloonit, tekoälyllä tuotettava musiikki, median kulutus, terveyssovellukset, asiakaspalvelu, biometrinen tunnistautuminen ja smart city -ajatus.

16.5.2024

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Sekä ruudunlukuohjelma että verkkosivulukija lukee verkkosivuja ääneen. Oleellisen ero on, että ruudunlukijat on tarkoitettu henkilöille, joilla on näkemisen tai motorisen tai kognitiivisen puolen kanssa rajoitteita, kun taas verkkosivulukija sopii paljon

23.4.2024

Toukokuun ääniuutiset

Kielimallien, saavutettavuuden ja älykkäiden NPC:n kehitystä

Googlen Bardista entistä älykkäämpi

Meta julkisti uuden avoimen lähdekoodin kielimallin

Uusia saavutettavuusominaisuuksia

ChatGPT:stä sovellus

Chatbot kielivähemmistöille

Älykkäät NPC:t keskustelevat

Toukokuun ääniversio kuunneltavissa a.i.materin YouTube-kanavalla:

Kysymyksiä, ajatuksia tai mahdollinen yhteistyö?

Miten puheteknologia näkyy tulevaisuuden arkielämässä?

Ruudunlukuohjelmien toiminta ja vertailu verkkosivulukijaan

Ääni vai teksti? Tiedon kuluttamisen monimuotoisuus

a.i.mater tuottaa ePress®-näköislehtipalvelun kuunneltavat artikkelit

Yle.fi-verkkosivujen ja -sovelluksen uutisartikkelit nyt kuunneltavissa

Miten saada verkkosivujen tekstisisällöt kuunneltavaan muotoon?

Kiinnostuitko?

On sinulla sitten valmis tarve tai kaipaat ideallesi vasta sparrailua, saamme sitä varmasti yhdessä eteenpäin. Ota yhteyttä, kuulemme mielellämme sinusta!

Sounds better