Metan puhe-AI tunnistaa yli 4 puhuttua kieltä

Meta loi tekoälyn kielimallin, joka ei ole ChatGPT-klooni. Yrityksen Massively Multilingual Speech (MMS) -projekti pystyy tunnistamaan yli 4 000 puhuttua kieltä ja toistaa puhetta (teksti puheeksi) yli 1 100 kielellä. Kuten useimmat julkisesti julkistetut tekoälyprojektit, Meta tarjoaa nykyään MMS:n avoimen pääsyn auttaakseen säilyttämään kielellisen monimuotoisuuden ja rohkaisemaan tutkijoita kehittämään sitä. "Tänään jaamme julkisesti mallimme ja koodimme, jotta muut tutkimusyhteisön jäsenet voivat rakentaa työtämme", yhtiö kirjoitti. "Tämän työn ansiosta toivomme saavamme pienen panoksen maailman uskomattoman kielellisen monimuotoisuuden säilyttämiseen."

Puheentunnistus ja tekstistä puheeksi -mallit vaativat tyypillisesti koulutusta tuhansien tuntien äänitallenteisiin ja niihin liittyviin transkriptiotarroihin. Mutta kielille, joita ei puhuta laajalti teollisuusmaissa – joista monet ovat vaarassa kuolla sukupuuttoon tulevina vuosikymmeninä – "tätä tietoa ei yksinkertaisesti ole olemassa", Meta sanoo.

Meta otti äänitiedon keräämiseen epätavanomaisen lähestymistavan: kuunneltiin käännettyjen uskonnollisten tekstien äänitallenteita. "Käytimme uskonnollisia tekstejä, kuten Raamattua, jotka on käännetty useille eri kielille ja joiden käännöksiä on tutkittu laajasti tekstipohjaista käännöstutkimusta varten", yhtiö sanoi. "Näissä käännöksissä on julkisesti saatavilla äänitallenteita ihmisistä, jotka lukevat näitä tekstejä eri kielillä." Sisällyttämällä merkitsemättömiä kohtia Raamatusta ja vastaavista teksteistä Meta-tutkijat lisäsivät mallin käytettävissä olevien kielten määrän yli 4 000:een.

"Vaikka äänitallenteiden sisältö on uskonnollista, analyysimme osoittaa, että tämä ei vaikuta mallin uskonnollisemman kielen tuotantoon", Meta kirjoittaa. "Uskomme tämän johtuvan siitä, että käytämme konnektionistista temporaalista luokittelua (CTC), joka on paljon rajallisempi verrattuna suuriin kielimalleihin (LLM) tai puheentunnistuksen sekvenssimalleihin." Huolimatta siitä, että valtaosa uskonnollisista teksteistä oli miesten lukemia, tämä ei johtanut miesten ennakkoluuloihin – järjestelmä tunnisti sekä nais- että miesäänet yhtä hyvin.

Koulutettuaan kohdistusmallin tehdäkseen datasta käyttökelpoisemman, Meta käytti wav2vec 2.0:aa, yrityksen "itsevalvottua kielten esittelyoppimismallia", joka voi oppia merkitsemättömästä tiedosta. Epäperinteisten tietolähteiden ja itseohjautuvan puhemallin yhdistelmä johti vaikuttaviin tuloksiin. "Tuloksemme osoittavat, että monikielisten massalähetysten mallit toimivat hyvin nykyisiin malleihin verrattuna ja kattavat 10 kertaa enemmän kieliä." Erityisesti Meta vertasi MMS:ää OpenAI:n Whisperiin, ja tulokset ylittivät odotukset. "Huomasimme, että Massively Multilingual Speech -tiedoilla koulutetuissa malleissa on puolet sanavirheiden prosenttiosuudesta, mutta Massively Multilingual Speech kattaa 11 kertaa enemmän kieliä."

Meta varoittaa, että sen uudet mallit eivät ole täydellisiä. "Esimerkiksi on olemassa riski, että puhe tekstiksi -malli voi kääntää yksittäisiä sanoja tai lauseita väärin", yhtiö kirjoittaa. ”Tuloksista riippuen tämä voi johtaa loukkaaviin ja/tai epätarkkoihin kielenkäyttöön. Uskomme edelleen, että yhteistyö tekoälyyhteisön sisällä on kriittinen tekijä tekoälyteknologioiden vastuullisessa kehittämisessä.

Nyt kun Meta on julkaissut MMS-viestit avoimen lähdekoodin tutkimukseen, se toivoo kääntävänsä suuntauksen vähentää kielten määrää maailmassa sataan tai alle, joista useimmat ovat suurten teknologioiden tukemia. Hän näkee maailman, jossa avustava teknologia, TTS ja jopa VR / AR -tekniikat antavat kaikille mahdollisuuden puhua ja oppia omalla äidinkielellään. Siinä sanotaan: "Kuvittelemme maailmaa, jossa teknologialla on päinvastainen vaikutus, joka rohkaisee ihmisiä pitämään kielensä elossa, koska he voivat saada tietoa ja käyttää teknologiaa puhuessaan omaa kieltään."

Lue myös:

DzhereloEngadget

tunnisteet
Meta
Uutiset
Tekoäly

Kirjaudu

0 Kommentit

Upotetut arvostelut

Näytä kaikki kommentit

Muut artikkelit

Metan puhe-AI tunnistaa yli 4 puhuttua kieltä

Viimeaikaiset kommentit