Root NationUutisetIT-uutisiaUusi AI Microsoft jäljittelee kenen tahansa ääntä 3 sekunnin ääninäytteestä

Uusi AI Microsoft jäljittelee kenen tahansa ääntä 3 sekunnin ääninäytteestä

-

Torstaina tutkijat Microsoft julkisti uuden tekoälyn (AI) mallin nimeltä VALL-E, joka voi jäljitellä tarkasti ihmisääntä, kun sille annetaan kolmen sekunnin ääninäyte. Kun VALL-E oppii tietyn äänen, se voi syntetisoida kyseisen henkilön äänen, joka sanoo mitä tahansa ja säilyttää puhujan tunnesävyn.

Sen kirjoittajat ehdottavat, että VALL-E:tä voidaan käyttää korkealaatuiseen tekstistä puheeksi, puheeditointiin, jossa henkilön tallennetta voidaan muokata ja muuttaa tekstin transkriptiosta (saa hänet sanomaan asioita, joita he eivät alun perin sanoneet) ja äänisisällön luomiseen yhdistettynä muihin generatiivisiin AI-malleihin, kuten GPT-3.

Microsoft AI VALL-E

Microsoft kutsuu VALL-E:tä "neuraalikoodekkien kielimalliksi", ja se perustuu EnCodec-nimiseen tekniikkaan, jonka Meta julkisti lokakuussa 2022. Toisin kuin muut tekstistä puheeksi -menetelmät, jotka tyypillisesti syntetisoivat puhetta manipuloimalla aaltomuotoja, VALL-E tuottaa diskreetin äänen. koodekkikoodeja tekstistä ja akustisista kehotteista. Se analysoi pohjimmiltaan, miltä henkilö kuulostaa, jakaa tiedot erillisiksi komponenteiksi (kutsutaan "tunnisteiksi") EnCodecin ansiosta ja käyttää harjoitustietoja löytääkseen sen "tietää" siitä, miltä tuo ääni kuulostaisi, jos se puhuisi muita lauseita ulkopuolelta. kolmen sekunnin näytteestä.

Microsoft koulutti VALL-E:n puhesynteesiominaisuudet Metan kokoamassa LibriLight-nimisessä äänikirjastossa. Se sisältää 60 7 tuntia englanninkielisiä lähetyksiä yli XNUMX XNUMX kuuluttajalta, pääosin julkisesti saatavilla olevista LibriVox-äänikirjoista.

Sen lisäksi, että VALL-E säilyttää kuuluttajan äänen ja tunnesävyn, se voi myös simuloida ääninäytteen "akustista ympäristöä". Jos näyte on saatu esimerkiksi puhelinkeskustelusta, syntetisoitu äänilähtö simuloi puhelinkeskustelun akustisia ja taajuusominaisuuksia. Myös näytteitä Microsoft osoittavat, että VALL-E voi tuottaa äänen sointivaihteluita.

Microsoft AI VALL-E

Ehkä johtuen VALL-E:n kyvystä helpottaa petoksia ja petoksia, Microsoft ei ole toimittanut VALL-E-koodia muiden kokeiltavaksi, joten emme voi testata sen ominaisuuksia. Tutkijat näyttävät olevan tietoisia mahdollisista sosiaalisista haitoista, joita tämä tekniikka voi aiheuttaa. Artikkelin lopussa he kirjoittavat:

"Koska VALL-E voi syntetisoida puhetta, joka säilyttää puhujan identiteetin, siihen voi liittyä mahdollisia mallien väärinkäytön riskejä, kuten äänen tunnistamisen huijaaminen tai tietyn puhujan esiintyminen. Tällaisten riskien vähentämiseksi rakennetaan tunnistusmalli, joka erottaa, onko äänileike syntetisoitu VALL-E:llä."

Voit auttaa Ukrainaa taistelemaan venäläisiä hyökkääjiä vastaan. Paras tapa tehdä tämä on lahjoittaa varoja Ukrainan asevoimille Pelasta elämä tai virallisen sivun kautta NBU.

Lue myös:

DzhereloArsTechnica
Kirjaudu
Ilmoita asiasta
vieras

0 Kommentit
Upotetut arvostelut
Näytä kaikki kommentit
Muut artikkelit
Tilaa päivityksiä
Suosittu nyt