Root NationUutisetIT-uutisiaMeta esitteli Llama 2 Long AI -mallin, joka toimii paremmin pitkillä kyselyillä

Meta esitteli Llama 2 Long AI -mallin, joka toimii paremmin pitkillä kyselyillä

-

Meta Platforms vuotuisessa Meta Connect -tapahtumassa Kaliforniassa esitetty useita uusia tekoälyominaisuuksia sen suosituille sovelluksille Facebook, Instagram ja WhatsApp, mutta teknologiajätin vaikuttavin innovaatio on ehkä jäänyt monilta huomaamatta. Puhumme Llama 2 Long AI -mallista.

Meta-yhtiön tutkijaryhmä julkaisi jotenkin hiljaa artikkelin, jossa he esittelivät uuden tekoälymallin, Llama 2 Longin, joka pystyy tuottamaan johdonmukaisia ​​ja relevantteja vastauksia pitkiin käyttäjien kyselyihin. He sanovat, että se päihittää korkeintaan joitakin alan parhaita kilpailijoita.

Laama 2 pitkä

Llama 2 Long on jatko Laama 2, avoimen lähdekoodin tekoälymalli Meta, joka julkaistiin kesän aikana ja joka voi oppia useista tietolähteistä ja suorittaa erilaisia ​​tehtäviä, kuten koodausta, matematiikkaa, kielten ymmärtämistä ja paljon muuta. Llama 2 Long kuitenkin koulutettiin käyttämään enemmän dataa, joka sisälsi pidempiä tekstejä, ja tätä algoritmia muutettiin käsittelemään pidempiä tietosarjoja. Tämän ansiosta se ylittää OpenAI:n GPT-3.5 Turbon ja Claude 2:n, joilla on rajoitukset kontekstin määrälle, jota ne voivat käyttää vastausten luomiseen.

Tutkijat Meta käytti Llama 2:n eri versioita - 7 miljardista 70 miljardiin parametriin, eli arvoihin, joita tekoälymalli voi muuttaa tiedoista oppimalla. He lisäsivät vielä 400 miljardia merkkiä (tekstiyksikköä) dataa, joka sisälsi pidempiä tekstejä kuin alkuperäinen mallitietojoukko. He myös muokkasivat hieman AI-mallin arkkitehtuuria Rotary Positional Embedding (RoPE) -tekniikalla, jotta malli voi tuottaa tarkkoja ja hyödyllisiä vastauksia käyttämällä vähemmän tietoa ja muistia kuin muut menetelmät.

Laama 2

Tiimi käytti ihmispalautteen avulla tapahtuvaa vahvistusoppimista (RLHF), menetelmää, jossa tekoälymalli palkitaan oikeista vastauksista ja ihmisten arvioijat korjaavat sen, ja Llama 2 -chat luo itse synteettistä dataa parantaakseen suorituskykyään erilaisissa tehtävissä. .

Paperi väittää, että malli voi tuottaa laadukkaita vastauksia jopa 200 40 merkin pituisiin käyttäjän kehotteisiin, mikä vastaa noin 2 sivua tekstiä. Tutkijat sanovat, että Llama XNUMX Long on askel kohti yleisempiä ja monipuolisempia tekoälymalleja, jotka voivat vastata käyttäjien monimutkaisiin ja monipuolisiin tarpeisiin. He myös tunnustavat tällaisten mallien mahdolliset eettiset ja sosiaaliset vaikutukset ja vaativat lisätutkimusta ja vuoropuhelua siitä, miten niitä voidaan käyttää vastuullisesti ja hyödyllisesti.

Lue myös:

Kirjaudu
Ilmoita asiasta
vieras

0 Kommentit
Upotetut arvostelut
Näytä kaikki kommentit