Tokion yliopiston tiimi on julkistanut Alter3:n, humanoidirobotin, joka pystyy suorittamaan liikkeitä GPT-4 Large Language Model (LLM) -mallilla. Alter3 käyttää uusinta työkalua Avaa AI ottamaan dynaamisesti erilaisia asennuksia selfie-asennosta haamukuviin, kaikki ilman esiohjelmoituja tietokantamerkintöjä.

"Alter3:n vastaus keskustelusisältöön kasvojen ilmeillä ja eleillä on merkittävä edistysaskel humanoidirobotiikassa, joka on helposti mukautettavissa muihin androideihin pienin muutoksin", tutkijat sanoivat.

LLM-integraatiossa robottien kanssa painopiste on perusviestinnän parantamisessa ja realististen vastausten mallintamisessa. Tutkijat tutkivat myös LLM:n kykyjä, joiden avulla robotit voivat ymmärtää ja suorittaa monimutkaisia käskyjä, mikä lisää niiden toimivuutta.

Perinteisesti matalan tason johtaminen robotit on sidottu laitteistoon ja on LLM-yhtiöiden toimivallan ulkopuolella. Tämä vaikeuttaa LLM-pohjaisten teosten suoraa hallintaa. Tämän ongelman ratkaisemiseksi japanilainen tiimi on kehittänyt menetelmän ihmisten liikkeiden ilmaisujen muuttamiseksi Androidille ymmärrettäväksi koodiksi. Tämä tarkoittaa, että robotti voi itsenäisesti luoda toimintosarjoja ajan mittaan ilman, että kehittäjien tarvitsee ohjelmoida jokaista kehon osaa erikseen.

Vuorovaikutuksen aikana henkilö voi antaa Alter3-komentoja, kuten "Ota selfie iPhonella". Tämän jälkeen robotti käynnistää sarjan pyyntöjä GPT-4:lle saadakseen ohjeita tarvittavista vaiheista. GPT-4 kääntää tämän Python-koodiksi, jonka avulla työ "ymmärtää" ja suorittaa tarvittavat liikkeet. Tämän innovaation ansiosta Alter3 voi liikuttaa ylävartaloaan samalla kun hänen alavartalonsa pysyy paikallaan kiinnitettynä telineeseen.

Alter3 on kolmas iteraatio Alterin humanoidirobottien sarjassa vuodesta 2016 lähtien, ja siinä on 43 toimilaitetta, jotka vastaavat kasvojen ilmeistä ja raajojen liikkeistä paineilmalla. Tämä kokoonpano tarjoaa laajan valikoiman ilmeikkäitä eleitä. Robotti ei voi kävellä, mutta se voi jäljitellä tyypillisiä kävely- ja juoksuliikkeitä.

https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/DsQuQEGQLazo-shrUvF_4.mp4

Alter3 osoitti myös kyvyn kopioida ihmisen asentoja kameran ja OpenPose-kehyksen avulla. Robotti säätää nivelensä havaittuihin asentoihin ja tallentaa onnistuneet jäljitelmät myöhempää käyttöä varten. Vuorovaikutus ihmisen kanssa johti monipuolisempiin asentoihin, mikä tukee ajatusta, että erilaiset liikkeet syntyvät ihmisen matkimisesta, samalla tavalla kuin vastasyntyneet oppivat jäljittelemällä.

Ennen LLM:ää tutkijoiden oli valvottava huolellisesti kaikkia 43 toimilaitetta luodakseen uudelleen henkilön asennon tai simuloidakseen käyttäytymistä, kuten teen tarjoilua tai shakin pelaamista. Tämä vaati useita manuaalisia säätöjä, mutta AI auttoi vapauttamaan joukkueen tästä rutiinista. "Odotamme Alter3:n osallistuvan tehokkaasti vuoropuheluun näyttämällä kontekstiin liittyviä ilmeitä ja eleitä. Se osoitti kykyä peilata tunteita, esimerkiksi osoittaa surua tai onnea vastauksena ja siten jakaa tunteita kanssamme", tutkijat sanovat.

Lue myös:

Dzherelomielenkiintoista tekniikkaa

Kirjaudu

0 Kommentit

Upotetut arvostelut

Näytä kaikki kommentit

Muut artikkelit

Tokiossa esiteltiin GPT-3:ään perustuvan humanoidirobotin Alter4 menestys

Viimeaikaiset kommentit