Root NationUutisetIT-uutisiaKuva AI esitteli humanoidi-AI-robotin uusia taitoja

Kuva AI esitteli humanoidi-AI-robotin uusia taitoja

-

Humanoidirobottien kehitys on edennyt hitaalla vauhdilla suurimman osan kahden vuosikymmenen ajan, mutta viime aikoina olemme nähneet yhä enemmän läpimurtoja tällä alalla. Kuten äskettäin kirjoitimme, tekoälyrobotti esiteltiin MWC 2024:ssä amecaja toinen kehitys, Unitree H1, rikkoi humanoidirobottien nopeusennätyksen. Ja nyt Internetiin on ilmestynyt upea tulos Figure AI:n ja OpenAI-yritysten yhteistyöstä - upea video humanoidirobotista, joka pystyy nyt keskustelemaan ihmisten kanssa.

Kuva AI ja OpenAI esittelivät uuden humanoidirobotin tekoälyllä

Startup Figure AI julkaisi videon, jossa kuva 01 robotti työskentelee uuden visuaalisen kielimallin (VLM) kanssa. Siinä kuva 01 seisoo pöydän ääressä, jolla on lautanen, omena ja kuppi. Vasemmalla on kuivausrumpu. Ja ihmisen kysymykseen, mitä robotti näkee edessään, hän vastaa kuvailemalla yksityiskohtaisesti kaiken, mikä makaa pöydällä.

Ja sitten mies kysyy, voiko hän syödä jotain, ja robotti vastaa: "Tietenkin", ja sitten hän ottaa näppärällä pehmeällä liikkeellä omenan ja ojentaa sen miehelle. Sen jälkeen tulee toinen upea esittely - mies kaataa rypistynyttä roskaa korista Kuvan 01 eteen ja pyytää robottia selittämään miksi hän teki tämän ja samalla keräämään roskat koriin. Ja hän selittää "ajatuksensa" laittamalla paperin takaisin roskakoriin. "Joten annoin sinulle omenan, koska se on ainoa syötävä esine, jonka voin antaa sinulle pöydästä", sanoi robotti.

Yrityksen edustajat selittivät, että kuvassa 01 käytetään esikoulutettua multimodaalista mallia OpenAI, VLM, ymmärtää kuvia ja tekstejä, ja luottaa äänikehotuksiin vastauksensa luomiseen. Tämä eroaa esimerkiksi OpenAI:n GPT-4:stä, joka keskittyy kirjallisiin kehotteisiin.

Se käyttää myös sitä, mitä yritys kutsuu "oppituiksi matalan tason bimanuaalisille manipuloinneille". Järjestelmä koordinoi tarkan kuvan kalibroinnin (pikselitasolle asti) hermoverkkonsa kanssa liikkeen ohjaamiseksi. "Nämä verkot vastaanottavat kuvia 10 Hz:llä ja tuottavat 24-DOF-toimintoja (ranteen asennot ja sormen nivelkulmat) 200 Hz:llä", Figure AI sanoi lausunnossaan.

Yhtiö väittää, että jokainen videon käyttäytyminen perustuu järjestelmäoppimiseen, joten kukaan kulissien takana ei vedä Kuvan 01 naruja. Tietenkin on vivahde - ei tiedetä, kuinka monta kertaa robotti kävi läpi tämän menettelyn. Ehkä se oli sadas kerta, mikä selittää hänen tarkat liikkeensä. Mutta joka tapauksessa tämä saavutus näyttää upealta ja hieman fantastiselta.

Lue myös:

Dzherelotechradar
Kirjaudu
Ilmoita asiasta
vieras

0 Kommentit
Upotetut arvostelut
Näytä kaikki kommentit