HWSW: Simán tudna uzsonnát csomagolni a gyereknek a Google DeepMind robottechnológiája

  • Írta: szlav
  • 4 órája
  • Érdekesség
Link másolása
A robotokat vezérlő szoftverek a nagy nyelvi modellek fejlődésével egyre szofisztikáltabbak, illetve egyre jobbak abban, hogy felismerjék a környezetüket és szóbeli utasításokra manipuláljanak tárgyakat - írja a HWSW.

A humanoid robotok működése ma még meglehetősen messze áll a hollywoodi víziótól, a mesterséges intelligencia fejlesztéseknek köszönhetően azonban ennek a területnek a fejlődése is szárnyra kapott az elmúlt években. 

Szerdán a Google DeepMind csapata két olyan AI-modellről is lerántotta a leplet, melyek a Gemini 2.0 nagy nyelvi modellre építve a gépi látással összedrótozott szóbeli parancsfeldolgozásnak (vision-language-action, azaz VLA) köszönhetően képesek a környezetükre és a szóban kapott utasításokra bizonyos fizikai műveletek elvégzésére.

A fejlesztőcsapat által közzétett demó alapján a Gemini Robotics-szel vezérelt robotkarok meg tudják különböztetni a különböző gyümölcsöket, illetve azokat képesek elhelyezni abban az edényben, amit a vezérlőszemélyzet szóban kijelöl a számukra. A robotkarok emellett a finommotorikus mozgást igénylő feladatokban is egyre ügyesebbek, így nemrég ugyanezek a karok cipőfűzőt kötöttek be, most pedig gond nélkül behúzzák egy táska zippzárját, illetve becsomagolnak egy szendvicset.

A Gemini Robotics nyelv nagy áttörése, hogy a robotok ezzel olyan tárgyakkal is képesek interakcióba lépni, melyekkel soha nem találkoztak még korábban - további részletek a HWSW-n.

Hozzászólás írásához be kell jelentkezned!
Ha nem vagy még tag, regisztrálj! 2 perc az egész.
Egy kis türelmet kérünk...