HWSW: Emberszerű csevegéssel riogat az OpenAI új AI-modellje

Írta: szlav
2024. május 16.
Hír

Link másolása

0 komment

Megérti a valós idejű beszédet, felismeri a különféle érzelmekre utaló jeleket és a vizuális bemenettel is képes dolgozni az OpenAI legújabb nagy nyelvi modellje, a GPT-4o (omni), ami az ingyenes ChatGPT alá is bekerül.

A szokásos frázisokkal élve gyorsabb, hatékonyabb és jobban teljesít szövegértésben a ChatGPT alatt dolgozó nagy nyelvi modell, a GPT-4 legújabb iterációja, amit hétfőn jelentett be az OpenAI, még a Google éves fejlesztői konferenciájának keddi rajtja előtt. Az időzítésből fakadóan több lap úgy találgatott, hogy a startup egy AI-alapú keresőmotort fog bejelenteni, de nagyobb esély mutatkozott egy továbbfejlesztett modellre – ami még nem a GPT-5, hanem valami más.

Mira Murati technológiai igazgató elmondása szerint az újgenerációs GPT-4o (omni) képességeit minden felhasználó ingyen próbálhatja ki, míg a ChatGPT prémium előfizetői kevesebb korlátozással és nagyobb kapacitással használhatják az új képességeket, a következő napok-hetek során. A modell „natívan multimodális", tehát képes tartalmat generálni, vagy parancsokat értelmezni hang, szöveg vagy kép formájában, és minden bemeneti módszernél jelentősen javulni tudott az elődjéhez képest, valós időben, késleltetés nélkül tud kommunikálni kamerakép, írott szöveg és élő beszéd alapján is.

Kiemelhető újdonság, hogy miként képes kezelni a modell az audióbemenetet, ez egyben a legrémisztőbb is: hangasszisztensként valós időben, gyakorlatilag késleltetés nélkül reagál, a fejlesztők elmondása szerint átlagosan körülbelül 320 ezredmásodperc alatt. Egy 2009-es tanulmány szerint ez hasonló az emberek közt zajló beszélgetések alatt mért reakcióidőhöz, és jelentősen rövidebb, mint a korábbi modelleknél tapasztalt tipikus 2-3 másodperces késés.

A bemutatóra hozott egyik demóban a modell hangszínét és stílusát a felhasználó kommunikációjához igazította, amihez különféle hangeffektusokat, nevetést és éneklést is beépített a válaszaiba. Az OpenAI tavaly szeptemberben bővítette hangalapú társalgási funkcióval a ChatGPT-t, amikor elérhetővé tette a Whisper beszédfelismerő modellt, így láthatóan fél év alatt sokat sikerült fejlődni ezen a területen.

Sokat javult a modell vizuális feldolgozás és értelmezés terén is: a felhasználók a szövegeket, grafikonokat és képeket tartalmazó képernyőmentések, vagy dokumentumok feltöltése után kérdezhetik a ChatGPT-t az azokon látható/olvasható tartalommal kapcsolatban, arról akár összegzést vagy elemzést is kérhetnek róla. A telefon kameráját egy matematikai egyenletet mutató papír felé fordítva pedig hamar megoldással tér vissza a modell.

Az OpenAI mindezek mellett bejelentette a fejlesztéshez használható fizetős API árcsökkenését, a ChatGPT frissített kezelőfelületét, a macOS-re gyártott asztali alkalmazását és Sam Altman beszélt arról is, hogy a GPT-4o mennyivel jobban teljesít a különböző nyelvek közti valós idejű fordítás terén - a részletekért irány a HWSW!

Hozzászólás írásához be kell jelentkezned!
Ha nem vagy még tag, regisztrálj! 2 perc az egész.

Egy kis türelmet kérünk...