HWSW: Elérhetővé vált az OpenAI fejlett hangasszisztense
- Írta: szlav
- 2024. augusztus 1.
A fizetős ChatGPT Plus szolgáltatás előfizetőinek szűk köre már kipróbálhatja az OpenAI új hangasszisztensét, az Advanced Voice Mode-ot, aminek a rajtja kissé mostohán indul, lévén ennek kapcsán rúgta össze a port a cég és Scarlet Johansson, aki nehezményezte, hogy a „Sky” fantázianévre keresztelt beállítás túlságosan hasonlít az ő hangjára.
Az OpenAI májusban mutatta be az újgenerációs GPT-4o (omni) modellt, ami „natívan multimodális", tehát képes tartalmat generálni, vagy parancsokat értelmezni hang, szöveg vagy kép formájában, és minden bemeneti módszernél jelentősen javulni tudott az elődjéhez képest, valós időben, késleltetés nélkül tud kommunikálni kamerakép, írott szöveg és élő beszéd alapján is.
Kiemelhető újdonság, hogy miként képes kezelni a modell az audióbemenetet, ez egyben a legrémisztőbb is: a hangasszisztensi funkció valós időben, gyakorlatilag késleltetés nélkül reagál, a fejlesztők elmondása szerint átlagosan körülbelül 320 ezredmásodperc alatt. Egy 2009-es tanulmány szerint ez hasonló az emberek közt zajló beszélgetések alatt mért reakcióidőhöz, és jelentősen rövidebb, mint a korábbi modelleknél tapasztalt tipikus 2-3 másodperces késés.
Az OpenAI csak némi késéssel tudta megkezdeni az új funkció bevezetését. További részletek a HWSW-n.
Ha nem vagy még tag, regisztrálj! 2 perc az egész.