HWSW: Ingyen elérhető a Meta eddigi legfejlettebb nagy nyelvi modellje

Írta: szlav
2024. július 25.
Hír

Link másolása

0 komment

Eddig még egy cég sem tett közzé szabadon ennyire komplex, helyben futtatható modellt, ami ráadásul hasonló szintet képvisel, mint a versenytársak jelenleg elérhető legerősebb modelljei - írja a HWSW.

Meglepő gyakorisággal érkeznek a hírek az újabb és újabb nagy nyelvi modellekről (LLM), újdonság azonban még mindig van a nap alatt, ezúttal a Meta kavarja fel még jobban a vizet az első olyan LLM-el, ami nyíltan hozzáférhető, és a jelenleg csúcsnak számító GPT-4 modellt megközelítő teljesítményt produkál. Az ingyen letölthető Llama 3.1 405B modellt bárki futtathatja saját hardveren, ami alatt természetesen azért nem egy átlagos asztali PC-t kell érteni (operatív memóriából például fél terabájtnál is több kell).

Mivel nyílt súlyozású modell, így bárki letöltheti a betanított neurális hálózati fájlokat, és futtathatja vagy finomhangolhatja a működését, a súlyadatokkal együtt. A közösségi óriás ezzel a lépéssel közvetlenül megkérdőjelezi azt az üzleti modellt, amit az OpenAI és a hasonló vállalatok alkalmaznak, azaz hogy a modellből bevételt szereznek előfizetési csomagokon keresztül olyan termékekkel, mint a ChatGPT, vagy díjat számítanak fel a token általi hozzáférésért egy API-n keresztül.

A Meta 405 milliárd paraméteres modelljét több mint 15 billió tokenen tanította be az internetről gyűjtött (majd a Llama 2 által elemzett, szűrt és megjegyzésekkel ellátott) képzési adatokon, több mint 16 000 Nvidia H100 GPU használatával.

A Meta szerint ez az első nyílt „határmodell”, amely az olyan modern AI-modellek képességeit közelíti meg általános ismeretek, matematika és többnyelvű fordítás terén, mint az OpenAI GPT-4o, a Claude 3.5 Sonnet és a Google Gemini 1.5 Pro. A hagyományos AI-benchmarkok általánosságban használhatatlanok a laikusok számára, így a Meta PR-részlege is csak néhány számot és diagramot tett közzé anélkül, hogy megpróbálta volna részletesen elmagyarázni azok jelentőségét.

A bejelentés részét képezték a Lllama 3.1 kisebb, tovább fejlesztett változatai is - további részletek a HWSW-n.