HWSW: Ingyen elérhető a Meta eddigi legfejlettebb nagy nyelvi modellje
- Írta: szlav
- 2024. július 25.
Meglepő gyakorisággal érkeznek a hírek az újabb és újabb nagy nyelvi modellekről (LLM), újdonság azonban még mindig van a nap alatt, ezúttal a Meta kavarja fel még jobban a vizet az első olyan LLM-el, ami nyíltan hozzáférhető, és a jelenleg csúcsnak számító GPT-4 modellt megközelítő teljesítményt produkál. Az ingyen letölthető Llama 3.1 405B modellt bárki futtathatja saját hardveren, ami alatt természetesen azért nem egy átlagos asztali PC-t kell érteni (operatív memóriából például fél terabájtnál is több kell).
Mivel nyílt súlyozású modell, így bárki letöltheti a betanított neurális hálózati fájlokat, és futtathatja vagy finomhangolhatja a működését, a súlyadatokkal együtt. A közösségi óriás ezzel a lépéssel közvetlenül megkérdőjelezi azt az üzleti modellt, amit az OpenAI és a hasonló vállalatok alkalmaznak, azaz hogy a modellből bevételt szereznek előfizetési csomagokon keresztül olyan termékekkel, mint a ChatGPT, vagy díjat számítanak fel a token általi hozzáférésért egy API-n keresztül.
A Meta 405 milliárd paraméteres modelljét több mint 15 billió tokenen tanította be az internetről gyűjtött (majd a Llama 2 által elemzett, szűrt és megjegyzésekkel ellátott) képzési adatokon, több mint 16 000 Nvidia H100 GPU használatával.
A Meta szerint ez az első nyílt „határmodell”, amely az olyan modern AI-modellek képességeit közelíti meg általános ismeretek, matematika és többnyelvű fordítás terén, mint az OpenAI GPT-4o, a Claude 3.5 Sonnet és a Google Gemini 1.5 Pro. A hagyományos AI-benchmarkok általánosságban használhatatlanok a laikusok számára, így a Meta PR-részlege is csak néhány számot és diagramot tett közzé anélkül, hogy megpróbálta volna részletesen elmagyarázni azok jelentőségét.
A bejelentés részét képezték a Lllama 3.1 kisebb, tovább fejlesztett változatai is - további részletek a HWSW-n.
Ha nem vagy még tag, regisztrálj! 2 perc az egész.