A kínai Alibaba bemutatta az eddigi legfejlettebb AI-megoldását. A Qwen 2.5-Max megjelenése ismét kiélezte a vitát, melyik a legjobb AI-modell? Egyáltalán fel lehet így tenni a kérdést?
Mesterséges intelligencia, Open AI, Chat GPT. A köznyelvben ezek szinte szinonimák, noha egy hatalmas tudományágről, azon belül egyetlen cégről, illetve egyetlen megoldásról van szó.
Nem kérdés, hogy a köznyelvben még mindig ez a legismertebb, de valójában már több tucat hatalmas AI-modell, vagy ahogy a szaknyelv hívja, LLM large language modell – nagy nyelvi modell áll a felhasználók rendelkezésére.
Vagyis sok az olyan megoldás, amelyet gyakorlatilag bármiről kérdezhetünk és ő jó eséllyel választ ad. Jót vagy rosszat, na, ez már kérdéses.
A kínai technológiai óriás, az Alibaba bemutatta legújabb mesterséges intelligencia modelljét, amelyről szerénytelenül azt állítják, hogy a Qwen 2.5-Max névre keresztelt modell mindenféle benchmark teszteken felülmúlja a vezető AI-rendszereket.
Összehasonlításra alkalmas lehet a szintén kínai DeepSeek-V3, az OpenAI GPT-4o, a Claude 3.5 és 3.7 Sonnet és a Meta Llama-3.1 is.
Hogyan lehet egyáltalán összehasonlítani?
Igaz lehet az állítás?
A válasz az, hogy biztosan a legjobbak között van az új modell, a teszteken általában a legtöbb kategóriában remek pontokat kap ez a megoldás, de nagyon óvatosnak kell lenni a határozott „legjobb” kifejezéssel.
A nemzetközi szaksajtó mindenféle összehasonlítást végez, de látni fogjuk, magyar összehasonlítás is készült.
Azért rögtön érdemes azzal kezdeni, hogy pontos és teljes összehasonlítást tenni nagyon nehéz.
Ha felteszünk egy egyszerű, az ember számára könnyen értelmezhető kérdést, akkor a modellek teljesítménye jól ellenőrizhető.
Csak mi garantálja, hogy amennyiben az egyik modell remekül megoldotta a hetedikes fizikadolgozatot, akkor nem fogja-e összehasonlítani egy másik, például focis kérdésnél a brazil és a portugál Ronaldót.
Nyilván az AI-modellek versenyeztetése reálisabb képet ad, ha összetett feladatsort adunk meg, amelyekben többféle tudományágból válogatunk kérdéseket.
Az ilyen tesztek azt is mindig megmutatják, hogy becsukott szemmel, ellenőrzés nélkül nem bízhatunk a nagy nyelvi modellekben, mert nagyon sok olyan „apró” hiba van, például maradva a példánál, egy szöveges fizika feladatban, ahol egy kis félreértés már teljesen rossz irányba viszi el a gépet.
Nem, a gépek még sokszor nem képesek egyértelműen helyettesíteni az embereket, de olyan mennyiségű időt és keresést spórolhatnak meg, hogy akik kategorikusan tagadják a hasznukat, azok is struccpolitikát folytatnak.
Milyen paraméterek a fontosak?
A szakemberek azt szokták hangsúlyozni, hogy a modellek valójában nem könnyen skálázhatók, mert nagyon sokféle szempont létezik.
Jó legyen a válasz, amit ad – nagyjából ez a lényeg, de ez nem ilyen egyszerű.
Szempont lehet a szövegértés, a válaszok pontossága, a vizualizálás képessége, a jó tömörítés, a tanulási képesség, vagyis az, hogy az emberi válaszreakciók alapján mennyire javítja önmagát a modell, de a modell költsége, energiaigénye, sőt még a politikai elfogultsága is felmerülhet.
Ez utóbbi nem vicc.
Az, hogy a nyilvánvalóan apolitikus masinák mely portálokat fogadnak el adott kérdéseknél autentikusnak, mit pontoznak felül, már valóban mutathat politikai színezetet is.
Az új játékos
Az egészen biztos, hogy a Qwen2.5-Max az Alibaba eddigi legerősebb mesterséges intelligencia modellje, amelyet valóban úgy terveztek, hogy versenyezzen a ma ismert csúcskategóriás modellekkel, mint a GPT-4o, a Claude 3.5 Sonnet és a DeepSeek V3.
Az Alibaba amúgy eredetileg leginkább e-kereskedelmi platformjairól ismert, de a cégcsoport nagyon erős a fizetési szolgáltatások, a számítási felhő és a mesterséges intelligencia területén is.
A megoldás hatalmas tudásbázissal (ha egyszerű képpel akarjuk ábrázolni, akkor azt mondhatjuk, hogy ez a tudásbázis nagyjából 200 millió különféle könyv ismeretanyaga) és erős általános AI-képességekkel rendelkezik. Nem érvelési modell, mint a DeepSeek R1 vagy az OpenAI o1, vagyis nem mutatja meg a gondolkodási folyamatát.
Csak, amire tényleg szükség van
Nagyon fontos az úgynevezett Mixture-of-Experts (MoE) architektúra.
Ezt egy egyszerű hétköznapi példával úgy lehetne megértetni, mintha egy kormánynak lenne 1200 tanácsadója, energetikai, közgazdasági, sportügyi, vallásügyi, művészeti, építészeti, rengeteg.
Az általános AI-modellt úgy kell elképzelni, mintha egy kérdés felmerülésénél (melyek voltak az ókori Egyiptom legfontosabb vívmányai?) a kormányfő (a modell) az összes, vagyis mind az 1200 tanácsadót behívná egy nagy terembe, és együtt gondolkodnának a válaszon, ami elég költséges munkamódszer.
A MoE modellben csak a releváns szakértők, régészek, történészek, könyvtár-szakértők agyalnának a kérdésen. Lehet, hogy csak 10-en, de legfeljebb 30-an.
A hagyományos mesterséges intelligencia modellek minden feladathoz az összes paraméterüket használják, a MoE modellek adott időpontban csak a modell legrelevánsabb részeit aktiválják.
A Qwen2.5-Max ezért sok modellnél jóval gyorsabb és erőforrás-hatékonyabb, de ez azért nem unikális, ezt a technikát használja például a DeepSeek V3 is.
Az biztos, hogy energia- és költséghatékonyabb, ha az AI-modell nem az egész internetet pásztázza, hanem van egy olyan előszűrés, amely kezelhető mederben tartja a számítási költségeket.
A szakmai tesztek mindenesetre azt mutatják, hogy a Qwen2.5-Max pontszámai mindenféle összehasonlító tesztben nagyon jók, legyen szó általános AI-képességekről, tudásról, érvelésről, kódolási képességről, ugyanakkor az, hogy egy modell mindenben az élbolyban van, arra elég, hogy kijelentsük, hogy a legjobbak között van, de az talán túlzás, hogy ő a legjobb.
Magyar kísérlet
Éppen az Alibaba debütálása után egy magyar AI-modell összehasonlítás is készült. A PeakX, a Peak csoport mesterséges intelligencia üzletágának csapata egy olyan átfogó kutatást végzett a jelenleg legismertebb AI-modellek teljesítményéről, amelyben
a modelleknek a magyarországi kompetenciamérések során a 6. 8. és 10. osztályos diákok által kitöltött teszteket kellett megoldaniuk.
A PeakX csapata 70 szövegértési és 70 matematikai feladatot használt az AI modellek tesztelésére, kiegészítve történelem, természettudomány és digitális kultúra kérdésekkel. A részletes adatok és pontszámok ismertetése nélkül is megállapítható, hogy itt is eltérő erősségek és gyengeségek mutatkoztak meg.
- Az OpenAI o1 kiemelkedő általános tudással rendelkezett, erős szövegértési és matematikai képességekkel, viszont lassú volt és drága.
- Az Anthropic Sonnet 3.7 kiváló szövegértési teljesítményt mutatott, gyors és költséghatékony, azonban komplex matematikai feladatokban gyengébbnek bizonyult. A Deepseek olcsó volt és gyors, kiemelkedő következtetési képességekkel, de nem volt képes vizuális elemzésre és hajlamos volt fura hibákat véteni.
- A PeakX kutatásából az derült ki, hogy a klasszikus érvelő (reasoning) modellek lassabbak és drágábbak, de azért minden kategóriában jobb eredményt értek el, mint a többi modell.