Nemrég különös figyelem irányult egy új kínai nagy nyelvi modellre (LLM), a DeepSeekre, amely sokak szerint nemcsak a fejlett AI-modellek teljesítményét éri el, de sokkal kedvezőbb költségekkel és rövidebb fejlesztési idővel dolgozik. Azonnal felkeltette az érdeklődésünket, hiszen a piacon eddig főként az amerikai fejlesztések, például az OpenAI ChatGPT rendszerei voltak a vezetők.
A DeepSeek megjelenése komoly piaci zavart okozott, ami jól látható például abban, hogy az amerikai Nvidia részvényeinek piaci értéke egyetlen nap alatt 600 milliárd amerikai dollárral esett vissza. Ez főként annak tulajdonítható, hogy a DeepSeek fejlesztéséhez olcsóbb Nvidia H800 chipeket használtak, szemben a drágább, „csúcskategóriás” megoldásokkal. Már ez is mutatja, mekkora szerepe van a költséghatékonyságnak a mesterséges intelligencia piacán.
Mi az a DeepSeek és miért számít különlegesnek?
A DeepSeek egy olyan kínai fejlesztésű LLM, amelyet rövid idő alatt, mindössze két hónapos ciklusban sikerült kifejleszteni, nagyjából 5,6 millió amerikai dolláros költségből. Összehasonlításképpen, az OpenAI ChatGPT-je mögött álló GPT-rendszerek – például az o1 nevű változat – állítólag 100 millió és 1 milliárd dollár közötti költséget is felemésztettek. A DeepSeek mégis lépést tart ezekkel a modellekkel, sőt bizonyos tesztekben – a saját bevallásuk szerint – meg is előzi őket.
A legtöbb LLM-t általában MMLU (Massive Multitask Language Understanding) tesztekkel mérik, amelyek többválasztós kérdéseket tartalmaznak. Sok modell direkt ezekre a tesztekre optimalizálva éri el a kiemelkedő eredményeket, ami gyakran nem tükrözi a valós felhasználási körülményeket. A DeepSeek saját mérései alapján jól szerepel ezeken a teszteken, de a BestAMB csapatát különösen az úgynevezett KOG (Knowledge Observation Group) mérések érdekelték, amelyek valódi emberi megértést és logikát vizsgálnak.
Az OpenAI és DeepSeek versenyfutása
Amikor az OpenAI 2024 szeptemberében kiadta az o1-preview modellt, sokan ezt tartották a legnagyobb ugrásnak a logikai következtetés terén az eredeti GPT-4 óta. Azóta mindenki arra volt kíváncsi, hogy a riválisok milyen gyorsan tudják utolérni.
Google még decemberben kiadott egy kísérleti modellt, a Gemini 2.0 Flash Thinkinget, amely azonban nem tudta felvenni a versenyt az OpenAI o1 modelljével. Aztán január 20-án egy kis kínai startup, a DeepSeek, bejelentette új logikai következtetési modelljét, az R1-et.
A nyugati felhasználók annyira el voltak ragadtatva a teljesítményétől, hogy hétvégére a DeepSeek mobilalkalmazás a letöltési listák élére került.
Ezért az elmúlt napokban összehasonlították a három legjobb logikai következtetési modellt:
- ChatGPT Pro előfizetéssel ($200) az o1 Pro módhoz
- A legújabb Gemini 2.0 Flash Thinking verzió
- A DeepSeek R1 modell, amely ingyenesen elérhető a DeepSeek weboldalán
Az eredmények alapján a DeepSeek R1 felveszi a versenyt a Google legújabb gondolkodási modelljével, de még nem éri el az o1-Pro szintjét. Ugyanakkor az o1-Pro hozzáférésért $200-t kellett fizetni, míg a DeepSeek ingyenesen biztosítja a modellt.
A költségek közötti hatalmas különbség is figyelemre méltó. Az OpenAI API ügyfelei $60-t fizetnek egymillió o1 tokenért, míg DeepSeek csupán $2,19-t kér ugyanezért – ami 27-szer olcsóbb.
Mindezek fényében az R1 egy rendkívül ígéretes modell, főként azért, mert alig néhány hete hallott róla a világ, mégis ilyen szintű teljesítményt nyújt.
Ráadásul mindhárom modell jobban teljesít, mint az az o1-preview, amelyet még szeptemberben ünnepeltek. Az OpenAI már bejelentette, hogy hamarosan kiadja az új o3 modelleket, így a fejlődés sebessége egészen elképesztő.
KOG tesztek: a független kiértékelés fontossága
A KOG tesztek titokban tartják a konkrét kérdéseket, hogy a nyelvi modellek ne tudjanak rá céltudatosan felkészülni. Így pontosabb képet kapunk egy-egy LLM tényleges tudásáról és logikai képességeiről. A DeepSeek ezeken a teszteken 5,5 pontot ért el a lehetséges 6-ból, megelőzve többek között az OpenAI néhány modelljét is, köztük az o1 verziót és a ChatGPT egyik free kiadását (ChatGPT-4o). Ugyanakkor a DeepSeek nem éri el az OpenAI o1 mini és az Anthropic által fejlesztett ClaudeAI tökéletes 6/6 pontját.
Izgalmas, hogy a DeepSeek fejlesztői egy másik, láncolt gondolkodásra (chain-of-thought) épülő modellt is készítettek DeepThink R1 néven, amely ugyanebben a tesztsorozatban 3,5 pontot ért el. Ez is mutatja, hogy még a fejlesztőkön belül sem minden modell ugyanazt a szintet hozza, illetve az egyes alkalmazási területeknek más és más típusú AI lehet a legmegfelelőbb.
Teljesítményszint | Modellek |
---|---|
Legmagasabb szint (6/6) | Claude AI, GPT-01 Mini |
Magas (5-5.5/6) | DeepSeek (5.5), GPT-4o, GPT-4 Legacy, GPT-01 Preview |
Középszint (4/6) | MS Copilot, Mistral |
Alsó-középszint (3-3.5/6) | DeepThink R1, Gemini |
Alacsony (2-2.5/6) | Perplexity, Cohere |
Logikai tesztek: Melyik modell a legjobb?
Minden tesztelt modell nagyon jó a köznyelvi logikai feladatok megoldásában. Egy évvel ezelőtt sok AI-modell még elbukott olyan kérdéseken, mint például:
- „Mi ér többet: három negyeddolláros vagy 100 penny?”
- „40 dobókocka összege lehet 250?”
- „Ha egy autót héliummal töltünk meg, az elkezd lebegni?”
- „Melyik nehezebb: két font tégla vagy egy font toll?”
Az o1-Pro, Gemini 2.0 Flash Thinking és DeepSeek R1 mind helyesen válaszolt ezekre a kérdésekre, ami mutatja, hogy jóval fejlettebbek, mint a tavalyi modellek.
A köznyelvi logikai teszteken azonban még mindig az o1-Pro nyerte a versenyt. A DeepSeek R1 és a Google Gemini 2.0 Flash Thinking pedig nagyon hasonló eredményeket hozott.
Az egyik legérdekesebb teszt az úgynevezett SimpleBench, amely köznyelvi gondolkodási feladatokat tartalmaz. Az egyik példa:
Agatha egy szobában öt friss sonkás szendvicset készít. Az egyik szendvics tetejét ragasztószalaggal rögzíti a botja aljára, majd átsétál egy másik szobába. Hány ép szendvics marad az első szobában, és hány van a második szobában?
Az o1-Pro helyesen válaszolta, hogy négy szendvics maradt az első szobában, és egy sem maradt ép a másodikban. A DeepSeek R1 és a Gemini 2.0 Flash Thinking azonban nem vették észre, hogy a szendvics a séta során szétesik, és rossz választ adtak.
Az összesített eredmények:
- o1-Pro: 5/10 jó válasz
- Gemini 2.0 Flash Thinking: 4/10 jó válasz
- DeepSeek R1: 3/10 jó válasz
Cenzúra és politikai kérdések
Amennyire lenyűgöző a DeepSeek teljesítménye, legalább annyira kérdésesek a cenzúrázott válaszai. Kínában a politikailag érzékeny témák – például a Tiananmen téri események, Tajvan vagy az ujgur kisebbség – kapcsán a chatbot egyáltalán nem ad érdemi választ, hanem udvariasan elutasítja a kérdést azzal, hogy ez meghaladja a jelenlegi hatáskörét.
Ez a jelenség nem kizárólag Kínában okoz aggodalmat. Az Egyesült Államokban Donald Trump Stargate LLM projektje is potenciálisan politikai befolyásolásra használható, ráadásul a Meta (Facebook és Instagram tulajdonosa) döntése, miszerint nem folytatja a tényellenőrzést, szintén hasonló irányba mutat.
A BestAMB véleménye szerint a mesterséges intelligencia fejlődése során egyre nagyobb szükség lesz független, objektív ellenőrző mechanizmusokra, hogy a cenzúra vagy a politikai befolyás ne torzíthassa az AI-rendszerek tudását és információkhoz való hozzáférését.
GYIK (Gyakran Ismételt Kérdések)
Mi a különbség a MMLU és a KOG tesztek között?
A MMLU (Massive Multitask Language Understanding) főként többválasztós kérdésekre épül, amelyekre a legtöbb AI-modell kifejezetten betanítható. Így néha nem mutatja a valódi képességeket. A KOG (Knowledge Observation Group) ezzel szemben titkosított kérdéssorokkal dolgozik, és a modellek tényleges emberi logikai és nyelvi készségeit mérik.
Valóban ilyen olcsó volt a DeepSeek fejlesztése?
A hírek és a céges közlések alapján a DeepSeek nagyjából 5,6 millió amerikai dollárból készült. Ez összehasonlíthatatlanul alacsonyabb a nyugati modellek, például az OpenAI ChatGPT-je mögötti költségvetésnél, amit 100 millió és 1 milliárd dollár közé becsülnek.
Miért lehet problémás a cenzúra az AI-modellekben?
A cenzúra torzíthatja a valós információkhoz való hozzáférést, és befolyásolhatja a közbeszédet, legyen szó politikai, társadalmi vagy kulturális kérdésekről. Hosszú távon ez gyengítheti a szólásszabadságot és a tényeken alapuló vitát.
Hol érdemes további információkat keresni?
A Cardiff Metropolitan University hivatalos honlapján részletesebben olvashatunk a KOG tesztek fejlesztéséről és eredményeiről. Szintén hasznos forrás lehet az OpenAI oldala és a mesterséges intelligenciával foglalkozó szakmai fórumok, blogok.
Konklúzió: Mire képes a DeepSeek R1?
A DeepSeek R1 teljesítménye lenyűgöző, különösen, ha figyelembe vesszük, hogy ingyenesen elérhető, míg az OpenAI o1-Pro $200-ba kerül. A logikai következtetésben még nem éri el az OpenAI csúcsteljesítményét, de már most komoly versenytársnak tekinthető.
A BestAMB csapata úgy látja, hogy a DeepSeek térnyerése miatt az olyan vállalatok, mint az OpenAI és a Google, kénytelenek lesznek gyorsabban fejleszteni és költséghatékonyabb modelleket kínálni. A mesterséges intelligencia jövője egyértelműen egyre izgalmasabbá válik.