Het verrassend goedkope AI -model van Deepseek, Deepseek V3, heeft de AI -markt geschud en veroorzaakt een aanzienlijke daling van de aandelenkoers van Nvidia. Terwijl Deepseek op trainingskosten van slechts $ 6 miljoen claimt, onthult een nadere blik een veel meer substantiële investering.
afbeelding: ensigame.com
De innovatieve architectuur van Deepseek V3 is de sleutel tot de prestaties. Het gebruikt:
- Multi-Token Prediction (MTP): Meerdere woorden tegelijkertijd voorspellen voor verhoogde nauwkeurigheid en efficiëntie.
- Mix van experts (MOE): met 256 neurale netwerken, acht activeren voor elk token, het versnellen van training en het verbeteren van de prestaties.
- Multi-head latente aandacht (MLA): Herhaaldelijk extraheren van belangrijke details om informatieverlies te minimaliseren en cruciale nuances vast te leggen.
afbeelding: ensigame.com
Semianyse onthulde echter de werkelijke infrastructuur van Deepseek: ongeveer 50.000 Nvidia Hopper GPU's, waaronder 10.000 H800, 10.000 H100 en extra H20 GPU's, verspreid over meerdere datacenters. Dit vertegenwoordigt een serverinvestering van ~ $ 1,6 miljard en ~ $ 944 miljoen aan operationele kosten. Het cijfer van $ 6 miljoen weerspiegelt alleen pre-training GPU-gebruik, exclusief onderzoek, verfijning, gegevensverwerking en infrastructuur.
Deepseek, een dochteronderneming van High-Flyer, een Chinees hedgefonds, bezit zijn datacenters en biedt controle en snellere innovatie. Zijn zelf gefinancierde aard verbetert de behendigheid. Hoge salarissen (meer dan $ 1,3 miljoen per jaar voor sommige onderzoekers) trekken top Chinees talent aan, hoewel het bedrijf geen buitenlandse specialisten inhuurt.
afbeelding: ensigame.com
De totale investering van Deepseek in AI -ontwikkeling is groter dan $ 500 miljoen. De magere structuur zorgt voor efficiënte innovatie in vergelijking met grotere, meer bureaucratische bedrijven.
afbeelding: ensigame.com
Het succes van Deepseek benadrukt het concurrentiepotentieel van goed gefinancierde onafhankelijke AI-bedrijven. Hoewel de "budgetvriendelijke" claim misleidend is, blijven de kosten aanzienlijk lager dan concurrenten. Het R1 -model van Deepseek kost bijvoorbeeld $ 5 miljoen, vergeleken met de $ 100 miljoen van Chatgpt4. De realiteit is een combinatie van substantiële investeringen, technologische doorbraken en een zeer bekwaam team.