Le modèle d'IA étonnamment bon marché de Deepseek, Deepseek V3, a ébranlé le marché de l'IA, provoquant une baisse significative du cours de l'action de NVIDIA. Alors que Deepseek revendique un coût de formation de 6 millions de dollars, un examen plus approfondi révèle un investissement beaucoup plus substantiel.
Image: esigame.com
L'architecture innovante de Deepseek V3 est la clé de ses performances. Il utilise:
- Prédiction multi-token (MTP): Prédire plusieurs mots simultanément pour une précision et une efficacité accrues.
- Mélange d'experts (MOE): Utilisation de 256 réseaux de neurones, activant huit pour chaque jeton, accélérant la formation et améliorant les performances.
- Attention latente multi-tête (MLA): Extraction de détails à plusieurs reprises pour minimiser la perte d'informations et capturer les nuances cruciales.
Image: esigame.com
Cependant, la semianalyse a révélé l'infrastructure réelle de Deepseek: environ 50 000 GPU Nvidia Hopper, dont 10 000 H800, 10 000 H100 et des GPU H20 supplémentaires, répartis sur plusieurs centres de données. Cela représente un investissement de serveur d'environ 1,6 milliard de dollars et ~ 944 millions de dollars en coûts opérationnels. Le chiffre de 6 millions de dollars ne reflète que l'utilisation des GPU avant la formation, l'exclusion de la recherche, du raffinement, du traitement des données et des infrastructures.
Deepseek, une filiale de High Flyer, un fonds spéculatif chinois, possède ses centres de données, fournissant un contrôle et une innovation plus rapide. Sa nature autofinancée améliore l'agilité. Les salaires élevés (plus de 1,3 million de dollars par an pour certains chercheurs) attirent les meilleurs talents chinois, bien que l'entreprise n'engage pas des spécialistes étrangers.
Image: esigame.com
L'investissement total de Deepseek dans le développement de l'IA dépasse 500 millions de dollars. Sa structure Lean permet une innovation efficace par rapport aux entreprises plus grandes et plus bureaucratiques.
Image: esigame.com
Le succès de Deepseek met en évidence le potentiel concurrentiel des sociétés d'IA indépendantes bien financées. Bien que sa réclamation "adaptée au budget" soit trompeuse, son coût reste considérablement inférieur à celui des concurrents. Par exemple, le modèle R1 de Deepseek a coûté 5 millions de dollars, par rapport aux 100 millions de dollars de ChatGPT4. La réalité est une combinaison d'investissement substantiel, de percées technologiques et d'une équipe hautement qualifiée.