El modelo de IA sorprendentemente económico de Deepseek, Deepseek V3, ha sacudido el mercado de IA, causando una caída significativa en el precio de las acciones de Nvidia. Si bien Deepseek reclama solo un costo de capacitación de $ 6 millones, un aspecto más cercano revela una inversión mucho más sustancial.
Imagen: Ensigame.com
La arquitectura innovadora de Deepseek V3 es clave para su rendimiento. Utiliza:
- Predicción de múltiples token (MTP): Predecir múltiples palabras simultáneamente para una mayor precisión y eficiencia.
- Mezcla de expertos (MOE): Empleando 256 redes neuronales, activando ocho para cada token, acelerando la capacitación y mejorando el rendimiento.
- Atención latente de múltiples cabezas (MLA): Extraiga repetidamente detalles clave para minimizar la pérdida de información y capturar matices cruciales.
Imagen: Ensigame.com
Sin embargo, el semianálisis reveló la infraestructura real de Deepseek: aproximadamente 50,000 GPU de la tolva NVIDIA, incluidas 10,000 H800, 10,000 H100 y GPU H20 adicionales, distribuidas en múltiples centros de datos. Esto representa una inversión de servidor de ~ $ 1.6 mil millones y ~ $ 944 millones en costos operativos. La cifra de $ 6 millones solo refleja el uso de GPU previa al entrenamiento, excluyendo la investigación, el refinamiento, el procesamiento de datos e infraestructura.
Deepseek, una subsidiaria de High-Flyer, un fondo de cobertura chino, posee sus centros de datos, proporcionando control e innovación más rápida. Su naturaleza autofinanciada mejora la agilidad. Los altos salarios (más de $ 1.3 millones anuales para algunos investigadores) atraen al máximo talento chino, aunque la compañía no contrata especialistas en el extranjero.
Imagen: Ensigame.com
La inversión total de Deepseek en el desarrollo de IA supera los $ 500 millones. Su estructura magra permite una innovación eficiente en comparación con empresas más grandes y burocráticas.
Imagen: Ensigame.com
El éxito de Deepseek destaca el potencial competitivo de las compañías de IA independientes bien financiadas. Si bien su reclamo "económico" es engañoso, su costo sigue siendo significativamente más bajo que los competidores. Por ejemplo, el modelo R1 de Deepseek costó $ 5 millones, en comparación con los $ 100 millones de CHATGPT4. La realidad es una combinación de inversión sustancial, avances tecnológicos y un equipo altamente calificado.