O modelo de IA surpreendentemente barato de Deepseek, Deepseek V3, abalou o mercado de IA, causando uma queda significativa no preço das ações da NVIDIA. Enquanto Deepseek reivindica um custo de treinamento de meros US $ 6 milhões, uma aparência mais atenta revela um investimento muito mais substancial.
Imagem: Ensigame.com
A arquitetura inovadora da DeepSeek V3 é a chave para seu desempenho. Utiliza:
- Previsão com vários toques (MTP): Prevendo várias palavras simultaneamente para aumentar a precisão e a eficiência.
- Mistura de especialistas (MOE): Empregando 256 redes neurais, ativando oito para cada token, acelerando o treinamento e melhorando o desempenho.
- Atenção latente de várias cabeças (MLA): Extraindo repetidamente os principais detalhes para minimizar a perda de informações e capturar nuances cruciais.
Imagem: Ensigame.com
No entanto, a semiânica revelou a infraestrutura real da Deepseek: aproximadamente 50.000 GPUs NVIDIA Hopper, incluindo 10.000 H800, 10.000 H100 e GPUs H20 adicionais, espalhados por vários data centers. Isso representa um investimento em servidor de ~ US $ 1,6 bilhão e ~ US $ 944 milhões em custos operacionais. O número de US $ 6 milhões reflete apenas o uso de GPU pré-treinamento, excluindo pesquisas, refinamento, processamento de dados e infraestrutura.
A Deepseek, uma subsidiária da High-Flyer, um fundo de hedge chinês, possui seus data centers, fornecendo controle e inovação mais rápida. Sua natureza autofinanciada aumenta a agilidade. Altos salários (mais de US $ 1,3 milhão anualmente para alguns pesquisadores) atraem os principais talentos chineses, embora a empresa não contrate especialistas estrangeiros.
Imagem: Ensigame.com
O investimento total da Deepseek no desenvolvimento da IA excede US $ 500 milhões. Sua estrutura enxuta permite uma inovação eficiente em comparação com empresas maiores e mais burocráticas.
Imagem: Ensigame.com
O sucesso da Deepseek destaca o potencial competitivo de empresas independentes de IA independentes. Embora sua reivindicação "econômica" seja enganosa, seu custo permanece significativamente menor que os concorrentes. Por exemplo, o modelo R1 da Deepseek custou US $ 5 milhões, em comparação com os US $ 100 milhões do ChatGPT4. A realidade é uma combinação de investimento substancial, avanços tecnológicos e uma equipe altamente qualificada.