Il modello di intelligenza artificiale sorprendentemente economico di Deepseek, Deepseek V3, ha scosso il mercato dell'IA, causando un calo significativo del prezzo delle azioni di Nvidia. Mentre DeepSeek rivendica un costo di formazione di soli $ 6 milioni, uno sguardo più attento rivela un investimento molto più sostanziale.
Immagine: Ensigame.com
L'architettura innovativa di Deepseek V3 è la chiave per le sue prestazioni. Utilizza:
- Previsione multi-token (MTP): Prevedere contemporaneamente più parole per una maggiore precisione ed efficienza.
- Miscela di esperti (MOE): impiegando 256 reti neurali, attivando otto per ogni token, accelerare la formazione e migliorare le prestazioni.
- Attenzione latente multi-testa (MLA): Estrazione ripetuta dei dettagli chiave per ridurre al minimo la perdita di informazioni e acquisire sfumature cruciali.
Immagine: Ensigame.com
Tuttavia, la seminalisi ha rivelato l'infrastruttura effettiva di DeepSeek: circa 50.000 GPU della tramoggia Nvidia, tra cui 10.000 H800, 10.000 H100 e GPU H20 aggiuntive, diffuse su più data center. Ciò rappresenta un investimento di ~ $ 1,6 miliardi di server e ~ $ 944 milioni di costi operativi. La cifra di 6 milioni di dollari riflette solo l'utilizzo della GPU pre-allenamento, esclusa la ricerca, la raffinatezza, l'elaborazione dei dati e l'infrastruttura.
DeepSeek, una consociata di High-Flyer, un hedge fund cinese, possiede i suoi data center, fornendo controllo e innovazione più rapida. La sua natura autofinanziata migliora l'agilità. Gli alti salari (oltre $ 1,3 milioni all'anno per alcuni ricercatori) attirano i migliori talenti cinesi, sebbene la società non assuma specialisti stranieri.
Immagine: Ensigame.com
L'investimento totale di Deepseek nello sviluppo dell'IA supera i $ 500 milioni. La sua struttura snella consente un'innovazione efficiente rispetto alle aziende più grandi e burocratiche.
Immagine: Ensigame.com
Il successo di Deepseek evidenzia il potenziale competitivo di società di intelligenza artificiale indipendenti ben finanziate. Mentre la sua affermazione "a misura di budget" è fuorviante, il suo costo rimane significativamente inferiore rispetto ai concorrenti. Ad esempio, il modello R1 di Deepseek è costato $ 5 milioni, rispetto ai $ 100 milioni di CHATGPT4. La realtà è una combinazione di investimenti sostanziali, scoperte tecnologiche e un team altamente qualificato.