DeepSeek令人驚訝的是廉價的AI模型DeepSeek V3震撼了AI市場,導致NVIDIA的股價大幅下降。盡管DeepSeek聲稱僅僅是600萬美元的培訓成本,但仔細觀察表明,投資更大。
圖像:ensigame.com
DeepSeek V3的創新架構是其性能的關鍵。它利用:
- 多語預測(MTP):同時預測多個單詞,以提高準確性和效率。
- 專家(MOE)的混合物:使用256個神經網絡,每個令牌激活8個,加速培訓並提高性能。
- 多頭潛在注意力(MLA):反複提取關鍵細節以最大程度地減少信息丟失並捕獲至關重要的細微差別。
圖像:ensigame.com
但是,半分析揭示了DeepSeek的實際基礎設施:大約50,000個NVIDIA HOPPER GPU,包括10,000 H800、10,000 H100和其他H20 GPU,分布在多個數據中心。這代表約16億美元的服務器投資,運營成本約為9.44億美元。這筆600萬美元的數字僅反映了預培訓的GPU使用情況,不包括研究,改進,數據處理和基礎架構。
DeepSeek是中國對衝基金High-Flyer的子公司擁有其數據中心,提供控製和更快的創新。它的自資助性質增強了敏捷性。盡管該公司不雇用外國專家,但高薪(一些研究人員每年超過130萬美元)吸引了中國頂級人才。
圖像:ensigame.com
DeepSeek對AI開發的總投資超過5億美元。與更大,更官僚的公司相比,它的精益結構允許有效的創新。
圖像:ensigame.com
DeepSeek的成功凸顯了資金充足的獨立AI公司的競爭潛力。盡管其“預算友好”的主張具有誤導性,但其成本仍大大低於競爭對手。例如,DeepSeek的R1型號的價格為500萬美元,而Chatgpt4的1億美元。現實是實質性投資,技術突破和高技能團隊的結合。