DeepSeek令人惊讶的是廉价的AI模型DeepSeek V3震撼了AI市场,导致NVIDIA的股价大幅下降。尽管DeepSeek声称仅仅是600万美元的培训成本,但仔细观察表明,投资更大。
图像:ensigame.com
DeepSeek V3的创新架构是其性能的关键。它利用:
- 多语预测(MTP):同时预测多个单词,以提高准确性和效率。
- 专家(MOE)的混合物:使用256个神经网络,每个令牌激活8个,加速培训并提高性能。
- 多头潜在注意力(MLA):反复提取关键细节以最大程度地减少信息丢失并捕获至关重要的细微差别。
图像:ensigame.com
但是,半分析揭示了DeepSeek的实际基础设施:大约50,000个NVIDIA HOPPER GPU,包括10,000 H800、10,000 H100和其他H20 GPU,分布在多个数据中心。这代表约16亿美元的服务器投资,运营成本约为9.44亿美元。这笔600万美元的数字仅反映了预培训的GPU使用情况,不包括研究,改进,数据处理和基础架构。
DeepSeek是中国对冲基金High-Flyer的子公司拥有其数据中心,提供控制和更快的创新。它的自资助性质增强了敏捷性。尽管该公司不雇用外国专家,但高薪(对于一些研究人员来说,每年超过130万美元)吸引了中国顶级人才。
图像:ensigame.com
DeepSeek对AI开发的总投资超过5亿美元。与更大,更官僚的公司相比,它的精益结构允许有效的创新。
图像:ensigame.com
DeepSeek的成功凸显了资金充足的独立AI公司的竞争潜力。尽管其“预算友好”的主张具有误导性,但其成本仍大大低于竞争对手。例如,DeepSeek的R1型号的价格为500万美元,而Chatgpt4的1亿美元。现实是实质性投资,技术突破和高技能团队的结合。