Deepseekの驚くほど安価なAIモデルであるDeepseek V3は、AI市場を揺さぶり、Nvidiaの株価が大幅に低下しました。 Deepseekはわずか600万ドルのトレーニングコストを主張していますが、よく見ると、はるかに大きな投資が明らかになります。
画像:Ensigame.com
Deepseek V3の革新的なアーキテクチャは、そのパフォーマンスの鍵です。それは利用します:
- マルチトークン予測(MTP):精度と効率の向上のために複数の単語を同時に予測します。
- 専門家(MOE)の混合物: 256のニューラルネットワークを採用し、トークンごとに8つをアクティブにし、トレーニングを加速し、パフォーマンスを向上させます。
- マルチヘッドの潜在的注意(MLA):情報の損失を最小限に抑え、重要なニュアンスをキャプチャするために、重要な詳細を繰り返し抽出します。
画像:Ensigame.com
ただし、Semianalysisは、Deepseekの実際のインフラストラクチャを明らかにしました。10,000H800、10,000 H100、および追加のH20 GPUを含む約50,000のNVIDIAホッパーGPUが複数のデータセンターに広がっています。これは、〜16億ドルのサーバー投資と9億4,400万ドルの運用コストを表しています。 600万ドルの数値は、研究、洗練、データ処理、インフラストラクチャを除く、トレーニング前のGPU使用のみを反映しています。
中国のヘッジファンドであるHigh-Flyerの子会社であるDeepseekは、データセンターを所有しており、制御と迅速なイノベーションを提供しています。その自己資金の性質は敏ility性を高めます。同社は外国人の専門家を雇っていないが、中国の才能を引き付ける高給(年間130万ドル以上)。
画像:Ensigame.com
DeepseekのAI開発への総投資は5億ドルを超えています。その無駄のない構造は、より多くの官僚的企業と比較して、効率的なイノベーションを可能にします。
画像:Ensigame.com
Deepseekの成功は、資金提供された独立したAI企業の競争の可能性を強調しています。その「予算に優しい」主張は誤解を招くものですが、そのコストは競合他社よりも大幅に低いままです。たとえば、DeepseekのR1モデルは、ChatGPT4の1億ドルと比較して500万ドルの費用がかかります。現実は、実質的な投資、技術的なブレークスルー、高度なスキルのあるチームの組み合わせです。