Deepseek'in şaşırtıcı derecede ucuz AI modeli Deepseek V3, AI pazarını sarstı ve Nvidia'nın hisse senedi fiyatında önemli bir düşüşe neden oldu. Deepseek sadece 6 milyon dolarlık bir eğitim maliyetini iddia ederken, daha yakından bakıldığında çok daha önemli bir yatırım ortaya koyuyor.
%İmgp%resim: ensigame.com
Deepseek V3'ün yenilikçi mimarisi performansının anahtarıdır. Kullanır:
- Çoklu Tokul Tahmini (MTP): Artan doğruluk ve verimlilik için aynı anda birden fazla kelimeyi tahmin etmek.
- Uzmanların Karışımı (MOE): 256 sinir ağı istihdam etmek, her jeton için sekiz etkinleştirme, eğitimi hızlandırma ve performansı artırma.
- Çok Başlı Gizli Dikkat (MLA): Bilgi kaybını en aza indirmek ve önemli nüansları yakalamak için tekrar tekrar temel ayrıntıları çıkarma.
%İmgp%resim: ensigame.com
Bununla birlikte, Semanaliz Deepseek'in gerçek altyapısını ortaya çıkardı: 10.000 H800, 10.000 H100 ve ek H20 GPU'lar dahil olmak üzere yaklaşık 50.000 NVIDIA Hopper GPU'ları birden fazla veri merkezine yayıldı. Bu, ~ 1,6 milyar dolarlık bir sunucu yatırımını ve ~ 944 milyon dolarlık operasyonel maliyetleri temsil ediyor. 6 milyon dolarlık rakam, araştırma, arıtma, veri işleme ve altyapı hariç, sadece eğitim öncesi GPU kullanımını yansıtmaktadır.
Bir Çin Hedge Fonu olan High-Flyer'in bir yan kuruluşu olan Deepseek, veri merkezlerinin sahibi, kontrol ve daha hızlı yenilik sağlıyor. Kendini finanse eden doğası çevikliği artırır. Şirket yabancı uzmanları işe almasa da, yüksek maaşlar (bazı araştırmacılar için yıllık 1,3 milyon doların üzerinde) en iyi Çin yeteneklerini çekiyor.
%İmgp%resim: ensigame.com
Deepseek'in AI gelişimine toplam yatırımı 500 milyon doları aşıyor. Yalın yapısı, daha büyük, daha bürokratik şirketlere kıyasla verimli yeniliklere izin verir.
%İmgp%resim: ensigame.com
Deepseek'in başarısı, iyi finanse edilen bağımsız AI şirketlerinin rekabet potansiyelini vurgular. "Bütçe dostu" iddiası yanıltıcı olsa da, maliyeti rakiplerden önemli ölçüde daha düşük kalır. Örneğin, Deepseek'in R1 modeli, ChatGPT4'ün 100 milyon dolarına kıyasla 5 milyon dolara mal oldu. Gerçek şu ki, önemli yatırım, teknolojik atılımlar ve yüksek vasıflı bir ekibin bir kombinasyonudur.