Ang nakakagulat na murang modelo ng Deepseek, ang Deepseek V3, ay inalog ang merkado ng AI, na nagdulot ng isang makabuluhang pagbagsak sa presyo ng stock ng NVIDIA. Habang inaangkin ng Deepseek ang isang $ 6 milyong gastos sa pagsasanay, ang isang mas malapit na hitsura ay nagpapakita ng isang mas malaking pamumuhunan.
Imahe: ensigame.com
Ang makabagong arkitektura ng Deepseek V3 ay susi sa pagganap nito. Gumagamit ito:
- Multi-Token Prediction (MTP): Paghuhulaan ng maraming mga salita nang sabay-sabay para sa pagtaas ng kawastuhan at kahusayan.
- Paghahalo ng mga eksperto (MOE): Paggamit ng 256 Neural Networks, pag -activate ng walong para sa bawat token, pabilis na pagsasanay at pagpapabuti ng pagganap.
- Multi-head Latent Pansin (MLA): Paulit-ulit na kumukuha ng mga pangunahing detalye upang mabawasan ang pagkawala ng impormasyon at makuha ang mga mahahalagang nuances.
Imahe: ensigame.com
Gayunpaman, ang semianalysis ay nagsiwalat ng aktwal na imprastraktura ng Deepseek: humigit -kumulang 50,000 NVIDIA HOPPER GPU, kabilang ang 10,000 H800, 10,000 H100, at karagdagang mga H20 GPU, kumalat sa maraming mga sentro ng data. Ito ay kumakatawan sa isang $ 1.6 bilyong pamumuhunan ng server at ~ $ 944 milyon sa mga gastos sa pagpapatakbo. Ang $ 6 milyong figure ay sumasalamin lamang sa paggamit ng pre-training GPU, hindi kasama ang pananaliksik, pagpipino, pagproseso ng data, at imprastraktura.
Ang Deepseek, isang subsidiary ng High-Flyer, isang pondo ng hedge ng Tsino, ay nagmamay-ari ng mga sentro ng data nito, na nagbibigay ng kontrol at mas mabilis na pagbabago. Ang kalikasan na pinondohan ng sarili ay nagpapabuti ng liksi. Ang mga mataas na suweldo (higit sa $ 1.3 milyon taun -taon para sa ilang mga mananaliksik) ay nakakaakit ng nangungunang talento ng Tsino, kahit na ang kumpanya ay hindi umarkila ng mga dayuhang espesyalista.
Imahe: ensigame.com
Ang kabuuang pamumuhunan ng Deepseek sa pag -unlad ng AI ay lumampas sa $ 500 milyon. Ang istraktura ng sandalan nito ay nagbibigay -daan para sa mahusay na pagbabago kumpara sa mas malaki, mas maraming mga kumpanya ng burukrasya.
Imahe: ensigame.com
Ang tagumpay ng Deepseek ay nagtatampok ng mapagkumpitensyang potensyal ng mahusay na pondo na independiyenteng mga kumpanya ng AI. Habang ang pag-angkin ng "budget-friendly" ay nakaliligaw, ang gastos nito ay nananatiling mas mababa kaysa sa mga kakumpitensya. Halimbawa, ang modelo ng R1 ng Deepseek ay nagkakahalaga ng $ 5 milyon, kumpara sa $ 100 milyon ng ChatGPT4. Ang katotohanan ay isang kombinasyon ng malaking pamumuhunan, mga breakthrough ng teknolohiya, at isang mataas na bihasang koponan.