Zaskakująco niedrogi model AI, Deepseek V3, wstrząsnął rynkiem AI, powodując znaczny spadek ceny akcji NVIDIA. Podczas gdy Deepseek twierdzi, że koszty szkolenia w wysokości 6 milionów dolarów, bliższe spojrzenie ujawnia znacznie bardziej znaczącą inwestycję.
Obraz: engame.com
Innowacyjna architektura Deepseek V3 jest kluczem do jej wydajności. Wykorzystuje:
- Prognozowanie wielu tokenów (MTP): Prognozowanie wielu słów jednocześnie pod kątem zwiększonej dokładności i wydajności.
- Mieszanka ekspertów (MOE): Zastosowanie 256 sieci neuronowych, aktywując osiem dla każdego tokena, przyspieszając szkolenie i poprawiając wydajność.
- Uczciwa uwaga wielowłócona (MLA): Wielokrotne wyodrębnienie kluczowych szczegółów w celu zminimalizowania utraty informacji i przechwytywania kluczowych niuansów.
Obraz: engame.com
Jednak semianaliza ujawniła faktyczną infrastrukturę Deepseek: około 50 000 GPU Nvidia Hopper, w tym 10 000 H800, 10 000 H100 i dodatkowych GPU H20, rozłożonych na wiele centrów danych. Stanowi to inwestycje serwera o wartości ~ 1,6 miliarda USD i ~ 944 miliony USD kosztów operacyjnych. Liczba o wartości 6 milionów dolarów odzwierciedla jedynie wstępne wykorzystywanie GPU, wykluczając badania, udoskonalenie, przetwarzanie danych i infrastrukturę.
Deepseek, spółka zależna od High-Flyer, chińskiego funduszu hedgingowego, jest właścicielem swoich centrów danych, zapewniając kontrolę i szybsze innowacje. Jego samofinansowana natura poprawia zwinność. Wysokie pensje (ponad 1,3 miliona dolarów rocznie dla niektórych badaczy) przyciągają najwyższe chińskie talenty, chociaż firma nie zatrudnia zagranicznych specjalistów.
Obraz: engame.com
Całkowita inwestycja Deepseek w rozwój AI przekracza 500 milionów dolarów. Jego szczupła struktura pozwala na wydajne innowacje w porównaniu z większymi, bardziej biurokratycznymi firmami.
Obraz: engame.com
Sukces Deepseek podkreśla konkurencyjny potencjał dobrze finansowanych niezależnych firm AI. Podczas gdy jego „przyjazne dla budżetu roszczenie” jest mylące, jego koszt pozostaje znacznie niższy niż konkurenci. Na przykład model R1 Deepseek kosztował 5 milionów dolarów, w porównaniu do 100 milionów dolarów CHATGPT4. Rzeczywistość jest połączeniem znacznych inwestycji, przełomów technologicznych i wysoko wykwalifikowanego zespołu.