DeepSeek의 놀랍도록 저렴한 AI 모델 인 DeepSeek V3는 AI 시장을 흔들어 Nvidia의 주가가 크게 하락했습니다. DeepSeek은 단지 6 백만 달러의 교육 비용을 주장하지만 자세히 살펴보면 훨씬 더 많은 투자가 나타납니다.
이미지 : ensigame.com
DeepSeek V3의 혁신적인 아키텍처는 성능의 핵심입니다. 사용합니다.
- MTP (Multi-Token Prediction) : 정확도와 효율성을 높이기 위해 여러 단어를 동시에 예측합니다.
- 전문가 혼합 (MOE) : 256 개의 신경망을 사용하여 각 토큰 당 8 개 활성화, 교육 가속 및 성능 향상.
- 멀티 헤드 잠재주의 (MLA) : 정보 손실을 최소화하고 중요한 뉘앙스를 포착하기 위해 주요 세부 정보를 반복적으로 추출합니다.
이미지 : ensigame.com
그러나 Semianalysis는 DeepSeek의 실제 인프라를 나타 냈습니다 : 10,000 H800, 10,000 H100 및 추가 H20 GPU를 포함하여 약 50,000 NVIDIA HOPPER GPU가 여러 데이터 센터에 퍼져 있습니다. 이는 ~ 16 억 달러의 서버 투자와 ~ 9 억 9,400 만 달러의 운영 비용을 나타냅니다. 6 백만 달러는 연구, 개선, 데이터 처리 및 인프라를 제외한 사전 훈련 GPU 사용법 만 반영합니다.
중국 헤지 펀드 인 High-Flyer의 자회사 인 Deepseek는 데이터 센터를 소유하여 제어력과 더 빠른 혁신을 제공합니다. 자체 자금을 지원하는 자연은 민첩성을 향상시킵니다. 회사는 외국 전문가를 고용하지는 않지만 높은 급여 (일부 연구원의 경우 매년 130 만 달러 이상)는 최고의 중국 인재를 유치합니다.
이미지 : ensigame.com
AI 개발에 대한 DeepSeek의 총 투자는 5 억 달러를 초과합니다. 린 구조는 더 큰 관료적 회사에 비해 효율적인 혁신을 허용합니다.
이미지 : ensigame.com
DeepSeek의 성공은 잘 자금을 지원하는 독립 AI 회사의 경쟁 잠재력을 강조합니다. "예산 친화적 인"클레임은 오해의 소지가 있지만 경쟁 업체보다 비용이 크게 저렴합니다. 예를 들어, DeepSeek의 R1 모델은 ChatGpt4의 1 억 달러에 비해 5 백만 달러입니다. 현실은 실질적인 투자, 기술 혁신 및 고도로 숙련 된 팀의 조합입니다.