Deepseek V3 รุ่น Deepseek ที่น่าประหลาดใจของ Deepseek ได้เขย่าตลาด AI ทำให้ราคาหุ้นของ Nvidia ลดลงอย่างมาก ในขณะที่ Deepseek อ้างว่ามีค่าใช้จ่ายในการฝึกอบรมเพียง $ 6 ล้าน แต่การมองอย่างใกล้ชิดเผยให้เห็นการลงทุนที่สำคัญยิ่งขึ้น
IMGP%Image: Ensigame.com
สถาปัตยกรรมที่เป็นนวัตกรรมของ Deepseek V3 เป็นกุญแจสำคัญในการแสดง มันใช้ประโยชน์:
- การทำนายแบบมัลติเทน (MTP): ทำนายหลายคำพร้อมกันเพื่อเพิ่มความแม่นยำและประสิทธิภาพ
- ส่วนผสมของผู้เชี่ยวชาญ (MOE): ใช้เครือข่ายประสาท 256 เครือข่ายเปิดใช้งานแปดโทเค็นแต่ละโทเค็นเร่งการฝึกอบรมและปรับปรุงประสิทธิภาพ
- ความสนใจแฝงหลายหัว (MLA): การสกัดรายละเอียดสำคัญซ้ำ ๆ เพื่อลดการสูญเสียข้อมูลและการจับภาพความแตกต่างที่สำคัญ
IMGP%Image: Ensigame.com
อย่างไรก็ตาม Semianalysis เปิดเผยโครงสร้างพื้นฐานที่แท้จริงของ Deepseek: ประมาณ 50,000 Nvidia Hopper GPU รวมถึง 10,000 H800, 10,000 H100 และ H20 GPU เพิ่มเติมแพร่กระจายไปทั่วศูนย์ข้อมูลหลายแห่ง สิ่งนี้แสดงถึงการลงทุนเซิร์ฟเวอร์ ~ $ 1.6 พันล้านและค่าใช้จ่ายในการดำเนินงาน ~ 944 ล้านดอลลาร์ ตัวเลข $ 6 ล้านสะท้อนให้เห็นถึงการใช้งาน GPU ก่อนการฝึกอบรมไม่รวมการวิจัยการปรับแต่งการประมวลผลข้อมูลและโครงสร้างพื้นฐาน
Deepseek ซึ่งเป็น บริษัท ย่อยของ High-Flyer ซึ่งเป็นกองทุนป้องกันความเสี่ยงของจีนเป็นเจ้าของศูนย์ข้อมูลให้การควบคุมและนวัตกรรมที่เร็วขึ้น ธรรมชาติที่ได้รับการสนับสนุนตนเองช่วยเพิ่มความคล่องตัว เงินเดือนสูง (มากกว่า $ 1.3 ล้านต่อปีสำหรับนักวิจัยบางคน) ดึงดูดความสามารถของจีนชั้นนำแม้ว่า บริษัท จะไม่จ้างผู้เชี่ยวชาญต่างประเทศ
IMGP%Image: Ensigame.com
การลงทุนทั้งหมดของ Deepseek ในการพัฒนา AI เกิน $ 500 ล้าน โครงสร้างแบบลีนช่วยให้มีนวัตกรรมที่มีประสิทธิภาพเมื่อเทียบกับ บริษัท ที่มีขนาดใหญ่และมีระบบราชการมากขึ้น
IMGP%Image: Ensigame.com
ความสำเร็จของ Deepseek เน้นถึงศักยภาพในการแข่งขันของ บริษัท AI อิสระที่ได้รับการสนับสนุนอย่างดี ในขณะที่การเรียกร้อง "เป็นมิตรกับงบประมาณ" นั้นทำให้เข้าใจผิดค่าใช้จ่ายของมันยังคงต่ำกว่าคู่แข่งอย่างมีนัยสำคัญ ตัวอย่างเช่นรุ่น R1 ของ Deepseek มีราคา $ 5 ล้านเทียบกับ $ 100 ล้านของ CHATGPT4 ความจริงคือการผสมผสานระหว่างการลงทุนที่สำคัญการพัฒนาทางเทคโนโลยีและทีมงานที่มีทักษะสูง