Mô hình AI rẻ tiền đáng ngạc nhiên của Deepseek, Deepseek V3, đã làm rung chuyển thị trường AI, gây ra sự sụt giảm đáng kể về giá cổ phiếu của NVIDIA. Trong khi Deepseek tuyên bố chỉ có chi phí đào tạo 6 triệu đô la, một cái nhìn gần hơn cho thấy một khoản đầu tư đáng kể hơn nhiều.
Hình ảnh: Obligame.com
Kiến trúc sáng tạo của DeepSeek V3 là chìa khóa cho hiệu suất của nó. Nó sử dụng:
- Dự đoán đa điểm (MTP): Dự đoán đồng thời nhiều từ để tăng độ chính xác và hiệu quả.
- Hỗn hợp các chuyên gia (MOE): Sử dụng 256 mạng lưới thần kinh, kích hoạt tám cho mỗi mã thông báo, tăng tốc đào tạo và cải thiện hiệu suất.
- Sự chú ý tiềm ẩn đa đầu (MLA): Liên tục trích xuất các chi tiết chính để giảm thiểu mất thông tin và nắm bắt các sắc thái quan trọng.
Hình ảnh: Obligame.com
Tuy nhiên, Semianalysis cho thấy cơ sở hạ tầng thực tế của Deepseek: khoảng 50.000 GPU phễu NVIDIA, bao gồm 10.000 H800, 10.000 H100 và GPU H20 bổ sung, trải đều trên nhiều trung tâm dữ liệu. Điều này thể hiện khoản đầu tư máy chủ ~ 1,6 tỷ đô la và ~ 944 triệu đô la chi phí hoạt động. Con số 6 triệu đô la chỉ phản ánh việc sử dụng GPU trước khi đào tạo, không bao gồm nghiên cứu, tinh chỉnh, xử lý dữ liệu và cơ sở hạ tầng.
Deepseek, một công ty con của High Flyer, một quỹ phòng hộ của Trung Quốc, sở hữu các trung tâm dữ liệu của mình, cung cấp quyền kiểm soát và đổi mới nhanh hơn. Bản chất tự tài trợ của nó giúp tăng cường sự nhanh nhẹn. Mức lương cao (hơn 1,3 triệu đô la hàng năm cho một số nhà nghiên cứu) thu hút tài năng hàng đầu của Trung Quốc, mặc dù công ty không thuê các chuyên gia nước ngoài.
Hình ảnh: Obligame.com
Tổng đầu tư của Deepseek vào phát triển AI vượt quá 500 triệu đô la. Cấu trúc nạc của nó cho phép đổi mới hiệu quả so với các công ty lớn hơn, quan liêu hơn.
Hình ảnh: Obligame.com
Thành công của Deepseek nhấn mạnh tiềm năng cạnh tranh của các công ty AI độc lập được tài trợ tốt. Mặc dù yêu cầu "thân thiện với ngân sách" của nó là sai lệch, chi phí của nó vẫn thấp hơn đáng kể so với các đối thủ cạnh tranh. Ví dụ, mô hình R1 của Deepseek có giá 5 triệu đô la, so với 100 triệu đô la của TATGPT4. Thực tế là sự kết hợp của đầu tư đáng kể, đột phá công nghệ và một nhóm có tay nghề cao.