Published on

DeepSeek V3: Mô hình mã nguồn mở đột phá, hiệu năng vượt trội và chi phí tối ưu

Tác giả
  • avatar
    Tên
    Ajax
    Twitter

Giới thiệu về DeepSeek V3

DeepSeek V3, một mô hình Mixture-of-Experts (MoE) với 671 tỷ tham số, đã chính thức được phát hành và mở mã nguồn, tạo nên một làn sóng quan tâm lớn trong cộng đồng trí tuệ nhân tạo (AI). Mô hình này được đào tạo trên 14.8 nghìn tỷ token chất lượng cao, nhưng chỉ có 37 tỷ tham số được kích hoạt trong quá trình suy luận. Điều này giúp DeepSeek V3 đạt được hiệu suất state-of-the-art (SOTA) trong số các mô hình mã nguồn mở, vượt trội so với Llama 3.1 405B và sánh ngang với các mô hình hàng đầu như GPT-4o và Claude 3.5 Sonnet.

Một trong những ưu điểm nổi bật của DeepSeek V3 là chi phí thấp hơn đáng kể so với các mô hình khác. Cụ thể, chi phí của DeepSeek V3 chỉ bằng 9% so với Claude 3.5 Sonnet, mở ra cơ hội tiếp cận và ứng dụng AI rộng rãi hơn.

Đào tạo hiệu quả về chi phí

Quá trình đào tạo DeepSeek V3 chỉ mất chưa đến 2.8 triệu giờ GPU, một con số ấn tượng so với 30.8 triệu giờ GPU của Llama 3 405B. Tổng chi phí đào tạo cho DeepSeek V3 là khoảng 5.576 triệu đô la, trong khi chi phí đào tạo một mô hình Llama 2 7B đã lên tới 760.000 đô la.

Sự hiệu quả về chi phí này có được là nhờ vào các thuật toán, framework và phần cứng được tối ưu hóa. Karpathy, một thành viên sáng lập của OpenAI, đã nhận xét rằng DeepSeek V3 đạt được hiệu suất tương đương với ít tài nguyên hơn đáng kể, làm nổi bật tiềm năng tối ưu hóa trong dữ liệu và thuật toán.

Hiệu suất và đánh giá

DeepSeek V3 đã nhận được nhiều lời khen ngợi từ các chuyên gia AI như Jia Yangqing và Tian Yundong của Meta. Mô hình này vượt trội hơn các mô hình mã nguồn mở khác như Qwen2.5-72B và Llama-3.1-405B trong nhiều benchmark khác nhau.

Hiệu suất của DeepSeek V3 có thể so sánh với các mô hình nguồn đóng hàng đầu như GPT-4o và Claude-3.5-Sonnet. Ngoài ra, DeepSeek V3 còn tạo ra token với tốc độ 60 token/giây, nhanh hơn gấp 3 lần so với các mô hình trước đó.

Giá API của DeepSeek V3 cũng rất cạnh tranh, với chi phí token đầu vào là 0.5-2 RMB/triệu token và token đầu ra là 8 RMB/triệu token. Đánh giá của Kagi cho thấy DeepSeek V3 đứng đầu trong số các mô hình mã nguồn mở, chỉ xếp sau Sonnet-3.5 và GPT-4o.

Sự tham gia của cộng đồng

Mô hình DeepSeek V3 hiện đã có sẵn để thử nghiệm trên nền tảng chính thức, với mã nguồn được mở để tải về. Những người đam mê AI đã bắt đầu thử nghiệm DeepSeek V3, bao gồm cả việc chạy nó trên các Mac Mini xếp chồng lên nhau.

Các nhà phát triển bày tỏ sự ngạc nhiên trước khả năng của mô hình trong việc hiểu các hướng dẫn phức tạp mà không cần giải thích rõ ràng. Một nhà phát triển đã tạo ra một trò chơi sử dụng logo của các công ty AI với DeepSeek V3 trong một thời gian ngắn.

Chi phí chạy DeepSeek V3 thấp cũng được nhấn mạnh, với một người dùng lưu ý rằng chỉ tốn 2 đô la mỗi ngày để chạy ở tốc độ 60 token/giây. Điều này cho thấy tiềm năng lớn của DeepSeek V3 trong việc ứng dụng vào nhiều lĩnh vực khác nhau với chi phí phải chăng.

Chi tiết đào tạo

Quá trình đào tạo DeepSeek V3 được tối ưu hóa thông qua các cải tiến về thuật toán, framework và phần cứng. Mô hình này được đào tạo trên một nghìn tỷ token trong 180.000 giờ GPU, hoàn thành quá trình đào tạo trước trong vòng chưa đầy hai tháng. Tổng chi phí đào tạo là 2.788 triệu giờ GPU, tương đương 5.576 triệu đô la.

Các tối ưu hóa chính bao gồm:

  • Cân bằng tải: Một chiến lược cân bằng tải mới với các tham số bias cho mỗi expert trong kiến trúc MoE.
  • Multi-Token Prediction (MTP): Một mục tiêu đào tạo giúp cải thiện hiệu suất của mô hình và cho phép suy luận nhanh hơn thông qua giải mã suy đoán.
  • FP8 Training: Sử dụng đào tạo độ chính xác hỗn hợp FP8, chứng minh tính khả thi của nó đối với các mô hình quy mô lớn.
  • DualPipe: Một thuật toán song song pipeline hiệu quả, chồng chéo tính toán và giao tiếp, giảm chi phí giao tiếp.

Kiến trúc MoE bao gồm 256 expert định tuyến và 1 expert chia sẻ, với mỗi token kích hoạt 8 expert và được gửi đến tối đa 4 node. Các expert dự phòng được triển khai để cân bằng tải trong quá trình suy luận. Khả năng suy luận của mô hình được nâng cao bằng cách chắt lọc kiến thức từ một mô hình chuỗi dài (DeepSeek R1).

Kết quả thử nghiệm

DeepSeek V3 đạt được hiệu suất SOTA trong số các mô hình mã nguồn mở trong nhiều benchmark khác nhau. Mô hình này hoạt động tốt trong các thử nghiệm "needle-in-a-haystack", cho thấy khả năng truy xuất thông tin cụ thể từ các ngữ cảnh dài.

Tài nguyên