- Published on
Mô hình Deepseek V3 bất ngờ lộ diện: Vượt trội Claude 3.5 Sonnet về hiệu năng lập trình
Mô hình Deepseek V3 bất ngờ lộ diện: Vượt trội Claude 3.5 Sonnet về hiệu năng lập trình
Một mô hình ngôn ngữ lớn (LLM) mới của Deepseek, có tên gọi Deepseek-v3, đã bất ngờ bị rò rỉ và gây xôn xao trong cộng đồng AI. Điều đáng chú ý là mô hình này đã thể hiện hiệu năng vượt trội so với các đối thủ cạnh tranh, đặc biệt là trong lĩnh vực lập trình. Bài viết này sẽ đi sâu vào các chi tiết kỹ thuật và những khám phá bất ngờ về Deepseek-v3.
Điểm nổi bật chính
- Rò rỉ bất ngờ: Deepseek-v3, một mô hình chưa được công bố, đã bị rò rỉ và cho thấy hiệu suất ấn tượng ngay lập tức.
- Vượt trội Claude 3.5 Sonnet: Mô hình này đã vượt qua Claude 3.5 Sonnet trong benchmark lập trình đa ngôn ngữ Aider.
- LLM mã nguồn mở mạnh nhất: Deepseek-v3 hiện là LLM mã nguồn mở mạnh nhất trên nền tảng đánh giá LiveBench.
- Kiến trúc MoE: Mô hình sử dụng kiến trúc Mixture of Experts (MoE) với 685 tỷ tham số, cải tiến đáng kể so với các phiên bản trước.
Thông tin cơ bản
- Nguồn gốc rò rỉ: Thông tin rò rỉ được báo cáo lần đầu bởi người dùng Reddit, họ tìm thấy mô hình này có sẵn trên các API và trang web.
- Đánh giá hiệu suất: Hiệu suất của Deepseek-v3 đã được đánh giá trên nhiều benchmark khác nhau, bao gồm Aider và LiveBench.
- Mã nguồn mở: Các trọng số mã nguồn mở của mô hình đã có sẵn trên Hugging Face, mặc dù thẻ mô hình chưa được cung cấp.
Chi tiết kỹ thuật Deepseek-V3
Kiến trúc mô hình
- Kích thước tham số: 685 tỷ tham số.
- Cấu trúc MoE: Kiến trúc Mixture of Experts với 256 chuyên gia.
- Định tuyến: Sử dụng hàm sigmoid để định tuyến, chọn ra 8 chuyên gia hàng đầu (Top-k=8).
- Cửa sổ ngữ cảnh: Hỗ trợ ngữ cảnh 64K, với mặc định là 4K và tối đa là 8K.
- Tốc độ tạo token: Khoảng 60 token mỗi giây.
Thay đổi kiến trúc chính so với V2
- Hàm cổng: v3 sử dụng hàm sigmoid thay vì softmax để chọn chuyên gia. Điều này cho phép mô hình chọn từ một tập hợp lớn hơn các chuyên gia, không giống như softmax có xu hướng ưu tiên một vài chuyên gia.
- Lựa chọn Top-k: v3 giới thiệu phương pháp noaux_tc mới cho lựa chọn Top-k, không yêu cầu mất mát phụ trợ. Điều này đơn giản hóa quá trình đào tạo và cải thiện hiệu quả bằng cách trực tiếp sử dụng hàm mất mát của tác vụ chính.
- Điều chỉnh điểm số chuyên gia: Một tham số mới, e_score_correction_bias, đã được thêm vào để điều chỉnh điểm số chuyên gia, dẫn đến hiệu suất tốt hơn trong quá trình chọn chuyên gia và đào tạo mô hình.
So sánh với V2 và V2.5
- v3 so với v2: v3 về cơ bản là phiên bản nâng cao của v2, với những cải tiến đáng kể về tất cả các tham số.
- v3 so với v2.5: v3 vượt trội hơn v2.5 về cấu hình, bao gồm nhiều chuyên gia hơn, kích thước lớp trung gian lớn hơn và nhiều chuyên gia hơn trên mỗi token.
Thử nghiệm và quan sát của người dùng
Thử nghiệm ban đầu
- Phát hiện GPT-4: Simon Willison, một nhà phát triển, đã thử nghiệm Deepseek-v3 và phát hiện nó tự nhận mình dựa trên kiến trúc GPT-4 của OpenAI.
- Tạo ảnh: Mô hình cũng đã được thử nghiệm để tạo ảnh, tạo ra một ảnh SVG của một con bồ nông đang đạp xe.
Tự nhận diện bất ngờ
- Dựa trên OpenAI: Nhiều người dùng báo cáo rằng Deepseek-v3 tự nhận mình dựa trên các mô hình của OpenAI, có thể do việc sử dụng các phản hồi của mô hình OpenAI trong quá trình đào tạo.
Phản ứng của cộng đồng
- Sự phấn khích: Việc phát hành bất ngờ và hiệu suất mạnh mẽ của Deepseek-v3 đã tạo ra sự phấn khích trong cộng đồng.
- Vượt trội OpenAI: Một số người dùng tin rằng hiệu suất của Deepseek-v3 vượt trội so với các mô hình của OpenAI, đặc biệt là trong lĩnh vực mã nguồn mở.
Các nguồn tham khảo bổ sung
Deepseek-v3 là một bước tiến đáng kể trong lĩnh vực mô hình ngôn ngữ lớn, đặc biệt là với những cải tiến trong kiến trúc và hiệu suất lập trình. Sự rò rỉ bất ngờ của mô hình này đã gây ra một làn sóng quan tâm lớn trong cộng đồng AI, và nhiều người đang mong chờ những phát triển tiếp theo từ Deepseek.