- Published on
DeepSeek V3: โมเดลโอเพนซอร์สล้ำยุค สร้างความฮือฮาในวงการ AI
DeepSeek V3 โมเดล Mixture-of-Experts (MoE) ขนาด 671B พารามิเตอร์ ได้เปิดตัวและเปิดเป็นโอเพนซอร์ส ซึ่งสร้างความฮือฮาในวงการ AI อย่างมาก
โมเดลนี้ได้รับการฝึกฝนด้วยโทเค็นคุณภาพสูงถึง 14.8T โดยมีพารามิเตอร์เพียง 37B ที่ทำงานระหว่างการอนุมาน
DeepSeek V3 ประสบความสำเร็จในการทำผลงานระดับ state-of-the-art (SOTA) ในกลุ่มโมเดลโอเพนซอร์ส โดยเหนือกว่า Llama 3.1 405B และเทียบเคียงได้กับโมเดลชั้นนำอย่าง GPT-4o และ Claude 3.5 Sonnet
ที่สำคัญ DeepSeek V3 มีราคาถูกกว่าโมเดล Claude 3.5 อย่างมีนัยสำคัญ โดยมีต้นทุนเพียง 9% ของ Claude 3.5 Sonnet เท่านั้น
การฝึกฝนที่คุ้มค่า
การฝึกฝน DeepSeek V3 ใช้เวลาน้อยกว่า 2.8 ล้านชั่วโมง GPU ซึ่งแตกต่างอย่างมากกับการฝึกฝน Llama 3 405B ที่ใช้ถึง 30.8 ล้านชั่วโมง GPU
ต้นทุนการฝึกฝนทั้งหมดสำหรับ DeepSeek V3 อยู่ที่ประมาณ 5.576 ล้านดอลลาร์ ในขณะที่การฝึกฝนโมเดล Llama 2 ขนาด 7B มีต้นทุน 760,000 ดอลลาร์
ความคุ้มค่านี้เป็นผลมาจากการใช้อัลกอริธึม เฟรมเวิร์ก และฮาร์ดแวร์ที่ได้รับการปรับปรุงให้เหมาะสม
Karpathy สมาชิกผู้ก่อตั้ง OpenAI กล่าวว่า DeepSeek V3 ทำผลงานได้เทียบเคียงกันโดยใช้ทรัพยากรน้อยกว่ามาก ซึ่งแสดงให้เห็นถึงศักยภาพในการปรับปรุงประสิทธิภาพในด้านข้อมูลและอัลกอริธึม
ประสิทธิภาพและการประเมิน
DeepSeek V3 ได้รับคำชมจากผู้เชี่ยวชาญด้าน AI เช่น Jia Yangqing และ Tian Yundong จาก Meta
โมเดลนี้มีประสิทธิภาพเหนือกว่าโมเดลโอเพนซอร์สอื่นๆ เช่น Qwen2.5-72B และ Llama-3.1-405B ในเกณฑ์มาตรฐานต่างๆ
ประสิทธิภาพของโมเดลเทียบเคียงได้กับโมเดล closed-source ชั้นนำ เช่น GPT-4o และ Claude-3.5-Sonnet
DeepSeek V3 สร้างโทเค็นด้วยอัตรา 60 โทเค็นต่อวินาที ซึ่งเป็นการปรับปรุงความเร็วขึ้นถึง 3 เท่า
ราคา API ก็มีการแข่งขันสูงเช่นกัน โดยโทเค็นอินพุตมีราคา 0.5-2 RMB ต่อล้านโทเค็น และโทเค็นเอาต์พุตมีราคา 8 RMB ต่อล้านโทเค็น
การประเมินของ Kagi จัดให้ DeepSeek V3 อยู่ในอันดับต้นๆ ของโมเดลโอเพนซอร์ส ใกล้เคียงกับ Sonnet-3.5 และ GPT-4o
การมีส่วนร่วมของชุมชน
โมเดลนี้มีให้ทดสอบบนแพลตฟอร์มอย่างเป็นทางการ พร้อมโค้ดโอเพนซอร์สให้ดาวน์โหลด
ผู้ที่ชื่นชอบ AI ได้ทดลองใช้ DeepSeek V3 รวมถึงการรันบน Mac Mini ที่เรียงซ้อนกัน
นักพัฒนาแสดงความทึ่งในความสามารถของโมเดลในการทำความเข้าใจคำสั่งที่ซับซ้อนโดยไม่ต้องมีคำอธิบายที่ชัดเจน
นักพัฒนาคนหนึ่งสร้างเกมโดยใช้โลโก้บริษัท AI ด้วย DeepSeek V3 ในเวลาอันสั้น
ต้นทุนที่ต่ำในการรัน DeepSeek V3 ได้รับการเน้นย้ำ โดยผู้ใช้รายหนึ่งสังเกตว่ามีค่าใช้จ่ายเพียง 2 ดอลลาร์ต่อวันในการรันที่ 60 โทเค็นต่อวินาที
รายละเอียดการฝึกฝน
การฝึกฝนของ DeepSeek V3 ได้รับการปรับปรุงให้เหมาะสมผ่านอัลกอริธึม เฟรมเวิร์ก และฮาร์ดแวร์
โมเดลได้รับการฝึกฝนด้วยโทเค็นหนึ่งล้านล้านโทเค็นใน 180,000 ชั่วโมง GPU โดยการฝึกฝนล่วงหน้าเสร็จสิ้นในเวลาไม่ถึงสองเดือน
ต้นทุนการฝึกฝนทั้งหมดคือ 2.788 ล้านชั่วโมง GPU หรือ 5.576 ล้านดอลลาร์
การปรับปรุงที่สำคัญ ได้แก่:
- Load Balancing: กลยุทธ์การปรับสมดุลโหลดแบบใหม่พร้อมพารามิเตอร์ไบแอสสำหรับผู้เชี่ยวชาญแต่ละคนในสถาปัตยกรรม MoE
- Multi-Token Prediction (MTP): วัตถุประสงค์ในการฝึกฝนที่ปรับปรุงประสิทธิภาพของโมเดลและทำให้การอนุมานเร็วขึ้นผ่านการถอดรหัสแบบคาดการณ์
- FP8 Training: การใช้การฝึกฝนแบบผสมความแม่นยำ FP8 ซึ่งแสดงให้เห็นถึงความเป็นไปได้สำหรับโมเดลขนาดใหญ่
- DualPipe: อัลกอริธึมการประมวลผลแบบขนานที่มีประสิทธิภาพ ซึ่งซ้อนทับการคำนวณและการสื่อสาร ลดค่าใช้จ่ายในการสื่อสาร
สถาปัตยกรรม MoE ประกอบด้วยผู้เชี่ยวชาญด้านการกำหนดเส้นทาง 256 คน และผู้เชี่ยวชาญที่ใช้ร่วมกัน 1 คน โดยแต่ละโทเค็นจะเปิดใช้งานผู้เชี่ยวชาญ 8 คนและถูกส่งไปยังโหนดสูงสุด 4 โหนด
ผู้เชี่ยวชาญที่ซ้ำซ้อนจะถูกปรับใช้เพื่อปรับสมดุลโหลดระหว่างการอนุมาน
ความสามารถในการอนุมานของโมเดลได้รับการปรับปรุงโดยการกลั่นกรองความรู้จากโมเดลลูกโซ่ยาว (DeepSeek R1)
ผลการทดลอง
DeepSeek V3 ประสบความสำเร็จในการทำผลงานระดับ SOTA ในกลุ่มโมเดลโอเพนซอร์สในเกณฑ์มาตรฐานต่างๆ
โมเดลทำงานได้ดีในการทดลอง "needle-in-a-haystack" ซึ่งแสดงให้เห็นถึงความสามารถในการดึงข้อมูลเฉพาะจากบริบทที่ยาว
แหล่งข้อมูล
- รายงานทางเทคนิค: DeepSeek_V3.pdf
- Hugging Face: DeepSeek-V3