DeepSeek V3: โมเดลโอเพนซอร์สล้ำยุค สร้างความฮือฮาในวงการ AI

DeepSeek V3 โมเดล Mixture-of-Experts (MoE) ขนาด 671B พารามิเตอร์ ได้เปิดตัวและเปิดเป็นโอเพนซอร์ส ซึ่งสร้างความฮือฮาในวงการ AI อย่างมาก

โมเดลนี้ได้รับการฝึกฝนด้วยโทเค็นคุณภาพสูงถึง 14.8T โดยมีพารามิเตอร์เพียง 37B ที่ทำงานระหว่างการอนุมาน

DeepSeek V3 ประสบความสำเร็จในการทำผลงานระดับ state-of-the-art (SOTA) ในกลุ่มโมเดลโอเพนซอร์ส โดยเหนือกว่า Llama 3.1 405B และเทียบเคียงได้กับโมเดลชั้นนำอย่าง GPT-4o และ Claude 3.5 Sonnet

ที่สำคัญ DeepSeek V3 มีราคาถูกกว่าโมเดล Claude 3.5 อย่างมีนัยสำคัญ โดยมีต้นทุนเพียง 9% ของ Claude 3.5 Sonnet เท่านั้น

การฝึกฝนที่คุ้มค่า

การฝึกฝน DeepSeek V3 ใช้เวลาน้อยกว่า 2.8 ล้านชั่วโมง GPU ซึ่งแตกต่างอย่างมากกับการฝึกฝน Llama 3 405B ที่ใช้ถึง 30.8 ล้านชั่วโมง GPU

ต้นทุนการฝึกฝนทั้งหมดสำหรับ DeepSeek V3 อยู่ที่ประมาณ 5.576 ล้านดอลลาร์ ในขณะที่การฝึกฝนโมเดล Llama 2 ขนาด 7B มีต้นทุน 760,000 ดอลลาร์

ความคุ้มค่านี้เป็นผลมาจากการใช้อัลกอริธึม เฟรมเวิร์ก และฮาร์ดแวร์ที่ได้รับการปรับปรุงให้เหมาะสม

Karpathy สมาชิกผู้ก่อตั้ง OpenAI กล่าวว่า DeepSeek V3 ทำผลงานได้เทียบเคียงกันโดยใช้ทรัพยากรน้อยกว่ามาก ซึ่งแสดงให้เห็นถึงศักยภาพในการปรับปรุงประสิทธิภาพในด้านข้อมูลและอัลกอริธึม

ประสิทธิภาพและการประเมิน

DeepSeek V3 ได้รับคำชมจากผู้เชี่ยวชาญด้าน AI เช่น Jia Yangqing และ Tian Yundong จาก Meta

โมเดลนี้มีประสิทธิภาพเหนือกว่าโมเดลโอเพนซอร์สอื่นๆ เช่น Qwen2.5-72B และ Llama-3.1-405B ในเกณฑ์มาตรฐานต่างๆ

ประสิทธิภาพของโมเดลเทียบเคียงได้กับโมเดล closed-source ชั้นนำ เช่น GPT-4o และ Claude-3.5-Sonnet

DeepSeek V3 สร้างโทเค็นด้วยอัตรา 60 โทเค็นต่อวินาที ซึ่งเป็นการปรับปรุงความเร็วขึ้นถึง 3 เท่า

ราคา API ก็มีการแข่งขันสูงเช่นกัน โดยโทเค็นอินพุตมีราคา 0.5-2 RMB ต่อล้านโทเค็น และโทเค็นเอาต์พุตมีราคา 8 RMB ต่อล้านโทเค็น

การประเมินของ Kagi จัดให้ DeepSeek V3 อยู่ในอันดับต้นๆ ของโมเดลโอเพนซอร์ส ใกล้เคียงกับ Sonnet-3.5 และ GPT-4o

การมีส่วนร่วมของชุมชน

โมเดลนี้มีให้ทดสอบบนแพลตฟอร์มอย่างเป็นทางการ พร้อมโค้ดโอเพนซอร์สให้ดาวน์โหลด

ผู้ที่ชื่นชอบ AI ได้ทดลองใช้ DeepSeek V3 รวมถึงการรันบน Mac Mini ที่เรียงซ้อนกัน

นักพัฒนาแสดงความทึ่งในความสามารถของโมเดลในการทำความเข้าใจคำสั่งที่ซับซ้อนโดยไม่ต้องมีคำอธิบายที่ชัดเจน

นักพัฒนาคนหนึ่งสร้างเกมโดยใช้โลโก้บริษัท AI ด้วย DeepSeek V3 ในเวลาอันสั้น

ต้นทุนที่ต่ำในการรัน DeepSeek V3 ได้รับการเน้นย้ำ โดยผู้ใช้รายหนึ่งสังเกตว่ามีค่าใช้จ่ายเพียง 2 ดอลลาร์ต่อวันในการรันที่ 60 โทเค็นต่อวินาที

รายละเอียดการฝึกฝน

การฝึกฝนของ DeepSeek V3 ได้รับการปรับปรุงให้เหมาะสมผ่านอัลกอริธึม เฟรมเวิร์ก และฮาร์ดแวร์

โมเดลได้รับการฝึกฝนด้วยโทเค็นหนึ่งล้านล้านโทเค็นใน 180,000 ชั่วโมง GPU โดยการฝึกฝนล่วงหน้าเสร็จสิ้นในเวลาไม่ถึงสองเดือน

ต้นทุนการฝึกฝนทั้งหมดคือ 2.788 ล้านชั่วโมง GPU หรือ 5.576 ล้านดอลลาร์

การปรับปรุงที่สำคัญ ได้แก่:

Load Balancing: กลยุทธ์การปรับสมดุลโหลดแบบใหม่พร้อมพารามิเตอร์ไบแอสสำหรับผู้เชี่ยวชาญแต่ละคนในสถาปัตยกรรม MoE
Multi-Token Prediction (MTP): วัตถุประสงค์ในการฝึกฝนที่ปรับปรุงประสิทธิภาพของโมเดลและทำให้การอนุมานเร็วขึ้นผ่านการถอดรหัสแบบคาดการณ์
FP8 Training: การใช้การฝึกฝนแบบผสมความแม่นยำ FP8 ซึ่งแสดงให้เห็นถึงความเป็นไปได้สำหรับโมเดลขนาดใหญ่
DualPipe: อัลกอริธึมการประมวลผลแบบขนานที่มีประสิทธิภาพ ซึ่งซ้อนทับการคำนวณและการสื่อสาร ลดค่าใช้จ่ายในการสื่อสาร

สถาปัตยกรรม MoE ประกอบด้วยผู้เชี่ยวชาญด้านการกำหนดเส้นทาง 256 คน และผู้เชี่ยวชาญที่ใช้ร่วมกัน 1 คน โดยแต่ละโทเค็นจะเปิดใช้งานผู้เชี่ยวชาญ 8 คนและถูกส่งไปยังโหนดสูงสุด 4 โหนด

ผู้เชี่ยวชาญที่ซ้ำซ้อนจะถูกปรับใช้เพื่อปรับสมดุลโหลดระหว่างการอนุมาน

ความสามารถในการอนุมานของโมเดลได้รับการปรับปรุงโดยการกลั่นกรองความรู้จากโมเดลลูกโซ่ยาว (DeepSeek R1)

ผลการทดลอง

DeepSeek V3 ประสบความสำเร็จในการทำผลงานระดับ SOTA ในกลุ่มโมเดลโอเพนซอร์สในเกณฑ์มาตรฐานต่างๆ

โมเดลทำงานได้ดีในการทดลอง "needle-in-a-haystack" ซึ่งแสดงให้เห็นถึงความสามารถในการดึงข้อมูลเฉพาะจากบริบทที่ยาว

แหล่งข้อมูล

รายงานทางเทคนิค: DeepSeek_V3.pdf
Hugging Face: DeepSeek-V3