- Published on
Deepseek V3: โมเดลใหม่เหนือความคาดหมาย ทำลายสถิติการเขียนโปรแกรม เหนือ Claude 3.5 Sonnet
Deepseek-v3 โมเดลใหม่ที่ถูกเปิดเผยอย่างไม่คาดคิด: ทำลายสถิติการเขียนโปรแกรม เหนือ Claude 3.5 Sonnet
Deepseek-v3 โมเดลภาษาขนาดใหญ่ (LLM) ที่ยังไม่ได้ประกาศเปิดตัว ได้ถูกปล่อยออกมาโดยไม่คาดคิด และกำลังแสดงประสิทธิภาพที่น่าประทับใจอย่างมาก โมเดลนี้ได้สร้างความฮือฮาในวงการ AI ด้วยการแซงหน้า Claude 3.5 Sonnet ในการทดสอบ Aider ซึ่งเป็นการทดสอบด้านการเขียนโปรแกรมหลายภาษา นอกจากนี้ Deepseek-v3 ยังได้รับการยกย่องว่าเป็นโมเดลโอเพนซอร์สที่แข็งแกร่งที่สุดในปัจจุบันบนแพลตฟอร์ม LiveBench
ข้อมูลเบื้องหลัง
การรั่วไหลของ Deepseek-v3 ถูกรายงานครั้งแรกโดยผู้ใช้ Reddit ที่พบว่าโมเดลนี้พร้อมใช้งานผ่าน API และหน้าเว็บต่างๆ ประสิทธิภาพของ Deepseek-v3 ได้รับการประเมินผ่านเกณฑ์มาตรฐานต่างๆ เช่น Aider และ LiveBench ซึ่งแสดงให้เห็นถึงความสามารถที่โดดเด่น น้ำหนักของโมเดลแบบโอเพนซอร์สพร้อมใช้งานแล้วบน Hugging Face แม้ว่าจะยังไม่มี Model Card อย่างเป็นทางการ
รายละเอียดทางเทคนิคของ Deepseek-V3
สถาปัตยกรรมโมเดล
- ขนาดพารามิเตอร์: 685 พันล้านพารามิเตอร์
- โครงสร้าง MoE: สถาปัตยกรรม Mixture of Experts (MoE) ที่มีผู้เชี่ยวชาญ 256 คน
- การกำหนดเส้นทาง: ใช้ฟังก์ชัน sigmoid ในการกำหนดเส้นทาง โดยเลือกผู้เชี่ยวชาญ 8 อันดับแรก (Top-k=8)
- หน้าต่างบริบท: รองรับบริบท 64K โดยมีค่าเริ่มต้นที่ 4K และสูงสุดที่ 8K
- ความเร็วในการสร้างโทเค็น: ประมาณ 60 โทเค็นต่อวินาที
การเปลี่ยนแปลงสถาปัตยกรรมที่สำคัญเมื่อเทียบกับ V2
- ฟังก์ชัน Gate: v3 ใช้ฟังก์ชัน sigmoid แทน softmax สำหรับการเลือกผู้เชี่ยวชาญ ซึ่งช่วยให้โมเดลเลือกผู้เชี่ยวชาญได้หลากหลายมากขึ้น ต่างจาก softmax ที่มักจะเลือกผู้เชี่ยวชาญเพียงไม่กี่คน
- การเลือก Top-k: v3 นำเสนอวิธี noaux_tc ใหม่สำหรับการเลือก Top-k ซึ่งไม่จำเป็นต้องมี auxiliary loss ทำให้การฝึกง่ายขึ้นและมีประสิทธิภาพมากขึ้น โดยใช้ฟังก์ชัน loss ของงานหลักโดยตรง
- การปรับคะแนนผู้เชี่ยวชาญ: มีการเพิ่มพารามิเตอร์ใหม่ e_score_correction_bias เพื่อปรับคะแนนผู้เชี่ยวชาญ ซึ่งนำไปสู่ประสิทธิภาพที่ดีขึ้นระหว่างการเลือกผู้เชี่ยวชาญและการฝึกโมเดล
การเปรียบเทียบกับ V2 และ V2.5
- v3 vs v2: v3 เป็นเวอร์ชันที่ได้รับการปรับปรุงจาก v2 โดยมีการพัฒนาที่สำคัญในทุกพารามิเตอร์
- v3 vs v2.5: v3 เหนือกว่า v2.5 ในด้านการกำหนดค่า รวมถึงจำนวนผู้เชี่ยวชาญที่มากขึ้น ขนาดของชั้นกลางที่ใหญ่ขึ้น และจำนวนผู้เชี่ยวชาญต่อโทเค็นที่มากขึ้น
การทดสอบและการสังเกตของผู้ใช้
การทดสอบเบื้องต้น
Simon Willison นักพัฒนาซอฟต์แวร์ได้ทดสอบ Deepseek-v3 และพบว่าโมเดลระบุตัวเองว่ามีพื้นฐานมาจากสถาปัตยกรรม GPT-4 ของ OpenAI นอกจากนี้ โมเดลยังถูกทดสอบสำหรับการสร้างภาพ โดยสร้างภาพ SVG ของนกกระทุงขี่จักรยาน
การระบุตัวเองที่ไม่คาดคิด
ผู้ใช้หลายคนรายงานว่า Deepseek-v3 ระบุตัวเองว่ามีพื้นฐานมาจากโมเดล OpenAI ซึ่งอาจเป็นผลมาจากการใช้การตอบสนองของโมเดล OpenAI ในระหว่างการฝึกอบรม
ปฏิกิริยาของชุมชน
การเปิดตัวที่ไม่คาดคิดและประสิทธิภาพที่แข็งแกร่งของ Deepseek-v3 ได้สร้างความตื่นเต้นในชุมชน AI ผู้ใช้บางคนเชื่อว่าประสิทธิภาพของ Deepseek-v3 เหนือกว่าโมเดลของ OpenAI โดยเฉพาะอย่างยิ่งในโดเมนโอเพนซอร์ส