- Published on
การเปิดเผยพารามิเตอร์โมเดล OpenAI: บทความ Microsoft เผยขนาด GPT4o
การเปิดเผยพารามิเตอร์โมเดล OpenAI: บทความ Microsoft เผยขนาด GPT4o
ในวงการเทคโนโลยี ขนาดของพารามิเตอร์ในโมเดลภาษาขนาดใหญ่ (LLM) ถือเป็นความลับที่ถูกเก็บไว้อย่างดี อย่างไรก็ตาม เมื่อเร็วๆ นี้ บทความทางการแพทย์ที่เขียนโดยทีมงานจาก Microsoft และมหาวิทยาลัยวอชิงตัน ได้เปิดเผยข้อมูลพารามิเตอร์ของโมเดลต่างๆ ของ OpenAI โดยไม่ตั้งใจ ซึ่งสร้างความสนใจเป็นอย่างมาก
การเปิดเผยพารามิเตอร์
ข้อมูลสำคัญที่เปิดเผยในบทความนี้ ได้แก่:
- GPT-4: ประมาณ 1.76 ล้านล้านพารามิเตอร์
- GPT-4o: ประมาณ 2 แสนล้านพารามิเตอร์
- GPT-4o mini: ประมาณ 8 พันล้านพารามิเตอร์
- o1-preview: ประมาณ 3 แสนล้านพารามิเตอร์
- o1-mini: ประมาณ 1 แสนล้านพารามิเตอร์
- Claude 3.5 Sonnet: ประมาณ 1.75 แสนล้านพารามิเตอร์
เป็นที่น่าสังเกตว่า นักวิจัยได้ระบุว่าค่าพารามิเตอร์เหล่านี้เป็นค่าประมาณ
พารามิเตอร์ของ GPT-4o สร้างความฮือฮา
สิ่งที่น่าประหลาดใจคือ จำนวนพารามิเตอร์ของซีรีส์ GPT-4o นั้นต่ำกว่าที่คาดไว้มาก โดยเฉพาะอย่างยิ่งรุ่น mini ที่มีเพียง 8 พันล้านพารามิเตอร์ มีผู้ใช้อินเทอร์เน็ตคาดการณ์ว่า GPT-4o mini อาจใช้สถาปัตยกรรมแบบ Mixture of Experts (MoE) ซึ่งมีพารามิเตอร์ที่ใช้งานจริง 8 พันล้าน แต่พารามิเตอร์โดยรวมของโมเดลอาจสูงถึง 4 หมื่นล้าน สถาปัตยกรรมนี้ช่วยให้โมเดลขนาดเล็กสามารถเรียนรู้ได้มากขึ้นในขณะที่ยังคงความเร็วในการทำงานไว้ได้
การเปรียบเทียบพารามิเตอร์ของ Claude 3.5 Sonnet
นอกจากนี้ ยังมีผู้แสดงความคิดเห็นว่าจำนวนพารามิเตอร์ของ Claude 3.5 Sonnet นั้นใกล้เคียงกับ GPT-3 davinci ซึ่งทำให้เกิดการตั้งคำถามเพิ่มเติมเกี่ยวกับความสัมพันธ์ระหว่างประสิทธิภาพและขนาดของโมเดลที่แตกต่างกัน
เกณฑ์มาตรฐาน MEDEC: มาตรฐานใหม่สำหรับการตรวจจับข้อผิดพลาดทางการแพทย์
บทความที่เปิดเผยพารามิเตอร์นี้ แท้จริงแล้วเป็นเรื่องเกี่ยวกับเกณฑ์มาตรฐานการประเมินที่ชื่อว่า MEDEC1 ซึ่งมีจุดมุ่งหมายเพื่อประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ในการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์ เกณฑ์มาตรฐานนี้มุ่งเน้นไปที่ข้อผิดพลาดในบันทึกทางการแพทย์ โดยครอบคลุม 5 ด้าน ได้แก่ การวินิจฉัย การจัดการ การรักษา การรักษาด้วยยา และสาเหตุของโรค
ที่มาและคุณสมบัติของข้อมูล
ชุดข้อมูล MEDEC ประกอบด้วยบันทึกทางการแพทย์ 488 ฉบับจากระบบโรงพยาบาลสามแห่งในสหรัฐอเมริกา รวมเป็นข้อความทางการแพทย์ 3,848 ฉบับ ข้อมูลเหล่านี้ไม่เคยถูกใช้โดยโมเดลภาษาขนาดใหญ่ใดๆ มาก่อน เพื่อให้มั่นใจถึงความถูกต้องและความน่าเชื่อถือของการประเมิน ปัจจุบัน ชุดข้อมูลนี้ถูกนำไปใช้ในงาน MediQA-CORR เพื่อประเมินประสิทธิภาพของ 17 ระบบที่เข้าร่วม
การทดสอบและผลลัพธ์
ทีมวิจัยใช้ชุดข้อมูล MEDEC เพื่อทดสอบโมเดลขั้นสูงหลายแบบ รวมถึง o1-preview, GPT-4, Claude 3.5 Sonnet และ Gemini 2.0 Flash นอกจากนี้ พวกเขายังได้เชิญแพทย์ผู้เชี่ยวชาญสองท่านเข้าร่วมงานตรวจจับข้อผิดพลาดเดียวกัน เพื่อเปรียบเทียบประสิทธิภาพระหว่างมนุษย์กับเครื่องจักร
ผลการวิจัยแสดงให้เห็นว่า แม้ว่าโมเดลภาษาขนาดใหญ่จะแสดงให้เห็นถึงประสิทธิภาพที่โดดเด่นในการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์ แต่ก็ยังมีช่องว่างเมื่อเทียบกับแพทย์ที่เป็นมนุษย์ ซึ่งแสดงให้เห็นว่า MEDEC เป็นเกณฑ์มาตรฐานที่ท้าทาย
เนื้อหาหลักของบทความ: การประยุกต์ใช้และความท้าทายของ LLM ในด้านการแพทย์
บทความระบุว่าการสำรวจในสถานพยาบาลของสหรัฐอเมริกาพบว่า ผู้ป่วยหนึ่งในห้าคนที่อ่านบันทึกทางการแพทย์รายงานว่าพบข้อผิดพลาด โดย 40% ของข้อผิดพลาดเหล่านี้ถือว่าค่อนข้างร้ายแรง และข้อผิดพลาดที่พบบ่อยที่สุดคือข้อผิดพลาดที่เกี่ยวข้องกับการวินิจฉัย
การประยุกต์ใช้และความเสี่ยงของ LLM ในเอกสารทางการแพทย์
เนื่องจากงานเอกสารทางการแพทย์ (เช่น การสร้างบันทึกทางการแพทย์) ถูกดำเนินการโดยโมเดลภาษาขนาดใหญ่มากขึ้น การตรวจสอบความถูกต้องและความปลอดภัยของข้อมูลที่ LLM สร้างขึ้นจึงมีความสำคัญอย่างยิ่ง LLM อาจสร้างภาพหลอน สร้างเนื้อหาที่ผิดพลาด หรือเป็นข้อมูลเท็จ ซึ่งอาจส่งผลกระทบอย่างร้ายแรงต่อการตัดสินใจทางคลินิก
ความสำคัญของเกณฑ์มาตรฐาน MEDEC
เพื่อแก้ไขปัญหาเหล่านี้ และเพื่อให้มั่นใจในความปลอดภัยของ LLM ในการสร้างเนื้อหาทางการแพทย์ วิธีการตรวจสอบที่เข้มงวดจึงมีความจำเป็นอย่างยิ่ง การเปิดตัวเกณฑ์มาตรฐาน MEDEC มีวัตถุประสงค์เพื่อประเมินความสามารถของโมเดลในการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์ในข้อความทางการแพทย์
การสร้างชุดข้อมูล MEDEC
ชุดข้อมูล MEDEC ประกอบด้วยข้อความทางการแพทย์ 3,848 ฉบับจากสาขาการแพทย์ต่างๆ ซึ่งได้รับการติดป้ายโดยผู้ติดป้ายทางการแพทย์ 8 ท่าน ชุดข้อมูลนี้ครอบคลุมข้อผิดพลาด 5 ประเภท ได้แก่:
- การวินิจฉัย (Diagnosis): การวินิจฉัยที่ให้มาไม่ถูกต้อง
- การจัดการ (Management): ขั้นตอนการจัดการต่อไปที่ให้มาไม่ถูกต้อง
- การรักษาด้วยยา (Pharmacotherapy): การรักษาด้วยยาที่แนะนำไม่ถูกต้อง
- การรักษา (Treatment): แผนการรักษาที่แนะนำไม่ถูกต้อง
- สาเหตุของโรค (Causal Organism): สิ่งมีชีวิตหรือเชื้อโรคที่ระบุว่าเป็นสาเหตุของโรคไม่ถูกต้อง
การเลือกประเภทข้อผิดพลาดเหล่านี้อิงตามประเภทคำถามที่พบบ่อยที่สุดในการสอบของคณะกรรมการทางการแพทย์
วิธีการสร้างข้อมูล
การสร้างชุดข้อมูลใช้วิธีการสองวิธี:
- วิธีที่ #1 (MS): ใช้คำถามสอบของคณะกรรมการทางการแพทย์จากชุด MedQA โดยผู้ติดป้ายที่มีภูมิหลังทางการแพทย์จะใส่คำตอบที่ผิดลงในข้อความสถานการณ์
- วิธีที่ #2 (UW): ใช้ฐานข้อมูลบันทึกทางการแพทย์จริงจากระบบโรงพยาบาลสามแห่งของมหาวิทยาลัยวอชิงตัน โดยทีมแพทย์จะใส่ข้อผิดพลาดลงในบันทึกด้วยตนเอง
ทั้งสองวิธีผ่านการควบคุมคุณภาพอย่างเข้มงวด เพื่อให้มั่นใจถึงความถูกต้องและความน่าเชื่อถือของข้อมูล
วิธีการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์
เพื่อประเมินประสิทธิภาพของโมเดลในการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์ นักวิจัยได้แบ่งกระบวนการนี้ออกเป็นสามงานย่อย:
- งานย่อย A: ทำนายเครื่องหมายข้อผิดพลาด (0: ไม่มีข้อผิดพลาด; 1: มีข้อผิดพลาด)
- งานย่อย B: แยกประโยคที่มีข้อผิดพลาด
- งานย่อย C: สร้างเนื้อหาที่แก้ไขสำหรับประโยคที่มีข้อผิดพลาด
ทีมวิจัยได้สร้างโซลูชันโดยใช้ LLM และใช้พร้อมท์สองแบบที่แตกต่างกันเพื่อสร้างเอาต์พุตที่ต้องการ
การทดลองและผลลัพธ์
โมเดลภาษา
นักวิจัยได้ทำการทดลองกับโมเดลภาษาหลายแบบ รวมถึง Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini และ o1-preview
การวิเคราะห์ผลการทดลอง
ผลการทดลองแสดงให้เห็นว่า Claude 3.5 Sonnet แสดงประสิทธิภาพที่โดดเด่นในการตรวจจับเครื่องหมายข้อผิดพลาดและการตรวจจับประโยคที่มีข้อผิดพลาด o1-preview แสดงประสิทธิภาพที่ดีที่สุดในการแก้ไขข้อผิดพลาด อย่างไรก็ตาม โมเดลทั้งหมดก็ยังไม่สามารถเทียบได้กับแพทย์ที่เป็นมนุษย์ในการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์
ผลการวิจัยยังแสดงให้เห็นว่าโมเดลมีปัญหาด้านความแม่นยำ และในหลายกรณีก็ทำนายการมีอยู่ของข้อผิดพลาดมากเกินไป (เช่น สร้างภาพหลอน) นอกจากนี้ ยังมีความแตกต่างในการจัดอันดับระหว่างประสิทธิภาพการจำแนกประเภทและประสิทธิภาพการสร้างการแก้ไขข้อผิดพลาด
การวิเคราะห์ประเภทข้อผิดพลาด
ในการตรวจจับและแก้ไขข้อผิดพลาดประเภทต่างๆ o1-preview มีค่าการเรียกคืนที่สูงกว่าในการตรวจจับเครื่องหมายข้อผิดพลาดและประโยค แต่แพทย์มีประสิทธิภาพที่ดีกว่าในด้านความแม่นยำ
ทิศทางการวิจัยในอนาคต
นักวิจัยกล่าวว่าทิศทางการวิจัยต่อไปจะรวมถึงการใส่ตัวอย่างเพิ่มเติมในพร้อมท์และปรับปรุงให้เหมาะสม เพื่อปรับปรุงประสิทธิภาพของโมเดลในการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์ให้ดียิ่งขึ้น