Published on

การเปิดเผยพารามิเตอร์โมเดล OpenAI: บทความ Microsoft เผยขนาด GPT4o

ผู้เขียน
  • avatar
    ชื่อ
    Ajax
    Twitter

การเปิดเผยพารามิเตอร์โมเดล OpenAI: บทความ Microsoft เผยขนาด GPT4o

ในวงการเทคโนโลยี ขนาดของพารามิเตอร์ในโมเดลภาษาขนาดใหญ่ (LLM) ถือเป็นความลับที่ถูกเก็บไว้อย่างดี อย่างไรก็ตาม เมื่อเร็วๆ นี้ บทความทางการแพทย์ที่เขียนโดยทีมงานจาก Microsoft และมหาวิทยาลัยวอชิงตัน ได้เปิดเผยข้อมูลพารามิเตอร์ของโมเดลต่างๆ ของ OpenAI โดยไม่ตั้งใจ ซึ่งสร้างความสนใจเป็นอย่างมาก

การเปิดเผยพารามิเตอร์

ข้อมูลสำคัญที่เปิดเผยในบทความนี้ ได้แก่:

  • GPT-4: ประมาณ 1.76 ล้านล้านพารามิเตอร์
  • GPT-4o: ประมาณ 2 แสนล้านพารามิเตอร์
  • GPT-4o mini: ประมาณ 8 พันล้านพารามิเตอร์
  • o1-preview: ประมาณ 3 แสนล้านพารามิเตอร์
  • o1-mini: ประมาณ 1 แสนล้านพารามิเตอร์
  • Claude 3.5 Sonnet: ประมาณ 1.75 แสนล้านพารามิเตอร์

เป็นที่น่าสังเกตว่า นักวิจัยได้ระบุว่าค่าพารามิเตอร์เหล่านี้เป็นค่าประมาณ

พารามิเตอร์ของ GPT-4o สร้างความฮือฮา

สิ่งที่น่าประหลาดใจคือ จำนวนพารามิเตอร์ของซีรีส์ GPT-4o นั้นต่ำกว่าที่คาดไว้มาก โดยเฉพาะอย่างยิ่งรุ่น mini ที่มีเพียง 8 พันล้านพารามิเตอร์ มีผู้ใช้อินเทอร์เน็ตคาดการณ์ว่า GPT-4o mini อาจใช้สถาปัตยกรรมแบบ Mixture of Experts (MoE) ซึ่งมีพารามิเตอร์ที่ใช้งานจริง 8 พันล้าน แต่พารามิเตอร์โดยรวมของโมเดลอาจสูงถึง 4 หมื่นล้าน สถาปัตยกรรมนี้ช่วยให้โมเดลขนาดเล็กสามารถเรียนรู้ได้มากขึ้นในขณะที่ยังคงความเร็วในการทำงานไว้ได้

การเปรียบเทียบพารามิเตอร์ของ Claude 3.5 Sonnet

นอกจากนี้ ยังมีผู้แสดงความคิดเห็นว่าจำนวนพารามิเตอร์ของ Claude 3.5 Sonnet นั้นใกล้เคียงกับ GPT-3 davinci ซึ่งทำให้เกิดการตั้งคำถามเพิ่มเติมเกี่ยวกับความสัมพันธ์ระหว่างประสิทธิภาพและขนาดของโมเดลที่แตกต่างกัน

เกณฑ์มาตรฐาน MEDEC: มาตรฐานใหม่สำหรับการตรวจจับข้อผิดพลาดทางการแพทย์

บทความที่เปิดเผยพารามิเตอร์นี้ แท้จริงแล้วเป็นเรื่องเกี่ยวกับเกณฑ์มาตรฐานการประเมินที่ชื่อว่า MEDEC1 ซึ่งมีจุดมุ่งหมายเพื่อประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ในการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์ เกณฑ์มาตรฐานนี้มุ่งเน้นไปที่ข้อผิดพลาดในบันทึกทางการแพทย์ โดยครอบคลุม 5 ด้าน ได้แก่ การวินิจฉัย การจัดการ การรักษา การรักษาด้วยยา และสาเหตุของโรค

ที่มาและคุณสมบัติของข้อมูล

ชุดข้อมูล MEDEC ประกอบด้วยบันทึกทางการแพทย์ 488 ฉบับจากระบบโรงพยาบาลสามแห่งในสหรัฐอเมริกา รวมเป็นข้อความทางการแพทย์ 3,848 ฉบับ ข้อมูลเหล่านี้ไม่เคยถูกใช้โดยโมเดลภาษาขนาดใหญ่ใดๆ มาก่อน เพื่อให้มั่นใจถึงความถูกต้องและความน่าเชื่อถือของการประเมิน ปัจจุบัน ชุดข้อมูลนี้ถูกนำไปใช้ในงาน MediQA-CORR เพื่อประเมินประสิทธิภาพของ 17 ระบบที่เข้าร่วม

การทดสอบและผลลัพธ์

ทีมวิจัยใช้ชุดข้อมูล MEDEC เพื่อทดสอบโมเดลขั้นสูงหลายแบบ รวมถึง o1-preview, GPT-4, Claude 3.5 Sonnet และ Gemini 2.0 Flash นอกจากนี้ พวกเขายังได้เชิญแพทย์ผู้เชี่ยวชาญสองท่านเข้าร่วมงานตรวจจับข้อผิดพลาดเดียวกัน เพื่อเปรียบเทียบประสิทธิภาพระหว่างมนุษย์กับเครื่องจักร

ผลการวิจัยแสดงให้เห็นว่า แม้ว่าโมเดลภาษาขนาดใหญ่จะแสดงให้เห็นถึงประสิทธิภาพที่โดดเด่นในการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์ แต่ก็ยังมีช่องว่างเมื่อเทียบกับแพทย์ที่เป็นมนุษย์ ซึ่งแสดงให้เห็นว่า MEDEC เป็นเกณฑ์มาตรฐานที่ท้าทาย

เนื้อหาหลักของบทความ: การประยุกต์ใช้และความท้าทายของ LLM ในด้านการแพทย์

บทความระบุว่าการสำรวจในสถานพยาบาลของสหรัฐอเมริกาพบว่า ผู้ป่วยหนึ่งในห้าคนที่อ่านบันทึกทางการแพทย์รายงานว่าพบข้อผิดพลาด โดย 40% ของข้อผิดพลาดเหล่านี้ถือว่าค่อนข้างร้ายแรง และข้อผิดพลาดที่พบบ่อยที่สุดคือข้อผิดพลาดที่เกี่ยวข้องกับการวินิจฉัย

การประยุกต์ใช้และความเสี่ยงของ LLM ในเอกสารทางการแพทย์

เนื่องจากงานเอกสารทางการแพทย์ (เช่น การสร้างบันทึกทางการแพทย์) ถูกดำเนินการโดยโมเดลภาษาขนาดใหญ่มากขึ้น การตรวจสอบความถูกต้องและความปลอดภัยของข้อมูลที่ LLM สร้างขึ้นจึงมีความสำคัญอย่างยิ่ง LLM อาจสร้างภาพหลอน สร้างเนื้อหาที่ผิดพลาด หรือเป็นข้อมูลเท็จ ซึ่งอาจส่งผลกระทบอย่างร้ายแรงต่อการตัดสินใจทางคลินิก

ความสำคัญของเกณฑ์มาตรฐาน MEDEC

เพื่อแก้ไขปัญหาเหล่านี้ และเพื่อให้มั่นใจในความปลอดภัยของ LLM ในการสร้างเนื้อหาทางการแพทย์ วิธีการตรวจสอบที่เข้มงวดจึงมีความจำเป็นอย่างยิ่ง การเปิดตัวเกณฑ์มาตรฐาน MEDEC มีวัตถุประสงค์เพื่อประเมินความสามารถของโมเดลในการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์ในข้อความทางการแพทย์

การสร้างชุดข้อมูล MEDEC

ชุดข้อมูล MEDEC ประกอบด้วยข้อความทางการแพทย์ 3,848 ฉบับจากสาขาการแพทย์ต่างๆ ซึ่งได้รับการติดป้ายโดยผู้ติดป้ายทางการแพทย์ 8 ท่าน ชุดข้อมูลนี้ครอบคลุมข้อผิดพลาด 5 ประเภท ได้แก่:

  • การวินิจฉัย (Diagnosis): การวินิจฉัยที่ให้มาไม่ถูกต้อง
  • การจัดการ (Management): ขั้นตอนการจัดการต่อไปที่ให้มาไม่ถูกต้อง
  • การรักษาด้วยยา (Pharmacotherapy): การรักษาด้วยยาที่แนะนำไม่ถูกต้อง
  • การรักษา (Treatment): แผนการรักษาที่แนะนำไม่ถูกต้อง
  • สาเหตุของโรค (Causal Organism): สิ่งมีชีวิตหรือเชื้อโรคที่ระบุว่าเป็นสาเหตุของโรคไม่ถูกต้อง

การเลือกประเภทข้อผิดพลาดเหล่านี้อิงตามประเภทคำถามที่พบบ่อยที่สุดในการสอบของคณะกรรมการทางการแพทย์

วิธีการสร้างข้อมูล

การสร้างชุดข้อมูลใช้วิธีการสองวิธี:

  1. วิธีที่ #1 (MS): ใช้คำถามสอบของคณะกรรมการทางการแพทย์จากชุด MedQA โดยผู้ติดป้ายที่มีภูมิหลังทางการแพทย์จะใส่คำตอบที่ผิดลงในข้อความสถานการณ์
  2. วิธีที่ #2 (UW): ใช้ฐานข้อมูลบันทึกทางการแพทย์จริงจากระบบโรงพยาบาลสามแห่งของมหาวิทยาลัยวอชิงตัน โดยทีมแพทย์จะใส่ข้อผิดพลาดลงในบันทึกด้วยตนเอง

ทั้งสองวิธีผ่านการควบคุมคุณภาพอย่างเข้มงวด เพื่อให้มั่นใจถึงความถูกต้องและความน่าเชื่อถือของข้อมูล

วิธีการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์

เพื่อประเมินประสิทธิภาพของโมเดลในการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์ นักวิจัยได้แบ่งกระบวนการนี้ออกเป็นสามงานย่อย:

  • งานย่อย A: ทำนายเครื่องหมายข้อผิดพลาด (0: ไม่มีข้อผิดพลาด; 1: มีข้อผิดพลาด)
  • งานย่อย B: แยกประโยคที่มีข้อผิดพลาด
  • งานย่อย C: สร้างเนื้อหาที่แก้ไขสำหรับประโยคที่มีข้อผิดพลาด

ทีมวิจัยได้สร้างโซลูชันโดยใช้ LLM และใช้พร้อมท์สองแบบที่แตกต่างกันเพื่อสร้างเอาต์พุตที่ต้องการ

การทดลองและผลลัพธ์

โมเดลภาษา

นักวิจัยได้ทำการทดลองกับโมเดลภาษาหลายแบบ รวมถึง Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini และ o1-preview

การวิเคราะห์ผลการทดลอง

ผลการทดลองแสดงให้เห็นว่า Claude 3.5 Sonnet แสดงประสิทธิภาพที่โดดเด่นในการตรวจจับเครื่องหมายข้อผิดพลาดและการตรวจจับประโยคที่มีข้อผิดพลาด o1-preview แสดงประสิทธิภาพที่ดีที่สุดในการแก้ไขข้อผิดพลาด อย่างไรก็ตาม โมเดลทั้งหมดก็ยังไม่สามารถเทียบได้กับแพทย์ที่เป็นมนุษย์ในการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์

ผลการวิจัยยังแสดงให้เห็นว่าโมเดลมีปัญหาด้านความแม่นยำ และในหลายกรณีก็ทำนายการมีอยู่ของข้อผิดพลาดมากเกินไป (เช่น สร้างภาพหลอน) นอกจากนี้ ยังมีความแตกต่างในการจัดอันดับระหว่างประสิทธิภาพการจำแนกประเภทและประสิทธิภาพการสร้างการแก้ไขข้อผิดพลาด

การวิเคราะห์ประเภทข้อผิดพลาด

ในการตรวจจับและแก้ไขข้อผิดพลาดประเภทต่างๆ o1-preview มีค่าการเรียกคืนที่สูงกว่าในการตรวจจับเครื่องหมายข้อผิดพลาดและประโยค แต่แพทย์มีประสิทธิภาพที่ดีกว่าในด้านความแม่นยำ

ทิศทางการวิจัยในอนาคต

นักวิจัยกล่าวว่าทิศทางการวิจัยต่อไปจะรวมถึงการใส่ตัวอย่างเพิ่มเติมในพร้อมท์และปรับปรุงให้เหมาะสม เพื่อปรับปรุงประสิทธิภาพของโมเดลในการตรวจจับและแก้ไขข้อผิดพลาดทางการแพทย์ให้ดียิ่งขึ้น