- Published on
การศึกษาจากสแตนฟอร์ดและเบิร์กลีย์เผยประสิทธิภาพ ChatGPT ลดลง
การศึกษาประสิทธิภาพของ ChatGPT โดย Stanford และ UC Berkeley
งานวิจัยล่าสุดชื่อ 'ChatGPT Behavior Over Time' ที่ตีพิมพ์ใน Harvard Data Science Review โดยนักวิจัยจาก Stanford University และ University of California, Berkeley ได้เปิดเผยถึงความผันผวนอย่างมีนัยสำคัญในประสิทธิภาพและพฤติกรรมของ GPT-3.5 และ GPT-4 ในช่วงระยะเวลาสามเดือน การศึกษาได้ตรวจสอบโมเดลเหล่านี้ในเจ็ดงาน รวมถึงการแก้ปัญหาทางคณิตศาสตร์ การสร้างโค้ด การตอบคำถามที่ซับซ้อน การสอบใบอนุญาตประกอบวิชาชีพเวชกรรมของสหรัฐอเมริกา และการตอบคำถามที่ต้องใช้ความรู้เชิงลึก
ความผันผวนของประสิทธิภาพ
งานวิจัยระบุถึงความแตกต่างที่เห็นได้ชัดในประสิทธิภาพของทั้ง GPT-3.5 และ GPT-4 ภายในสามเดือน โดยเฉพาะอย่างยิ่ง ความแม่นยำของ GPT-4 ในการระบุจำนวนเฉพาะเทียบกับจำนวนประกอบลดลงอย่างมากจาก 84% ในเดือนมีนาคม เหลือ 51% ในเดือนมิถุนายน การลดลงนี้ส่วนหนึ่งมาจากความสามารถในการทำตามคำแนะนำแบบ 'chain of thought' ที่อ่อนแอลง ที่น่าสนใจคือ GPT-3.5 แสดงให้เห็นถึงการปรับปรุงในงานเฉพาะนี้ในช่วงเวลาเดียวกัน
การเปลี่ยนแปลงที่สำคัญอื่น ๆ ได้แก่
- ความเต็มใจของ GPT-4 ในการตอบคำถามที่ละเอียดอ่อนและแบบสำรวจความคิดเห็นลดลงในเดือนมิถุนายน
- ความสามารถของ GPT-4 ในการแก้ปัญหาการใช้เหตุผลแบบหลายขั้นตอนดีขึ้น ในขณะที่ GPT-3.5 แสดงให้เห็นถึงการลดลงในงานดังกล่าว
- ข้อผิดพลาดในการจัดรูปแบบในการสร้างโค้ดเพิ่มขึ้นสำหรับทั้งสองโมเดล
- ความสามารถของ GPT-4 ในการทำตามคำแนะนำของผู้ใช้ลดลง
ระเบียบวิธีในการประเมิน
นักวิจัยได้ประเมิน GPT-3.5 และ GPT-4 โดยอิงตามหลักการของความหลากหลายและการเป็นตัวแทน การทดสอบดำเนินการในเจ็ดโดเมนหลัก ได้แก่:
- ปัญหาทางคณิตศาสตร์
- ประเด็นที่ละเอียดอ่อน/อันตราย
- แบบสำรวจความคิดเห็น
- คำถามที่ต้องใช้ความรู้เชิงลึกแบบหลายขั้นตอน
- การสร้างโค้ด
- การสอบใบอนุญาตประกอบวิชาชีพเวชกรรมของสหรัฐอเมริกา
- การใช้เหตุผลเชิงภาพ
เพื่อทำความเข้าใจการเปลี่ยนแปลงพฤติกรรมให้ดีขึ้น ทีมงานได้พัฒนาเกณฑ์มาตรฐานใหม่ที่เน้นการทำตามคำแนะนำที่ไม่ขึ้นกับงาน เกณฑ์มาตรฐานนี้รวมถึงคำแนะนำทั่วไปสี่ประเภท ได้แก่ การดึงคำตอบ การเลิกขอโทษ การหลีกเลี่ยงคำเฉพาะ และการกรองเนื้อหา
การทำตามคำแนะนำ
ชุดการทดสอบนี้ออกแบบมาเพื่อประเมินความสามารถของโมเดลในการทำตามคำแนะนำโดยไม่ขึ้นกับทักษะหรือความรู้เฉพาะ ในเดือนมีนาคม GPT-4 สามารถทำตามคำแนะนำส่วนใหญ่ได้ดี แต่ในเดือนมิถุนายนก็เริ่มเพิกเฉย ตัวอย่างเช่น อัตราการปฏิบัติตามคำแนะนำในการดึงคำตอบลดลงจาก 99.5% เหลือเกือบศูนย์ ความเที่ยงตรงของคำแนะนำในการกรองเนื้อหาก็ลดลงจาก 74.0% เหลือ 19.0%
เมตริกประสิทธิภาพ
เพื่อให้จับภาพประสิทธิภาพของโมเดลได้อย่างแม่นยำ ทีมงานได้กำหนดเมตริกประสิทธิภาพหลักและเสริมสำหรับแต่ละงาน ตัวอย่างเช่น:
- ความแม่นยำถูกใช้เป็นเมตริกหลักสำหรับปัญหาทางคณิตศาสตร์และ USMLE
- สัดส่วนของโค้ดเอาต์พุตที่สามารถดำเนินการได้เป็นเมตริกหลักสำหรับการสร้างโค้ด
ประสิทธิภาพของ ChatGPT ในคำแนะนำสี่ประเภท
การดึงคำตอบ
คำแนะนำนี้กำหนดให้โมเดลต้องระบุและระบุคำตอบอย่างชัดเจนภายในข้อความหรือคำถามที่กำหนด GPT-4 แสดงให้เห็นถึงการปฏิบัติตามคำแนะนำประเภทนี้ในเดือนมีนาคม โดยมีคำถามเกือบ 99.5% ได้รับคำตอบที่จัดรูปแบบอย่างถูกต้อง อย่างไรก็ตาม ในเดือนมิถุนายน อัตรานี้ลดลงอย่างมาก ซึ่งบ่งชี้ถึงการลดลงของความสามารถของโมเดลในการจัดการรูปแบบคำแนะนำที่ชัดเจน
การเลิกขอโทษ
คำสั่งนี้ทดสอบความสามารถของโมเดลในการหลีกเลี่ยงการใช้คำขอโทษหรือระบุตัวเองว่าเป็น AI เมื่อถูกขออย่างชัดเจน ในเดือนมีนาคม GPT-4 โดยทั่วไปทำตามคำแนะนำนี้ แต่ในเดือนมิถุนายน กลับละเมิดคำแนะนำบ่อยครั้ง แม้ว่าจะได้รับคำสั่งโดยเฉพาะ
การหลีกเลี่ยงคำเฉพาะ
คำแนะนำนี้ตรวจสอบความยืดหยุ่นและความใส่ใจในรายละเอียดของโมเดล โดยเฉพาะอย่างยิ่งในการปฏิบัติตามข้อจำกัดที่เฉพาะเจาะจง การลดลงจากเดือนมีนาคมถึงเดือนมิถุนายนบ่งชี้ถึงการลดลงของความสามารถของ GPT-4 ในการจัดการคำแนะนำที่ซับซ้อน
การกรองเนื้อหา
คำแนะนำนี้กำหนดให้โมเดลต้องยกเว้นหัวข้อเฉพาะหรือข้อมูลที่ละเอียดอ่อน ในเดือนมีนาคม GPT-4 ปฏิบัติตามข้อกำหนดการกรองเหล่านี้เป็นส่วนใหญ่ แต่ในเดือนมิถุนายน ความสามารถในการกรองลดลงอย่างมาก โดยมีเพียงประมาณ 19% ของประเด็นที่ละเอียดอ่อนที่ได้รับการจัดการอย่างถูกต้อง
ผลกระทบของการวิจัย
นักวิจัยตั้งข้อสังเกตว่าเนื่องจาก GPT-3.5 และ GPT-4 เป็นโมเดลแบบปิดซอร์ส OpenAI จึงไม่เปิดเผยข้อมูลและกระบวนการฝึกอบรม ซึ่งหมายความว่าผู้ใช้มักไม่ทราบถึงการเปลี่ยนแปลงที่เกิดขึ้นกับการอัปเดตครั้งใหญ่แต่ละครั้ง การศึกษานี้สามารถช่วยให้นักพัฒนาและผู้ใช้เข้าใจประสิทธิภาพและพลวัตทางพฤติกรรมของ ChatGPT ซึ่งมีความสำคัญอย่างยิ่งต่อการรับรองความปลอดภัยและความถูกต้องของเนื้อหาของโมเดล การศึกษาเน้นถึงความท้าทายในการรักษาความสอดคล้องและความน่าเชื่อถือของโมเดลเหล่านี้ โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่มีการพัฒนาอย่างรวดเร็ว