การศึกษาจากสแตนฟอร์ดและเบิร์กลีย์เผยประสิทธิภาพ ChatGPT ลดลง

การศึกษาประสิทธิภาพของ ChatGPT โดย Stanford และ UC Berkeley

งานวิจัยล่าสุดชื่อ 'ChatGPT Behavior Over Time' ที่ตีพิมพ์ใน Harvard Data Science Review โดยนักวิจัยจาก Stanford University และ University of California, Berkeley ได้เปิดเผยถึงความผันผวนอย่างมีนัยสำคัญในประสิทธิภาพและพฤติกรรมของ GPT-3.5 และ GPT-4 ในช่วงระยะเวลาสามเดือน การศึกษาได้ตรวจสอบโมเดลเหล่านี้ในเจ็ดงาน รวมถึงการแก้ปัญหาทางคณิตศาสตร์ การสร้างโค้ด การตอบคำถามที่ซับซ้อน การสอบใบอนุญาตประกอบวิชาชีพเวชกรรมของสหรัฐอเมริกา และการตอบคำถามที่ต้องใช้ความรู้เชิงลึก

ความผันผวนของประสิทธิภาพ

งานวิจัยระบุถึงความแตกต่างที่เห็นได้ชัดในประสิทธิภาพของทั้ง GPT-3.5 และ GPT-4 ภายในสามเดือน โดยเฉพาะอย่างยิ่ง ความแม่นยำของ GPT-4 ในการระบุจำนวนเฉพาะเทียบกับจำนวนประกอบลดลงอย่างมากจาก 84% ในเดือนมีนาคม เหลือ 51% ในเดือนมิถุนายน การลดลงนี้ส่วนหนึ่งมาจากความสามารถในการทำตามคำแนะนำแบบ 'chain of thought' ที่อ่อนแอลง ที่น่าสนใจคือ GPT-3.5 แสดงให้เห็นถึงการปรับปรุงในงานเฉพาะนี้ในช่วงเวลาเดียวกัน

การเปลี่ยนแปลงที่สำคัญอื่น ๆ ได้แก่

ความเต็มใจของ GPT-4 ในการตอบคำถามที่ละเอียดอ่อนและแบบสำรวจความคิดเห็นลดลงในเดือนมิถุนายน
ความสามารถของ GPT-4 ในการแก้ปัญหาการใช้เหตุผลแบบหลายขั้นตอนดีขึ้น ในขณะที่ GPT-3.5 แสดงให้เห็นถึงการลดลงในงานดังกล่าว
ข้อผิดพลาดในการจัดรูปแบบในการสร้างโค้ดเพิ่มขึ้นสำหรับทั้งสองโมเดล
ความสามารถของ GPT-4 ในการทำตามคำแนะนำของผู้ใช้ลดลง

ระเบียบวิธีในการประเมิน

นักวิจัยได้ประเมิน GPT-3.5 และ GPT-4 โดยอิงตามหลักการของความหลากหลายและการเป็นตัวแทน การทดสอบดำเนินการในเจ็ดโดเมนหลัก ได้แก่:

ปัญหาทางคณิตศาสตร์
ประเด็นที่ละเอียดอ่อน/อันตราย
แบบสำรวจความคิดเห็น
คำถามที่ต้องใช้ความรู้เชิงลึกแบบหลายขั้นตอน
การสร้างโค้ด
การสอบใบอนุญาตประกอบวิชาชีพเวชกรรมของสหรัฐอเมริกา
การใช้เหตุผลเชิงภาพ

เพื่อทำความเข้าใจการเปลี่ยนแปลงพฤติกรรมให้ดีขึ้น ทีมงานได้พัฒนาเกณฑ์มาตรฐานใหม่ที่เน้นการทำตามคำแนะนำที่ไม่ขึ้นกับงาน เกณฑ์มาตรฐานนี้รวมถึงคำแนะนำทั่วไปสี่ประเภท ได้แก่ การดึงคำตอบ การเลิกขอโทษ การหลีกเลี่ยงคำเฉพาะ และการกรองเนื้อหา

การทำตามคำแนะนำ

ชุดการทดสอบนี้ออกแบบมาเพื่อประเมินความสามารถของโมเดลในการทำตามคำแนะนำโดยไม่ขึ้นกับทักษะหรือความรู้เฉพาะ ในเดือนมีนาคม GPT-4 สามารถทำตามคำแนะนำส่วนใหญ่ได้ดี แต่ในเดือนมิถุนายนก็เริ่มเพิกเฉย ตัวอย่างเช่น อัตราการปฏิบัติตามคำแนะนำในการดึงคำตอบลดลงจาก 99.5% เหลือเกือบศูนย์ ความเที่ยงตรงของคำแนะนำในการกรองเนื้อหาก็ลดลงจาก 74.0% เหลือ 19.0%

เมตริกประสิทธิภาพ

เพื่อให้จับภาพประสิทธิภาพของโมเดลได้อย่างแม่นยำ ทีมงานได้กำหนดเมตริกประสิทธิภาพหลักและเสริมสำหรับแต่ละงาน ตัวอย่างเช่น:

ความแม่นยำถูกใช้เป็นเมตริกหลักสำหรับปัญหาทางคณิตศาสตร์และ USMLE
สัดส่วนของโค้ดเอาต์พุตที่สามารถดำเนินการได้เป็นเมตริกหลักสำหรับการสร้างโค้ด

ประสิทธิภาพของ ChatGPT ในคำแนะนำสี่ประเภท

การดึงคำตอบ

คำแนะนำนี้กำหนดให้โมเดลต้องระบุและระบุคำตอบอย่างชัดเจนภายในข้อความหรือคำถามที่กำหนด GPT-4 แสดงให้เห็นถึงการปฏิบัติตามคำแนะนำประเภทนี้ในเดือนมีนาคม โดยมีคำถามเกือบ 99.5% ได้รับคำตอบที่จัดรูปแบบอย่างถูกต้อง อย่างไรก็ตาม ในเดือนมิถุนายน อัตรานี้ลดลงอย่างมาก ซึ่งบ่งชี้ถึงการลดลงของความสามารถของโมเดลในการจัดการรูปแบบคำแนะนำที่ชัดเจน

การเลิกขอโทษ

คำสั่งนี้ทดสอบความสามารถของโมเดลในการหลีกเลี่ยงการใช้คำขอโทษหรือระบุตัวเองว่าเป็น AI เมื่อถูกขออย่างชัดเจน ในเดือนมีนาคม GPT-4 โดยทั่วไปทำตามคำแนะนำนี้ แต่ในเดือนมิถุนายน กลับละเมิดคำแนะนำบ่อยครั้ง แม้ว่าจะได้รับคำสั่งโดยเฉพาะ

การหลีกเลี่ยงคำเฉพาะ

คำแนะนำนี้ตรวจสอบความยืดหยุ่นและความใส่ใจในรายละเอียดของโมเดล โดยเฉพาะอย่างยิ่งในการปฏิบัติตามข้อจำกัดที่เฉพาะเจาะจง การลดลงจากเดือนมีนาคมถึงเดือนมิถุนายนบ่งชี้ถึงการลดลงของความสามารถของ GPT-4 ในการจัดการคำแนะนำที่ซับซ้อน

การกรองเนื้อหา

คำแนะนำนี้กำหนดให้โมเดลต้องยกเว้นหัวข้อเฉพาะหรือข้อมูลที่ละเอียดอ่อน ในเดือนมีนาคม GPT-4 ปฏิบัติตามข้อกำหนดการกรองเหล่านี้เป็นส่วนใหญ่ แต่ในเดือนมิถุนายน ความสามารถในการกรองลดลงอย่างมาก โดยมีเพียงประมาณ 19% ของประเด็นที่ละเอียดอ่อนที่ได้รับการจัดการอย่างถูกต้อง

ผลกระทบของการวิจัย

นักวิจัยตั้งข้อสังเกตว่าเนื่องจาก GPT-3.5 และ GPT-4 เป็นโมเดลแบบปิดซอร์ส OpenAI จึงไม่เปิดเผยข้อมูลและกระบวนการฝึกอบรม ซึ่งหมายความว่าผู้ใช้มักไม่ทราบถึงการเปลี่ยนแปลงที่เกิดขึ้นกับการอัปเดตครั้งใหญ่แต่ละครั้ง การศึกษานี้สามารถช่วยให้นักพัฒนาและผู้ใช้เข้าใจประสิทธิภาพและพลวัตทางพฤติกรรมของ ChatGPT ซึ่งมีความสำคัญอย่างยิ่งต่อการรับรองความปลอดภัยและความถูกต้องของเนื้อหาของโมเดล การศึกษาเน้นถึงความท้าทายในการรักษาความสอดคล้องและความน่าเชื่อถือของโมเดลเหล่านี้ โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่มีการพัฒนาอย่างรวดเร็ว