- Published on
Stanford Studie ChatGPT Leistung Rückgang
Leistungsfluktuationen bei ChatGPT
Eine kürzlich in der Harvard Data Science Review veröffentlichte Studie mit dem Titel 'ChatGPT Behavior Over Time' von Forschern der Stanford University und der University of California, Berkeley, hat erhebliche Schwankungen in der Leistung und im Verhalten von GPT-3.5 und GPT-4 über einen Zeitraum von drei Monaten aufgedeckt. Die Studie untersuchte diese Modelle anhand von sieben Aufgaben, darunter mathematische Problemlösung, Codeerzeugung, mehrschrittige wissensintensive Fragen, die US Medical Licensing Exam und mehrschrittige wissensintensive Fragen.
Die Forschung zeigte bemerkenswerte Variationen in der Leistung von GPT-3.5 und GPT-4 innerhalb von drei Monaten. Insbesondere sank die Genauigkeit von GPT-4 bei der Identifizierung von Prim- vs. zusammengesetzten Zahlen drastisch von 84 % im März auf 51 % im Juni. Dieser Rückgang wurde teilweise auf eine Schwächung der Fähigkeit zurückgeführt, 'Chain of Thought'-Aufforderungen zu folgen. Interessanterweise zeigte GPT-3.5 in diesem speziellen Aufgabenbereich im gleichen Zeitraum eine Verbesserung.
Weitere bemerkenswerte Veränderungen umfassen:
- Eine Abnahme der Bereitschaft von GPT-4, sensible Fragen und Meinungsumfragen im Juni zu beantworten.
- Eine Verbesserung der Fähigkeit von GPT-4, mehrstufige Denkaufgaben zu lösen, während GPT-3.5 bei solchen Aufgaben einen Rückgang zeigte.
- Eine Zunahme von Formatierungsfehlern bei der Codeerzeugung für beide Modelle.
- Ein Rückgang der Fähigkeit von GPT-4, Benutzeranweisungen zu befolgen.
Evaluierungsmethodik
Die Forscher bewerteten GPT-3.5 und GPT-4 nach den Prinzipien der Vielfalt und Repräsentation. Die Tests wurden in sieben Hauptbereichen durchgeführt:
- Mathematische Probleme
- Sensible/gefährliche Themen
- Meinungsumfragen
- Mehrschrittige wissensintensive Fragen
- Codeerzeugung
- US Medical Licensing Exam
- Visuelles Denken
Um die Verhaltensänderungen besser zu verstehen, entwickelte das Team einen neuen Benchmark, der sich auf aufgabenunabhängiges Befolgen von Anweisungen konzentrierte. Dieser Benchmark umfasste vier Arten von gängigen Anweisungen: Antwortextraktion, Verzicht auf Entschuldigungen, Vermeidung bestimmter Wörter und Inhaltsfilterung.
Befolgen von Anweisungen
Diese Testreihe wurde entwickelt, um die Fähigkeit der Modelle zu bewerten, Anweisungen unabhängig von spezifischen Fähigkeiten oder Kenntnissen zu befolgen. Im März war GPT-4 in der Lage, die meisten einzelnen Anweisungen gut zu befolgen, aber bis Juni begann es, diese zu missachten. Beispielsweise sank die Compliance-Rate für Anweisungen zur Antwortextraktion von 99,5 % auf nahezu null. Die Genauigkeit der Inhaltsfilterungsanweisung sank ebenfalls von 74,0 % auf 19,0 %.
Leistungskennzahlen
Um die Leistung der Modelle genau zu erfassen, legte das Team primäre und ergänzende Leistungskennzahlen für jede Aufgabe fest. Zum Beispiel:
- Die Genauigkeit wurde als primäre Kennzahl für mathematische Probleme und die USMLE verwendet.
- Der Anteil des ausführbaren Ausgabecodes war die primäre Kennzahl für die Codeerzeugung.
ChatGPT's Leistung in vier Anweisungstypen
Antwortextraktion
Diese Anweisung erfordert, dass das Modell die Antwort innerhalb eines gegebenen Textes oder einer Frage genau lokalisiert und explizit identifiziert. GPT-4 zeigte im März eine hohe Compliance mit dieser Art von Anweisung, wobei fast 99,5 % der Abfragen korrekt formatierte Antworten erhielten. Bis Juni sank diese Rate jedoch rapide, was auf einen Rückgang der Fähigkeit des Modells hindeutet, mit klaren Anweisungsformaten umzugehen.
Verzicht auf Entschuldigungen
Diese Anweisung testet die Fähigkeit des Modells, Entschuldigungen zu vermeiden oder sich selbst nicht als KI zu identifizieren, wenn es ausdrücklich darum gebeten wird. Im März folgte GPT-4 dieser Anweisung im Allgemeinen, aber bis Juni verstieß es häufig dagegen, selbst wenn es ausdrücklich angewiesen wurde.
Vermeidung bestimmter Wörter
Diese Anweisung überprüft die Flexibilität und Detailgenauigkeit des Modells, insbesondere bei der Einhaltung spezifischer Einschränkungen. Der Rückgang von März bis Juni deutet auf eine Verringerung der Fähigkeit von GPT-4 hin, komplexe Anweisungen zu handhaben.
Inhaltsfilterung
Diese Anweisung erfordert, dass das Modell bestimmte Themen oder sensible Informationen ausschließt. Im März hielt sich GPT-4 weitgehend an diese Filteranforderungen, aber bis Juni nahm seine Filterfähigkeit deutlich ab, wobei nur etwa 19 % der sensiblen Themen korrekt behandelt wurden.
Auswirkungen der Forschung
Die Forscher stellten fest, dass OpenAI seine Trainingsdaten und -prozesse nicht offenlegt, da GPT-3.5 und GPT-4 Closed-Source-Modelle sind. Diese mangelnde Transparenz bedeutet, dass Benutzer oft nicht über die Änderungen informiert sind, die mit jedem größeren Update auftreten. Diese Studie kann Entwicklern und Benutzern helfen, die Leistungs- und Verhaltensdynamik von ChatGPT zu verstehen, was für die Gewährleistung der Sicherheit und Inhaltsauthentizität des Modells von entscheidender Bedeutung ist. Die Studie hebt die Herausforderungen bei der Aufrechterhaltung der Konsistenz und Zuverlässigkeit dieser Modelle hervor, insbesondere in sich schnell entwickelnden Umgebungen.