- Published on
Studio Stanford e UC Berkeley: Calo delle Performance di ChatGPT
Variazioni nelle Performance di ChatGPT
Uno studio pubblicato sull'Harvard Data Science Review, condotto da ricercatori della Stanford University e dell'Università della California, Berkeley, ha messo in luce notevoli variazioni nelle performance di GPT-3.5 e GPT-4 nell'arco di tre mesi. La ricerca ha analizzato questi modelli in sette compiti diversi, tra cui la risoluzione di problemi matematici, la generazione di codice, la risposta a domande complesse, l'esame di abilitazione medica degli Stati Uniti e il question answering.
Calo di Accuratezza
La ricerca ha evidenziato che l'accuratezza di GPT-4 nell'identificare numeri primi vs. numeri composti è diminuita drasticamente, passando dall'84% di marzo al 51% di giugno. Questo calo è stato parzialmente attribuito a una minore capacità di seguire le istruzioni di "chain of thought". È interessante notare come GPT-3.5 abbia invece mostrato un miglioramento in questo specifico compito nello stesso periodo.
Altri Cambiamenti Notabili
- Diminuzione della Disponibilità: GPT-4 ha mostrato una minore propensione a rispondere a domande sensibili e sondaggi di opinione a giugno.
- Miglioramento nel Ragionamento Multi-Step: GPT-4 ha migliorato la sua abilità nel risolvere problemi di ragionamento multi-step, mentre GPT-3.5 ha mostrato un declino in questi compiti.
- Aumento degli Errori di Formattazione: Entrambi i modelli hanno mostrato un aumento degli errori di formattazione nella generazione di codice.
- Calo nel Seguire le Istruzioni: GPT-4 ha mostrato una ridotta capacità di seguire le istruzioni fornite dall'utente.
Metodologia di Valutazione
I ricercatori hanno valutato GPT-3.5 e GPT-4 basandosi su principi di diversità e rappresentazione. I test sono stati condotti in sette aree principali:
- Problemi matematici
- Questioni sensibili/pericolose
- Sondaggi di opinione
- Domande complesse che richiedono conoscenza approfondita
- Generazione di codice
- Esame di abilitazione medica degli Stati Uniti (USMLE)
- Ragionamento visivo
Per comprendere meglio i cambiamenti comportamentali, il team ha sviluppato un nuovo benchmark incentrato sul seguire le istruzioni in modo indipendente dal compito specifico. Questo benchmark includeva quattro tipi di istruzioni comuni: estrazione della risposta, smettere di scusarsi, evitare parole specifiche e filtraggio dei contenuti.
Seguire le Istruzioni
Questa serie di test è stata progettata per valutare la capacità dei modelli di seguire le istruzioni indipendentemente dalle loro specifiche abilità o conoscenze. A marzo, GPT-4 era in grado di seguire la maggior parte delle istruzioni individuali, ma a giugno ha iniziato a ignorarle. Ad esempio, il tasso di conformità per le istruzioni di estrazione della risposta è sceso dal 99,5% a quasi zero. Anche la fedeltà delle istruzioni di filtraggio dei contenuti è diminuita dal 74,0% al 19,0%.
Metriche di Performance
Per catturare accuratamente le performance dei modelli, il team ha stabilito metriche di performance primarie e supplementari per ogni compito. Ad esempio:
- L'accuratezza è stata utilizzata come metrica primaria per i problemi di matematica e l'USMLE.
- La proporzione di codice eseguibile è stata la metrica primaria per la generazione di codice.
Performance di ChatGPT in Quattro Tipi di Istruzioni
Estrazione della Risposta
Questa istruzione richiede al modello di individuare e identificare con precisione la risposta all'interno di un testo o di una domanda. GPT-4 ha mostrato un'elevata conformità con questo tipo di istruzione a marzo, con quasi il 99,5% delle query che ricevevano risposte formattate correttamente. Tuttavia, a giugno, questa percentuale è crollata, indicando un calo nella capacità del modello di gestire formati di istruzioni chiari.
Smettere di Scusarsi
Questa direttiva testa la capacità del modello di evitare di usare scuse o di auto-identificarsi come un'IA quando viene esplicitamente richiesto di non farlo. A marzo, GPT-4 generalmente seguiva questa istruzione, ma a giugno, la violava frequentemente, anche quando veniva specificamente istruito.
Evitare Parole Specifiche
Questa istruzione verifica la flessibilità del modello e l'attenzione ai dettagli, in particolare nel rispetto di vincoli specifici. Il calo da marzo a giugno indica una riduzione della capacità di GPT-4 di gestire istruzioni complesse.
Filtraggio dei Contenuti
Questa istruzione richiede al modello di escludere argomenti specifici o informazioni sensibili. A marzo, GPT-4 ha ampiamente aderito a questi requisiti di filtraggio, ma a giugno, la sua capacità di filtraggio è diminuita in modo significativo, con solo il 19% circa delle questioni sensibili gestite correttamente.
Implicazioni della Ricerca
I ricercatori hanno notato che, poiché GPT-3.5 e GPT-4 sono modelli closed-source, OpenAI non divulga i suoi dati e processi di training. Questa mancanza di trasparenza significa che gli utenti spesso non sono consapevoli dei cambiamenti che si verificano con ogni aggiornamento importante. Questo studio può aiutare sviluppatori e utenti a comprendere le dinamiche di performance e comportamentali di ChatGPT, il che è fondamentale per garantire la sicurezza e l'autenticità dei contenuti del modello. Lo studio evidenzia le sfide nel mantenere la coerenza e l'affidabilità di questi modelli, in particolare in ambienti in rapida evoluzione.