Studio Stanford e UC Berkeley: Calo delle Performance di ChatGPT

Variazioni nelle Performance di ChatGPT

Uno studio pubblicato sull'Harvard Data Science Review, condotto da ricercatori della Stanford University e dell'Università della California, Berkeley, ha messo in luce notevoli variazioni nelle performance di GPT-3.5 e GPT-4 nell'arco di tre mesi. La ricerca ha analizzato questi modelli in sette compiti diversi, tra cui la risoluzione di problemi matematici, la generazione di codice, la risposta a domande complesse, l'esame di abilitazione medica degli Stati Uniti e il question answering.

Calo di Accuratezza

La ricerca ha evidenziato che l'accuratezza di GPT-4 nell'identificare numeri primi vs. numeri composti è diminuita drasticamente, passando dall'84% di marzo al 51% di giugno. Questo calo è stato parzialmente attribuito a una minore capacità di seguire le istruzioni di "chain of thought". È interessante notare come GPT-3.5 abbia invece mostrato un miglioramento in questo specifico compito nello stesso periodo.

Altri Cambiamenti Notabili

Diminuzione della Disponibilità: GPT-4 ha mostrato una minore propensione a rispondere a domande sensibili e sondaggi di opinione a giugno.
Miglioramento nel Ragionamento Multi-Step: GPT-4 ha migliorato la sua abilità nel risolvere problemi di ragionamento multi-step, mentre GPT-3.5 ha mostrato un declino in questi compiti.
Aumento degli Errori di Formattazione: Entrambi i modelli hanno mostrato un aumento degli errori di formattazione nella generazione di codice.
Calo nel Seguire le Istruzioni: GPT-4 ha mostrato una ridotta capacità di seguire le istruzioni fornite dall'utente.

Metodologia di Valutazione

I ricercatori hanno valutato GPT-3.5 e GPT-4 basandosi su principi di diversità e rappresentazione. I test sono stati condotti in sette aree principali:

Problemi matematici
Questioni sensibili/pericolose
Sondaggi di opinione
Domande complesse che richiedono conoscenza approfondita
Generazione di codice
Esame di abilitazione medica degli Stati Uniti (USMLE)
Ragionamento visivo

Per comprendere meglio i cambiamenti comportamentali, il team ha sviluppato un nuovo benchmark incentrato sul seguire le istruzioni in modo indipendente dal compito specifico. Questo benchmark includeva quattro tipi di istruzioni comuni: estrazione della risposta, smettere di scusarsi, evitare parole specifiche e filtraggio dei contenuti.

Seguire le Istruzioni

Questa serie di test è stata progettata per valutare la capacità dei modelli di seguire le istruzioni indipendentemente dalle loro specifiche abilità o conoscenze. A marzo, GPT-4 era in grado di seguire la maggior parte delle istruzioni individuali, ma a giugno ha iniziato a ignorarle. Ad esempio, il tasso di conformità per le istruzioni di estrazione della risposta è sceso dal 99,5% a quasi zero. Anche la fedeltà delle istruzioni di filtraggio dei contenuti è diminuita dal 74,0% al 19,0%.

Metriche di Performance

Per catturare accuratamente le performance dei modelli, il team ha stabilito metriche di performance primarie e supplementari per ogni compito. Ad esempio:

L'accuratezza è stata utilizzata come metrica primaria per i problemi di matematica e l'USMLE.
La proporzione di codice eseguibile è stata la metrica primaria per la generazione di codice.

Performance di ChatGPT in Quattro Tipi di Istruzioni

Estrazione della Risposta

Questa istruzione richiede al modello di individuare e identificare con precisione la risposta all'interno di un testo o di una domanda. GPT-4 ha mostrato un'elevata conformità con questo tipo di istruzione a marzo, con quasi il 99,5% delle query che ricevevano risposte formattate correttamente. Tuttavia, a giugno, questa percentuale è crollata, indicando un calo nella capacità del modello di gestire formati di istruzioni chiari.

Smettere di Scusarsi

Questa direttiva testa la capacità del modello di evitare di usare scuse o di auto-identificarsi come un'IA quando viene esplicitamente richiesto di non farlo. A marzo, GPT-4 generalmente seguiva questa istruzione, ma a giugno, la violava frequentemente, anche quando veniva specificamente istruito.

Evitare Parole Specifiche

Questa istruzione verifica la flessibilità del modello e l'attenzione ai dettagli, in particolare nel rispetto di vincoli specifici. Il calo da marzo a giugno indica una riduzione della capacità di GPT-4 di gestire istruzioni complesse.

Filtraggio dei Contenuti

Questa istruzione richiede al modello di escludere argomenti specifici o informazioni sensibili. A marzo, GPT-4 ha ampiamente aderito a questi requisiti di filtraggio, ma a giugno, la sua capacità di filtraggio è diminuita in modo significativo, con solo il 19% circa delle questioni sensibili gestite correttamente.

Implicazioni della Ricerca

I ricercatori hanno notato che, poiché GPT-3.5 e GPT-4 sono modelli closed-source, OpenAI non divulga i suoi dati e processi di training. Questa mancanza di trasparenza significa che gli utenti spesso non sono consapevoli dei cambiamenti che si verificano con ogni aggiornamento importante. Questo studio può aiutare sviluppatori e utenti a comprendere le dinamiche di performance e comportamentali di ChatGPT, il che è fondamentale per garantire la sicurezza e l'autenticità dei contenuti del modello. Lo studio evidenzia le sfide nel mantenere la coerenza e l'affidabilità di questi modelli, in particolare in ambienti in rapida evoluzione.