స్టాన్‌ఫోర్డ్ అధ్యయనం చాట్‌జిపిటి పనితీరులో క్షీణతను వెల్లడించింది

చాట్‌జిపిటి పనితీరుపై స్టాన్‌ఫోర్డ్ మరియు బర్కిలీ అధ్యయనం

స్టాన్‌ఫోర్డ్ విశ్వవిద్యాలయం మరియు కాలిఫోర్నియా విశ్వవిద్యాలయం, బర్కిలీ పరిశోధకులు హార్వర్డ్ డేటా సైన్స్ రివ్యూలో "చాట్‌జిపిటి ప్రవర్తన కాలక్రమేణా" అనే పేరుతో ఒక పరిశోధనా పత్రాన్ని ప్రచురించారు. ఈ పత్రం GPT-3.5 మరియు GPT-4 మోడల్‌ల పనితీరు మరియు ప్రవర్తనలో మూడు నెలల వ్యవధిలో గణనీయమైన హెచ్చుతగ్గులను వెల్లడించింది. గణిత సమస్యలను పరిష్కరించడం, కోడ్ ఉత్పత్తి చేయడం, బహుళ-దూరం జ్ఞాన-ఇంటెన్సివ్ ప్రశ్నలకు సమాధానం ఇవ్వడం, US మెడికల్ లైసెన్సింగ్ పరీక్ష మరియు బహుళ-దూరం జ్ఞాన-ఇంటెన్సివ్ ప్రశ్నలకు సమాధానం ఇవ్వడం వంటి ఏడు పనులలో ఈ మోడల్‌లను అధ్యయనం చేశారు.

పనితీరులో హెచ్చుతగ్గులు

మూడు నెలల్లో GPT-3.5 మరియు GPT-4 రెండింటి పనితీరులో గణనీయమైన మార్పులు ఉన్నట్లు పరిశోధనలో తేలింది. ముఖ్యంగా, ప్రధాన సంఖ్యలు మరియు మిశ్రమ సంఖ్యలను గుర్తించడంలో GPT-4 యొక్క ఖచ్చితత్వం మార్చిలో 84% నుండి జూన్‌లో 51%కి పడిపోయింది. ఈ క్షీణతకు "చైన్ ఆఫ్ థాట్" ప్రాంప్ట్‌లను అనుసరించే సామర్థ్యం బలహీనపడటం కొంతవరకు కారణం. ఆసక్తికరంగా, ఇదే సమయంలో GPT-3.5 ఈ నిర్దిష్ట పనిలో మెరుగుదల చూపించింది.

ఇతర ముఖ్యమైన మార్పులు:

జూన్‌లో సున్నితమైన ప్రశ్నలు మరియు అభిప్రాయ సర్వేలకు సమాధానం ఇవ్వడానికి GPT-4 యొక్క సుముఖత తగ్గింది.
బహుళ-దశల తార్కిక సమస్యలను పరిష్కరించడంలో GPT-4 సామర్థ్యం మెరుగుపడింది, అయితే GPT-3.5 అటువంటి పనులలో క్షీణతను చూపించింది.
రెండు మోడళ్లలో కోడ్ ఉత్పత్తిలో ఫార్మాటింగ్ లోపాలు పెరిగాయి.
GPT-4 వినియోగదారు సూచనలను అనుసరించే సామర్థ్యం తగ్గింది.

మూల్యాంకన పద్ధతి

వైవిధ్యం మరియు ప్రాతినిధ్యం యొక్క సూత్రాల ఆధారంగా పరిశోధకులు GPT-3.5 మరియు GPT-4ని మూల్యాంకనం చేశారు. ఏడు ప్రధాన డొమైన్‌లలో పరీక్షలు నిర్వహించారు:

గణిత సమస్యలు
సున్నితమైన/ప్రమాదకరమైన సమస్యలు
అభిప్రాయ సర్వేలు
బహుళ-దూరం జ్ఞాన-ఇంటెన్సివ్ ప్రశ్నలు
కోడ్ ఉత్పత్తి
US మెడికల్ లైసెన్సింగ్ పరీక్ష
దృశ్య తార్కికం

ప్రవర్తనా మార్పులను బాగా అర్థం చేసుకోవడానికి, ఈ బృందం టాస్క్-ఇండిపెండెంట్ సూచనలను అనుసరించడంపై దృష్టి సారించి ఒక కొత్త బెంచ్‌మార్క్‌ను అభివృద్ధి చేసింది. ఈ బెంచ్‌మార్క్‌లో నాలుగు రకాల సాధారణ సూచనలు ఉన్నాయి: సమాధానం వెలికితీయడం, క్షమాపణలు చెప్పడం ఆపడం, నిర్దిష్ట పదాలను నివారించడం మరియు కంటెంట్ ఫిల్టరింగ్.

సూచనలను అనుసరించడం

ఈ పరీక్షా శ్రేణి, నిర్దిష్ట నైపుణ్యాలు లేదా జ్ఞానంతో సంబంధం లేకుండా, సూచనలను అనుసరించే మోడల్‌ల సామర్థ్యాన్ని మూల్యాంకనం చేయడానికి రూపొందించబడింది. మార్చిలో, GPT-4 చాలా వ్యక్తిగత సూచనలను బాగా అనుసరించగలిగింది, కానీ జూన్ నాటికి వాటిని విస్మరించడం ప్రారంభించింది. ఉదాహరణకు, సమాధానం వెలికితీసే సూచనల కోసం కంప్లయన్స్ రేటు 99.5% నుండి దాదాపు సున్నాకు పడిపోయింది. కంటెంట్ ఫిల్టరింగ్ సూచన విశ్వసనీయత కూడా 74.0% నుండి 19.0%కి తగ్గింది.

పనితీరు కొలమానాలు

మోడల్‌ల పనితీరును ఖచ్చితంగా సంగ్రహించడానికి, ఈ బృందం ప్రతి పనికి ప్రాథమిక మరియు అనుబంధ పనితీరు కొలమానాలను ఏర్పాటు చేసింది. ఉదాహరణకు:

గణిత సమస్యలు మరియు USMLE కోసం ఖచ్చితత్వం ప్రాథమిక కొలమానంగా ఉపయోగించబడింది.
కోడ్ ఉత్పత్తి కోసం అమలు చేయగల అవుట్‌పుట్ కోడ్ నిష్పత్తి ప్రాథమిక కొలమానంగా ఉంది.

నాలుగు సూచన రకాల్లో చాట్‌జిపిటి పనితీరు

సమాధానం వెలికితీయడం

ఈ సూచన, ఇచ్చిన వచనం లేదా ప్రశ్నకు సమాధానాన్ని ఖచ్చితంగా గుర్తించి స్పష్టంగా గుర్తించమని మోడల్‌ను అడుగుతుంది. GPT-4 ఈ రకమైన సూచనకు మార్చిలో అధిక కంప్లయన్స్‌ను చూపించింది, దాదాపు 99.5% ప్రశ్నలకు సరిగ్గా ఫార్మాట్ చేయబడిన సమాధానాలు వచ్చాయి. అయితే, జూన్ నాటికి, ఈ రేటు పడిపోయింది, ఇది స్పష్టమైన సూచన ఫార్మాట్‌లను నిర్వహించడంలో మోడల్ సామర్థ్యం క్షీణించిందని సూచిస్తుంది.

క్షమాపణలు చెప్పడం ఆపడం

ఈ సూచన, స్పష్టంగా అడగనప్పుడు క్షమాపణలు చెప్పడం లేదా AIగా తనను తాను గుర్తించుకోకుండా ఉండగల మోడల్ సామర్థ్యాన్ని పరీక్షిస్తుంది. మార్చిలో, GPT-4 సాధారణంగా ఈ సూచనను అనుసరించింది, కానీ జూన్ నాటికి, ప్రత్యేకంగా సూచించినప్పటికీ, అది తరచుగా ఉల్లంఘించింది.

నిర్దిష్ట పదాలను నివారించడం

ఈ సూచన, నిర్దిష్ట పరిమితులకు కట్టుబడి ఉండటంలో మోడల్ యొక్క వశ్యత మరియు వివరాలపై శ్రద్ధను తనిఖీ చేస్తుంది. మార్చి నుండి జూన్ వరకు క్షీణత, సంక్లిష్ట సూచనలను నిర్వహించడంలో GPT-4 సామర్థ్యం తగ్గిందని సూచిస్తుంది.

కంటెంట్ ఫిల్టరింగ్

ఈ సూచన, నిర్దిష్ట అంశాలు లేదా సున్నితమైన సమాచారాన్ని మినహాయించమని మోడల్‌ను అడుగుతుంది. మార్చిలో, GPT-4 ఈ ఫిల్టరింగ్ అవసరాలకు ఎక్కువగా కట్టుబడి ఉంది, కానీ జూన్ నాటికి, దాని ఫిల్టరింగ్ సామర్థ్యం గణనీయంగా తగ్గింది, సున్నితమైన సమస్యలలో కేవలం 19% మాత్రమే సరిగ్గా నిర్వహించబడ్డాయి.

పరిశోధన యొక్క చిక్కులు

GPT-3.5 మరియు GPT-4 క్లోజ్డ్-సోర్స్ మోడల్‌లు కాబట్టి, OpenAI తన శిక్షణ డేటా మరియు ప్రక్రియలను బహిర్గతం చేయదని పరిశోధకులు పేర్కొన్నారు. ఈ పారదర్శకత లేకపోవడం వల్ల, ప్రతి ప్రధాన నవీకరణతో జరిగే మార్పుల గురించి వినియోగదారులు తరచుగా తెలియకుండా ఉంటారు. ఈ అధ్యయనం చాట్‌జిపిటి యొక్క పనితీరు మరియు ప్రవర్తనా డైనమిక్స్‌ను అర్థం చేసుకోవడానికి డెవలపర్‌లు మరియు వినియోగదారులకు సహాయపడుతుంది, ఇది మోడల్ యొక్క భద్రత మరియు కంటెంట్ ప్రామాణికతను నిర్ధారించడానికి కీలకం. ఈ మోడల్‌ల స్థిరత్వాన్ని మరియు విశ్వసనీయతను నిర్వహించడంలో ఉన్న సవాళ్లను ఈ అధ్యయనం హైలైట్ చేస్తుంది, ప్రత్యేకించి వేగంగా అభివృద్ధి చెందుతున్న వాతావరణాలలో.