- Published on
స్టాన్ఫోర్డ్ అధ్యయనం చాట్జిపిటి పనితీరులో క్షీణతను వెల్లడించింది
చాట్జిపిటి పనితీరుపై స్టాన్ఫోర్డ్ మరియు బర్కిలీ అధ్యయనం
స్టాన్ఫోర్డ్ విశ్వవిద్యాలయం మరియు కాలిఫోర్నియా విశ్వవిద్యాలయం, బర్కిలీ పరిశోధకులు హార్వర్డ్ డేటా సైన్స్ రివ్యూలో "చాట్జిపిటి ప్రవర్తన కాలక్రమేణా" అనే పేరుతో ఒక పరిశోధనా పత్రాన్ని ప్రచురించారు. ఈ పత్రం GPT-3.5 మరియు GPT-4 మోడల్ల పనితీరు మరియు ప్రవర్తనలో మూడు నెలల వ్యవధిలో గణనీయమైన హెచ్చుతగ్గులను వెల్లడించింది. గణిత సమస్యలను పరిష్కరించడం, కోడ్ ఉత్పత్తి చేయడం, బహుళ-దూరం జ్ఞాన-ఇంటెన్సివ్ ప్రశ్నలకు సమాధానం ఇవ్వడం, US మెడికల్ లైసెన్సింగ్ పరీక్ష మరియు బహుళ-దూరం జ్ఞాన-ఇంటెన్సివ్ ప్రశ్నలకు సమాధానం ఇవ్వడం వంటి ఏడు పనులలో ఈ మోడల్లను అధ్యయనం చేశారు.
పనితీరులో హెచ్చుతగ్గులు
మూడు నెలల్లో GPT-3.5 మరియు GPT-4 రెండింటి పనితీరులో గణనీయమైన మార్పులు ఉన్నట్లు పరిశోధనలో తేలింది. ముఖ్యంగా, ప్రధాన సంఖ్యలు మరియు మిశ్రమ సంఖ్యలను గుర్తించడంలో GPT-4 యొక్క ఖచ్చితత్వం మార్చిలో 84% నుండి జూన్లో 51%కి పడిపోయింది. ఈ క్షీణతకు "చైన్ ఆఫ్ థాట్" ప్రాంప్ట్లను అనుసరించే సామర్థ్యం బలహీనపడటం కొంతవరకు కారణం. ఆసక్తికరంగా, ఇదే సమయంలో GPT-3.5 ఈ నిర్దిష్ట పనిలో మెరుగుదల చూపించింది.
ఇతర ముఖ్యమైన మార్పులు:
- జూన్లో సున్నితమైన ప్రశ్నలు మరియు అభిప్రాయ సర్వేలకు సమాధానం ఇవ్వడానికి GPT-4 యొక్క సుముఖత తగ్గింది.
- బహుళ-దశల తార్కిక సమస్యలను పరిష్కరించడంలో GPT-4 సామర్థ్యం మెరుగుపడింది, అయితే GPT-3.5 అటువంటి పనులలో క్షీణతను చూపించింది.
- రెండు మోడళ్లలో కోడ్ ఉత్పత్తిలో ఫార్మాటింగ్ లోపాలు పెరిగాయి.
- GPT-4 వినియోగదారు సూచనలను అనుసరించే సామర్థ్యం తగ్గింది.
మూల్యాంకన పద్ధతి
వైవిధ్యం మరియు ప్రాతినిధ్యం యొక్క సూత్రాల ఆధారంగా పరిశోధకులు GPT-3.5 మరియు GPT-4ని మూల్యాంకనం చేశారు. ఏడు ప్రధాన డొమైన్లలో పరీక్షలు నిర్వహించారు:
- గణిత సమస్యలు
- సున్నితమైన/ప్రమాదకరమైన సమస్యలు
- అభిప్రాయ సర్వేలు
- బహుళ-దూరం జ్ఞాన-ఇంటెన్సివ్ ప్రశ్నలు
- కోడ్ ఉత్పత్తి
- US మెడికల్ లైసెన్సింగ్ పరీక్ష
- దృశ్య తార్కికం
ప్రవర్తనా మార్పులను బాగా అర్థం చేసుకోవడానికి, ఈ బృందం టాస్క్-ఇండిపెండెంట్ సూచనలను అనుసరించడంపై దృష్టి సారించి ఒక కొత్త బెంచ్మార్క్ను అభివృద్ధి చేసింది. ఈ బెంచ్మార్క్లో నాలుగు రకాల సాధారణ సూచనలు ఉన్నాయి: సమాధానం వెలికితీయడం, క్షమాపణలు చెప్పడం ఆపడం, నిర్దిష్ట పదాలను నివారించడం మరియు కంటెంట్ ఫిల్టరింగ్.
సూచనలను అనుసరించడం
ఈ పరీక్షా శ్రేణి, నిర్దిష్ట నైపుణ్యాలు లేదా జ్ఞానంతో సంబంధం లేకుండా, సూచనలను అనుసరించే మోడల్ల సామర్థ్యాన్ని మూల్యాంకనం చేయడానికి రూపొందించబడింది. మార్చిలో, GPT-4 చాలా వ్యక్తిగత సూచనలను బాగా అనుసరించగలిగింది, కానీ జూన్ నాటికి వాటిని విస్మరించడం ప్రారంభించింది. ఉదాహరణకు, సమాధానం వెలికితీసే సూచనల కోసం కంప్లయన్స్ రేటు 99.5% నుండి దాదాపు సున్నాకు పడిపోయింది. కంటెంట్ ఫిల్టరింగ్ సూచన విశ్వసనీయత కూడా 74.0% నుండి 19.0%కి తగ్గింది.
పనితీరు కొలమానాలు
మోడల్ల పనితీరును ఖచ్చితంగా సంగ్రహించడానికి, ఈ బృందం ప్రతి పనికి ప్రాథమిక మరియు అనుబంధ పనితీరు కొలమానాలను ఏర్పాటు చేసింది. ఉదాహరణకు:
- గణిత సమస్యలు మరియు USMLE కోసం ఖచ్చితత్వం ప్రాథమిక కొలమానంగా ఉపయోగించబడింది.
- కోడ్ ఉత్పత్తి కోసం అమలు చేయగల అవుట్పుట్ కోడ్ నిష్పత్తి ప్రాథమిక కొలమానంగా ఉంది.
నాలుగు సూచన రకాల్లో చాట్జిపిటి పనితీరు
సమాధానం వెలికితీయడం
ఈ సూచన, ఇచ్చిన వచనం లేదా ప్రశ్నకు సమాధానాన్ని ఖచ్చితంగా గుర్తించి స్పష్టంగా గుర్తించమని మోడల్ను అడుగుతుంది. GPT-4 ఈ రకమైన సూచనకు మార్చిలో అధిక కంప్లయన్స్ను చూపించింది, దాదాపు 99.5% ప్రశ్నలకు సరిగ్గా ఫార్మాట్ చేయబడిన సమాధానాలు వచ్చాయి. అయితే, జూన్ నాటికి, ఈ రేటు పడిపోయింది, ఇది స్పష్టమైన సూచన ఫార్మాట్లను నిర్వహించడంలో మోడల్ సామర్థ్యం క్షీణించిందని సూచిస్తుంది.
క్షమాపణలు చెప్పడం ఆపడం
ఈ సూచన, స్పష్టంగా అడగనప్పుడు క్షమాపణలు చెప్పడం లేదా AIగా తనను తాను గుర్తించుకోకుండా ఉండగల మోడల్ సామర్థ్యాన్ని పరీక్షిస్తుంది. మార్చిలో, GPT-4 సాధారణంగా ఈ సూచనను అనుసరించింది, కానీ జూన్ నాటికి, ప్రత్యేకంగా సూచించినప్పటికీ, అది తరచుగా ఉల్లంఘించింది.
నిర్దిష్ట పదాలను నివారించడం
ఈ సూచన, నిర్దిష్ట పరిమితులకు కట్టుబడి ఉండటంలో మోడల్ యొక్క వశ్యత మరియు వివరాలపై శ్రద్ధను తనిఖీ చేస్తుంది. మార్చి నుండి జూన్ వరకు క్షీణత, సంక్లిష్ట సూచనలను నిర్వహించడంలో GPT-4 సామర్థ్యం తగ్గిందని సూచిస్తుంది.
కంటెంట్ ఫిల్టరింగ్
ఈ సూచన, నిర్దిష్ట అంశాలు లేదా సున్నితమైన సమాచారాన్ని మినహాయించమని మోడల్ను అడుగుతుంది. మార్చిలో, GPT-4 ఈ ఫిల్టరింగ్ అవసరాలకు ఎక్కువగా కట్టుబడి ఉంది, కానీ జూన్ నాటికి, దాని ఫిల్టరింగ్ సామర్థ్యం గణనీయంగా తగ్గింది, సున్నితమైన సమస్యలలో కేవలం 19% మాత్రమే సరిగ్గా నిర్వహించబడ్డాయి.
పరిశోధన యొక్క చిక్కులు
GPT-3.5 మరియు GPT-4 క్లోజ్డ్-సోర్స్ మోడల్లు కాబట్టి, OpenAI తన శిక్షణ డేటా మరియు ప్రక్రియలను బహిర్గతం చేయదని పరిశోధకులు పేర్కొన్నారు. ఈ పారదర్శకత లేకపోవడం వల్ల, ప్రతి ప్రధాన నవీకరణతో జరిగే మార్పుల గురించి వినియోగదారులు తరచుగా తెలియకుండా ఉంటారు. ఈ అధ్యయనం చాట్జిపిటి యొక్క పనితీరు మరియు ప్రవర్తనా డైనమిక్స్ను అర్థం చేసుకోవడానికి డెవలపర్లు మరియు వినియోగదారులకు సహాయపడుతుంది, ఇది మోడల్ యొక్క భద్రత మరియు కంటెంట్ ప్రామాణికతను నిర్ధారించడానికి కీలకం. ఈ మోడల్ల స్థిరత్వాన్ని మరియు విశ్వసనీయతను నిర్వహించడంలో ఉన్న సవాళ్లను ఈ అధ్యయనం హైలైట్ చేస్తుంది, ప్రత్యేకించి వేగంగా అభివృద్ధి చెందుతున్న వాతావరణాలలో.