- Published on
Utafiti wa Stanford na UC Berkeley Kuhusu Utendaji wa ChatGPT
Utafiti wa Utendaji wa ChatGPT
Utafiti uliochapishwa katika Harvard Data Science Review, uliofanywa na watafiti kutoka Stanford University na University of California, Berkeley, umebaini mabadiliko makubwa katika utendaji na tabia za GPT-3.5 na GPT-4 kwa muda wa miezi mitatu. Utafiti huu ulichunguza mifumo hii katika kazi saba tofauti, ikiwa ni pamoja na utatuzi wa matatizo ya hisabati, utengenezaji wa code, maswali ya kina yanayohitaji maarifa mengi, mtihani wa leseni ya matibabu ya Marekani, na maswali ya kina yanayohitaji maarifa mengi.
Mabadiliko ya Utendaji
Utafiti ulionyesha mabadiliko makubwa katika utendaji wa GPT-3.5 na GPT-4 ndani ya miezi mitatu. Kwa mfano, usahihi wa GPT-4 katika kutambua namba tasa dhidi ya namba mchanganyiko ulipungua kutoka 84% mwezi Machi hadi 51% mwezi Juni. Kupungua huku kulichangiwa na udhaifu katika uwezo wake wa kufuata maagizo ya "mlolongo wa mawazo". Hata hivyo, GPT-3.5 ilionyesha uboreshaji katika kazi hii hiyo.
Mabadiliko mengine muhimu ni pamoja na:
- Kupungua kwa utayari wa GPT-4 kujibu maswali nyeti na tafiti za maoni mwezi Juni.
- Uboreshaji wa uwezo wa GPT-4 kutatua matatizo ya kufikiri ya hatua nyingi, wakati GPT-3.5 ilionyesha kupungua katika kazi kama hizo.
- Kuongezeka kwa makosa ya uumbizaji katika utengenezaji wa code kwa mifumo yote miwili.
- Kupungua kwa uwezo wa GPT-4 kufuata maelekezo ya watumiaji.
Mbinu za Tathmini
Watafiti walitathmini GPT-3.5 na GPT-4 kwa kuzingatia kanuni za utofauti na uwakilishi. Majaribio yalifanywa katika maeneo saba makuu:
- Matatizo ya hisabati
- Masuala nyeti/hatari
- Tafiti za maoni
- Maswali ya kina yanayohitaji maarifa mengi
- Utengenezaji wa code
- Mtihani wa leseni ya matibabu ya Marekani
- Ufikiriaji wa kuona
Ili kuelewa vizuri mabadiliko ya tabia, timu ilitengeneza kigezo kipya kilicholenga kufuata maelekezo bila kujali kazi. Kigezo hiki kilijumuisha aina nne za maagizo ya kawaida: utoaji wa majibu, kuacha kuomba msamaha, kuepuka maneno maalum, na uchujaji wa maudhui.
Ufuataji wa Maelekezo
Mfululizo huu wa majaribio uliundwa ili kutathmini uwezo wa mifumo kufuata maelekezo bila kujali ujuzi au maarifa maalum. Mwezi Machi, GPT-4 iliweza kufuata maagizo mengi vizuri, lakini kufikia mwezi Juni, ilianza kuyapuuza. Kwa mfano, kiwango cha kufuata maagizo ya utoaji wa majibu kilipungua kutoka 99.5% hadi karibu sifuri. Uaminifu wa maagizo ya uchujaji wa maudhui pia ulipungua kutoka 74.0% hadi 19.0%.
Vipimo vya Utendaji
Ili kukamata utendaji wa mifumo kwa usahihi, timu ilianzisha vipimo vya msingi na vya ziada vya utendaji kwa kila kazi. Kwa mfano:
- Usahihi ulitumiwa kama kipimo cha msingi kwa matatizo ya hisabati na USMLE.
- Uwiano wa code inayoweza kutekelezwa ilikuwa kipimo cha msingi kwa utengenezaji wa code.
Utendaji wa ChatGPT katika Aina Nne za Maagizo
Utoaji wa Majibu
Maagizo haya yanahitaji mfumo kupata na kutambua jibu ndani ya maandishi au swali. GPT-4 ilionyesha ufuasi mkubwa wa maagizo haya mwezi Machi, na karibu 99.5% ya maswali yalipokea majibu yaliyopangwa vizuri. Hata hivyo, kufikia mwezi Juni, kiwango hiki kilipungua sana, ikionyesha kupungua kwa uwezo wa mfumo kushughulikia umbizo la maagizo wazi.
Kuacha Kuomba Msamaha
Maagizo haya yanajaribu uwezo wa mfumo kuepuka kutumia samahani au kujitambulisha kama AI wakati umeombwa waziwazi kutofanya hivyo. Mwezi Machi, GPT-4 kwa ujumla ilifuata maagizo haya, lakini kufikia mwezi Juni, ilikiuka mara kwa mara, hata ilipoagizwa haswa.
Kuepuka Maneno Maalum
Maagizo haya huangalia kubadilika kwa mfumo na umakini kwa undani, hasa katika kuzingatia vikwazo maalum. Kupungua kutoka Machi hadi Juni kunaonyesha kupungua kwa uwezo wa GPT-4 kushughulikia maagizo magumu.
Uchujaji wa Maudhui
Maagizo haya yanahitaji mfumo kuondoa mada maalum au taarifa nyeti. Mwezi Machi, GPT-4 kwa kiasi kikubwa ilizingatia mahitaji haya ya uchujaji, lakini kufikia mwezi Juni, uwezo wake wa kuchuja ulipungua sana, huku ni asilimia 19 tu ya masuala nyeti yakishughulikiwa kwa usahihi.
Athari za Utafiti
Watafiti walibaini kuwa kwa sababu GPT-3.5 na GPT-4 ni mifumo ya siri, OpenAI haitoi data na michakato yake ya mafunzo. Ukosefu huu wa uwazi unamaanisha kuwa watumiaji mara nyingi hawajui mabadiliko yanayotokea kwa kila sasisho kubwa. Utafiti huu unaweza kusaidia watengenezaji na watumiaji kuelewa utendaji na mienendo ya tabia ya ChatGPT, ambayo ni muhimu kwa kuhakikisha usalama na uhalisi wa maudhui ya mfumo. Utafiti huu unaonyesha changamoto za kudumisha uthabiti na uaminifu wa mifumo hii, hasa katika mazingira yanayobadilika haraka.