سٹینفورڈ اور یو سی برکلے کی جانب سے چیٹ جی پی ٹی کی کارکردگی پر تحقیق

کارکردگی میں اتار چڑھاؤ

تحقیق سے پتہ چلتا ہے کہ جی پی ٹی 3.5 اور جی پی ٹی 4 دونوں کی کارکردگی میں تین مہینوں کے اندر اندر نمایاں تبدیلیاں دیکھنے میں آئیں۔ خاص طور پر جی پی ٹی 4 کی پرائم اور کمپوزٹ نمبرز کی شناخت کرنے کی صلاحیت مارچ میں 84 فیصد سے کم ہو کر جون میں 51 فیصد تک گر گئی۔ اس کمی کی وجہ جزوی طور پر 'چین آف تھاٹ' کے اشاروں پر عمل کرنے کی کمزوری کو قرار دیا گیا۔ دلچسپ بات یہ ہے کہ جی پی ٹی 3.5 نے اسی عرصے کے دوران اس مخصوص کام میں بہتری دکھائی۔

دیگر اہم تبدیلیاں

جون میں جی پی ٹی 4 کی حساس سوالات اور رائے عامہ کے سروے کے جواب دینے کی رضامندی میں کمی واقع ہوئی۔
جی پی ٹی 4 کی ملٹی سٹیپ ریزننگ کے مسائل حل کرنے کی صلاحیت میں بہتری آئی، جبکہ جی پی ٹی 3.5 نے ایسے کاموں میں کمی دکھائی۔
دونوں ماڈلز کے لیے کوڈ جنریشن میں فارمیٹنگ کی غلطیوں میں اضافہ ہوا۔
جی پی ٹی 4 کی جانب سے صارف کی ہدایات پر عمل کرنے کی صلاحیت میں کمی۔

جانچ کا طریقہ کار

محققین نے جی پی ٹی 3.5 اور جی پی ٹی 4 کا جائزہ تنوع اور نمائندگی کے اصولوں پر مبنی کیا۔ ٹیسٹ سات بڑے شعبوں میں کیے گئے:

ریاضی کے مسائل
حساس/خطرناک مسائل
رائے عامہ کے سروے
ملٹی ہاپ نالج انٹینسیو سوالات
کوڈ جنریشن
یو ایس میڈیکل لائسنسنگ امتحان
بصری استدلال

ہدایات پر عمل کرنا

اس سلسلے کے ٹیسٹ ماڈلز کی مخصوص مہارتوں یا معلومات سے آزادانہ طور پر ہدایات پر عمل کرنے کی صلاحیت کا جائزہ لینے کے لیے بنائے گئے تھے۔ مارچ میں، جی پی ٹی 4 زیادہ تر انفرادی ہدایات پر اچھی طرح عمل کرنے کے قابل تھا، لیکن جون تک اس نے ان کو نظر انداز کرنا شروع کر دیا۔ مثال کے طور پر، جواب نکالنے کی ہدایات کی تعمیل کی شرح 99.5 فیصد سے کم ہو کر تقریبا صفر ہو گئی۔ مواد فلٹر کرنے کی ہدایات کی وفاداری بھی 74.0 فیصد سے کم ہو کر 19.0 فیصد ہو گئی۔

کارکردگی کے پیمانے

ماڈلز کی کارکردگی کو درست طریقے سے جانچنے کے لیے، ٹیم نے ہر کام کے لیے بنیادی اور اضافی کارکردگی کے پیمانے قائم کیے۔ مثال کے طور پر:

ریاضی کے مسائل اور یو ایس ایم ایل ای کے لیے درستگی کو بنیادی پیمانے کے طور پر استعمال کیا گیا۔
کوڈ جنریشن کے لیے قابل عمل آؤٹ پٹ کوڈ کا تناسب بنیادی پیمانہ تھا۔

چار قسم کی ہدایات میں چیٹ جی پی ٹی کی کارکردگی

جواب نکالنا

اس ہدایت میں ماڈل کو دیے گئے متن یا سوال میں سے درست طریقے سے جواب تلاش کرنے کی ضرورت ہوتی ہے۔ جی پی ٹی 4 نے مارچ میں اس قسم کی ہدایت پر عمل درآمد میں بہت زیادہ تعمیل ظاہر کی، تقریباً 99.5 فیصد سوالات درست فارمیٹ شدہ جوابات موصول ہوئے۔ تاہم، جون تک، یہ شرح کم ہو گئی، جس سے ظاہر ہوتا ہے کہ ماڈل کی واضح ہدایت فارمیٹس کو سنبھالنے کی صلاحیت میں کمی واقع ہوئی ہے۔

معذرت کرنا بند کریں۔

یہ ہدایت ماڈل کی معذرت استعمال کرنے یا خود کو بطور اے آئی شناخت کرنے سے بچنے کی صلاحیت کی جانچ کرتی ہے۔ مارچ میں، جی پی ٹی 4 نے عام طور پر اس ہدایت پر عمل کیا، لیکن جون تک، اس نے اکثر اس کی خلاف ورزی کی، یہاں تک کہ جب خاص طور پر ہدایت کی گئی تھی۔

مخصوص الفاظ سے گریز کریں۔

یہ ہدایت ماڈل کی لچک اور تفصیل پر توجہ کی جانچ کرتی ہے، خاص طور پر مخصوص رکاوٹوں پر عمل پیرا ہونے میں۔ مارچ سے جون تک کی کمی جی پی ٹی 4 کی پیچیدہ ہدایات کو سنبھالنے کی صلاحیت میں کمی کو ظاہر کرتی ہے۔

مواد فلٹر کرنا

اس ہدایت میں ماڈل کو مخصوص موضوعات یا حساس معلومات کو خارج کرنے کی ضرورت ہوتی ہے۔ مارچ میں، جی پی ٹی 4 نے ان فلٹرنگ کی ضروریات پر بڑی حد تک عمل کیا، لیکن جون تک، اس کی فلٹرنگ کی صلاحیت میں نمایاں کمی واقع ہوئی، صرف تقریباً 19 فیصد حساس مسائل کو درست طریقے سے سنبھالا گیا۔

تحقیق کے اثرات

محققین نے نوٹ کیا کہ چونکہ جی پی ٹی 3.5 اور جی پی ٹی 4 کلوزڈ سورس ماڈلز ہیں، اس لیے اوپن اے آئی اپنے تربیتی ڈیٹا اور عمل کو ظاہر نہیں کرتا ہے۔ اس عدم شفافیت کا مطلب ہے کہ صارفین اکثر ہر بڑی اپ ڈیٹ کے ساتھ ہونے والی تبدیلیوں سے لاعلم رہتے ہیں۔ یہ تحقیق ڈویلپرز اور صارفین کو چیٹ جی پی ٹی کی کارکردگی اور رویے کی حرکیات کو سمجھنے میں مدد کر سکتی ہے، جو ماڈل کی حفاظت اور مواد کی صداقت کو یقینی بنانے کے لیے اہم ہے۔ یہ تحقیق ان ماڈلز کی مستقل مزاجی اور قابل اعتمادی کو برقرار رکھنے کے چیلنجوں کو اجاگر کرتی ہے، خاص طور پر تیزی سے بدلتے ہوئے ماحول میں۔