- Published on
اوپن اے آئی ماڈل پیرامیٹرز لیک: مائیکروسافٹ پیپر میں GPT4o کے سائز کا انکشاف
اوپن اے آئی ماڈل پیرامیٹرز لیک: مائیکروسافٹ پیپر میں GPT4o کے سائز کا انکشاف
ٹیکنالوجی کی دنیا میں، بڑے لسانی ماڈلز (LLMs) کے پیرامیٹرز کے سائز کو ہمیشہ سے خفیہ رکھا گیا ہے۔ تاہم، حال ہی میں مائیکروسافٹ اور یونیورسٹی آف واشنگٹن کی ٹیم کی جانب سے شائع ہونے والے ایک میڈیکل مقالے میں، اوپن اے آئی کے کئی ماڈلز کے پیرامیٹرز کی معلومات غلطی سے افشا ہو گئی ہیں، جس نے کافی توجہ حاصل کی ہے۔
پیرامیٹرز کا انکشاف
اس مقالے میں جو اہم معلومات سامنے آئی ہیں، وہ درج ذیل ہیں:
- GPT-4: تقریباً 1.76 ٹریلین پیرامیٹرز
- GPT-4o: تقریباً 200 بلین پیرامیٹرز
- GPT-4o mini: تقریباً 8 بلین پیرامیٹرز
- o1-preview: تقریباً 300 بلین پیرامیٹرز
- o1-mini: تقریباً 100 بلین پیرامیٹرز
- Claude 3.5 Sonnet: تقریباً 175 بلین پیرامیٹرز
یہ بات قابل ذکر ہے کہ محققین نے یہ واضح کیا ہے کہ یہ تمام پیرامیٹرز تخمینی ہیں۔
GPT-4o سیریز کے پیرامیٹرز پر بحث
حیرت انگیز طور پر، GPT-4o سیریز کے پیرامیٹرز توقع سے کہیں کم ہیں، خاص طور پر منی ورژن صرف 8 بلین پیرامیٹرز کے ساتھ۔ کچھ صارفین نے قیاس کیا ہے کہ GPT-4o mini میں مخلوط ماہر ماڈل (MoE) فن تعمیر استعمال کیا گیا ہے، جس میں اصل فعال پیرامیٹرز 8 بلین ہیں، لیکن ماڈل کے مجموعی پیرامیٹرز 400 بلین تک ہو سکتے ہیں۔ یہ فن تعمیر چھوٹے ماڈلز کو زیادہ معلومات حاصل کرنے کے قابل بناتا ہے، جبکہ ان کی رفتار کو برقرار رکھتا ہے۔
Claude 3.5 Sonnet پیرامیٹرز کا موازنہ
مزید برآں، تبصرہ نگاروں نے نشاندہی کی ہے کہ Claude 3.5 Sonnet کے پیرامیٹرز کی مقدار GPT-3 davinci کے برابر ہے، جس نے مختلف ماڈلز کی کارکردگی اور سائز کے درمیان تعلق کے بارے میں مزید سوچ بچار کو جنم دیا ہے۔
MEDEC بینچ مارک: طبی غلطی کا پتہ لگانے کا نیا معیار
پیرامیٹرز کو افشا کرنے والا یہ مقالہ دراصل ایک تشخیصی معیار کے بارے میں ہے جسے MEDEC1 کہا جاتا ہے، جس کا مقصد طبی غلطی کی شناخت اور اصلاح کے کاموں میں بڑے لسانی ماڈلز کی کارکردگی کا جائزہ لینا ہے۔ یہ بینچ مارک کلینیکل نوٹس میں موجود غلطیوں پر توجہ مرکوز کرتا ہے، جس میں تشخیص، انتظام، علاج، دواسازی اور سبب بننے والے عوامل جیسے پانچ پہلو شامل ہیں۔
ڈیٹا کا ماخذ اور خصوصیات
MEDEC ڈیٹا سیٹ میں تین امریکی ہسپتالوں کے نظاموں سے 488 کلینیکل نوٹس شامل ہیں، جن میں کل 3848 کلینیکل تحریریں ہیں۔ یہ ڈیٹا پہلے کبھی کسی بڑے لسانی ماڈل کے سامنے نہیں آیا، جس سے تشخیص کی درستگی اور اعتبار کو یقینی بنایا جا سکا ہے۔ فی الحال، اس ڈیٹا سیٹ کو MEDIQA-CORR مشترکہ ٹاسک میں استعمال کیا جا رہا ہے تاکہ 17 شریک نظاموں کی کارکردگی کا جائزہ لیا جا سکے۔
جانچ اور نتائج
تحقیقی ٹیم نے MEDEC ڈیٹا سیٹ کا استعمال کرتے ہوئے مختلف جدید ماڈلز کی جانچ کی، بشمول o1-preview، GPT-4، Claude 3.5 Sonnet، اور Gemini 2.0 Flash۔ انہوں نے دو پیشہ ور ڈاکٹروں کو بھی غلطی کا پتہ لگانے کے اسی کام میں شامل کیا تاکہ انسان اور مشین کا موازنہ کیا جا سکے۔
نتائج سے پتہ چلتا ہے کہ اگرچہ بڑے لسانی ماڈلز طبی غلطی کی شناخت اور اصلاح میں نمایاں طور پر کارکردگی کا مظاہرہ کرتے ہیں، لیکن وہ انسانی ڈاکٹروں کے مقابلے میں اب بھی پیچھے ہیں۔ یہ ظاہر کرتا ہے کہ MEDEC ایک چیلنجنگ تشخیصی معیار ہے۔
مقالے کا بنیادی مواد: طبی شعبے میں LLM کا اطلاق اور چیلنجز
مقالے میں بتایا گیا ہے کہ امریکی طبی اداروں کے سروے سے پتہ چلتا ہے کہ ہر پانچ میں سے ایک مریض جو کلینیکل نوٹس پڑھتا ہے، غلطی کی اطلاع دیتا ہے۔ ان غلطیوں میں سے 40% کو سنگین سمجھا جاتا ہے اور سب سے عام غلطی تشخیص سے متعلق ہے۔
طبی دستاویزات میں LLM کا اطلاق اور خطرات
چونکہ طبی دستاویزات کے زیادہ تر کام، جیسے کلینیکل نوٹ بنانا، بڑے لسانی ماڈلز کے ذریعے کیے جا رہے ہیں، اس لیے یہ یقینی بنانا بہت اہم ہے کہ LLM سے حاصل ہونے والی معلومات درست اور محفوظ ہوں۔ LLM غلط معلومات دے سکتا ہے یا فرضی مواد پیش کر سکتا ہے، جس سے طبی فیصلوں پر شدید اثر پڑ سکتا ہے۔
MEDEC بینچ مارک کی اہمیت
ان مسائل سے نمٹنے اور طبی مواد کی تخلیق میں LLM کی حفاظت کو یقینی بنانے کے لیے، سخت جانچ کے طریقے ضروری ہیں۔ MEDEC بینچ مارک کا تعارف کلینیکل تحریروں میں طبی غلطیوں کا پتہ لگانے اور تصحیح کرنے میں ماڈلز کی صلاحیت کا جائزہ لینے کے لیے کیا گیا ہے۔
MEDEC ڈیٹا سیٹ کی تشکیل
MEDEC ڈیٹا سیٹ میں مختلف طبی شعبوں سے 3848 کلینیکل تحریریں شامل ہیں، جن کی تصدیق 8 طبی لیبلرز نے کی ہے۔ اس ڈیٹا سیٹ میں پانچ قسم کی غلطیاں شامل ہیں:
- تشخیص (Diagnosis): فراہم کردہ تشخیص درست نہیں ہے۔
- انتظام (Management): فراہم کردہ انتظامی اقدامات درست نہیں ہیں۔
- دواسازی (Pharmacotherapy): تجویز کردہ دوا کا علاج درست نہیں ہے۔
- علاج (Treatment): تجویز کردہ علاج کا منصوبہ درست نہیں ہے۔
- سبب بننے والا عنصر (Causal Organism): اشارہ کردہ سبب بننے والا حیاتیاتی یا روگجن درست نہیں ہے۔
ان غلطیوں کی اقسام کا انتخاب طبی بورڈ کے امتحانات میں سب سے عام سوالات کی اقسام پر مبنی ہے۔
ڈیٹا بنانے کے طریقے
ڈیٹا سیٹ کی تشکیل کے لیے دو طریقے استعمال کیے گئے:
- طریقہ #1 (MS): میڈیکل بورڈ کے امتحانی سوالات کو MedQA مجموعہ سے استعمال کرتے ہوئے، طبی پس منظر والے لیبلرز کی جانب سے غلط جوابات کو منظر نامے کی تحریر میں داخل کرنا۔
- طریقہ #2 (UW): واشنگٹن یونیورسٹی کے تین ہسپتالوں کے نظاموں کے حقیقی کلینیکل نوٹ ڈیٹا بیس کا استعمال کرتے ہوئے، طبی طلباء کی ٹیم کی جانب سے ریکارڈ میں غلطیاں داخل کرنا۔
دونوں طریقوں کو سخت کوالٹی کنٹرول کے عمل سے گزارا گیا تاکہ ڈیٹا کی درستگی اور اعتبار کو یقینی بنایا جا سکے۔
طبی غلطی کی شناخت اور اصلاح کے طریقے
طبی غلطی کی شناخت اور اصلاح کے کاموں میں ماڈلز کی کارکردگی کا جائزہ لینے کے لیے، محققین نے اس عمل کو تین ذیلی کاموں میں تقسیم کیا ہے:
- ذیلی کام A: غلطی کے نشان کی پیش گوئی کرنا (0: کوئی غلطی نہیں؛ 1: غلطی موجود ہے)۔
- ذیلی کام B: غلطی پر مشتمل جملوں کو نکالنا۔
- ذیلی کام C: غلطی پر مشتمل جملوں کے لیے درست مواد تیار کرنا۔
تحقیقی ٹیم نے LLM پر مبنی حل تیار کیے اور مطلوبہ نتائج پیدا کرنے کے لیے دو مختلف قسم کے پرامپٹس کا استعمال کیا۔
تجربات اور نتائج
لسانی ماڈلز
محققین نے Phi-3-7B، Claude 3.5 Sonnet، Gemini 2.0 Flash، ChatGPT، GPT-4، GPT-4o، o1-mini، اور o1-preview سمیت مختلف لسانی ماڈلز پر تجربات کیے۔
تجرباتی نتائج کا تجزیہ
تجرباتی نتائج سے پتہ چلتا ہے کہ Claude 3.5 Sonnet نے غلطی کے نشان کی شناخت اور غلط جملوں کی شناخت میں بہتر کارکردگی کا مظاہرہ کیا۔ o1-preview نے غلطی کی اصلاح میں بہترین کارکردگی دکھائی۔ تاہم، تمام ماڈلز طبی غلطی کی شناخت اور اصلاح میں اب بھی انسانی ڈاکٹروں سے کم تر ہیں۔
نتائج نے یہ بھی ظاہر کیا کہ ماڈلز کو درستگی کے حوالے سے مسائل کا سامنا ہے اور بہت سے معاملات میں غلطیوں کے وجود کو زیادہ پیش گوئی کی گئی ہے (یعنی، غلط معلومات دینا)۔ اس کے علاوہ، درجہ بندی کی کارکردگی اور غلطی کی اصلاح کی کارکردگی کے درمیان فرق پایا گیا۔
غلطی کی قسم کا تجزیہ
غلطی کی مختلف اقسام کی شناخت اور اصلاح کے حوالے سے، o1-preview نے غلطی کے نشان اور جملے کی شناخت میں زیادہ ریکال ریٹ حاصل کیا، لیکن ڈاکٹروں نے درستگی میں بہتر کارکردگی کا مظاہرہ کیا۔
مستقبل کے تحقیقی سمت
محققین نے بتایا ہے کہ مستقبل کی تحقیق کی سمت میں پرامپٹس میں مزید مثالیں شامل کرنا اور انہیں بہتر بنانا شامل ہے تاکہ طبی غلطی کی شناخت اور اصلاح میں ماڈلز کی کارکردگی کو مزید بہتر بنایا جا سکے۔