Published on

اوپن اے آئی کا او3 ماڈل: استدلال اور اے آر سی اے جی آئی میں پیش رفت

مصنفین
  • avatar
    نام
    Ajax
    Twitter

اوپن اے آئی کا او3 ماڈل: استدلال اور اے آر سی اے جی آئی میں پیش رفت

اوپن اے آئی کا نیا او3 ماڈل مصنوعی ذہانت کی دنیا میں ایک اہم پیش رفت ہے۔ اس ماڈل نے استدلال کی صلاحیتوں میں نمایاں بہتری دکھائی ہے اور اے آر سی (Abstraction and Reasoning Corpus) اے جی آئی (Artificial General Intelligence) چیلنج میں ایک اہم سنگ میل عبور کیا ہے۔ یہ ماڈل نہ صرف ریاضی اور پروگرامنگ کے شعبوں میں بہتر کارکردگی کا مظاہرہ کر رہا ہے بلکہ انسانی سطح کی ذہانت کے قریب تر مسائل کو حل کرنے میں بھی مددگار ثابت ہو رہا ہے۔

او3 ماڈل کی اہم خصوصیات:

  • متعدد تخلیقات سے اتفاق رائے: او1 ماڈل کی بہترین کارکردگی کے لیے متعدد تخلیقات سے اتفاق رائے ضروری ہے۔ یہ طریقہ کار استدلال کے تمام مراحل پر لاگو ہوتا ہے، اور بہترین نتائج کے لیے صرف ایک آؤٹ پٹ سٹریم پر انحصار نہیں کیا جا سکتا۔
  • شجرہ تلاش میں تبدیلی کی کوئی شہادت نہیں: کوئی ثبوت نہیں ہے کہ او3 نے شجرہ تلاش کو شامل کر کے اپنے استدلال کے فن تعمیر کو تبدیل کیا ہے۔ تمام دعوے محض افواہوں پر مبنی ہیں۔ استدلال کی توسیع کا بنیادی اصول یہ ہے کہ ایک ہی اسٹریم سے زیادہ نمونے لینے سے کارکردگی میں بہتری آسکتی ہے۔
  • تقویت یافتہ تعلیم (RL) کی واپسی: اس سال، تقویت یافتہ تعلیم (RL) اور اس سے متعلقہ طریقوں نے مصنوعی ذہانت کے مرکز کے طور پر اپنی جگہ دوبارہ حاصل کر لی ہے۔
  • او3 ماڈل کا پیش نظارہ: اوپن اے آئی نے اپنے او3 ماڈل کا پیش نظارہ جاری کیا ہے، جو او1 کے ساتھ استدلال کرنے کے لیے تربیت یافتہ لسانی ماڈلز کی ترقی میں ایک اہم قدم ہے۔ یہ ماڈل او3-منی سے شروع ہوں گے اور جنوری 2025 کے آخر تک عوام کے لیے دستیاب ہوں گے۔
  • 2024 - مصنوعی ذہانت کا سال: 2024 کو مصنوعی ذہانت کے انضمام کے سال کے طور پر دیکھا جا رہا ہے، جہاں بہت سے شرکاء نے جی پی ٹی-4 کی سطح کو حاصل کر لیا ہے اور اب ان ماڈلز کے عملی استعمال کے طریقوں کی تلاش کر رہے ہیں۔
  • او3 کی حیرت انگیز آمد: 2024 میں جی پی ٹی-4 جیسی کوئی بڑی لانچ نہیں ہوئی تھی، لیکن او3 کی آمد نے اس کمی کو پورا کر دیا ہے۔ او3، او1 سے زیادہ غیر متوقع ہے اور استدلال کے ماڈلز میں تیز رفتار پیش رفت کی نشاندہی کرتا ہے۔ او1 کی آمد کا پہلے سے علم تھا، لیکن او3 کی تیز اور موثر لانچ نے 2025 کے لیے توقعات بڑھا دی ہیں۔
  • ماڈلز کی وسیع پیمانے پر استعمال: بہت سے لوگ ریاضی، پروگرامنگ، طبیعیات اور سخت سائنس کے علاوہ دیگر شعبوں میں او1 جیسے ماڈلز کی افادیت پر سوال اٹھاتے ہیں، لیکن یہ ماڈلز جلد ہی پورے مصنوعی ذہانت کے تحقیقی نظام میں وسیع پیمانے پر استعمال ہوں گے، جس سے ترقی کی رفتار تیز ہوگی۔
  • نئے مواقع کی تلاش: ابھی تک ان ماڈلز کے استعمال کے طریقوں کی تلاش کے لیے کافی وقت نہیں دیا گیا ہے، اور نہ ہی استدلال کے ماڈلز کو دیگر شعبوں تک پھیلانے کے لیے عوامی طور پر دستیاب کوئی مضبوط سیکھنے کا تربیتی طریقہ موجود ہے۔
  • نئی بلندیوں کی جانب: اوپن اے آئی کا او3 ماڈل اس بات کا اشارہ ہے کہ صنعت نئی بلندیوں کی جانب گامزن ہے، کیونکہ صرف انٹرنیٹ ٹیکسٹ پر پیشگی تربیت سے حاصل ہونے والے فوائد کم ہو رہے ہیں۔
  • اے آر سی اے جی آئی ایوارڈ میں کامیابی: او3 پہلا ماڈل ہے جس نے اے آر سی اے جی آئی ایوارڈ میں 85% سے زیادہ تکمیل کی شرح حاصل کی ہے۔ یہ کامیابی عوامی ڈیٹا سیٹ پر حاصل کی گئی ہے، نہ کہ ٹیسٹ سیٹ پر، اور اس نے لاگت کی حد کو بھی عبور کیا ہے۔
  • فرنٹیئر میتھ بینچ مارک میں بہتری: نئے فرنٹیئر میتھ بینچ مارک میں کارکردگی 2% سے بڑھ کر 25% ہوگئی ہے۔
  • پروگرامنگ بینچ مارکس میں بہتری: تمام معروف پروگرامنگ بینچ مارکس، جیسے SWE-Bench-Verified میں نمایاں بہتری حاصل کی گئی ہے۔
  • AI تحقیق میں تیزی: یہ تبدیلیاں جلد ہی مصنوعی ذہانت کی تحقیق کی ترقی کو تیز کرنے کے ذریعے ظاہر ہوں گی۔ استدلال کی لاگت میں کمی کے ساتھ، یہ سافٹ ویئر انجینئرنگ کے بہت سے کرداروں کو بدلنے کی جانب ایک اور قدم ہوگا۔
  • حفاظت اور صف بندی پر توجہ: اوپن اے آئی نے ایک بلاگ پوسٹ اور تحقیقی مقالہ بھی شائع کیا ہے جس میں بتایا گیا ہے کہ کس طرح او1 سطح کے ماڈل حفاظتی اور صف بندی کی تحقیق کو بڑھا سکتے ہیں۔
  • استدلال کی صلاحیت کی اہمیت: اس سے پہلے ذکر کیے گئے ایک وسیع کھلے مسئلے کے کچھ ابتدائی مثبت ثبوت ملتے ہیں: کیا بڑھتی ہوئی استدلال کی صلاحیتیں قابل تصدیق شعبوں سے باہر بھی قدر پیدا کر سکتی ہیں؟ اس سوال کو 2025 میں دوبارہ جانچا جائے گا۔

او3 ماڈل کا جائزہ

اوپن اے آئی کے او3 ماڈل کا اعلان "اوپن اے آئی کے 12 دن کے لانچ ایونٹ" کے آخری دن کیا گیا۔ اس لانچ کے ساتھ ہی اس نے کئی شعبوں میں پہلے سے موجود جدید ترین ماڈلز (Gemini 1.5 Pro اور Claude 3.5 Sonnet New) کو پیچھے چھوڑ دیا ہے۔

او1 ماڈل میں اتفاق رائے کی اہمیت:

او1 سیریز کے ماڈلز کے بارے میں بلاگ پوسٹس اور متعلقہ بات چیت میں، ایک تفصیل جو اکثر نظر انداز کی جاتی ہے وہ ہے بار چارٹس میں شیڈو کا مطلب۔ او1 کی پہلی بلاگ پوسٹ میں، پہلے نتائج کے گراف کے کیپشن میں اس کا ذکر کیا گیا تھا: ٹھوس بار pass@1 کی درستگی کی نشاندہی کرتے ہیں، اور شیڈو والے علاقے 64 نمونوں کا استعمال کرتے ہوئے اکثریتی ووٹنگ (اتفاق رائے) کی کارکردگی کو ظاہر کرتے ہیں۔

یہ تفصیل بتاتی ہے کہ متعدد تخلیقات سے اتفاق رائے او1 ماڈل کی بہترین کارکردگی کے لیے ضروری ہے۔ یہ استدلال کے تمام مراحل پر لاگو ہوتا ہے — بہترین نتائج کے لیے صرف ایک آؤٹ پٹ سٹریم پر انحصار نہیں کیا جا سکتا۔ تاہم، اس کا مطلب یہ نہیں ہے کہ شجرہ تلاش یا کسی قسم کی درمیانی نمائندگی کا استعمال ضروری ہے۔ او1 کا پیشہ ورانہ موڈ، اور اے آر سی ایوارڈ کے نتائج جن پر ہم بات کریں گے، وہ اس متوازی تخلیق پر انحصار کرتے ہیں تاکہ مکمل طور پر اعلیٰ ترین اسکور حاصل کیا جا سکے۔

فرنٹیئر میتھ بینچ مارک:

فرنٹیئر میتھ بینچ مارک کے بارے میں معیاری تشخیص کے لیے، فیلڈز میڈل جیتنے والے دو ماہرین کے تبصرے دیکھے جا سکتے ہیں۔ ان کے تبصرے بینچ مارک کے مشکل ترین حصوں پر مرکوز تھے، لیکن یہ اس کے معیاری مقصد کو اچھی طرح سے ظاہر کرتے ہیں:

  • ٹیرنس تاؤ: "یہ سوالات انتہائی چیلنجنگ ہیں... میرا خیال ہے کہ وہ کم از کم اگلے چند سالوں تک AI کو بے بس کر دیں گے۔"
  • ٹموتھی گورز: "میں نے جو سوالات دیکھے وہ میرے تحقیقی علاقے سے باہر ہیں، اور ایسا لگتا ہے کہ میں انہیں بالکل حل نہیں کر سکتا... وہ IMO (بین الاقوامی ریاضی اولمپیاڈ) کے مسائل سے ایک سطح اوپر ہیں۔"

یہ بینچ مارک 7 نومبر کو متعارف کرایا گیا تھا اور اسے AI کی صلاحیتوں میں چند غیر حل شدہ کھلے محاذوں میں سے ایک کے طور پر درج کیا گیا تھا۔ اس لانچ نے اوپن اے آئی کے او3 کو واحد ماڈل کے طور پر پیش کیا ہے جس نے دوہرے ہندسوں کا اسکور حاصل کیا ہے اور 25% تک براہ راست چھلانگ لگائی ہے۔

پروگرامنگ میں کامیابی:

دوسرا اہم نتیجہ پروگرامنگ کے میدان میں سامنے آیا ہے۔ ایک لائیو سٹریم میں، اوپن اے آئی نے SWE-Bench Verified کا 71.7% اسکور دکھایا (جو کہ کسی حد تک موجودہ جدید ترین سطح ہے)، اور Codeforces (ایک پروگرامنگ مقابلہ ویب سائٹ) پر وسیع نتائج بھی پیش کیے گئے۔

او3 نے ایک غیر ظاہر شدہ N قدر کے تحت اتفاق رائے ووٹنگ کے ذریعے 2727 کا اسکور حاصل کیا، جو بین الاقوامی گرینڈ ماسٹر کی سطح تک پہنچ گیا، اور عالمی سطح پر تقریباً 200 بہترین انسانی مقابلہ کرنے والے پروگرامرز میں شامل ہو گیا۔ او3-منی کی کارکردگی او1 سے بہتر ہے، جبکہ اس کی لاگت میں نمایاں کمی کی گئی ہے۔ 2024 میں ہم نے جو رجحان دیکھا ہے، اس کے پیش نظر، یہ ایک زیادہ بااثر ماڈل بن سکتا ہے جسے وسیع پیمانے پر صارفین استعمال کر سکیں گے۔ اس سے او3 لائیو سٹریم میں حتمی پیش رفت ممکن ہوئی — اے آر سی اے جی آئی چیلنج کا مؤثر حل۔

اے آر سی کا حل:

ایبسٹریکٹ اینڈ ریزننگ کارپس (ARC) ایک مصنوعی ذہانت کی تشخیص کا طریقہ ہے جسے فرانسوا چولٹ نے اپنے 2019 کے مقالے "آن دی میزر آف انٹیلیجنس" میں تجویز کیا تھا۔ اے آر سی تشخیص کو انسانی ذہانت کی تشخیص کے قریب تر بنانے کے لیے ڈیزائن کیا گیا تھا:

  • ذہانت کی نئی تعریف: ہم نے الگورتھمک انفارمیشن تھیوری کی بنیاد پر ذہانت کی ایک نئی رسمی تعریف پیش کی ہے، جس میں ذہانت کو مہارت حاصل کرنے کی کارکردگی کے طور پر بیان کیا گیا ہے اور اس میں وسعت، عمومیت کی مشکل، پیشگی علم اور تجربہ کے تصورات پر زور دیا گیا ہے۔
  • عمومی AI بینچ مارک کے ڈیزائن کے رہنما اصول: اس تعریف کی بنیاد پر، ہم نے عمومی مصنوعی ذہانت کے معیار کے ڈیزائن کے لیے رہنما اصولوں کا ایک مجموعہ تجویز کیا ہے۔
  • اے آر سی کی مثال: آخر میں، ہم نے ایک بینچ مارک پیش کیا جو ان رہنما اصولوں پر سختی سے عمل کرتا ہے — ایبسٹریکٹ اینڈ ریزننگ کارپس (ARC)، جو پیشگی علم کے ایک واضح مجموعے پر مبنی ہے، جو ممکن حد تک انسانی پیدائشی پیشگی علم کے قریب ہے۔ ہم سمجھتے ہیں کہ اے آر سی کو انسانی جیسی عام سیال ذہانت کی پیمائش کے لیے استعمال کیا جا سکتا ہے، اور یہ مصنوعی ذہانت کے نظاموں اور انسانوں کے درمیان عام ذہانت کا منصفانہ موازنہ کرنے کے قابل ہے۔

اے آر سی اے جی آئی ایوارڈ جون 2024 میں شروع کیا گیا تھا، جس میں 10 لاکھ ڈالر کا انعام اس پہلے حل کے لیے رکھا گیا تھا جو مخصوص معیارات پر پورا اترتا ہے اور نجی اے آر سی کاموں کے ایک سیٹ کو حل کرتا ہے۔ اس کام کو "حل" کرنے کی حد 85% درستگی حاصل کرنا ہے۔ آج، اوپن اے آئی اور اے آر سی پرائز نے درج ذیل نتائج شیئر کیے ہیں:

  • او3 کی کارکردگی: او1 کلاس ماڈلز سے پہلے، اوپن اے آئی کا بہترین ماڈل جی پی ٹی-4o صرف 5% درستگی تک پہنچا تھا۔ اوپن اے آئی کی جانب سے اپنے نئے استدلال ماڈلز پر تیزی سے پیش رفت کو اے آر سی ایوارڈ کے شریک بانی مائیک کنوپ نے اس طرح بیان کیا ہے:

    • جی پی ٹی-2 (2019): 0%
    • جی پی ٹی-3 (2020): 0%
    • جی پی ٹی-4 (2023): 2%
    • جی پی ٹی-4o (2024): 5%
    • او1-پیش نظارہ (2024): 21%
    • او1 ہائی (2024): 32%
    • او1 پرو (2024): تقریباً 50%
    • او3 ٹیونڈ کم (2024): 76%
    • او3 ٹیونڈ ہائی (2024): 87%
  • اے آر سی-اے جی آئی کو حل کرنے میں مشکل: جون میں، یہ عام طور پر سمجھا جاتا تھا کہ اے آر سی-اے جی آئی کو حل کرنا انتہائی مشکل ہوگا۔ تاہم، صرف چند ماہ بعد، اس تصور کو مکمل طور پر الٹ دیا گیا۔ یہاں تک کہ ان لوگوں نے بھی جو Q* اور دیگر استدلال کے طریقوں کے بارے میں پر امید تھے، اتنی کامیابی کی توقع نہیں کی تھی۔

  • او3 کے ٹیسٹ کے نتائج: چولٹ نے اے آر سی ایوارڈ کی سرکاری ویب سائٹ پر مزید تفصیلات شیئر کیں:

    • ہم نے او3 کا دو اے آر سی-اے جی آئی ڈیٹا سیٹ کے ساتھ تجربہ کیا:
      • نیم نجی تشخیص: 100 نجی کام، زیادہ فٹنگ کا جائزہ لینے کے لیے
      • عوامی تشخیص: 400 عوامی کام اوپن اے آئی کی رہنمائی میں، ہم نے دو کمپیوٹنگ سطحوں پر تجربہ کیا، جس میں نمونے کا سائز متغیر تھا: 6 (موثر موڈ) اور 1024 (غیر موثر موڈ، جس میں پہلے کے مقابلے میں 172 گنا زیادہ کمپیوٹنگ کی ضرورت تھی)۔
  • او3 کی لاگت: او3 کی زیادہ کمپیوٹنگ لاگت کے بارے میں مخصوص اعداد و شمار ابھی تک جاری نہیں کیے گئے ہیں، کیونکہ قیمتوں اور فیچر کی دستیابی کا تعین ہونا باقی ہے۔ کمپیوٹنگ کی مقدار کم کمپیوٹنگ ترتیب سے تقریباً 172 گنا زیادہ ہے۔

  • مثال: یہاں ایک غیر حل شدہ مسئلہ کی مثال دی گئی ہے:

    • بہت سے مسائل انسانوں کے لیے بہت بدیہی ہیں۔ ان مسائل کو ماڈل میں داخل کرنے کے لیے، رنگوں کو اعداد کے طور پر انکوڈ کیا جاتا ہے، اور انہیں سیاق و سباق کے طور پر گرڈ کی شکل میں داخل کیا جاتا ہے، جیسا کہ گریگ کامراڈٹ نے زور دیا ہے:
  • ابھی تک انعام کا دعویٰ نہیں کیا گیا: تکنیکی طور پر، انعام کا ابھی تک دعویٰ نہیں کیا گیا ہے، کیونکہ حل کی لاگت حد سے زیادہ ہے اور یہ اوپن سورس نہیں ہے۔ مقابلہ جاری ہے۔ چند سالوں میں، اس قسم کی ذہانت تقریباً مفت ہو جائے گی۔ مفت سے مراد یہ ہے کہ استدلال چلانے کی لاگت صارف کے اشتہاری ڈیٹا کی مالی قدر سے کم ہو جائے گی۔

او3 کا فن تعمیر، لاگت اور تربیت

اے آر سی اے جی آئی ٹیم نے اوپن اے آئی کے ساتھ براہ راست تعاون کیا تاکہ اس کے ماڈل کے لیے قیمت کا تخمینہ حاصل کیا جا سکے۔ او3 کے API میں باضابطہ طور پر لانچ ہونے کے بعد حتمی قیمت مختلف ہو سکتی ہے۔ استدلال کی توسیع کے قانون کی اہمیت کی بنیاد پر، اے آر سی-اے جی آئی ٹیم نے حل جمع کرانے کے لیے نجی تشخیص میں ایک اضافی شرط شامل کی ہے۔ اپنی بلاگ پوسٹ میں، ٹیم نے کل لاگت اور فی کام کی لاگت کو FLOPs کے لیے ایک پراکسی میٹرک یا کمپیوٹنگ وسائل کے استعمال کی براہ راست پیمائش کے طور پر ریکارڈ کیا ہے۔

یہ اے آر سی ایوارڈ کے اعلان میں عوامی لیڈر بورڈ کے بارے میں ایک اصول کے مطابق ہے (جو 10 لاکھ ڈالر کے انعام سے متعلق نہیں ہے):

$10,000 USD 500 کاموں کو حل کرنے کے لیے چلانے کی لاگت کی حد ہے (بشمول عوامی تشخیصی سیٹ میں 400 کام اور ایک نئے نیم نجی تشخیصی سیٹ میں 100 کام)، جس میں تجارتی API کو کال کرنے کی لاگت شامل ہے۔

عوامی یا نیم عوامی تشخیصی سیٹ میں 500 کاموں میں سے، او3 کی لاگت اس حد سے کہیں زیادہ ہے۔ اے آر سی ایوارڈ سے پتہ چلتا ہے کہ او3 کی فی سوال لاگت $1,000 سے کہیں زیادہ ہے۔ انہوں نے ماڈل کی نوعیت کے بارے میں بھی مفروضے قائم کیے ہیں۔ مندرجہ ذیل مواد کا مقصد اس قیاس کو ختم کرنا ہے کہ آیا او3 نے او1 سے مختلف تربیتی تکنیکیں استعمال کی ہیں۔ خاص طور پر، چولٹ نے واضح کیا کہ وہ قیاس آرائی کر رہے ہیں:

  • او3 کے کام کرنے کا طریقہ: فی الحال، ہم صرف او3 کے کام کرنے کے مخصوص اصولوں کے بارے میں قیاس آرائی کر سکتے ہیں۔ لیکن او3 کا بنیادی طریقہ کار ٹوکن کی جگہ میں قدرتی زبان کے پروگراموں کی تلاش اور ان پر عمل درآمد کرنا لگتا ہے — جانچ کے وقت، ماڈل ممکنہ فکر کی زنجیروں (CoTs) کی جگہ تلاش کرے گا، جو ان اقدامات کو بیان کرتی ہیں جو کسی کام کو حل کرنے کے لیے ضروری ہیں، اس طرح سے جو الفا زیرو طرز کی مونٹی کارلو ٹری سرچ سے کچھ ملتی جلتی ہو۔ او3 کے معاملے میں، تلاش کی رہنمائی کسی قسم کے تشخیص ماڈل سے ہو سکتی ہے۔
  • ایم سی ٹی ایس کے بارے میں قیاس آرائیاں: ایم سی ٹی ایس (مونٹی کارلو ٹری سرچ) کے حوالے اور مفروضے گمراہ کن ہیں، لیکن قابل فہم ہیں، کیونکہ بہت سے ذہین لوگ او1 اور او3 کی صرف ایک لسانی ماڈل کے فارورڈ پاس کے ذریعے حاصل کردہ صلاحیت سے حیران ہیں۔
  • او3 کی تربیت: میری حالیہ تحریر میں بتایا گیا ہے کہ یہ بڑے پیمانے پر تقویت یافتہ تعلیم کے ذریعے کیسے ممکن ہے، اور یہ وضاحت کی گئی ہے کہ اوپن اے آئی کے کچھ گراف استدلال کے مرحلے میں کمپیوٹنگ لاگت کے لحاظ سے گمراہ کن کیوں ہیں۔ اوپن اے آئی کے ملازمین نے بھی اس بات پر زور دیا ہے کہ او3 "صرف ایک ماڈل ہے جسے تقویت یافتہ تعلیم کے ذریعے تربیت دی گئی ہے۔"
  • لاگت کا تجزیہ: اس کے باوجود، ہم اے آر سی ٹیم کی ریکارڈ کردہ لاگت پر مبنی تجزیہ کرتے ہیں، اور او1 کی قیمت (60.00/ملینآؤٹپٹٹوکن)کےساتھاوپناےآئیکےمطابقاسکاتجزیہکرتےہیں۔اےآرسیایوارڈکےنتائجکےگرافکےمطابق،مکملاو3کیفیسواللاگتتقریباً/ملین آؤٹ پٹ ٹوکن) کے ساتھ اوپن اے آئی کے مطابق اس کا تجزیہ کرتے ہیں۔ اے آر سی ایوارڈ کے نتائج کے گراف کے مطابق، مکمل او3 کی فی سوال لاگت تقریباً 5000 ہے۔ کل لاگت کو فی ٹوکن کی قیمت سے تقسیم کرنے سے یہ نتیجہ اخذ ہوتا ہے کہ ماڈل نے ہر جواب میں 80 ملین ٹوکن تیار کیے، جو کہ طویل سیاق و سباق ماڈلز میں بہتری کے بغیر ناممکن ہے۔ اس لیے، مختلف تلاش کے فن تعمیر کے بارے میں قیاس آرائیاں کی جا رہی ہیں۔

او3 کی جانچ کے دوران نمونے کا سائز:

کلیدی بات اے آر سی ایوارڈ بلاگ پوسٹ میں کچھ تفصیلات ہیں، جس میں ذکر کیا گیا ہے:

اوپن اے آئی کی رہنمائی میں، ہم نے دو کمپیوٹنگ سطحوں پر تجربہ کیا، جس میں نمونے کا سائز متغیر تھا: 6 (موثر موڈ) اور 1024 (غیر موثر موڈ، جس میں پہلے کے مقابلے میں 172 گنا زیادہ کمپیوٹنگ کی ضرورت تھی)۔

SemiAnalysis کے مطابق، او1 پرو سیلف کنسسٹنسی طریقہ یا سادہ consensus@N چیک کا استعمال کرتا ہے، جس میں ایک ہی سوال کے متعدد متوازی جوابات میں سے سب سے عام جواب کا انتخاب کرکے کارکردگی کو بہتر بنایا جاتا ہے۔ یہاں، نمونے کا سائز N consensus@N کی عددی قدر سے مطابقت رکھ سکتا ہے، جو بتاتا ہے کہ او3 کی تشخیص کی ترتیب گاہک کے لیے دستیاب او1 پرو ترتیب کے قریب ہے، یعنی 6 گنا زیادہ کمپیوٹنگ پاور، اور 1024 گنا زیادہ کمپیوٹنگ پاور ہر سوال کے لیے۔

استدلال کا یہ پیمانہ عام ادا شدہ صارفین کے لیے کافی عرصے تک دستیاب نہیں ہوگا۔ زیادہ تر صارفین کو صرف ایک بار کی تخلیق سے consensus@10 تک رسائی حاصل ہو گی، جو او1 ماڈل کے "پیشہ ورانہ" ورژن کی خصوصیات پر منحصر ہے۔

یہ فرض کرتے ہوئے کہ فی ملین آؤٹ پٹ ٹوکن کی قیمت $60 ہے، اسے 1024 سٹریمز سے تقسیم کرنے کا مطلب ہے کہ ماڈل ہر جواب میں تقریباً 78,000 ٹوکن تیار کرتا ہے۔ درحقیقت، ایسا لگتا ہے کہ او3 کو ایک بڑے بنیادی ماڈل سے بھی فائدہ ہو رہا ہے، کیونکہ اوپن اے آئی کی لائیو سٹریم میں دکھائی گئی تمام لاگرتھمک کمپیوٹنگ پاور x-محور سے، او1 کی کمپیوٹنگ لاگت میں نمایاں اضافہ ہوا ہے۔ ایک بڑے بنیادی ماڈل کا استعمال کرتے ہوئے، یہ اعداد و شمار مکمل طور پر معقول ہیں اور کسی اضافی "تلاش" عنصر کو شامل کرنے کا اشارہ نہیں کرتے ہیں۔

ترقی کی سمت:

حالیہ برسوں میں گہری سیکھنے کی ترقی کی بنیادی کہانی ایک ممکنہ طور پر بھرپور فیلڈ تلاش کرنا اور اس پر مسلسل چڑھنا ہے۔ پہلی لہر انٹرنیٹ پیمانے پر پیشگی تربیت سے آئی۔ اب، اوپن اے آئی نے تقویت یافتہ تعلیم کی تربیت اور طویل سیاق و سباق استدلال کو بڑھا کر چڑھنے کی ایک نئی سمت تلاش کی ہے۔ اس بات کو مدنظر رکھتے ہوئے کہ او3 اوپن اے آئی کی جانب سے او1 جاری کرنے کے بعد صرف تین ماہ کے فاصلے پر ہے، اس کی سب سے سادہ وضاحت یہ ہے کہ اس نے وہی فن تعمیر اور تربیتی طریقہ استعمال کیا ہے، صرف بڑے پیمانے پر۔

کوئی ثبوت نہیں ہے کہ او3 نے شجرہ تلاش کو شامل کر کے اپنے استدلال کے فن تعمیر کو تبدیل کیا ہے۔ تمام دعوے محض افواہوں پر مبنی ہیں۔ استدلال کی توسیع کا بنیادی اصول یہ ہے کہ ایک ہی اسٹریم سے زیادہ مواد کا نمونہ لینے سے کارکردگی میں بہتری آسکتی ہے۔

اہم سوال یہ ہے کہ کیا او3 کا بنیادی ماڈل اورین (اوپن اے آئی کا اندرونی کوڈ نام، ممکنہ طور پر جی پی ٹی-5) ہے، یا کیا نیا بنیادی ماڈل صرف تربیت کے دوران اورین سے مستفید ہوتا ہے؟ اگر بنیادی ماڈل کے سائز میں 2 سے 5 گنا اضافہ کیا جاتا ہے، تو اے آر سی ایوارڈ سے رپورٹ کردہ API قیمتوں سے پتہ چلتا ہے کہ یہ اعداد و شمار مکمل طور پر توقع کے مطابق ہیں۔

او3 کے بارے میں مخصوص تفصیلات ابھی بھی غیر یقینی ہیں۔ اے آر سی ٹیم کی جانب سے جاری کردہ گرافس میں، او3 ماڈل کے آگے "(ٹیونڈ)" کا نشان لگایا گیا ہے، لیکن او3 کے بارے میں ابھی تک کوئی تفصیلی وضاحت نہیں دی گئی ہے۔ تاہم، جب ہم پیش رفت کے رجحان پر توجہ مرکوز کرتے ہیں، تو یہ واضح ہے کہ او1 سطح کے ماڈلز طویل عرصے تک موجود رہیں گے۔

آخر میں، عاجزی برقرار رکھنے کے لیے، یہاں ایک اے آر سی ایوارڈ کی مثال دی گئی ہے جسے او3 حل کرنے میں ناکام رہا۔ یہ بہت آسان ہے۔

ظاہر ہے کہ ہمیں ابھی ایک طویل سفر طے کرنا ہے، لیکن آپ کو پرجوش ہونا چاہیے اور ان ماڈلز کو وسیع پیمانے پر استعمال کرنے کی حقیقت کی توقع کرنی چاہیے جو زیادہ تر لوگوں کی توقع سے پہلے آئے گی۔ یہ فرض کرنا سب سے محفوظ ہے کہ AI مسلسل ترقی کرے گا۔ 2024: RL کی واپسی

آج پہلے، اینتھروپک نے اینتھروپک کی تخلیق کے بارے میں ایک ویڈیو جاری کی، جس میں کئی شریک بانیوں نے بات چیت کی۔ ایک غیر متوقع تفصیل شریک بانی اور سی ای او ڈاریو اموڈی نے شیئر کی:

"…ان ماڈلز کو اسکیل کرنے کی مکمل وجہ یہ ہے کہ ان کی ذہانت ابھی تک ہمیں ان پر RLHF (انسانی تاثرات کے ساتھ تقویت یافتہ تعلیم) کرنے کی اجازت دینے کے لیے کافی نہیں ہے۔"

جدید آر ایل ایچ ایف تصور کے بانیوں میں سے ایک کے طور پر، ڈاریو کو شاید پہلے ہی اندازہ ہو گیا تھا کہ تمام ٹھیک ٹیوننگ تکنیکوں میں پیش رفت ہونے والی ہے۔ آر ایل ایچ ایف کی صلاحیت کے بارے میں یہ نقطہ نظر زیادہ تر پریکٹیشنرز کے تصور سے زیادہ وسیع اور گہرا ہے۔

اس سال، تقویت یافتہ تعلیم (RL) اور اس سے متعلقہ طریقوں نے مصنوعی ذہانت کے مرکز کے طور پر اپنی جگہ دوبارہ حاصل کر لی ہے۔

اس مضمون کو لکھنے کے عمل نے مجھے اس بات پر قائل کیا کہ مجھے 2025 میں اس طرح کا استدلال پر مبنی لسانی ماڈل تیار کرنا ہے۔ یہ ایسا ہی محسوس ہوتا ہے جیسے 2024 میں ٹیک کمپنیوں کے لیے، معیاری پیشگی تربیت صنعت کی بنیادی ضرورت بن گئی ہے۔ یہ پیش گوئی کی جا سکتی ہے کہ او1 طرز کے ماڈلز مستقبل میں ایک طویل عرصے تک مصنوعی ذہانت کے ٹول باکس میں ڈیفالٹ ٹول ہوں گے۔ میں اس نئے عالمی نقطہ نظر کو اپنانے اور ان ماڈلز کی تربیت کے کام کرنے کے اصولوں کو خود سیکھنے کا منتظر ہوں۔