- Published on
مدل O3 اوپن ایآی: جهشی در استدلال و پیشرفت در هوش مصنوعی ARC
نکات برجسته
- اجماع چندگانه برای عملکرد بهینه مدل o1 ضروری است. این امر در تمام مراحل استدلال محاسباتی صدق می کند - برای دستیابی به بهترین نتایج، نمی توان فقط به یک جریان خروجی واحد تکیه کرد.
- هیچ مدرکی مبنی بر اینکه o3 با افزودن جستجوی درختی، معماری استدلال را تغییر داده باشد وجود ندارد، همه ادعاها فقط شایعه هستند. قانون اصلی مقیاس بندی استدلال این است که نمونه برداری بیشتر از یک تولید تک جریانی می تواند منجر به بهبود عملکرد شود.
- امسال، بدون شک سالی است که یادگیری تقویتی (RL) و روش های مرتبط آن به عنوان هسته اصلی هوش مصنوعی دوباره تثبیت شده اند.
- امروز، OpenAI پیش نمایشی از مدل o3 خود را منتشر کرد، که پیشرفت های اخیر در آموزش مدل های زبانی برای استدلال با استفاده از o1 را بیشتر توسعه می دهد. این مدل ها از o3-mini شروع می شوند و انتظار می رود تا پایان ژانویه 2025 در دسترس عموم قرار گیرند. در حالی که سال 2024 رو به پایان است، بسیاری از ناظران معتقدند امسال سال ادغام هوش مصنوعی بوده است، زیرا بسیاری از شرکت کنندگان به سطح قابل مقایسه با GPT-4 رسیده اند و شروع به بررسی چگونگی استفاده عملی از این مدل ها کرده اند.
- سال 2024 لحظه هیجان انگیزی مانند "انتشار GPT-4" را نداشت. ظهور o3 این را تغییر می دهد، زیرا غیرمنتظره تر از o1 است و نشان دهنده پیشرفت سریع در مدل های استدلال است. ما از قبل از ورود o1 می دانستیم زیرا دوره آماده سازی طولانی تری را طی کرد - و انتشار سریع و کارآمد o3 باعث شده است که ما منتظر پیشرفت های سال 2025 باشیم.
- اگرچه بسیاری از افراد در مورد کاربرد مدل های کلاس o1 در زمینه های خارج از ریاضیات، برنامه نویسی، فیزیک و علوم سخت شک دارند، اما این مدل ها به زودی در کل اکوسیستم تحقیقات هوش مصنوعی به طور گسترده مورد استفاده قرار می گیرند و در نتیجه پیشرفت را به طور قابل توجهی تسریع می کنند. دیدگاه خوش بینانه این است که هنوز زمان کافی برای کشف کاربردهای این مدل ها و روش های آموزش یادگیری تقویتی عمومی برای گسترش مدل های استدلال به سایر زمینه ها وجود ندارد.
- OpenAI's o3 نشان می دهد که این صنعت در حال صعود به قله بعدی است، زیرا مزایای تکیه صرف بر متن اینترنت برای پیش آموزش در حال کاهش است. o3 به پیشرفت های بزرگی در ارزیابی استدلال دست یافته است که به طور خاص در موارد زیر مشهود است:
- این اولین مدل است که در جایزه ARC AGI به نرخ تکمیل بیش از 85 درصد دست یافته است (توجه: این در مجموعه داده های عمومی انجام شده است، نه مجموعه آزمایشی، و از محدودیت هزینه فراتر رفته است).
- در معیار جدید Frontier Math، عملکرد از 2٪ به 25٪ افزایش یافت و یک جهش کیفی را نشان داد.
- پیشرفت های قابل توجهی در تمام معیارهای پیشرو برنامه نویسی (مانند SWE-Bench-Verified) به دست آمده است.
- و همه اینها تنها 3 ماه پس از اعلام اولین نسخه مدل بوده است. این تغییرات به زودی از طریق تسریع در پیشرفت تحقیقات هوش مصنوعی مشهود خواهد شد. با کاهش هزینه استدلال، این گام دیگری در جهت تغییر بسیاری از نقش های مهندسی نرم افزار است که امروزه می شناسیم.
- در همین حال، OpenAI یک پست وبلاگ و مقاله تحقیقاتی در مورد هم ترازی محتاطانه منتشر کرده است که نشان می دهد چگونه مدل های سطح o1 می توانند تحقیقات امنیتی و هم ترازی را افزایش دهند. این شواهدی اولیه و مثبت برای یک مسئله باز گسترده تر که قبلاً ذکر شد ارائه می دهد: آیا قابلیت های استدلال پیشرفته می توانند فراتر از حوزه های قابل تایید ارزش ایجاد کنند؟ این سوال در سال 2025 بارها مورد بازبینی قرار خواهد گرفت.
مروری بر O3
مدل o3 OpenAI در آخرین روز "رویداد 12 روزه انتشار OpenAI" اعلام شد. این انتشار با نتایج شگفت انگیز آن در غلبه بر مدل های پیشرفته قبلی (Gemini 1.5 Pro و Claude 3.5 Sonnet New) در چندین زمینه همراه بود. در پست های وبلاگ و مکالمات مربوط به مدل های سری o1، یک جزئیات اغلب نادیده گرفته شده، معنای سایه ها در نمودارهای میله ای است. در اولین پست وبلاگ o1، این مورد در توضیحات اولین نمودار نتیجه ذکر شده است: ستون های پررنگ نشان دهنده دقت pass@1 هستند و مناطق سایه دار نشان دهنده عملکرد استفاده از 64 نمونه برای رای گیری اکثریت (اجماع) است.
این جزئیات نشان می دهد که اجماع چندگانه برای عملکرد بهینه مدل o1 ضروری است. این امر در تمام مراحل محاسبات استدلال صدق می کند - برای دستیابی به بهترین نتایج، نمی توان فقط به یک جریان خروجی واحد تکیه کرد. با این حال، این بدان معنا نیست که باید از جستجوی درختی یا نوعی نمایش میانی استفاده شود. حالت تخصصی o1 و همچنین نتایج جایزه ARC که در مورد آن بحث خواهیم کرد، برای دستیابی به بالاترین امتیاز مطلق به این تولید موازی متکی هستند.
در مورد ارزیابی کیفی معیار ریاضی Frontier، می توان به نظرات دو برنده مدال فیلدز مراجعه کرد. نظرات آنها بر سخت ترین بخش های معیار متمرکز است، اما این به خوبی هدف کیفی آن را نشان می دهد:
- "این مسائل فوق العاده چالش برانگیز هستند... من فکر می کنم آنها حداقل در چند سال آینده هوش مصنوعی را درمانده می کنند." - ترنس تائو، برنده مدال فیلدز در سال 2006
- "هیچ یک از این مسائلی که می بینم در زمینه تحقیقات من نیست و به نظر می رسد کاملاً خارج از توانایی من برای حل کردن است... به نظر می رسد یک سطح بالاتر از مسائل IMO (المپیاد بین المللی ریاضی) هستند." - تیموتی گورز، برنده مدال فیلدز در سال 2006 این معیار در 7 نوامبر معرفی شد و به عنوان یکی از معدود مرزهای باز که هنوز در قابلیت های هوش مصنوعی فتح نشده است، فهرست شده است. این انتشار، o3 OpenAI را به عنوان تنها مدلی قرار داد که به امتیاز دو رقمی دست یافته و مستقیماً به 25٪ جهش کرد. دومین نتیجه پیشرو در زمینه برنامه نویسی ظاهر شد. در پخش زنده، OpenAI امتیاز 71.7% در SWE-Bench Verified را نشان داد (این امتیاز تا حدی آخرین سطح پیشرفته فعلی است) و همچنین نتایج گسترده در Codeforces (یک وب سایت مسابقات برنامه نویسی). o3 با رای گیری اجماع با مقدار N نامشخص به امتیاز 2727 دست یافت و به سطح استاد بزرگ بین المللی رسید و در بین 200 برنامه نویس رقابتی برتر در جهان قرار گرفت. عملکرد o3-mini بهتر از o1 است، در حالی که هزینه آن به طور قابل توجهی کمتر است. با توجه به روندهایی که در سال 2024 مشاهده کردیم، این می تواند یک مدل تاثیرگذارتر برای استفاده توسط گروه گسترده تری از کاربران باشد. این امر باعث شد تا آخرین دستاورد پیشرفت در پخش زنده o3 ممکن شود - حل موثر چالش ARC AGI.
مقابله با ارزیابی ARC
مجموعه داده انتزاع و استدلال (ARC) یک روش ارزیابی هوش مصنوعی است که توسط فرانسوا کوله در مقاله 2019 خود با عنوان "در مورد اندازه گیری هوش" پیشنهاد شده است. هدف طراحی ارزیابی ARC نزدیکتر شدن به ارزیابی هوش انسانی بود:
ما یک تعریف رسمی جدید از هوش بر اساس تئوری اطلاعات الگوریتمی پیشنهاد می کنیم که هوش را به عنوان کارایی کسب مهارت توصیف می کند و بر مفاهیم دامنه، دشواری تعمیم، دانش پیشینی و تجربه تأکید می کند. بر اساس این تعریف، مجموعه ای از دستورالعمل های طراحی برای معیار هوش مصنوعی عمومی را پیشنهاد می کنیم. در نهایت، ما یک معیار را نشان می دهیم که به طور دقیق از این دستورالعمل ها پیروی می کند - مجموعه داده انتزاع و استدلال (ARC)، که بر اساس مجموعه ای از دانش پیشینی صریح ساخته شده است، تا حد امکان به دانش پیشینی ذاتی انسان نزدیک است. ما معتقدیم که ARC می تواند برای اندازه گیری نوعی هوش سیال عمومی شبیه انسان استفاده شود و می تواند مقایسه های منصفانه هوش عمومی بین سیستم های هوش مصنوعی و انسان ها را فعال کند. جایزه ARC AGI در ژوئن 2024 با جایزه 1 میلیون دلاری برای اولین راه حلی که معیارهای خاصی را برآورده می کند و مجموعه ای از وظایف ARC خصوصی را حل می کند، راه اندازی شد. آستانه "حل" این کار دستیابی به دقت 85٪ است. امروز، OpenAI و ARC Prize نتایج زیر را به اشتراک گذاشتند: به محور x قیمت با دقت نگاه کنید، بعداً به این موضوع باز خواهیم گشت. قبل از مدل های کلاس o1، بهترین مدل OpenAI، GPT-4o، تنها به دقت 5٪ دست یافت. پیشرفت سریع OpenAI در مدل های استدلال جدید خود توسط مایک کنوپ، یکی از بنیانگذاران جایزه ARC، به شرح زیر خلاصه شده است:
- GPT-2 (2019): 0%
- GPT-3 (2020): 0%
- GPT-4 (2023): 2%
- GPT-4o (2024): 5%
- o1-preview (2024): 21%
- o1 high (2024): 32%
- o1 Pro (2024): حدود 50%
- o3 tuned low (2024): 76%
- o3 tuned high (2024): 87% در ژوئن امسال، هنوز به طور گسترده اعتقاد بر این بود که حل ARC-AGI بسیار دشوار خواهد بود. با این حال، تنها چند ماه بعد، این تصور کاملاً زیر و رو شد. حتی کسانی که در مورد Q* و سایر روش های استدلال خوش بین بودند، انتظار چنین موفقیتی را نداشتند. چولت جزئیات بیشتری را در وب سایت رسمی جایزه ARC به اشتراک گذاشته است: ما o3 را با دو مجموعه داده ARC-AGI آزمایش کردیم:
- ارزیابی نیمه خصوصی: 100 کار خصوصی برای ارزیابی بیش برازش.
- ارزیابی عمومی: 400 کار عمومی تحت هدایت OpenAI، ما با دو سطح محاسباتی با مقیاس نمونه متغیر آزمایش کردیم: 6 (حالت کارآمد) و 1024 (حالت ناکارآمد، 172 برابر محاسبات قبلی).
در اینجا نتایج آزمایش آمده است: توجه: داده های خاص مربوط به هزینه محاسباتی بالای o3 منتشر نشده است، زیرا قیمت گذاری و در دسترس بودن ویژگی هنوز تعیین نشده است. محاسبات تقریباً 172 برابر پیکربندی محاسباتی پایین است. به عنوان مثال، در اینجا یک مشکل حل نشده است: بسیاری از مسائل برای انسان بسیار شهودی هستند. برای وارد کردن این مسائل به مدل، رنگ ها به صورت اعداد کدگذاری می شوند و به صورت شبکه ای به عنوان زمینه ورودی، همانطور که گرگ کامرادت برجسته کرده است: از نظر فنی، جایزه هنوز دریافت نشده است زیرا هزینه راه حل از آستانه فراتر رفته و منبع باز نیست. مسابقه ادامه دارد. در عرض چند سال، این نوع هوش تقریباً رایگان خواهد شد. رایگان، به این معنی است که هزینه اجرای استدلال کمتر از ارزش پولی داده های تبلیغات کاربر خواهد بود. در حال حاضر، قیمت o3 ذکر شده در وبلاگ جایزه ARC (که در ارتباطات OpenAI به قیمت نسبی نسبت به o1 تغییر یافته است) جزئیات زیادی در مورد نحوه عملکرد فناوری o3 نشان می دهد.
معماری، هزینه و روش های آموزش O3
تیم ARC AGI مستقیماً با OpenAI برای دریافت برآوردهای قیمت مدل خود همکاری کرد. قیمت نهایی o3 پس از راه اندازی رسمی آن در API احتمالاً متفاوت خواهد بود. بر اساس اهمیت قانون مقیاس بندی استدلال، تیم ARC-AGI یک شرط اضافی برای ارسال راه حل برای ارزیابی خصوصی اضافه کرد. در پست وبلاگ خود، تیم هزینه کل و هزینه هر کار را به عنوان یک پروکسی برای FLOP یا محاسبه مستقیم استفاده از منابع محاسباتی ثبت کرد. این با یک قانون در اطلاعیه جایزه ARC در مورد رتبه بندی عمومی مطابقت دارد (که ارتباطی با جایزه 1 میلیون دلاری ندارد): 10000 دلار آمریکا حداکثر هزینه عملیاتی است که می توان برای حل 500 کار (شامل 400 کار در مجموعه ارزیابی عمومی و 100 کار در مجموعه ارزیابی نیمه خصوصی جدید) صرف کرد، که شامل هزینه فراخوانی API تجاری است. از بین 500 کار در مجموعه ارزیابی عمومی یا نیمه عمومی، هزینه o3 به مراتب فراتر از این محدودیت است. جایزه ARC نشان می دهد که هزینه هر پرس و جو o3 بسیار بیشتر از 1000 دلار است. آنها همچنین در مورد ماهیت مدل فرضیه هایی مطرح کرده اند. موارد زیر به منظور آرام کردن گمانه زنی ها در مورد اینکه آیا o3 از تکنیک های آموزشی متفاوتی نسبت به o1 استفاده کرده است، ارائه شده است. به طور خاص، چولت به صراحت بیان می کند که او در حال گمانه زنی است: در حال حاضر، ما فقط می توانیم در مورد نحوه عملکرد خاص o3 گمانه زنی کنیم. اما به نظر می رسد مکانیسم اصلی o3 جستجو و اجرای برنامه زبان طبیعی در فضای توکن است - در زمان آزمایش، مدل فضای احتمالی زنجیره های فکری (CoTs) را جستجو می کند که مراحلی را که برای حل یک کار مورد نیاز است، به روشی مشابه با جستجوی درخت مونت کارلو به سبک AlphaZero توصیف می کند. در مورد o3، جستجو ممکن است توسط نوعی مدل ارزیابی هدایت شود. باز هم، اشاره به MCTS (جستجوی درخت مونت کارلو) و فرضیه گمراه کننده است، اما قابل درک است زیرا بسیاری از افراد باهوش از توانایی o1 و o3 در دستیابی به قابلیت ها فقط از طریق انتقال رو به جلو یک مدل زبانی شگفت زده شده اند. مقاله اخیر من توضیح داد که چگونه این امر از طریق آموزش یادگیری تقویتی در مقیاس بزرگ امکان پذیر است و نشان می دهد که چرا برخی از نمودارهای OpenAI در هزینه محاسباتی در مرحله استدلال گمراه کننده هستند. کارمندان OpenAI همچنین بر ماهیت o3 به عنوان "فقط یک مدل آموزش داده شده از طریق یادگیری تقویتی" تأکید کرده اند. با این وجود، ما بر اساس هزینه های ثبت شده توسط تیم ARC و در ترکیب با قیمت گذاری OpenAI برای o1 (60.00 دلار در هر میلیون توکن خروجی) تجزیه و تحلیل می کنیم. بر اساس نمودارهای نتیجه جایزه ARC، هزینه هر پرس و جو کامل o3 تقریباً 5000 دلار است. با تقسیم کل هزینه بر قیمت در هر توکن، نتیجه این است که مدل 80 میلیون توکن در هر پاسخ تولید کرده است، که بدون بهبودهای زیاد در مدل های زمینه طولانی امکان پذیر نیست. بنابراین، گمانه زنی در مورد معماری های جستجوی مختلف به وجود می آید. نکته کلیدی در برخی از جزئیات پست وبلاگ جایزه ARC نهفته است که در آن آمده است: تحت هدایت OpenAI، ما با دو سطح محاسباتی با مقیاس نمونه متغیر آزمایش کردیم: 6 (حالت کارآمد) و 1024 (حالت ناکارآمد، 172 برابر محاسبات قبلی). به گفته SemiAnalysis، o1 pro از روش خود سازگاری یا یک بررسی ساده consensus@N استفاده می کند تا با انتخاب رایج ترین پاسخ از چندین پاسخ موازی به یک پرس و جو، عملکرد را بهبود بخشد. در اینجا، مقیاس نمونه N ممکن است مربوط به مقدار consensus@N باشد، که نشان می دهد پیکربندی ارزیابی o3 نزدیک به پیکربندی o1 pro است که مشتریان می توانند از آن استفاده کنند، یعنی 6 برابر محاسبات و پیکربندی بسیار بالا با 1024 برابر محاسبات در هر سوال. این مقیاس استدلال برای مدت طولانی در دسترس کاربران معمولی پولی نخواهد بود. اکثر کاربران تنها با یک نسل تا consensus@10 روبرو خواهند شد، بسته به مشخصات نسخه "حرفه ای" مدل o1. با فرض اینکه قیمت هر میلیون توکن خروجی همچنان 60 دلار باشد، با تقسیم آن بر 1024 جریان، به این معنی است که مدل حدود 78000 توکن در هر پاسخ تولید می کند. در واقع، به نظر می رسد که o3 نیز از یک مدل پایه بزرگتر بهره می برد، زیرا بر اساس تمام محورهای محاسبات لگاریتمی x که OpenAI در پخش زنده نشان داد، هزینه محاسباتی o1 به طور قابل توجهی افزایش می یابد. با استفاده از یک مدل پایه بزرگتر، این اعداد کاملاً منطقی هستند و دلالت بر افزودن عنصر "جستجو" اضافی ندارند. داستان اصلی که پیشرفت یادگیری عمیق را در سال های اخیر به پیش برده است، یافتن یک حوزه بالقوه غنی و صعود مداوم بر روی آن بوده است. موج اول پیشرفت از پیش آموزش در مقیاس اینترنت حاصل شد. اکنون، OpenAI با گسترش آموزش یادگیری تقویتی و استدلال زمینه طولانی، یک جهت صعود جدید پیدا کرده است. با توجه به اینکه o3 تنها حدود سه ماه با انتشار o1 توسط OpenAI فاصله دارد، ساده ترین توضیح این است که از همان معماری و روش های آموزشی استفاده می کند، فقط در مقیاس بزرگتر. هیچ مدرکی مبنی بر اینکه o3 با افزودن جستجوی درختی، معماری استدلال را تغییر داده باشد وجود ندارد، همه ادعاها فقط شایعه هستند. قانون اصلی مقیاس بندی استدلال این است که نمونه برداری بیشتر از یک تولید تک جریانی می تواند منجر به بهبود عملکرد شود. سوال کلیدی این است که آیا مدل پایه o3 اوریون است (کد داخلی OpenAI، احتمالاً GPT-5)، یا اینکه مدل پایه جدید فقط در هنگام آموزش از اوریون بهره می برد. اگر مقیاس مدل پایه 2 تا 5 برابر افزایش یافته باشد، این داده ها با توجه به قیمت API گزارش شده از جایزه ARC کاملاً مطابق با انتظارات است. جزئیات خاص o3 هنوز نامشخص است. در نمودارهای منتشر شده توسط تیم ARC، مدل o3 با "(تنظیم شده)" حاشیه نویسی شده است، اما هنوز توضیحات مفصلی در مورد o3 وجود ندارد. با این حال، هنگامی که به روند پیشرفت توجه می کنیم، واضح است که مدل های سطح o1 برای مدت طولانی وجود خواهند داشت. در نهایت، برای حفظ تواضع، در اینجا یک مثال از جایزه ARC وجود دارد که o3 نتوانست آن را حل کند. بسیار ساده است. بدیهی است که هنوز راه زیادی در پیش داریم، اما شما باید هیجان زده باشید و منتظر باشید که واقعیت استفاده گسترده از این مدل ها زودتر از آنچه اکثر مردم انتظار دارند فرا رسد. فرض اینکه هوش مصنوعی به پیشرفت خود ادامه خواهد داد، امن ترین گزینه است.
2024: بازگشت RL
اوایل امروز، آنتروپیک ویدیویی با موضوع فرآیند ایجاد آنتروپیک منتشر کرد که در آن چندین بنیانگذار در این بحث شرکت داشتند. در میان آنها، یک جزئیات غیرمنتظره توسط داریو آمودی، بنیانگذار و مدیرعامل به اشتراک گذاشته شد: "... تمام دلیل مقیاس بندی این مدل ها این است که هوش آنها هنوز به اندازه کافی خوب نیست که به ما اجازه دهد RLHF (یادگیری تقویتی از طریق بازخورد انسانی) را بر اساس آنها انجام دهیم." داریو به عنوان یکی از بنیانگذاران مفهوم مدرن RLHF، احتمالاً از قبل به طور غریزی احساس کرده است که تمام پیشرفت های مربوط به فناوری تنظیم دقیق در شرف وقوع است. این دیدگاه در مورد پتانسیل RLHF گسترده تر و عمیق تر از درک اکثر دست اندرکاران است. امسال، بدون شک سالی است که یادگیری تقویتی (RL) و روش های مرتبط آن به عنوان هسته اصلی هوش مصنوعی دوباره تثبیت شده اند. روند نوشتن این مقاله این بود که خودم را متقاعد کنم که در سال 2025 یک مدل زبان مبتنی بر استدلال مشابه آموزش دهم. این احساس مانند این است که در سال 2024 برای شرکت های فناوری، پیش آموزش استاندارد به یک الزام اساسی در صنعت تبدیل شده است. قابل پیش بینی است که مدل های سبک o1 برای مدت طولانی در آینده به ابزار پیش فرض در جعبه ابزار هوش مصنوعی تبدیل خواهند شد. من بسیار مشتاقم که این دیدگاه جدید را در آغوش بگیرم و شخصاً در مورد عملکرد این آموزش مدل ها بیاموزم.