Published on

o1 مدل چت نیست گزارش ساز است

نویسندگان
  • avatar
    نام
    Ajax
    Twitter

o1: نه یک مدل چت معمولی

مقاله در مورد هیاهوی اخیر پیرامون مدل o1 بحث می کند و روشن می سازد که با وجود اینکه بسیاری از کاربران در ابتدا با آن به عنوان یک مدل چت رفتار می کردند، به عنوان یک مدل چت طراحی نشده است. این افشاگری پس از یک پست وبلاگ با عنوان "o1 یک مدل چت نیست (و این نکته است)" که مورد توجه قرار گرفت، حتی توجه مدیر عامل OpenAI، سم آلتمن و رئیس جمهور گرگ براکمن را به خود جلب کرد.

تصورات غلط و سرخوردگی ها

بن هیلک، که قبلاً مهندس نرم افزار در SpaceX و طراح تعامل برای Apple VisionOS بود، تجربه ناامیدکننده خود را با o1 به اشتراک گذاشت. او پاسخ های آن را کند، اغلب متناقض و پر از نمودارهای معماری ناخواسته و لیست مزایا و معایب یافت. واکنش اولیه هیلک این بود که o1 صرفاً "آشغال" است.

  • هیلک زمان انتظار 5 دقیقه ای را برای پاسخ ها تجربه کرد.
  • پاسخ ها اغلب خود متناقض و بی معنی بودند.
  • مدل نمودارها و لیست های ناخواسته ارائه می کرد.

ناامیدی او منجر به پست های رسانه های اجتماعی شد که ناامیدی خود را ابراز می کرد و بیان می کرد که o1 pro "واقعاً بد" است و خروجی آن "تقریباً بی معنی" است. او مثالی از درخواست توصیه برای بازسازی داد، فقط برای اینکه مدل ادغام فایل ها را پیشنهاد کند، کدی ارائه دهد که فایل ها را ادغام نمی کند و سپس به نتیجه گیری های نامربوط می رسد.

تغییر در دیدگاه

تجربه هیلک جهانی نبود. برخی از کاربران o1 را بسیار موثر یافتند که منجر به بحث های بیشتر شد. از طریق این تعاملات، هیلک به اشتباه خود پی برد: او از o1 به عنوان یک مدل چت استفاده می کرد در حالی که قرار نبود به عنوان یک مدل چت عمل کند.

این تغییر دیدگاه مورد استقبال آلتمن قرار گرفت، که خاطرنشان کرد "جالب است که شاهد تغییر نگرش مردم با یادگیری نحوه استفاده از o1 (از جمله نسخه حرفه ای) باشیم." گرگ براکمن نیز با اشاره به اینکه o1 نوع متفاوتی از مدل است و برای عملکرد بهینه به رویکرد متفاوتی نیاز دارد، این موضوع را تکرار کرد.

o1: یک گزارش ساز

این مقاله پیشنهاد می کند که به جای یک مدل چت، o1 باید به عنوان یک "گزارش ساز" دیده شود. با توجه به زمینه کافی و الزامات خروجی واضح، o1 می تواند به طور موثر راه حل ارائه دهد. نکته کلیدی در نحوه استفاده از مدل است.

از درخواست ها به خلاصه ها

هنگام استفاده از مدل‌های چت معمولی، کاربران اغلب با سؤالات ساده شروع می‌کنند و در صورت نیاز، زمینه را اضافه می‌کنند و در تعاملات رفت و برگشتی تکراری شرکت می‌کنند. با این حال، o1 به دنبال زمینه اضافی نیست. در عوض، کاربران باید زمینه زیادی را از قبل ارائه دهند، که به عنوان "تن" اطلاعات یا حدود ده برابر زمینه ای که برای یک درخواست استاندارد استفاده می کنید، توصیف می شود.

  • تمام جزئیات راه حل های امتحان شده را ارائه دهید.
  • شامل تخلیه کامل طرحواره پایگاه داده باشد.
  • کسب و کار، مقیاس و اصطلاحات خاص شرکت را توضیح دهید.

توصیه می شود با o1 مانند یک کارمند جدید رفتار شود و تمام اطلاعات لازم را از ابتدا ارائه دهید.

تمرکز بر خروجی مورد نظر

پس از ارائه زمینه گسترده، کاربران باید خروجی مورد نظر را به وضوح تعریف کنند. بر خلاف سایر مدل‌ها که کاربران ممکن است شخصیت یا فرآیند فکری را مشخص کنند، با o1، شما باید فقط بر "چه چیزی" که می‌خواهید تمرکز کنید، نه "چگونه" مدل باید آن را انجام دهد. این به o1 اجازه می دهد تا به طور مستقل مراحل مورد نیاز را برنامه ریزی و اجرا کند، که منجر به نتایج سریعتر و کارآمدتر می شود.

نقاط قوت و ضعف o1

o1 در چندین زمینه برتری دارد:

  • پردازش کل فایل ها: می تواند بلوک های کد بزرگ و زمینه های گسترده را مدیریت کند و اغلب کل فایل ها را با حداقل خطا تکمیل می کند.
  • کاهش توهمات: o1 در زمینه هایی مانند زبان های پرس و جو سفارشی (به عنوان مثال، ClickHouse و New Relic) دقیق است، در حالی که سایر مدل ها ممکن است نحو را با هم مخلوط کنند.
  • تشخیص پزشکی: o1 می تواند بر اساس تصاویر و توضیحات، تشخیص های اولیه شگفت انگیزی دقیق ارائه دهد.
  • توضیح مفاهیم: در توضیح مفاهیم پیچیده مهندسی از طریق مثال ها مهارت دارد.
  • تولید طرح های معماری: o1 می تواند چندین طرح ایجاد کند، آنها را مقایسه کند و مزایا و معایب را فهرست کند.
  • ارزیابی: به عنوان ابزاری موثر برای ارزیابی نتایج نویدبخش است.

با این حال، o1 نیز محدودیت هایی دارد:

  • نوشتن در سبک های خاص: تمایل دارد گزارش ها را به سبک آکادمیک یا شرکتی تولید کند و با تطبیق با لحن های خاص مشکل دارد.
  • ساختن کل برنامه ها: در حالی که در تولید کل فایل ها مهارت دارد، نمی تواند یک برنامه SaaS کامل را از طریق تکرار بسازد. با این حال، می تواند کل ویژگی ها، به ویژه عملکردهای فرانت اند یا بک اند ساده را تکمیل کند.

اهمیت تاخیر

این مقاله خاطرنشان می کند که تاخیر اساساً درک ما از محصولات را تغییر می دهد و مثال هایی مانند ایمیل در مقابل پیامک و پیام های صوتی در مقابل تماس های تلفنی را ذکر می کند.

هیلک o1 را به دلیل تاخیر در پاسخ هایش، بیشتر شبیه ایمیل می داند تا یک مدل چت. این تاخیر امکان انواع جدیدی از محصولات را فراهم می کند که از هوش پس زمینه با تأخیر بالا و طولانی مدت بهره می برند. سپس این سوال مطرح می شود: مردم حاضرند برای چه وظایفی 5 دقیقه، یک ساعت، یک روز یا حتی 3-5 روز کاری صبر کنند؟

توجه به این نکته مهم است که o1-preview و o1-mini از جریان پشتیبانی می کنند، اما نه تولید ساختاریافته یا درخواست های سیستمی، در حالی که o1 از تولید ساختاریافته و درخواست های سیستمی پشتیبانی می کند، اما نه جریان. درک این تفاوت ها برای توسعه دهندگان هنگام طراحی محصولات در سال 2025 بسیار مهم خواهد بود.