Published on

o1 ليس نموذج دردشة بل مولد تقارير

المؤلفون
  • avatar
    الاسم
    Ajax
    Twitter

o1: ليس نموذج دردشة نموذجي

يناقش المقال الضجة الأخيرة حول نموذج o1، موضحًا أنه ليس مصممًا كنموذج دردشة، على الرغم من أن العديد من المستخدمين تعاملوا معه في البداية على هذا النحو. جاء هذا الكشف بعد أن اكتسب منشور مدونة بعنوان "o1 ليس نموذج دردشة (وهذا هو المغزى)" زخمًا، حتى أنه لفت انتباه الرئيس التنفيذي لشركة OpenAI سام ألتمان والرئيس جريج بروكمان.

المفاهيم الخاطئة والإحباطات

شارك بن هيلاك، وهو مهندس برمجيات سابق في سبيس إكس ومصمم تفاعل في Apple VisionOS، تجربته المحبطة مع o1. وجد أن استجاباته بطيئة، وغالبًا ما تكون متناقضة، ومليئة بمخططات معمارية غير مرغوب فيها وقوائم إيجابيات وسلبيات. كان رد فعل هيلاك الأولي هو أن o1 كان ببساطة "قمامة".

  • عانى هيلاك من فترات انتظار تصل إلى 5 دقائق للحصول على الردود.
  • كانت الردود غالبًا ما تكون متناقضة وغير منطقية.
  • قدم النموذج مخططات وقوائم غير مطلوبة.

أدى إحباطه إلى منشورات على وسائل التواصل الاجتماعي تعبر عن خيبة أمله، مشيرًا إلى أن o1 pro كان "سيئًا حقًا"، وأن ناتجه كان "هراء تقريبًا". وأعطى مثالاً على طلب نصيحة حول إعادة الهيكلة، ليقترح النموذج دمج الملفات، وتقديم رمز لم يقم بدمج الملفات، ثم الانتقال إلى استنتاجات غير ذات صلة.

تحول في المنظور

لم تكن تجربة هيلاك عالمية. وجد بعض المستخدمين أن o1 فعال للغاية، مما أدى إلى مزيد من المناقشات. من خلال هذه التفاعلات، أدرك هيلاك خطأه: كان يستخدم o1 كنموذج دردشة عندما لم يكن من المفترض أن يعمل كواحد.

وقد رحب ألتمان بهذا التحول في المنظور، مشيرًا إلى أنه "من المثير للاهتمام مشاهدة تغير مواقف الناس وهم يتعلمون كيفية استخدام o1 (بما في ذلك الإصدار الاحترافي)". وردد جريج بروكمان ذلك بالإشارة إلى أن o1 هو نوع مختلف من النماذج ويتطلب نهجًا مختلفًا لتحقيق الأداء الأمثل.

o1: مولد تقارير

يقترح المقال أنه بدلاً من نموذج دردشة، يجب اعتبار o1 "مولد تقارير". بالنظر إلى السياق الكافي ومتطلبات الإخراج الواضحة، يمكن لـ o1 تقديم الحلول بفعالية. يكمن المفتاح في كيفية استخدام النموذج.

من المطالبات إلى الملخصات

عند استخدام نماذج الدردشة النموذجية، غالبًا ما يبدأ المستخدمون بأسئلة بسيطة ويضيفون السياق حسب الحاجة، وينخرطون في تفاعلات متكررة ذهابًا وإيابًا. ومع ذلك، لا يبحث o1 عن سياق إضافي. بدلاً من ذلك، يحتاج المستخدمون إلى تقديم الكثير من السياق مقدمًا، ووصفه بأنه "طن" من المعلومات، أو حوالي عشرة أضعاف السياق الذي تستخدمه لمطالبة قياسية.

  • قدم جميع تفاصيل الحلول التي تمت تجربتها.
  • قم بتضمين تفريغات كاملة لمخطط قاعدة البيانات.
  • اشرح الأعمال التجارية الخاصة بالشركة وحجمها ومصطلحاتها.

يوصى بالتعامل مع o1 كموظف جديد، وتوفير جميع المعلومات الضرورية من البداية.

التركيز على الإخراج المطلوب

بعد توفير سياق واسع، يجب على المستخدمين تحديد الإخراج المطلوب بوضوح. على عكس النماذج الأخرى حيث قد يحدد المستخدمون الشخصية أو عملية التفكير، مع o1، يجب أن تركز فقط على "ماذا" تريد، وليس "كيف" يجب أن يفعل النموذج ذلك. يتيح ذلك لـ o1 التخطيط والتنفيذ بشكل مستقل للخطوات المطلوبة، مما يؤدي إلى نتائج أسرع وأكثر كفاءة.

نقاط القوة والضعف في o1

يتفوق o1 في عدة مجالات:

  • معالجة الملفات بأكملها: يمكنه التعامل مع كتل كبيرة من التعليمات البرمجية وسياق واسع، وغالبًا ما يكمل الملفات بأكملها بأقل قدر من الأخطاء.
  • تقليل الهلوسة: o1 دقيق في مجالات مثل لغات الاستعلام المخصصة (مثل ClickHouse و New Relic)، بينما قد تخلط النماذج الأخرى بين بناء الجملة.
  • التشخيص الطبي: يمكن لـ o1 تقديم تشخيصات أولية دقيقة بشكل مدهش بناءً على الصور والأوصاف.
  • شرح المفاهيم: إنه ماهر في شرح المفاهيم الهندسية المعقدة من خلال الأمثلة.
  • إنشاء الخطط المعمارية: يمكن لـ o1 إنشاء خطط متعددة ومقارنتها وسرد الإيجابيات والسلبيات.
  • التقييم: يُظهر وعدًا كأداة فعالة لتقييم النتائج.

ومع ذلك، فإن o1 لديه أيضًا قيود:

  • الكتابة بأنماط محددة: يميل إلى إنتاج التقارير بأسلوب أكاديمي أو مؤسسي ويكافح للتكيف مع نغمات محددة.
  • بناء التطبيقات بأكملها: على الرغم من كفاءته في إنشاء ملفات كاملة، إلا أنه لا يمكنه بناء تطبيق SaaS كامل من خلال التكرار. ومع ذلك، يمكنه إكمال ميزات كاملة، خاصة الوظائف الأمامية أو الخلفية البسيطة.

أهمية التأخير

يشير المقال إلى أن التأخير يغير بشكل أساسي تصورنا للمنتجات، مستشهداً بأمثلة مثل البريد الإلكتروني مقابل الرسائل النصية، والرسائل الصوتية مقابل المكالمات الهاتفية. يشبه هيلاك o1 بالبريد الإلكتروني بدلاً من نموذج الدردشة، بسبب التأخير في استجاباته. يتيح هذا التأخير أنواعًا جديدة من المنتجات التي تستفيد من الذكاء عالي الكمون وطويل الأمد. يصبح السؤال إذن: ما هي المهام التي يرغب الأشخاص في انتظارها لمدة 5 دقائق أو ساعة أو يوم أو حتى 3-5 أيام عمل؟

من المهم ملاحظة أن o1-preview و o1-mini يدعمان البث المباشر ولكن ليس الإنشاء المنظم أو مطالبات النظام، بينما يدعم o1 الإنشاء المنظم ومطالبات النظام ولكن ليس البث المباشر. سيكون فهم هذه الاختلافات أمرًا بالغ الأهمية للمطورين عند تصميم المنتجات في عام 2025.