Published on

آینده مدل‌های بزرگ زبانی مقیاس‌پذیری هنوز تمام نشده است

نویسندگان
  • avatar
    نام
    Ajax
    Twitter

مقدمه

در دنیای امروز، هوش مصنوعی به سرعت در حال پیشرفت است و مدل‌های زبانی بزرگ (LLMs) نقش مهمی در این تحولات ایفا می‌کنند. این مدل‌ها با توانایی‌های شگفت‌انگیز خود در تولید متن، ترجمه زبان‌ها، و انجام وظایف پیچیده، توجه بسیاری را به خود جلب کرده‌اند. یکی از موضوعات مهم در این زمینه، قانون مقیاس‌پذیری است که بیان می‌کند با افزایش اندازه مدل، داده‌های آموزشی و زمان آموزش، عملکرد مدل بهبود می‌یابد. اما آیا این قانون همچنان معتبر است و تا کجا می‌توان به این مقیاس‌پذیری ادامه داد؟

داریو آمودی، مدیرعامل شرکت آنتروپیک، در مصاحبه‌ای اخیر به این موضوع پرداخته و دیدگاه‌های جالبی را مطرح کرده است. او معتقد است که قانون مقیاس‌پذیری هنوز به محدودیت‌های خود نرسیده و با استفاده از روش‌های جدید، می‌توان بر چالش‌های موجود غلبه کرد. در این مقاله، به بررسی دیدگاه‌های آمودی و سایر جنبه‌های مرتبط با توسعه مدل‌های بزرگ زبانی خواهیم پرداخت.

ادامه قانون مقیاس‌پذیری

یکی از نگرانی‌های اصلی در مورد مدل‌های زبانی بزرگ، محدودیت‌های داده است. با افزایش حجم مدل‌ها، نیاز به داده‌های آموزشی بیشتری نیز وجود دارد و این سوال مطرح می‌شود که آیا منابع داده کافی برای ادامه این روند وجود دارد؟ آمودی معتقد است که پاسخ این سوال مثبت است. او پیشنهاد می‌کند که با استفاده از داده‌های مصنوعی و مدل‌های استدلال، می‌توان بر محدودیت‌های داده غلبه کرد.

  • داده‌های مصنوعی: داده‌های مصنوعی به داده‌هایی گفته می‌شود که توسط رایانه و با استفاده از الگوریتم‌های خاص تولید می‌شوند. این داده‌ها می‌توانند به عنوان جایگزینی برای داده‌های واقعی در آموزش مدل‌ها مورد استفاده قرار گیرند.
  • مدل‌های استدلال: مدل‌های استدلال به مدل‌هایی گفته می‌شود که قادر به استدلال و انجام عملیات منطقی هستند. این مدل‌ها می‌توانند به تولید داده‌های آموزشی با کیفیت بالاتر کمک کنند.

آمودی همچنین به این نکته اشاره می‌کند که مقیاس‌پذیری تنها به زبان محدود نمی‌شود و می‌توان از آن در سایر حوزه‌ها مانند تصاویر، ویدیوها و ریاضیات نیز استفاده کرد. این موضوع نشان می‌دهد که قانون مقیاس‌پذیری یک اصل کلی است که می‌تواند در زمینه‌های مختلف کاربرد داشته باشد.

بهبودهای مدل

در طول ده ماه گذشته، شاهد پیشرفت‌های چشمگیری در قابلیت‌های مدل‌های هوش مصنوعی بوده‌ایم. به عنوان مثال، عملکرد مدل‌ها در بنچمارک SWE-bench از 3-4 درصد به 50 درصد افزایش یافته است. این پیشرفت‌ها نشان می‌دهد که هنوز پتانسیل زیادی برای بهبود مدل‌ها وجود دارد.

آمودی معتقد است که در آینده، هزینه پس‌آموزش (post-training) از هزینه پیش‌آموزش (pre-training) بیشتر خواهد شد. پس‌آموزش به فرایندی گفته می‌شود که پس از آموزش اولیه مدل، برای بهبود عملکرد آن انجام می‌شود. روش‌های مبتنی بر انسان برای بهبود کیفیت مدل‌ها مقیاس‌پذیر نیستند و نیاز به روش‌های نظارتی مقیاس‌پذیرتری وجود دارد.

تفاوت‌های مدل

مدل‌های زبانی بزرگ تنها در بنچمارک‌ها با هم تفاوت ندارند. ویژگی‌های دیگری مانند ادب، صراحت، پاسخگویی و پیش‌فعالی نیز نقش مهمی در کیفیت مدل‌ها ایفا می‌کنند. این ویژگی‌ها ممکن است در بنچمارک‌ها به خوبی اندازه‌گیری نشوند، اما در تعامل با کاربران اهمیت زیادی دارند.

آمودی همچنین به این نکته اشاره می‌کند که درک مدل‌ها برای انسان‌ها آسان نیست. مدل‌ها برای انجام وظایف طراحی شده‌اند و نه برای درک شدن توسط انسان‌ها. برای درک بهتر مدل‌ها، تعامل مستقیم با آن‌ها ضروری است و صرف خواندن مقالات تحقیقاتی کافی نیست.

نقش RLHF

یادگیری تقویتی از بازخورد انسانی (RLHF) نقش مهمی در بهبود عملکرد مدل‌های زبانی بزرگ ایفا می‌کند. RLHF به مدل‌ها کمک می‌کند تا با انسان‌ها بهتر ارتباط برقرار کنند، نه اینکه آن‌ها را ذاتاً باهوش‌تر کند. RLHF می‌تواند محدودیت‌های مدل‌ها را برطرف کند، اما همه محدودیت‌ها را نه.

آمودی معتقد است که روش‌های مبتنی بر انسان برای بهبود کیفیت مدل‌ها مقیاس‌پذیر نیستند و نیاز به روش‌های نظارتی مقیاس‌پذیرتری وجود دارد. او به رویکرد هوش مصنوعی مشروطه (Constitutional AI) اشاره می‌کند که ابزاری برای بهبود مدل‌ها، کاهش وابستگی به RLHF و افزایش بهره‌وری از هر داده RLHF است.

درک کاربران

برخی از کاربران ممکن است احساس کنند که مدل‌ها در حال "احمق‌تر شدن" هستند. آمودی معتقد است که این احساسات لزوماً اشتباه نیستند. این احساسات ممکن است ناشی از پیچیدگی مدل‌ها و عوامل متعددی باشد که بر عملکرد آن‌ها تأثیر می‌گذارند.

کنترل رفتار مدل‌ها دشوار است و بین ویژگی‌های مختلف آن‌ها، مصالحه‌ای وجود دارد. بازخورد کاربران برای درک رفتار مدل‌ها بسیار مهم است، اما جمع‌آوری و تفسیر آن دشوار است.

توسعه و ویژگی‌های مدل

شرکت آنتروپیک مدل‌های Claude 3 را با اندازه‌ها و قابلیت‌های مختلف منتشر کرده است:

  • Opus: قدرتمندترین مدل
  • Sonnet: مدل میان‌رده
  • Haiku: مدل سریع و مقرون‌به‌صرفه

نام این مدل‌ها از شعر الهام گرفته شده است. هر نسل جدید از مدل‌ها هدفش بهبود تعادل بین عملکرد و هزینه است. فرایند آموزش مدل شامل پیش‌آموزش، پس‌آموزش و تست ایمنی است. داده‌های ترجیحی از مدل‌های قدیمی‌تر می‌توانند برای آموزش مدل‌های جدید استفاده شوند.

کدنویسی و IDEها

مدل Sonnet 3.5 پیشرفت‌های چشمگیری در کدنویسی نشان داده است و می‌تواند در زمان مهندسان صرفه‌جویی کند. نرخ موفقیت این مدل در بنچمارک SWE-bench در 10 ماه از 3 درصد به 50 درصد افزایش یافته است. انتظار می‌رود که برنامه‌نویسی به دلیل ارتباط نزدیک با توسعه هوش مصنوعی به سرعت تغییر کند.

هوش مصنوعی می‌تواند کد را بنویسد، اجرا کند و تجزیه و تحلیل کند و یک سیستم حلقه بسته برای پیشرفت سریع ایجاد کند. انتظار می‌رود که هوش مصنوعی تا سال 2026 یا 2027 اکثر وظایف کدنویسی معمول را انجام دهد و به انسان‌ها اجازه دهد تا بر طراحی و معماری سیستم سطح بالا تمرکز کنند.

IDEها پتانسیل زیادی برای بهبود دارند، اما آنتروپیک قصد ندارد IDE خود را توسعه دهد. آن‌ها ترجیح می‌دهند API را برای دیگران فراهم کنند تا ابزار بسازند.

استفاده از کامپیوتر و ایمنی

قابلیت استفاده از کامپیوتر به مدل‌ها اجازه می‌دهد تا اسکرین‌شات‌ها را تجزیه و تحلیل کنند و با کلیک کردن یا فشار دادن کلیدها، اقدامات را انجام دهند. توانایی استفاده از اسکرین‌شات‌ها نمونه خوبی از تعمیم است، جایی که یک مدل از پیش آموزش دیده قدرتمند می‌تواند به راحتی با وظایف جدید سازگار شود.

استفاده از کامپیوتر در ابتدا به دلیل نگرانی‌های ایمنی به عنوان API منتشر می‌شود. استفاده ایمن و جلوگیری از سوء استفاده از این مدل‌های قدرتمند بسیار مهم است. سیاست مقیاس‌پذیری مسئولانه (RSP) برای آزمایش مدل‌ها برای خطرات احتمالی استفاده می‌شود. مدل‌ها بر اساس قابلیت‌ها و خطرات بالقوه خود در سطوح مختلف ASL دسته‌بندی می‌شوند.

در طول آموزش، از Sandboxing برای جلوگیری از تعامل مدل‌ها با دنیای واقعی استفاده می‌شود. تفسیرپذیری مکانیسم برای درک و کنترل مدل‌ها، به ویژه در سطوح بالاتر ASL، بسیار مهم است.

RLHF و رفتار مدل

هدف RLHF کمک به مدل‌ها برای برقراری ارتباط بهتر با انسان‌ها است، نه اینکه آن‌ها را ذاتاً باهوش‌تر کند. RLHF می‌تواند برخی از محدودیت‌های مدل‌ها را برطرف کند، اما نه همه آن‌ها را. انتظار می‌رود که هزینه‌های پس‌آموزش در آینده از هزینه‌های پیش‌آموزش بیشتر شود.

روش‌های مبتنی بر انسان برای بهبود کیفیت مدل‌ها مقیاس‌پذیر نیستند و نیاز به روش‌های نظارتی مقیاس‌پذیرتری وجود دارد. درک کاربران از "احمق‌تر شدن" مدل‌ها ممکن است به دلیل پیچیدگی مدل‌ها و حساسیت آن‌ها به درخواست‌ها باشد. کنترل رفتار مدل دشوار است و بین ویژگی‌های مختلف آن‌ها، مصالحه‌ای وجود دارد. بازخورد کاربران برای درک رفتار مدل‌ها بسیار مهم است، اما جمع‌آوری و تفسیر آن دشوار است.

رقابت و مسیرهای آینده

آنتروپیک قصد دارد الگویی برای سایر شرکت‌ها باشد تا از آن پیروی کنند و توسعه مسئولانه هوش مصنوعی را ترویج دهد. تفسیرپذیری مکانیسم یک حوزه کلیدی تحقیقات برای آنتروپیک است که هدف آن درک نحوه عملکرد داخلی مدل‌ها است. مدل‌ها برای انجام وظایف طراحی شده‌اند و نه برای درک شدن توسط انسان‌ها.

تراکم بالایی از استعدادهای برتر برای موفقیت بسیار مهم است و نه فقط یک تیم بزرگ. ذهن باز و تمایل به آزمایش، ویژگی‌های مهمی برای محققان و مهندسان هوش مصنوعی است. تعامل مستقیم با مدل‌ها برای درک آن‌ها بسیار مهم است.

هوش مصنوعی مشروطه روشی است که به مدل‌ها اجازه می‌دهد تا بر اساس مجموعه‌ای از اصول، خود را آموزش دهند. مفهوم Model Spec، مشابه هوش مصنوعی مشروطه، اهداف و رفتارهای مدل را تعریف می‌کند. سوء استفاده فاجعه بار یک نگرانی عمده است که شامل سوء استفاده از مدل‌ها در زمینه‌هایی مانند امنیت سایبری و سلاح‌های بیولوژیکی است.

با کسب استقلال بیشتر مدل‌ها، اطمینان از همسویی آن‌ها با اهداف انسانی مهم است. سطوح ASL مدل‌ها را بر اساس قابلیت‌ها و خطرات بالقوه آن‌ها دسته‌بندی می‌کنند. جدول زمانی برای دستیابی به AGI نامشخص است، اما ممکن است در چند سال آینده باشد.

AGI پتانسیل ایجاد انقلابی در زمینه‌های زیست‌شناسی و پزشکی را با تسریع در تحقیق و توسعه دارد. در مراحل اولیه، هوش مصنوعی به عنوان یک دستیار تحقیقاتی عمل می‌کند و به دانشمندان در آزمایش‌ها و تجزیه و تحلیل داده‌ها کمک می‌کند. در حالی که هوش مصنوعی پتانسیل افزایش قابل توجهی در بهره‌وری را دارد، چالش‌هایی نیز در رابطه با ساختارهای سازمانی و کندی پذیرش فناوری‌های جدید وجود دارد.