- Published on
آینده مدلهای بزرگ زبانی مقیاسپذیری هنوز تمام نشده است
مقدمه
در دنیای امروز، هوش مصنوعی به سرعت در حال پیشرفت است و مدلهای زبانی بزرگ (LLMs) نقش مهمی در این تحولات ایفا میکنند. این مدلها با تواناییهای شگفتانگیز خود در تولید متن، ترجمه زبانها، و انجام وظایف پیچیده، توجه بسیاری را به خود جلب کردهاند. یکی از موضوعات مهم در این زمینه، قانون مقیاسپذیری است که بیان میکند با افزایش اندازه مدل، دادههای آموزشی و زمان آموزش، عملکرد مدل بهبود مییابد. اما آیا این قانون همچنان معتبر است و تا کجا میتوان به این مقیاسپذیری ادامه داد؟
داریو آمودی، مدیرعامل شرکت آنتروپیک، در مصاحبهای اخیر به این موضوع پرداخته و دیدگاههای جالبی را مطرح کرده است. او معتقد است که قانون مقیاسپذیری هنوز به محدودیتهای خود نرسیده و با استفاده از روشهای جدید، میتوان بر چالشهای موجود غلبه کرد. در این مقاله، به بررسی دیدگاههای آمودی و سایر جنبههای مرتبط با توسعه مدلهای بزرگ زبانی خواهیم پرداخت.
ادامه قانون مقیاسپذیری
یکی از نگرانیهای اصلی در مورد مدلهای زبانی بزرگ، محدودیتهای داده است. با افزایش حجم مدلها، نیاز به دادههای آموزشی بیشتری نیز وجود دارد و این سوال مطرح میشود که آیا منابع داده کافی برای ادامه این روند وجود دارد؟ آمودی معتقد است که پاسخ این سوال مثبت است. او پیشنهاد میکند که با استفاده از دادههای مصنوعی و مدلهای استدلال، میتوان بر محدودیتهای داده غلبه کرد.
- دادههای مصنوعی: دادههای مصنوعی به دادههایی گفته میشود که توسط رایانه و با استفاده از الگوریتمهای خاص تولید میشوند. این دادهها میتوانند به عنوان جایگزینی برای دادههای واقعی در آموزش مدلها مورد استفاده قرار گیرند.
- مدلهای استدلال: مدلهای استدلال به مدلهایی گفته میشود که قادر به استدلال و انجام عملیات منطقی هستند. این مدلها میتوانند به تولید دادههای آموزشی با کیفیت بالاتر کمک کنند.
آمودی همچنین به این نکته اشاره میکند که مقیاسپذیری تنها به زبان محدود نمیشود و میتوان از آن در سایر حوزهها مانند تصاویر، ویدیوها و ریاضیات نیز استفاده کرد. این موضوع نشان میدهد که قانون مقیاسپذیری یک اصل کلی است که میتواند در زمینههای مختلف کاربرد داشته باشد.
بهبودهای مدل
در طول ده ماه گذشته، شاهد پیشرفتهای چشمگیری در قابلیتهای مدلهای هوش مصنوعی بودهایم. به عنوان مثال، عملکرد مدلها در بنچمارک SWE-bench از 3-4 درصد به 50 درصد افزایش یافته است. این پیشرفتها نشان میدهد که هنوز پتانسیل زیادی برای بهبود مدلها وجود دارد.
آمودی معتقد است که در آینده، هزینه پسآموزش (post-training) از هزینه پیشآموزش (pre-training) بیشتر خواهد شد. پسآموزش به فرایندی گفته میشود که پس از آموزش اولیه مدل، برای بهبود عملکرد آن انجام میشود. روشهای مبتنی بر انسان برای بهبود کیفیت مدلها مقیاسپذیر نیستند و نیاز به روشهای نظارتی مقیاسپذیرتری وجود دارد.
تفاوتهای مدل
مدلهای زبانی بزرگ تنها در بنچمارکها با هم تفاوت ندارند. ویژگیهای دیگری مانند ادب، صراحت، پاسخگویی و پیشفعالی نیز نقش مهمی در کیفیت مدلها ایفا میکنند. این ویژگیها ممکن است در بنچمارکها به خوبی اندازهگیری نشوند، اما در تعامل با کاربران اهمیت زیادی دارند.
آمودی همچنین به این نکته اشاره میکند که درک مدلها برای انسانها آسان نیست. مدلها برای انجام وظایف طراحی شدهاند و نه برای درک شدن توسط انسانها. برای درک بهتر مدلها، تعامل مستقیم با آنها ضروری است و صرف خواندن مقالات تحقیقاتی کافی نیست.
نقش RLHF
یادگیری تقویتی از بازخورد انسانی (RLHF) نقش مهمی در بهبود عملکرد مدلهای زبانی بزرگ ایفا میکند. RLHF به مدلها کمک میکند تا با انسانها بهتر ارتباط برقرار کنند، نه اینکه آنها را ذاتاً باهوشتر کند. RLHF میتواند محدودیتهای مدلها را برطرف کند، اما همه محدودیتها را نه.
آمودی معتقد است که روشهای مبتنی بر انسان برای بهبود کیفیت مدلها مقیاسپذیر نیستند و نیاز به روشهای نظارتی مقیاسپذیرتری وجود دارد. او به رویکرد هوش مصنوعی مشروطه (Constitutional AI) اشاره میکند که ابزاری برای بهبود مدلها، کاهش وابستگی به RLHF و افزایش بهرهوری از هر داده RLHF است.
درک کاربران
برخی از کاربران ممکن است احساس کنند که مدلها در حال "احمقتر شدن" هستند. آمودی معتقد است که این احساسات لزوماً اشتباه نیستند. این احساسات ممکن است ناشی از پیچیدگی مدلها و عوامل متعددی باشد که بر عملکرد آنها تأثیر میگذارند.
کنترل رفتار مدلها دشوار است و بین ویژگیهای مختلف آنها، مصالحهای وجود دارد. بازخورد کاربران برای درک رفتار مدلها بسیار مهم است، اما جمعآوری و تفسیر آن دشوار است.
توسعه و ویژگیهای مدل
شرکت آنتروپیک مدلهای Claude 3 را با اندازهها و قابلیتهای مختلف منتشر کرده است:
- Opus: قدرتمندترین مدل
- Sonnet: مدل میانرده
- Haiku: مدل سریع و مقرونبهصرفه
نام این مدلها از شعر الهام گرفته شده است. هر نسل جدید از مدلها هدفش بهبود تعادل بین عملکرد و هزینه است. فرایند آموزش مدل شامل پیشآموزش، پسآموزش و تست ایمنی است. دادههای ترجیحی از مدلهای قدیمیتر میتوانند برای آموزش مدلهای جدید استفاده شوند.
کدنویسی و IDEها
مدل Sonnet 3.5 پیشرفتهای چشمگیری در کدنویسی نشان داده است و میتواند در زمان مهندسان صرفهجویی کند. نرخ موفقیت این مدل در بنچمارک SWE-bench در 10 ماه از 3 درصد به 50 درصد افزایش یافته است. انتظار میرود که برنامهنویسی به دلیل ارتباط نزدیک با توسعه هوش مصنوعی به سرعت تغییر کند.
هوش مصنوعی میتواند کد را بنویسد، اجرا کند و تجزیه و تحلیل کند و یک سیستم حلقه بسته برای پیشرفت سریع ایجاد کند. انتظار میرود که هوش مصنوعی تا سال 2026 یا 2027 اکثر وظایف کدنویسی معمول را انجام دهد و به انسانها اجازه دهد تا بر طراحی و معماری سیستم سطح بالا تمرکز کنند.
IDEها پتانسیل زیادی برای بهبود دارند، اما آنتروپیک قصد ندارد IDE خود را توسعه دهد. آنها ترجیح میدهند API را برای دیگران فراهم کنند تا ابزار بسازند.
استفاده از کامپیوتر و ایمنی
قابلیت استفاده از کامپیوتر به مدلها اجازه میدهد تا اسکرینشاتها را تجزیه و تحلیل کنند و با کلیک کردن یا فشار دادن کلیدها، اقدامات را انجام دهند. توانایی استفاده از اسکرینشاتها نمونه خوبی از تعمیم است، جایی که یک مدل از پیش آموزش دیده قدرتمند میتواند به راحتی با وظایف جدید سازگار شود.
استفاده از کامپیوتر در ابتدا به دلیل نگرانیهای ایمنی به عنوان API منتشر میشود. استفاده ایمن و جلوگیری از سوء استفاده از این مدلهای قدرتمند بسیار مهم است. سیاست مقیاسپذیری مسئولانه (RSP) برای آزمایش مدلها برای خطرات احتمالی استفاده میشود. مدلها بر اساس قابلیتها و خطرات بالقوه خود در سطوح مختلف ASL دستهبندی میشوند.
در طول آموزش، از Sandboxing برای جلوگیری از تعامل مدلها با دنیای واقعی استفاده میشود. تفسیرپذیری مکانیسم برای درک و کنترل مدلها، به ویژه در سطوح بالاتر ASL، بسیار مهم است.
RLHF و رفتار مدل
هدف RLHF کمک به مدلها برای برقراری ارتباط بهتر با انسانها است، نه اینکه آنها را ذاتاً باهوشتر کند. RLHF میتواند برخی از محدودیتهای مدلها را برطرف کند، اما نه همه آنها را. انتظار میرود که هزینههای پسآموزش در آینده از هزینههای پیشآموزش بیشتر شود.
روشهای مبتنی بر انسان برای بهبود کیفیت مدلها مقیاسپذیر نیستند و نیاز به روشهای نظارتی مقیاسپذیرتری وجود دارد. درک کاربران از "احمقتر شدن" مدلها ممکن است به دلیل پیچیدگی مدلها و حساسیت آنها به درخواستها باشد. کنترل رفتار مدل دشوار است و بین ویژگیهای مختلف آنها، مصالحهای وجود دارد. بازخورد کاربران برای درک رفتار مدلها بسیار مهم است، اما جمعآوری و تفسیر آن دشوار است.
رقابت و مسیرهای آینده
آنتروپیک قصد دارد الگویی برای سایر شرکتها باشد تا از آن پیروی کنند و توسعه مسئولانه هوش مصنوعی را ترویج دهد. تفسیرپذیری مکانیسم یک حوزه کلیدی تحقیقات برای آنتروپیک است که هدف آن درک نحوه عملکرد داخلی مدلها است. مدلها برای انجام وظایف طراحی شدهاند و نه برای درک شدن توسط انسانها.
تراکم بالایی از استعدادهای برتر برای موفقیت بسیار مهم است و نه فقط یک تیم بزرگ. ذهن باز و تمایل به آزمایش، ویژگیهای مهمی برای محققان و مهندسان هوش مصنوعی است. تعامل مستقیم با مدلها برای درک آنها بسیار مهم است.
هوش مصنوعی مشروطه روشی است که به مدلها اجازه میدهد تا بر اساس مجموعهای از اصول، خود را آموزش دهند. مفهوم Model Spec، مشابه هوش مصنوعی مشروطه، اهداف و رفتارهای مدل را تعریف میکند. سوء استفاده فاجعه بار یک نگرانی عمده است که شامل سوء استفاده از مدلها در زمینههایی مانند امنیت سایبری و سلاحهای بیولوژیکی است.
با کسب استقلال بیشتر مدلها، اطمینان از همسویی آنها با اهداف انسانی مهم است. سطوح ASL مدلها را بر اساس قابلیتها و خطرات بالقوه آنها دستهبندی میکنند. جدول زمانی برای دستیابی به AGI نامشخص است، اما ممکن است در چند سال آینده باشد.
AGI پتانسیل ایجاد انقلابی در زمینههای زیستشناسی و پزشکی را با تسریع در تحقیق و توسعه دارد. در مراحل اولیه، هوش مصنوعی به عنوان یک دستیار تحقیقاتی عمل میکند و به دانشمندان در آزمایشها و تجزیه و تحلیل دادهها کمک میکند. در حالی که هوش مصنوعی پتانسیل افزایش قابل توجهی در بهرهوری را دارد، چالشهایی نیز در رابطه با ساختارهای سازمانی و کندی پذیرش فناوریهای جدید وجود دارد.