- Published on
Законът за плътността на големите модели - нова перспектива отвъд законите за мащабиране
Въведение в Закона за плътността на големите модели
Екип от университета Цинхуа, воден от професор Лиу Джиюан, представи нов подход към разбирането на развитието на големите езикови модели (LLM). Този подход е наречен "закон за плътността", който предлага, че плътността на възможностите на моделите се удвоява приблизително на всеки 100 дни. За разлика от традиционните закони за мащабиране, които се фокусират върху увеличаването на размера на моделите и обема на данните за обучение, този закон набляга на ефективността на параметрите.
Задълбочено Разглеждане на Закона за Плътността
Традиционните Закони за Мащабиране
Традиционно, производителността на моделите се подобрява чрез увеличаване на техния размер, изразен в брой параметри, и чрез разширяване на набора от данни за обучение. Този подход е известен като мащабиране. Въпреки че този метод е ефективен, той не отчита напълно ефективността на използване на параметрите.
Новият Закон за Плътността
Законът за плътността въвежда нов начин на мислене, фокусиран върху ефективното използване на параметрите. Той подчертава, че бързото подобряване на ефективността на моделите се дължи не само на увеличаване на размера, но и на по-доброто използване на съществуващите параметри.
Концепцията за Плътност на Възможностите
За да измери ефективността на параметрите, изследователският екип въвежда концепцията за "плътност на възможностите". Тя се определя като отношението на "ефективните параметри" към действителния брой параметри в модела.
- Ефективни Параметри: Това е минималният брой параметри, необходими на референтен модел, за да постигне същата производителност като целевия модел.
- Референтен Модел: Модел, използван като еталон за определяне на броя на ефективните параметри на други модели.
- Оценка на Загубите: Процес на определяне на връзката между параметрите на модела и загубите, използвайки серия от референтни модели.
- Оценка на Производителността: Процес на установяване на пълно съответствие между загубите и производителността, като се вземе предвид появата на нови възможности в моделите.
Математическо Изразяване на Закона за Плътността
Законът за плътността може да бъде изразен математически като:
ln(ρmax) = At + B
където:
- ρmax е максималната плътност на възможностите в момент t.
- A и B са константи, които определят темпа на растеж.
Този закон предполага, че производителността на най-съвременните модели може да бъде постигната с половината от параметрите на всеки 3.3 месеца (приблизително 100 дни).
Последици от Закона за Плътността
Намалени Разходи за Извод
Една от най-важните последици от закона за плътността е експоненциалното намаляване на разходите за извод на модели. Например, разходите за милион токени са намалели значително от GPT-3.5 до Gemini-1.5-Flash.
Ускорено Нарастване на Плътността на Възможностите
След пускането на ChatGPT, темпът на нарастване на плътността на възможностите се ускори. Това показва, че иновациите в архитектурите на модели и техниките за обучение допринасят за по-бързото подобряване на ефективността.
Сближаване на Закона на Мур и Закона за Плътността
Пресечната точка на нарастващата плътност на чиповете (закон на Мур) и плътността на възможностите на моделите (закон за плътността) показва потенциала за мощни AI на устройства. Това може да доведе до появата на по-интелигентни и по-ефективни локални AI модели.
Ограничения на Компресията на Модели
Интересно е, че техниките за компресиране на модели сами по себе си може да не подобрят плътността на възможностите. Всъщност повечето компресирани модели имат по-ниска плътност от оригиналните си аналози. Това показва, че ефективността не се постига само чрез намаляване на размера на модела, а чрез по-добро използване на параметрите.
Съкратени Жизнени Цикли на Модели
Бързото нарастване на плътността на възможностите означава, че ефективният живот на високопроизводителните модели става по-кратък, което води до кратък прозорец за рентабилност. Това налага необходимостта от постоянно усъвършенстване и бързо адаптиране към нови технологии.
По-Широк Контекст
Законът за плътността е част от по-широка тенденция, при която основните двигатели на ерата на AI - електричество, изчислителна мощност и интелигентност - преживяват бърз растеж на плътността.
- Плътност на Енергията на Батериите: Плътността на енергията на батериите се е учетворила през последните 20 години.
- Плътност на Транзисторите на Чиповете: Плътността на транзисторите на чиповете се удвоява на всеки 18 месеца (закон на Мур).
- Плътност на Възможностите на AI Моделите: Плътността на възможностите на AI моделите се удвоява на всеки 100 дни.
Тази тенденция предполага преход към по-ефективен AI, намалявайки търсенето на енергия и изчислителни ресурси. Очаква се възходът на периферните изчисления и локалните AI модели, което води до бъдеще, в което AI е навсякъде.
Допълнителни Точки
Изследователският екип използва 29 широко използвани големи модели с отворен код, за да анализира тенденцията на плътността на възможностите. Проучването подчертава, че разчитането единствено на алгоритми за компресиране на модели може да не е достатъчно за подобряване на плътността на възможностите на моделите.
Изследователската статия е достъпна на адрес:Densing Law of LLMs.