Published on

Kimi k1.5: Нов етап в развитието на AI, съперничещ на OpenAI o1

Автори
  • avatar
    Име
    Ajax
    Twitter

Въведение в Kimi k1.5

В сферата на изкуствения интелект (AI) се наблюдава значителен скок с представянето на мултимодалния модел Kimi k1.5 от Moonshot AI. Този новаторски модел демонстрира нива на производителност, които се конкурират с пълната версия o1 на OpenAI, постижение, което досега не е било постигано от никой друг субект извън OpenAI. Това развитие бележи нова глава в стремежа към усъвършенствани AI възможности, демонстрирайки потенциала на местните иновации в лицето на глобалната конкуренция.

Изключителни възможности на Kimi k1.5

Моделът Kimi k1.5 се отличава със своите всеобхватни способности в различни области, включително математика, кодиране и мултимодално разсъждение. Неговата производителност в тези области не само е сравнима с пълната версия o1, но в някои аспекти я надминава. По-специално, вариантът kimi-k1.5-short се очертава като най-съвременен (SOTA) модел с кратка верига на мисълта (CoT), превъзхождайки GPT-4o и Claude 3.5 Sonnet с изумителните 550%. Това значително постижение подчертава изключителните възможности на модела и неговия потенциал да предефинира еталоните за AI производителност.

Прозрачност и сътрудничество

Постижението на Moonshot AI не е просто технически крайъгълен камък, а свидетелство за прозрачността и духа на сътрудничество, които често липсват в конкурентния AI пейзаж. Публикувайки своя технически доклад, Moonshot AI кани по-широката технологична общност да проучи, да се поучи и да допринесе за тяхната работа. Този ход подчертава тяхното убеждение, че пътуването към изкуствен общ интелект (AGI) е колективно начинание, изискващо участието на разнообразни таланти и перспективи.

SOTA статус на Kimi k1.5

Изчерпателното тестване на модела Kimi k1.5 разкрива неговия SOTA статус в няколко ключови области. В режим long-CoT той съответства на производителността на официалното издание на OpenAI o1 в математиката, кодирането и мултимодалното разсъждение. Неговите резултати на бенчмаркове като AIME (77.5), MATH 500 (96.2), Codeforces (94-ти персентил) и MathVista (74.9) са показателни за неговата мощ. Това постижение бележи първия случай, в който компания извън OpenAI достига пълното ниво на производителност o1.

Освен това, в режим short-CoT, моделът Kimi k1.5 демонстрира глобална SOTA производителност, значително надминавайки GPT-4o и Claude 3.5 Sonnet. Неговите резултати на AIME (60.8), MATH500 (94.6) и LiveCodeBench (47.3) са доказателство за неговите изключителни възможности в краткото разсъждение с верига на мисълта. Тези резултати не са просто числа; те представляват промяна на парадигмата във възможностите на мултимодалните AI модели.

Иновативен подход към развитието

Разработването на модела Kimi k1.5 не е било случайност, а резултат от целенасочен и иновативен подход. Екипът на Moonshot AI осъзна, че простото увеличаване на параметрите по време на предварителното обучение няма да даде желаните резултати. Те се насочиха към последващо обучение, базирано на обучение с подсилване, като ключова област за подобрение. Този подход позволява на модела да разшири своите данни за обучение чрез изследване, базирано на награди, като по този начин мащабира своите изчислителни възможности.

Технически детайли на обучението

Техническият доклад описва подробно проучването на екипа на техники за обучение с подсилване (RL), мултимодални рецепти за данни и оптимизация на инфраструктурата. Тяхната RL рамка е едновременно проста и ефективна, избягвайки по-сложни техники като търсене на дърво на Монте Карло и функции на стойност. Те също така въведоха техниката long2short, която използва модели Long-CoT за подобряване на производителността на модели Short-CoT.

Два критични елемента са в основата на RL рамката на екипа: мащабиране на дълъг контекст и подобрена оптимизация на политиката. Чрез мащабиране на контекстното прозореца до 128k, те наблюдават непрекъснато подобрение в производителността на модела. Те също така използват частично разгръщане за подобряване на ефективността на обучението, като използват повторно стари траектории за вземане на нови. Екипът също така изведе формула за обучение с подсилване с long-CoT, използвайки вариант на онлайн огледално спускане за стабилна оптимизация на политиката.

Техниката long2short

Техниката long2short включва няколко метода, включително сливане на модели, най-кратко отхвърляне на извадки, DPO и long2short RL. Сливането на модели комбинира модели long-CoT и short-CoT за постигане на по-добра ефективност на токените. Най-краткото отхвърляне на извадки избира най-краткия правилен отговор за фина настройка. DPO използва двойки кратки и дълги отговори за данни за обучение. Long2short RL включва отделна фаза на обучение с наказание за дължина.

Бъдещи планове на Moonshot AI

Гледайки напред, Moonshot AI се ангажира да ускори надграждането на своите модели за обучение с подсилване от серия k. Те се стремят да въведат повече модалности, по-широки възможности и подобрени общи възможности. Тази амбициозна визия ги позиционира като ключов играч в глобалния AI пейзаж, готов да оспори господството на утвърдени играчи като OpenAI.

Значението на Kimi k1.5

Моделът Kimi k1.5 е повече от просто технологично постижение; той е символ на потенциала на местните иновации в AI сектора. Със своята изключителна производителност и отвореното споделяне на подробностите за обучението си, Kimi k1.5 поставя нов стандарт за развитие на AI по целия свят. Очакването за неговото пускане е голямо и се очаква неговото въздействие да бъде дълбоко.