Published on

Най-новите модели на OpenAI: O3 и O3-Mini - Революция в изкуствения интелект

Автори
  • avatar
    Име
    Ajax
    Twitter

OpenAI представи своите най-нови модели, o3 и o3-mini, пропускайки o2 поради проблеми с търговска марка. o3 е мощен модел, който се приближава до Общ изкуствен интелект (AGI), и се отличава с комплексни задачи за разсъждение, докато o3-mini е по-лек, бърз и по-икономичен вариант за ежедневни задачи. Тези модели показват значителен напредък във възможностите на ИИ за разсъждение, особено в математиката, кодирането и абстрактното решаване на проблеми.

O3: Най-мощният модел за разсъждение

Производителност

  • O3 се отличава с математическо разсъждение, постигайки 96.7% резултат в математическото състезание AIME, надминавайки предишни модели и дори човешки експерти.
  • Резултатът му е 2727 на CodeForces, което го поставя сред топ 200 програмисти в световен мащаб.
  • Постига 87.5% на ARC-AGI бенчмарка, надвишавайки човешкия праг от 85%.

Ключови характеристики

  • Моделът демонстрира значителни подобрения в софтуерното инженерство, математиката и научните разсъждения.
  • O3 се представя изключително добре на FrontierMath бенчмарка, изключително трудно математическо изпитание.
  • Показва забележителна способност за абстрактно разсъждение и обобщение, както е демонстрирано от представянето му на ARC-AGI бенчмарка.

Последици

  • O3 представлява значителен скок в способностите на ИИ, приближавайки се до AGI.
  • Той подчертава потенциала на ИИ за решаване на комплексни проблеми в различни области.

O3-Mini: По-бърз и по-икономичен

Характеристики

  • O3-mini е по-малка, по-бърза и по-икономична версия на o3.
  • Предлага три режима на време за извод (нисък, среден, висок) за гъвкаво обработване на задачи.
  • Подходящ е за среди с ограничени ресурси и ежедневни задачи.

Възможности

  • O3-mini се представя добре в основни математически, кодиращи и общи задачи за разсъждение.
  • Демонстрира способност за генериране и изпълнение на код, включително API повиквания и интеграция с потребителски интерфейс.
  • Може да извършва самотестване, както е показано от представянето му на GPQA набора от данни.

Случаи на употреба

  • Идеален е за средни и малки проекти, основно програмиране, анализ на данни и образователни цели.
  • Предлага по-достъпна опция за потребители с ограничени изчислителни ресурси.

Акценти от 12-дневното събитие на OpenAI

  • Ден 1: Пълна версия на модела o1 с подобрена интелигентност, скорост и поддръжка на многомодален вход; абонаментен план ChatGPT Pro.
  • Ден 2: Въвеждане на Reinforcement Learning Fine-Tuning (RFT) за подобрена производителност на модела.
  • Ден 3: Sora Turbo, по-бърз модел за генериране на видео с по-висока резолюция и функции за редактиране.
  • Ден 4: Обновен инструмент Canvas с нови функции и удобен за потребителя интерфейс.
  • Ден 5: Интеграция на ChatGPT с устройства на Apple (iOS, iPadOS, macOS).
  • Ден 6: Подобрен разширен гласов режим на ChatGPT с разбиране на видео в реално време.
  • Ден 7: Пускане на "Проекти" за управление на разговори и файлове.
  • Ден 8: Пълно пускане на ChatGPT Search с подобрена скорост, точност и гласово търсене.
  • Ден 9: o1 API пускане с ефективно визуално разпознаване и гласово взаимодействие в реално време.
  • Ден 10: Интеграция на WhatsApp с услугата 1-800-CHAT-GPT.
  • Ден 11: Настолна версия на ChatGPT с достъп до приложения.
  • Ден 12: Пускане на моделите o3 и o3-mini.

Основни концепции обяснени

  • AIME (American Invitational Mathematics Examination): Предизвикателно математическо състезание за ученици от гимназията в Съединените щати.
  • CodeForces: Популярна платформа за състезания по състезателно програмиране.
  • ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence): Бенчмарк, предназначен да измерва способността на ИИ да обобщава и разсъждава в нови ситуации.
  • GPQA (General Purpose Question Answering): Набор от данни от предизвикателни въпроси с множествен избор в различни научни области.
  • FrontierMath: Изключително труден математически бенчмарк, разработен от водещи математици.

Разпространението на o3 и o3-mini бележи значителна стъпка напред в развитието на ИИ, показвайки забележителни постижения в способностите за разсъждение. Докато o3 е предназначен за комплексни задачи и среди с висока производителност, o3-mini предлага по-достъпно и икономично решение за ежедневни приложения. 12-дневното събитие на OpenAI подчертава ангажимента им да разширяват границите на ИИ и да го интегрират в различни аспекти на живота. Пътуването към AGI продължава, като тези модели представляват значителен етап.