Published on

Mafunzo ya Akili Bandia ya O3: Hatua Kubwa Katika Kufikiri na Mafanikio ya ARC AGI

Waandishi
  • avatar
    Jina
    Ajax
    Twitter

Muhtasari wa Mambo Muhimu

  • Umuhimu wa Makubaliano Mengi: Utendaji bora wa modeli ya o1 unategemea makubaliano mengi. Hii inahusu kila hatua ya mchakato wa kufikiri, na haifai kutegemea tu matokeo moja.

  • Hakuna Ushahidi wa Mabadiliko ya Usanifu: Hakuna ushahidi wa kuonyesha kuwa o3 imebadilisha usanifu wake wa kufikiri kwa kutumia utafutaji wa mti. Kanuni kuu ya sheria ya upanuzi wa kufikiri ni kwamba kupata sampuli zaidi kutoka kwa kizazi kimoja huongeza utendaji.

  • Mwaka wa Kurejea kwa RL: Mwaka huu, mafunzo ya kuimarisha (RL) na mbinu zinazohusiana zimejikita tena kama msingi wa akili bandia.

  • Kuzinduliwa kwa O3: OpenAI imetangaza muhtasari wa modeli yao ya o3, ambayo inaendeleza maendeleo ya hivi karibuni katika mafunzo ya modeli za lugha kwa kutumia o1 kwa kufikiri. Model hizi zitaanza na o3-mini na zinatarajiwa kupatikana kwa umma mwishoni mwa Januari 2025.

  • O3 yaibuka Kama Kitu cha Kusisimua: Tofauti na 2024, ambayo haikuwa na matukio ya kusisimua kama "uzinduzi wa GPT-4," kuja kwa o3 kumeleta msisimko mpya. Ni ya kushangaza zaidi kuliko o1 na inaashiria maendeleo ya haraka katika modeli za kufikiri.

  • Matumizi Mapana ya O1: Ingawa wengi wanahoji ufaafu wa modeli za o1 katika maeneo ya nje ya hisabati, programu, fizikia na sayansi ngumu, modeli hizi zitatumika sana katika mfumo mzima wa akili bandia, na kuongeza kasi ya maendeleo.

  • O3 yaonyesha Kupanda kwa Urefu Mpya: O3 ya OpenAI inaonyesha kuwa sekta inainuka hadi kilele kinachofuata, kwani faida zinazopatikana kwa kutegemea tu maandishi ya mtandao kwa mafunzo ya awali zinapungua. O3 imefanikiwa kupiga hatua kubwa katika tathmini ya kufikiri, kama inavyoonyeshwa na:

    • Kuwa modeli ya kwanza kupita 85% ya kiwango cha ukamilishaji katika Tuzo ya ARC AGI (kwenye data iliyo wazi, si kwenye seti ya majaribio, na imepita kikomo cha gharama).
    • Utendaji umeongezeka kutoka 2% hadi 25% katika kipimo kipya cha Frontier Math.
    • Uboreshaji mkubwa katika viwango vyote vya juu vya programu, kama vile SWE-Bench-Verified.
  • Maendeleo ya Haraka: Yote haya yametokea ndani ya miezi mitatu tu tangu kutangazwa kwa toleo la kwanza la modeli. Mabadiliko haya yataonekana hivi karibuni kwa kuongeza kasi ya maendeleo ya akili bandia.

Muhtasari wa O3

  • Utendaji Bora: Model ya o3 ya OpenAI ilitangazwa katika siku ya mwisho ya "Tukio la Siku 12 la Uzinduzi wa OpenAI." Uzinduzi huo ulikuja na matokeo ya kushangaza ya kupita modeli za hali ya juu za zamani (Gemini 1.5 Pro na Claude 3.5 Sonnet New) katika maeneo mengi.

  • Umuhimu wa Vivuli katika Grafu: Katika makala za blogu na mawasiliano yanayohusiana na modeli za o1, jambo moja ambalo mara nyingi hupuuzwa ni maana ya vivuli katika grafu za nguzo. Katika makala ya kwanza ya blogu kuhusu o1, hii ilitajwa katika maelezo ya picha ya kwanza ya matokeo: nguzo za rangi ngumu zinaonyesha usahihi wa pass@1, na maeneo yenye vivuli yanaonyesha utendaji kwa kutumia sampuli 64 kwa upigaji kura mwingi (makubaliano).

  • Makubaliano Mengi Ni Muhimu: Hii inaonyesha kuwa makubaliano mengi ni muhimu kwa utendaji bora wa modeli ya o1. Hii inahusu kila hatua ya mchakato wa kufikiri - haifai kutegemea tu matokeo moja ili kupata matokeo bora. Hata hivyo, hii haimaanishi kwamba utafutaji wa mti au aina fulani ya uwakilishi wa kati lazima itumike. Modi ya kitaalamu ya o1, na matokeo ya Tuzo ya ARC ambayo tutazungumzia, hutegemea kizazi hiki sambamba ili kufikia alama za juu zaidi.

  • Maoni ya Wataalamu: Kuhusu tathmini ya ubora wa kipimo cha Frontier Math, maoni ya washindi wawili wa Medali ya Fields yanaweza kutolewa. Maoni yao yalihusu sehemu ngumu zaidi ya kipimo, lakini hii inaonyesha vizuri malengo yake:

    • "Maswali haya ni magumu sana... Nadhani yatakuwa magumu kwa AI kwa miaka michache ijayo." - Terence Tao, mshindi wa Medali ya Fields 2006
    • "Maswali haya niliyoyaona hayamo katika eneo langu la utafiti na yanaonekana kama kitu ambacho siwezi kukabiliana nacho... Yanaonekana kuwa magumu zaidi kuliko maswali ya IMO (Olimpiki ya Kimataifa ya Hisabati)." - Timothy Gowers, mshindi wa Medali ya Fields 2006
  • Kipimo cha Frontier Math: Kipimo hiki kilianzishwa mnamo Novemba 7 na kimeorodheshwa kama moja ya mipaka michache iliyo wazi ambayo bado haijashindwa katika uwezo wa AI. Uzinduzi huu unaweka o3 ya OpenAI kama modeli pekee iliyofikia alama mbili, na kupanda moja kwa moja hadi 25%.

  • Mafanikio katika Programu: Matokeo ya pili ya kuongoza yanatokea katika eneo la programu. Katika matangazo ya moja kwa moja, OpenAI ilionyesha alama ya 71.7% ya SWE-Bench Verified (ambayo kwa kiasi fulani ni kiwango cha sasa cha hali ya juu), na matokeo mengi katika Codeforces (tovuti ya mashindano ya programu).

  • Umahiri wa Kiwango cha Mwalimu: O3 ilifunga 2727 kupitia upigaji kura wa makubaliano katika thamani isiyo wazi ya N, kufikia kiwango cha Grandmaster wa Kimataifa, na kuweka takriban katika nafasi ya 200 bora katika waprogramu wa mashindano ya binadamu duniani. O3-mini inafanya vizuri zaidi kuliko o1, huku gharama zikiwa zimepunguzwa kwa kiasi kikubwa.

  • Nguvu ya O3-mini: Kutokana na mwelekeo tulioona mwaka wa 2024, hii inaweza kuwa modeli yenye ushawishi mkubwa zaidi kwa kundi pana la watumiaji. Hii ilifanya mafanikio ya mwisho ya mapinduzi katika matangazo ya moja kwa moja ya o3 yawezekane - utatuzi wa ufanisi wa changamoto ya ARC AGI.

Kukabiliana na Tathmini ya ARC

  • ARC Kufafanuliwa: Mkusanyiko wa Dhahania na Kufikiri (ARC) ni njia ya tathmini ya akili bandia iliyopendekezwa na François Chollet katika makala yake ya 2019, "On the Measure of Intelligence." Tathmini ya ARC imeundwa kuwa karibu zaidi na tathmini ya akili ya binadamu:

    • "Tumependekeza ufafanuzi mpya wa akili unaotegemea nadharia ya habari ya algorithm, tukifafanua akili kama ufanisi wa kupata ujuzi na tukisisitiza dhana za wigo, ugumu wa ujumla, ujuzi wa awali na uzoefu. Kulingana na ufafanuzi huu, tumependekeza miongozo ya kubuni seti ya vigezo vya jumla vya akili bandia. Hatimaye, tunaonyesha kigezo kinachofuata miongozo hii kwa ukamilifu - Mkusanyiko wa Dhahania na Kufikiri (ARC), ambao umejengwa kwa kuzingatia seti ya ufahamu wa awali, karibu iwezekanavyo kwa ujuzi wa asili wa binadamu. Tunaamini kuwa ARC inaweza kutumika kupima aina ya akili ya maji ya jumla inayofanana na binadamu na kuwezesha ulinganisho wa haki wa akili ya jumla kati ya mifumo ya akili bandia na binadamu."
  • Tuzo ya ARC AGI: Tuzo ya ARC AGI ilizinduliwa mnamo Juni 2024, na kutoa zawadi ya dola milioni moja kwa suluhisho la kwanza kukidhi vigezo maalum na kutatua seti ya kazi za kibinafsi za ARC. Kiwango cha "kutatua" kazi hiyo ni kufikia usahihi wa 85%. Leo, OpenAI na Tuzo ya ARC zimeshiriki matokeo yafuatayo:

  • Maendeleo ya Haraka: Kabla ya modeli za o1, modeli bora ya OpenAI, GPT-4o, ilifikia usahihi wa 5% tu. Maendeleo ya haraka ya OpenAI kwenye modeli zake mpya za kufikiri yamefupishwa na mwanzilishi mwenza wa Tuzo ya ARC, Mike Knoop, kama ifuatavyo:

    • GPT-2 (2019): 0%
    • GPT-3 (2020): 0%
    • GPT-4 (2023): 2%
    • GPT-4o (2024): 5%
    • o1-preview (2024): 21%
    • o1 high (2024): 32%
    • o1 Pro (2024): takriban 50%
    • o3 tuned low (2024): 76%
    • o3 tuned high (2024): 87%
  • Mapinduzi Makubwa: Mnamo Juni mwaka huu, ilikuwa ikiaminika sana kuwa kutatua ARC-AGI itakuwa ngumu sana. Hata hivyo, miezi michache tu baadaye, mtazamo huu umebadilika kabisa. Hata wale walio na matumaini kuhusu Q* na mbinu zingine za kufikiri hawakutarajia kufanikiwa kwa kiwango hiki.

  • Maelezo ya Chollet: Chollet alishiriki maelezo zaidi kwenye tovuti rasmi ya Tuzo ya ARC:

    • "Tulijaribu o3 na seti mbili za data za ARC-AGI: Tathmini ya nusu ya kibinafsi: kazi 100 za kibinafsi, zinazotumika kutathmini hali ya kupita kiasi. Tathmini ya wazi: kazi 400 za wazi chini ya uongozi wa OpenAI, tulifanya majaribio katika viwango viwili vya hesabu, na ukubwa wa sampuli unaobadilika: 6 (modi bora) na 1024 (modi isiyobora, hesabu ni mara 172 ya ile ya kwanza)."
  • Matokeo ya Majaribio:

  • Kumbuka: Data maalum kuhusu gharama ya juu ya hesabu ya o3 haijachapishwa, kwani bei na upatikanaji wa vipengele bado haujafahamika. Hesabu ni takriban mara 172 ya usanidi wa hesabu ya chini.

  • Changamoto ya Kazi: Kwa mfano, hili ni tatizo ambalo halijatatuliwa:

    • Maswali mengi ni ya moja kwa moja sana kwa binadamu. Ili kuingiza maswali haya kwenye modeli, rangi huwekwa kama nambari na kuingizwa kama muktadha katika umbo la gridi, kama Greg Kamradt alivyosisitiza:
  • Mbio Bado Zinaendelea: Kitaalam, zawadi haijachukuliwa, kwa sababu gharama ya suluhisho imepita kizingiti na haiko wazi. Mbio bado zinaendelea. Katika miaka michache, aina hii ya akili itakuwa karibu bure. Bure, inamaanisha kuwa gharama ya kuendesha kufikiri itakuwa chini ya thamani ya fedha ya data ya matangazo ya mtumiaji.

  • Gharama ya O3: Kwa sasa, bei ya o3 iliyonukuliwa katika blogu ya Tuzo ya ARC (iliyobadilishwa kuwa bei ya jamaa ikilinganishwa na o1 katika mawasiliano ya OpenAI) inafunua maelezo mengi kuhusu utendakazi wa teknolojia ya o3.

Usanifu, Gharama, na Mafunzo ya O3

  • Ushirikiano na OpenAI: Timu ya ARC AGI ilishirikiana moja kwa moja na OpenAI ili kupata makadirio ya bei ya modeli zao. Bei ya mwisho ya o3 itakapozinduliwa rasmi katika API inaweza kuwa tofauti. Kutokana na umuhimu wa sheria ya upanuzi wa kufikiri, timu ya ARC-AGI iliongeza mahitaji ya ziada ya kuwasilisha masuluhisho kwa tathmini ya faragha. Katika makala yao ya blogu, timu ilirekodi gharama ya jumla na gharama kwa kila kazi, kama wakala wa FLOPs au hesabu ya moja kwa moja ya matumizi ya rasilimali za kompyuta.

  • Kikomo cha Gharama: Hii inalingana na sheria katika tangazo la Tuzo ya ARC kuhusu kiongozi wa umma (ambayo haihusiani na tuzo ya dola milioni moja):

    • "$10,000USD ni kikomo cha gharama ya uendeshaji ambayo inaweza kutumika kutatua kazi 500 (ikiwa ni pamoja na kazi 400 katika seti ya tathmini ya umma na kazi 100 katika seti mpya ya tathmini ya nusu ya faragha), ambayo inajumuisha gharama ya kupiga simu kwa API za kibiashara."
  • Gharama ya O3 Ni Kubwa: Gharama ya o3 inazidi sana kikomo hiki katika kazi 500 katika seti ya tathmini ya umma au nusu ya umma. Tuzo ya ARC inaonyesha kuwa gharama ya kila swali la o3 ni zaidi ya $1,000. Pia wametoa mawazo kuhusu asili ya modeli. Yafuatayo yanalenga kupunguza uvumi kuhusu kama o3 ilitumia mbinu tofauti za mafunzo kuliko o1. Hasa, Chollet alifanya wazi kuwa alikuwa akifikiria:

    • "Kwa sasa, tunaweza tu kukisia jinsi o3 inavyofanya kazi. Lakini utaratibu mkuu wa o3 unaonekana kuwa utafutaji na utekelezaji wa programu za lugha asilia ndani ya nafasi ya tokeni - wakati wa majaribio, modeli hutafuta nafasi za mnyororo wa mawazo (CoTs) zinazoelezea hatua zinazohitajika ili kutatua kazi, kwa njia ambayo inaweza kuwa sawa na utafutaji wa mti wa Monte Carlo wa mtindo wa AlphaZero. Katika kesi ya o3, utafutaji unaweza kuongozwa na aina fulani ya modeli ya tathmini."
  • Ufafanuzi wa MCTS: Kwa mara nyingine tena, marejeleo na mawazo kuhusu MCTS (Utafutaji wa Mti wa Monte Carlo) yanapotosha, lakini yanaeleweka, kwa sababu watu wengi wenye akili wameshangazwa na uwezo wa o1 na o3 kufikia hili kupitia upitishaji mmoja tu wa mbele wa modeli ya lugha.

  • RL Ni Muhimu: Makala yangu ya hivi karibuni yameeleza jinsi hii inavyoweza kupatikana kupitia mafunzo makubwa ya kujifunza kwa kuimarisha, na kuonyesha kwa nini baadhi ya grafu za OpenAI zinapotosha kuhusu gharama ya hesabu katika hatua ya kufikiri. Wafanyakazi wa OpenAI pia wamesisitiza kiini cha o3 "kuwa tu modeli iliyofunzwa kwa kujifunza kwa kuimarisha."

  • Uchambuzi wa Gharama: Hata hivyo, tunachukua gharama zilizorekodiwa na timu ya ARC kama msingi na kuchanganya na bei ya OpenAI kwa o1 (60.00/milionitokenizamatokeo).KulingananagrafuyamatokeoyaTuzoyaARC,gharamayakilaswalilao3kamilinitakriban60.00/milioni tokeni za matokeo). Kulingana na grafu ya matokeo ya Tuzo ya ARC, gharama ya kila swali la o3 kamili ni takriban 5000. Kugawa gharama ya jumla kwa bei kwa kila tokeni, matokeo yake ni kwamba modeli ilizalisha tokeni milioni 80 kwa kila jibu, ambayo haiwezekani bila uboreshaji mkuu wa modeli ya muktadha mrefu. Kwa hiyo, uvumi kuhusu usanifu tofauti wa utafutaji unafuata.

  • Umuhimu wa N: Jambo muhimu ni baadhi ya maelezo katika makala ya blogu ya Tuzo ya ARC, ambayo inasema:

    • "Chini ya uongozi wa OpenAI, tulijaribu katika viwango viwili vya hesabu, na ukubwa wa sampuli unaobadilika: 6 (modi bora) na 1024 (modi isiyobora, hesabu ni mara 172 ya ile ya kwanza)."
  • Mbinu ya Self-Consistency: Kulingana na SemiAnalysis, o1 pro ilitumia mbinu ya self-consistency au ukaguzi rahisi wa consensus@N, kwa kuchagua jibu linaloonekana zaidi kati ya majibu mengi sambamba kwa swali sawa ili kuboresha utendaji. Hapa, ukubwa wa sampuli N unaweza kufanana na thamani ya consensus@N, ambayo inaonyesha kuwa usanidi wa tathmini wa o3 uko karibu na usanidi wa o1 pro ambao wateja wanaweza kutumia, yaani, mara 6 ya hesabu, na usanidi wa juu sana wa mara 1024 ya hesabu kwa kila swali.

  • Upatikanaji kwa Watumiaji: Kiwango hiki cha kufikiri hakitapatikana kwa watumiaji wa kawaida wanaolipa kwa muda mrefu. Watumiaji wengi wataweza kufikia tu matokeo ya kizazi kimoja hadi consensus@10, kulingana na vipimo vya toleo la "kitaalamu" la modeli ya o1.

  • Uchambuzi wa Tokeni: Kwa kuzingatia kwamba bei kwa kila milioni tokeni za matokeo bado ni $60, kuigawanya kwa mito 1024 kunamaanisha kuwa modeli hutoa takriban tokeni 78,000 kwa kila jibu. Kwa kweli, o3 inaonekana pia kunufaika na modeli kubwa zaidi ya msingi, kwa sababu gharama ya hesabu ya o1 iliongezeka kwa kiasi kikubwa kutoka kwa mhimili wa x wa hesabu zote za logarithmic ambazo OpenAI ilionyesha katika matangazo ya moja kwa moja. Kwa kutumia modeli kubwa zaidi ya msingi, nambari hizi ni za busara kabisa na hazionyeshi kuongezwa kwa kipengele cha ziada cha "utafutaji".

  • Mafunzo ya Kujifunza kwa Kina: Hadithi kuu ambayo imeendesha maendeleo ya kujifunza kwa kina katika miaka ya hivi karibuni ni kupata eneo lenye uwezo mwingi na kupanda juu yake mara kwa mara. Wimbi la kwanza la maendeleo lilitoka kwa mafunzo ya awali ya kiwango cha mtandao. Sasa, OpenAI imepata mwelekeo mpya wa kupanda kupitia upanuzi wa mafunzo ya kujifunza kwa kuimarisha na kufikiri kwa muktadha mrefu. Kutokana na kwamba o3 ni takriban miezi mitatu tu tangu OpenAI ilipozindua o1, maelezo rahisi zaidi ni kwamba inatumia usanifu sawa na mbinu za mafunzo, lakini kwa kiwango kikubwa zaidi.

  • Hakuna Ushahidi wa Utafutaji wa Mti: Hakuna ushahidi wa kuonyesha kuwa o3 imebadilisha usanifu wake wa kufikiri kwa kuongeza utafutaji wa mti, madai yote ni ya kusikia tu. Kanuni kuu ya sheria ya upanuzi wa kufikiri ni kwamba kupata sampuli zaidi kutoka kwa kizazi kimoja huongeza utendaji.

  • Swali Muhimu: Swali muhimu ni kama modeli ya msingi ya o3 ni Orion (jina la ndani la OpenAI, labda GPT-5), au kama modeli mpya ya msingi ilinufaika tu na Orion wakati wa mafunzo. Ikiwa ukubwa wa modeli ya msingi umeongezeka mara 2 hadi 5, basi data hii inalingana kabisa na bei za API zilizoripotiwa kutoka Tuzo ya ARC.

  • Maelezo Yasiyo Hakika: Bado kuna kutokuwa na uhakika kuhusu maelezo mahususi ya o3. Grafu zilizochapishwa na timu ya ARC zilikuwa na "(tuned)" kando ya modeli ya o3, lakini bado hakuna maelezo ya kina kuhusu o3. Hata hivyo, tunapozingatia mwelekeo wa maendeleo, ni wazi kwamba modeli za kiwango cha o1 zitakuwepo kwa muda mrefu.

  • Mfano wa Tatizo: Hatimaye, ili kukaa wanyenyekevu, hapa kuna mfano wa Tuzo ya ARC ambayo o3 haikuweza kutatua. Ni rahisi sana.

  • Maendeleo Yanakuja: Ni wazi bado tuna safari ndefu ya kwenda, lakini unapaswa kufurahi na kutarajia ukweli kwamba model hizi zitatumika sana mapema kuliko watu wengi wanavyotarajia. Kudhani kuwa AI itaendelea kuendelea ndiyo chaguo salama zaidi.

2024: Kurejea kwa RL

  • Anthropic na RLHF: Mapema leo, Anthropic ilitoa video kuhusu mchakato wa kuunda Anthropic, iliyojadiliwa na waanzilishi kadhaa wenza. Maelezo yasiyotarajiwa yalitolewa na mwanzilishi mwenza na Mkurugenzi Mtendaji, Dario Amodei:

    • "...sababu nzima ya kupanua modeli hizi ni kwamba akili zao zilikuwa bado hazitoshi kuturuhusu kufanya RLHF (kujifunza kwa kuimarisha kwa kutumia maoni ya binadamu) juu yake."
  • Mtazamo wa Dario: Kama mmoja wa waanzilishi wa dhana ya kisasa ya RLHF, Dario huenda alikuwa tayari amegundua kuwa maendeleo yote kuhusu teknolojia ya urekebishaji yanakuja. Mtazamo huu wa uwezo wa RLHF ni mpana na wa kina zaidi kuliko uelewa wa watendaji wengi.

  • RL kama Kiini: Mwaka huu, bila shaka, mafunzo ya kuimarisha (RL) na mbinu zinazohusiana zimejikita tena kama kiini cha akili bandia.

  • Kujifunza Kutoka O3: Mchakato wa kuandika makala hii ulikuwa kunishawishi mimi mwenyewe kufunza modeli ya lugha inayofanana na hii, inayotegemea kufikiri, mwaka wa 2025. Ilikuwa kama vile mafunzo ya kawaida ya awali yamekuwa mahitaji ya msingi ya sekta kwa kampuni za teknolojia mnamo 2024. Inatarajiwa kwamba modeli zinazofanana na mtindo wa o1 zitakuwa zana chaguo-msingi katika kisanduku cha zana cha akili bandia kwa muda mrefu ujao. Nina matumaini makubwa ya kukumbatia mtazamo huu mpya wa ulimwengu na kujifunza wenyewe jinsi mafunzo haya ya modeli yanavyofanya kazi.