Published on

ఓపెన్AI యొక్క O3 మోడల్: రీజనింగ్‌లో ఒక లీపు మరియు ARC AGI బ్రేక్‌త్రూ

రచయితలు
  • avatar
    పేరు
    Ajax
    Twitter

O3 మోడల్ యొక్క ముఖ్యాంశాలు

  • O1 మోడల్ యొక్క ఉత్తమ పనితీరు కోసం బహుళ ఉత్పత్తి ఏకాభిప్రాయం చాలా అవసరం. ఇది గణన యొక్క అన్ని తార్కిక దశలకు వర్తిస్తుంది - ఉత్తమ ఫలితాల కోసం ఒకే అవుట్‌పుట్ స్ట్రీమ్‌పై ఆధారపడకూడదు.
  • O3 ట్రీ సెర్చ్‌ను జోడించడం ద్వారా తార్కిక నిర్మాణాన్ని మార్చిందని ఎటువంటి ఆధారాలు లేవు, అన్ని వాదనలు కేవలం పుకార్లు మాత్రమే. తార్కిక స్కేలింగ్ యొక్క ప్రధాన నియమం ఏమిటంటే, ఒకే సింగిల్-స్ట్రీమ్ జనరేషన్ నుండి ఎక్కువ కంటెంట్‌ను నమూనా చేయడం ద్వారా పనితీరు మెరుగుపడుతుంది.
  • ఈ సంవత్సరం, రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) మరియు సంబంధిత పద్ధతులు కృత్రిమ మేధస్సు యొక్క ప్రధానమైనవిగా తిరిగి స్థాపించబడ్డాయి.
  • ఈ రోజు, ఓపెన్AI తమ O3 మోడల్ ప్రివ్యూను ప్రకటించింది, ఇది O1ని ఉపయోగించి తర్కం చేయడానికి శిక్షణ పొందిన భాషా నమూనాలలో ఇటీవలి పురోగతిని మరింత అభివృద్ధి చేసింది. ఈ నమూనాలు O3-miniతో ప్రారంభమవుతాయి మరియు 2025 జనవరి చివరి నాటికి ప్రజలకు అందుబాటులోకి వస్తాయని భావిస్తున్నారు. 2024 ముగియనున్న నేపథ్యంలో, చాలా మంది పరిశీలకులు ఈ సంవత్సరాన్ని కృత్రిమ మేధస్సు ఏకీకరణ సంవత్సరంగా భావిస్తున్నారు, చాలా మంది పాల్గొనేవారు GPT-4 స్థాయికి చేరుకున్నారు మరియు ఈ నమూనాలను ఎలా ఉపయోగించాలో అన్వేషించడం ప్రారంభించారు.
  • 2024లో "GPT-4 విడుదల" వంటి ఉత్తేజకరమైన క్షణం లేదు. O3 రాక దీనిని మార్చింది, ఎందుకంటే ఇది O1 కంటే చాలా ఊహించనిది మరియు తార్కిక నమూనాలలో వేగవంతమైన పురోగతిని సూచిస్తుంది. O1 రాక గురించి మాకు ముందుగానే తెలుసు, ఎందుకంటే ఇది చాలా కాలం పాటు సిద్ధమైంది - O3 యొక్క వేగవంతమైన మరియు సమర్థవంతమైన విడుదల, 2025లో అభివృద్ధిపై మా అంచనాలను పెంచింది.
  • గణితం, ప్రోగ్రామింగ్, భౌతికశాస్త్రం మరియు కఠినమైన శాస్త్రాల వెలుపల O1 తరగతి నమూనాల వర్తింపును చాలామంది ప్రశ్నించినప్పటికీ, ఈ నమూనాలు త్వరలో మొత్తం కృత్రిమ మేధస్సు పరిశోధన పర్యావరణ వ్యవస్థలో విస్తృతంగా ఉపయోగించబడతాయి, తద్వారా పురోగతిని గణనీయంగా వేగవంతం చేస్తాయి. ఒక ఆశావాద దృక్కోణం ఏమిటంటే, ఈ నమూనాల ఉపయోగాన్ని అన్వేషించడానికి మరియు ఇతర రంగాలకు తార్కిక నమూనాలను విస్తరించడానికి బహిరంగంగా అందుబాటులో ఉన్న రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ శిక్షణ పద్ధతులు లేవు.
  • ఓపెన్AI యొక్క O3, పరిశ్రమ తదుపరి శిఖరాన్ని అధిరోహిస్తోందని సూచిస్తుంది, ఎందుకంటే ఇంటర్నెట్ టెక్స్ట్ ఆధారంగా ప్రీట్రైనింగ్ నుండి వచ్చే లాభాలు తగ్గుతున్నాయి. O3 తార్కిక మూల్యాంకనంలో ఒక ప్రధాన పురోగతిని సాధించింది, ఇది ఈ క్రింది అంశాలలో వ్యక్తమవుతుంది:
    • ఇది ARC AGI అవార్డులో 85% కంటే ఎక్కువ పూర్తి రేటును సాధించిన మొదటి మోడల్ (గమనిక: ఇది పబ్లిక్ డేటాసెట్‌లలో పూర్తయింది మరియు పరీక్ష సెట్‌లో కాదు మరియు ఖర్చు పరిమితులను అధిగమించింది).
    • కొత్త ఫ్రాంటియర్ మ్యాథ్ బెంచ్‌మార్క్‌లో, పనితీరు 2% నుండి 25%కి పెరిగింది, ఇది గుణాత్మకమైన లీపును సాధించింది.
    • SWE-Bench-Verified వంటి అన్ని ప్రముఖ ప్రోగ్రామింగ్ బెంచ్‌మార్క్‌లలో గణనీయమైన మెరుగుదలలు సాధించబడ్డాయి.
    • ఇవన్నీ మోడల్ యొక్క మొదటి వెర్షన్ ప్రకటించిన కేవలం 3 నెలల తర్వాత జరిగాయి. ఈ మార్పులు త్వరలో కృత్రిమ మేధస్సు పరిశోధన పురోగతిని వేగవంతం చేయడం ద్వారా కనిపిస్తాయి. తార్కిక వ్యయం తగ్గడంతో, ఇది మనకు తెలిసిన అనేక సాఫ్ట్‌వేర్ ఇంజనీరింగ్ పాత్రలను మార్చే మరో అడుగు అవుతుంది.
  • అదే సమయంలో, ఓపెన్AI ఒక బ్లాగ్ కథనాన్ని మరియు పరిశోధనా పత్రాన్ని విడుదల చేసింది, ఇది O1-స్థాయి నమూనాలు భద్రత మరియు సమలేఖన పరిశోధనను ఎలా మెరుగుపరుస్తాయో చూపిస్తుంది. ఇది ఇంతకు ముందు పేర్కొన్న విస్తృతమైన ఓపెన్ సమస్యకు కొన్ని ప్రారంభ సానుకూల ఆధారాలను అందిస్తుంది: మెరుగైన తార్కిక సామర్థ్యాలు ధృవీకరించదగిన రంగాల వెలుపల విలువను తీసుకురాగలవా? ఈ ప్రశ్న 2025లో చాలాసార్లు పునఃపరిశీలించబడుతుంది.

O3 అవలోకనం

  • ఓపెన్AI యొక్క O3 మోడల్ "ఓపెన్AI యొక్క 12 రోజుల విడుదల ఈవెంట్" చివరి రోజున ప్రకటించబడింది. ఈ విడుదల అనేక రంగాలలో మునుపటి అత్యాధునిక మోడల్‌ల (జెమిని 1.5 ప్రో మరియు క్లాడ్ 3.5 సోన్నెట్ న్యూ) యొక్క అద్భుతమైన పనితీరుతో పాటు వచ్చింది.
  • O1 సిరీస్ నమూనాలపై బ్లాగ్ కథనాలు మరియు సంబంధిత కమ్యూనికేషన్‌లో, తరచుగా విస్మరించబడిన వివరాలు బార్ గ్రాఫ్‌లలోని నీడల అర్థం. O1 యొక్క మొదటి బ్లాగ్ కథనంలో, మొదటి ఫలితాల రేఖాచిత్రం యొక్క వివరణలో దీనిని ప్రస్తావించారు: ఘన బార్‌లు pass@1 యొక్క ఖచ్చితత్వాన్ని సూచిస్తాయి మరియు నీడ ప్రాంతం 64 నమూనాలను ఉపయోగించి మెజారిటీ ఓటింగ్ (ఏకాభిప్రాయం) యొక్క పనితీరును సూచిస్తుంది.
  • ఈ వివరాలు O1 మోడల్ యొక్క ఉత్తమ పనితీరు కోసం బహుళ ఉత్పత్తి ఏకాభిప్రాయం చాలా అవసరమని సూచిస్తుంది. ఇది గణన యొక్క అన్ని తార్కిక దశలకు వర్తిస్తుంది - ఉత్తమ ఫలితాల కోసం ఒకే అవుట్‌పుట్ స్ట్రీమ్‌పై ఆధారపడకూడదు. అయితే, దీని అర్థం ట్రీ సెర్చ్ లేదా కొన్ని మధ్యంతర ప్రాతినిధ్యాన్ని ఉపయోగించాల్సిన అవసరం లేదని కాదు. O1 యొక్క ప్రొఫెషనల్ మోడ్ మరియు మేము చర్చించే ARC అవార్డు ఫలితాలు, సంపూర్ణ అత్యధిక స్కోరును సాధించడానికి ఈ సమాంతర ఉత్పత్తిపై ఆధారపడతాయి.
  • ఫ్రాంటియర్ మ్యాథ్ బెంచ్‌మార్క్‌పై గుణాత్మక మూల్యాంకనం కోసం, ఇద్దరు ఫీల్డ్స్ మెడల్ గ్రహీతల వ్యాఖ్యలను చూడవచ్చు. వారి వ్యాఖ్యలు బెంచ్‌మార్క్‌లోని అత్యంత కష్టతరమైన భాగాలను లక్ష్యంగా చేసుకున్నాయి, అయితే ఇది దాని గుణాత్మక లక్ష్యాన్ని బాగా తెలియజేస్తుంది:
    • "ఈ ప్రశ్నలు చాలా సవాలుగా ఉన్నాయి... కనీసం రాబోయే కొన్నేళ్లలో AIని నిస్సహాయంగా చేస్తాయని నేను భావిస్తున్నాను." - టెరెన్స్ టావో, 2006 ఫీల్డ్స్ మెడల్ గ్రహీత.
    • "నేను చూసిన ఈ ప్రశ్నలు నా పరిశోధన రంగంలో లేవు మరియు అవి నాకు పూర్తిగా పరిష్కరించలేనివిగా కనిపిస్తున్నాయి... అవి IMO (అంతర్జాతీయ గణిత ఒలింపియాడ్) సమస్యల కంటే ఒక స్థాయి కష్టంగా ఉన్నాయి." - తిమోతి గోవర్స్, 2006 ఫీల్డ్స్ మెడల్ గ్రహీత.
  • ఈ బెంచ్‌మార్క్ నవంబర్ 7న ప్రవేశపెట్టబడింది మరియు AI సామర్థ్యాలలో కొన్ని ఇంకా జయించబడని ఓపెన్ ఫ్రంటియర్‌లలో ఒకటిగా జాబితా చేయబడింది. ఈ విడుదల ఓపెన్AI యొక్క O3ని రెండంకెల స్కోరును సాధించిన ఏకైక మోడల్‌గా గుర్తించింది మరియు నేరుగా 25%కి పెరిగింది.
  • రెండవ ప్రముఖ ఫలితం ప్రోగ్రామింగ్ రంగంలో ఉంది. ప్రత్యక్ష ప్రసారంలో, ఓపెన్AI SWE-Bench Verifiedలో 71.7% స్కోర్‌ను ప్రదర్శించింది (ఈ స్కోర్ కొంతవరకు ప్రస్తుత అత్యాధునిక స్థాయి) మరియు కోడ్‌ఫోర్స్‌లో (ప్రోగ్రామింగ్ పోటీ వెబ్‌సైట్) విస్తృతమైన ఫలితాలను ప్రదర్శించింది.
  • O3 ఒక వెల్లడించని N విలువలో ఏకాభిప్రాయ ఓటింగ్ ద్వారా 2727 స్కోర్ సాధించింది, ఇది అంతర్జాతీయ గ్రాండ్‌మాస్టర్ స్థాయికి చేరుకుంది, ఇది ప్రపంచవ్యాప్తంగా ఉన్న మానవ పోటీ ప్రోగ్రామర్లలో టాప్ 200లో ఉంది. O3-mini పనితీరు O1 కంటే మెరుగ్గా ఉంది, అయితే ఖర్చు గణనీయంగా తగ్గింది. 2024లో మనం గమనించిన ధోరణిని బట్టి, ఇది విస్తృతమైన వినియోగదారుల ద్వారా ఉపయోగించే మరింత ప్రభావవంతమైన మోడల్‌గా మారవచ్చు. ఇది O3 లైవ్‌స్ట్రీమ్‌లో చివరి పురోగతిని సాధ్యం చేసింది - ARC AGI సవాలును సమర్థవంతంగా పరిష్కరించడం.

ARC మూల్యాంకనాన్ని ఎదుర్కోవడం

  • అమూర్తత మరియు తార్కిక కార్పస్ (ARC) అనేది ఫ్రాంకోయిస్ చోల్లెట్ తన 2019 పత్రం "ఆన్ ది మెజర్ ఆఫ్ ఇంటెలిజెన్స్"లో ప్రతిపాదించిన కృత్రిమ మేధస్సు మూల్యాంకన పద్ధతి. ARC మూల్యాంకనం మానవ మేధస్సు మూల్యాంకనానికి దగ్గరగా ఉండటానికి రూపొందించబడింది:
    • మేము అల్గారిథమిక్ సమాచార సిద్ధాంతం ఆధారంగా మేధస్సు యొక్క కొత్త అధికారిక నిర్వచనాన్ని ప్రతిపాదించాము, ఇది నైపుణ్యం సముపార్జన సామర్థ్యంగా మేధస్సును వివరిస్తుంది మరియు పరిధి, సాధారణీకరణ కష్టం, ముందస్తు జ్ఞానం మరియు అనుభవం యొక్క భావనలను నొక్కి చెబుతుంది. ఈ నిర్వచనం ఆధారంగా, మేము సాధారణ కృత్రిమ మేధస్సు ప్రమాణాల రూపకల్పన కోసం ఒక సెట్ మార్గదర్శకాలను ప్రతిపాదిస్తున్నాము. చివరగా, మేము ఈ మార్గదర్శకాలను ఖచ్చితంగా అనుసరించే ఒక ప్రమాణాన్ని ప్రదర్శిస్తున్నాము - అమూర్తత మరియు తార్కిక కార్పస్ (ARC), ఇది మానవుల సహజమైన ముందస్తు జ్ఞానానికి వీలైనంత దగ్గరగా ఉండే ముందస్తు జ్ఞానం ఆధారంగా నిర్మించబడింది. ARCని మానవుల వంటి సాధారణ ఫ్లూయిడ్ ఇంటెలిజెన్స్‌ను కొలవడానికి ఉపయోగించవచ్చని మరియు కృత్రిమ మేధస్సు వ్యవస్థలు మరియు మానవుల మధ్య సరసమైన సాధారణ మేధస్సు పోలికను సాధించగలదని మేము నమ్ముతున్నాము.
  • ARC AGI అవార్డు 2024 జూన్‌లో ప్రారంభించబడింది, నిర్దిష్ట ప్రమాణాలను చేరుకున్న మరియు ప్రైవేట్ ARC టాస్క్‌ల సమితిని పరిష్కరించిన మొదటి పరిష్కారానికి $1 మిలియన్ల బహుమతిని ఏర్పాటు చేసింది. టాస్క్‌ను "పరిష్కరించినట్లు" పరిగణించబడే థ్రెషోల్డ్ 85% ఖచ్చితత్వాన్ని చేరుకోవడం. ఈ రోజు, ఓపెన్AI మరియు ARC ప్రైజ్ కింది ఫలితాలను పంచుకున్నాయి:
    • ధర యొక్క x-అక్షాన్ని నిశితంగా పరిశీలించండి, మేము ఈ అంశానికి తర్వాత వస్తాము.
  • O1 తరగతి మోడల్‌లకు ముందు, ఓపెన్AI యొక్క ఉత్తమ మోడల్ GPT-4o కేవలం 5% ఖచ్చితత్వాన్ని మాత్రమే సాధించింది. ఓపెన్AI యొక్క కొత్త తార్కిక నమూనాలలో వేగవంతమైన పురోగతిని ARC అవార్డు సహ వ్యవస్థాపకుడు మైక్ నూప్ ఈ విధంగా సంగ్రహించారు:
    • GPT-2 (2019): 0%
    • GPT-3 (2020): 0%
    • GPT-4 (2023): 2%
    • GPT-4o (2024): 5%
    • o1-preview (2024): 21%
    • o1 high (2024): 32%
    • o1 Pro (2024): సుమారు 50%
    • o3 tuned low (2024): 76%
    • o3 tuned high (2024): 87%
  • ఈ సంవత్సరం జూన్‌లో, ARC-AGIని పరిష్కరించడం చాలా కష్టమని ప్రజలు సాధారణంగా భావించారు. అయితే, కొన్ని నెలల తర్వాత, ఈ అవగాహన పూర్తిగా తిరగబడింది. Q* మరియు ఇతర తార్కిక పద్ధతులపై ఆశావాద దృక్పథం ఉన్నవారు కూడా ఇంతటి విజయాన్ని ఊహించలేదు.
  • చోల్లెట్ ARC అవార్డు వెబ్‌సైట్‌లో మరిన్ని వివరాలను పంచుకున్నారు:
    • మేము రెండు ARC-AGI డేటాసెట్‌లతో O3ని పరీక్షించాము:
      • సెమీ-ప్రైవేట్ మూల్యాంకనం: ఓవర్‌ఫిటింగ్ పరిస్థితులను అంచనా వేయడానికి 100 ప్రైవేట్ టాస్క్‌లు.
      • పబ్లిక్ మూల్యాంకనం: ఓపెన్AI మార్గదర్శకత్వంలో, 400 పబ్లిక్ టాస్క్‌లను రెండు గణన స్థాయిలలో పరీక్షించాము, వేరియబుల్ నమూనా పరిమాణాలతో: 6 (సమర్థవంతమైన మోడ్) మరియు 1024 (తక్కువ సామర్థ్యం గల మోడ్, మునుపటి కంటే 172 రెట్లు ఎక్కువ గణన).
    • పరీక్ష ఫలితాలు క్రింద ఇవ్వబడ్డాయి:
      • గమనిక: O3 అధిక గణన వ్యయానికి సంబంధించిన నిర్దిష్ట డేటా ఇంకా విడుదల చేయబడలేదు, ఎందుకంటే ధర మరియు ఫంక్షనల్ లభ్యత ఇంకా నిర్ణయించబడాల్సి ఉంది. గణన మొత్తం తక్కువ గణన కాన్ఫిగరేషన్ కంటే సుమారు 172 రెట్లు ఎక్కువ.
  • ఉదాహరణకు, పరిష్కరించని సమస్య ఇక్కడ ఉంది:
    • చాలా ప్రశ్నలు మానవులకు చాలా సహజమైనవి. ఈ ప్రశ్నలను మోడల్‌లోకి ఇన్పుట్ చేయడానికి, రంగులు సంఖ్యలుగా ఎన్‌కోడ్ చేయబడతాయి మరియు గ్రిడ్ రూపంలో సందర్భోచిత ఇన్పుట్‌గా ఉపయోగించబడతాయి, గ్రెగ్ కమ్రాడ్ట్ హైలైట్ చేసినట్లుగా:
  • సాంకేతికంగా, పరిష్కారం ఖర్చు థ్రెషోల్డ్‌ను మించిపోయింది మరియు ఓపెన్ సోర్స్ చేయబడలేదు కాబట్టి, బహుమతి ఇంకా అందలేదు. పోటీ కొనసాగుతోంది. కొన్ని సంవత్సరాలలో, ఈ రకమైన మేధస్సు దాదాపు ఉచితం అవుతుంది. ఉచితం అంటే, తార్కికతను అమలు చేయడానికి అయ్యే ఖర్చు వినియోగదారుల ప్రకటన డేటా యొక్క ద్రవ్య విలువ కంటే తక్కువగా ఉంటుంది.
  • ప్రస్తుతం, ARC అవార్డు బ్లాగ్‌లో పేర్కొన్న O3 ధర (ఓపెన్AI కమ్యూనికేషన్‌లో O1కి సంబంధించిన సాపేక్ష ధరగా మార్చబడింది) O3 సాంకేతికత ఎలా పనిచేస్తుందో చాలా వివరాలను వెల్లడిస్తుంది.

O3 యొక్క నిర్మాణం, వ్యయం మరియు శిక్షణా పద్ధతి

  • ARC AGI బృందం నేరుగా ఓపెన్AIతో కలిసి పనిచేసి, వారి మోడల్ ధర అంచనాలను పొందింది. APIలో O3 అధికారికంగా ప్రారంభించిన తర్వాత తుది ధర మారవచ్చు. తార్కిక స్కేలింగ్ యొక్క ప్రాముఖ్యత ఆధారంగా, ARC-AGI బృందం ప్రైవేట్ మూల్యాంకనం కోసం పరిష్కారాలను సమర్పించడానికి అదనపు అవసరాన్ని జోడించింది. వారి బ్లాగ్ పోస్ట్‌లో, బృందం మొత్తం ఖర్చు మరియు ప్రతి టాస్క్ ఖర్చును, FLOPల ప్రాక్సీ మెట్రిక్‌గా లేదా కంప్యూటేషనల్ రిసోర్స్ వినియోగాన్ని నేరుగా లెక్కించారు.
  • ఇది పబ్లిక్ లీడర్‌బోర్డ్‌కు సంబంధించిన ARC అవార్డు ప్రకటనలోని నియమానికి అనుగుణంగా ఉంది (ఇది $1 మిలియన్ల బహుమతికి సంబంధించినది కాదు):
    • $10,000 USD అనేది 500 టాస్క్‌లను (పబ్లిక్ అసెస్‌మెంట్ సెట్‌లోని 400 టాస్క్‌లు మరియు కొత్త సెమీ-ప్రైవేట్ అసెస్‌మెంట్ సెట్‌లోని 100 టాస్క్‌లు) పరిష్కరించడానికి అయ్యే ఖర్చు పరిమితి, ఇందులో వాణిజ్య APIలను పిలవడానికి అయ్యే ఖర్చులు కూడా ఉన్నాయి.
  • పబ్లిక్ లేదా సెమీ-పబ్లిక్ అసెస్‌మెంట్ సెట్‌లోని 500 టాస్క్‌లలో, O3 యొక్క ఖర్చు ఈ పరిమితిని మించిపోయింది. ARC అవార్డు ప్రకారం, O3 యొక్క ప్రతి ప్రశ్నకు అయ్యే ఖర్చు $1,000 కంటే ఎక్కువ. వారు మోడల్ స్వభావం గురించి కూడా ఊహించారు. O3, O1 కంటే భిన్నమైన శిక్షణా సాంకేతికతలను ఉపయోగిస్తుందా అనే ఊహాగానాలను తగ్గించడానికి ఈ క్రింది సమాచారం ఉద్దేశించబడింది. ప్రత్యేకించి, చోల్లెట్ తాను ఊహిస్తున్నానని స్పష్టం చేశాడు:
    • ప్రస్తుతానికి, O3 ఎలా పనిచేస్తుందనే దాని గురించి మనం ఊహించగలం. అయితే, O3 యొక్క ప్రధాన విధానం టోకెన్ స్పేస్‌లో సహజ భాషా ప్రోగ్రామ్ శోధన మరియు అమలును కలిగి ఉంటుంది - పరీక్ష సమయంలో, మోడల్ టాస్క్‌ను పరిష్కరించడానికి అవసరమైన దశలను వివరించే సాధ్యమైన ఆలోచనా గొలుసుల (CoTs) కోసం శోధిస్తుంది. ఇది ఆల్ఫాజీరో-శైలి మోంటే కార్లో ట్రీ సెర్చ్‌ను పోలి ఉంటుంది. O3 విషయంలో, శోధనను ఒక నిర్దిష్ట మూల్యాంకన మోడల్ ద్వారా మార్గనిర్దేశం చేయవచ్చు.
  • మళ్లీ నొక్కి చెప్పడానికి, MCTS (మోంటే కార్లో ట్రీ సెర్చ్) గురించిన ప్రస్తావన మరియు ఊహలు తప్పుదారి పట్టించేవి, కానీ చాలా తెలివైన వ్యక్తులు O1 మరియు O3 ఒకే భాషా మోడల్ యొక్క ఫార్వర్డ్ పాస్ ద్వారా సాధించిన సామర్థ్యంతో ఆశ్చర్యపోయారు.
  • ఇది ఎలా సాధ్యమో నేను ఇటీవల ఒక కథనంలో వివరించాను, ఇది భారీ రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ శిక్షణ ద్వారా ఎలా సాధ్యమైందో మరియు ఓపెన్AI యొక్క కొన్ని గ్రాఫ్‌లు తార్కిక దశలో కంప్యూటేషనల్ ఖర్చుపై ఎందుకు తప్పుదారి పట్టించాయో వివరించాను. ఓపెన్AI ఉద్యోగులు కూడా O3 "కేవలం రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ ద్వారా శిక్షణ పొందిన మోడల్" అని నొక్కిచెప్పారు.
  • అయినప్పటికీ, ARC బృందం రికార్డ్ చేసిన ఖర్చు మరియు O1 కోసం ఓపెన్AI ధరను (60.00/మిలియన్అవుట్‌పుట్టోకెన్‌లు)ఉపయోగించివిశ్లేషణచేద్దాం.ARCఅవార్డుఫలితాలరేఖాచిత్రాలప్రకారం,పూర్తిO3యొక్కప్రతిప్రశ్నకుఅయ్యేఖర్చుసుమారు60.00/మిలియన్ అవుట్‌పుట్ టోకెన్‌లు) ఉపయోగించి విశ్లేషణ చేద్దాం. ARC అవార్డు ఫలితాల రేఖాచిత్రాల ప్రకారం, పూర్తి O3 యొక్క ప్రతి ప్రశ్నకు అయ్యే ఖర్చు సుమారు 5000. మొత్తం ఖర్చును టోకెన్‌కు ధరతో భాగించగా, మోడల్ ప్రతి సమాధానానికి 80 మిలియన్ టోకెన్‌లను ఉత్పత్తి చేస్తుందని తేలింది. ఇది పొడవైన సందర్భోచిత నమూనాలలో గొప్ప మెరుగుదలలు లేకుండా అసాధ్యం. అందువల్ల, వివిధ శోధన నిర్మాణాల గురించి ఊహాగానాలు వచ్చాయి.
  • ARC అవార్డు బ్లాగ్ పోస్ట్‌లోని కొన్ని వివరాలు ఇక్కడ కీలకం, ఇవి:
    • ఓపెన్AI మార్గదర్శకత్వంలో, మేము రెండు గణన స్థాయిలలో పరీక్షలు చేసాము, వేరియబుల్ నమూనా పరిమాణాలతో: 6 (సమర్థవంతమైన మోడ్) మరియు 1024 (తక్కువ సామర్థ్యం గల మోడ్, మునుపటి కంటే 172 రెట్లు ఎక్కువ గణన).
  • SemiAnalysis ప్రకారం, O1 ప్రో, సెల్ఫ్-కన్సిస్టెన్సీ పద్ధతిని లేదా సాధారణ consensus@N తనిఖీని ఉపయోగిస్తుంది, అదే ప్రశ్నకు బహుళ సమాంతర ప్రతిస్పందనలలో తరచుగా వచ్చే సమాధానాన్ని ఎంచుకోవడం ద్వారా పనితీరును మెరుగుపరుస్తుంది. ఇక్కడ, నమూనా పరిమాణం N consensus@N విలువకు అనుగుణంగా ఉండవచ్చు, ఇది O3 యొక్క మూల్యాంకన కాన్ఫిగరేషన్ కస్టమర్‌లు ఉపయోగించగల O1 ప్రో కాన్ఫిగరేషన్‌కు దగ్గరగా ఉందని సూచిస్తుంది, అంటే 6 రెట్లు ఎక్కువ గణన మరియు ప్రతి ప్రశ్నకు 1024 రెట్లు ఎక్కువ గణన కలిగిన అధిక కాన్ఫిగరేషన్.
  • ఈ తార్కిక స్కేల్ చాలా కాలం పాటు సాధారణ చెల్లింపు వినియోగదారులకు అందుబాటులో ఉండదు. చాలా మంది వినియోగదారులు ఒకే ఉత్పత్తి నుండి consensus@10 వరకు ఫలితాలను మాత్రమే పొందుతారు, ఇది O1 మోడల్ యొక్క "ప్రొఫెషనల్" వెర్షన్ యొక్క స్పెసిఫికేషన్‌లపై ఆధారపడి ఉంటుంది.
  • ప్రతి మిలియన్ అవుట్‌పుట్ టోకెన్‌కు ధర $60గా ఉంటే, దానిని 1024 స్ట్రీమ్‌లతో భాగించడం అంటే మోడల్ ప్రతి ప్రతిస్పందనకు సుమారు 78,000 టోకెన్‌లను ఉత్పత్తి చేస్తుంది. వాస్తవానికి, O3 ఒక పెద్ద బేస్ మోడల్ నుండి కూడా ప్రయోజనం పొందుతున్నట్లు కనిపిస్తోంది, ఎందుకంటే ఓపెన్AI ప్రత్యక్ష ప్రసారంలో చూపించిన అన్ని లాగరిథమిక్ కంప్యూటేషన్ x-అక్షం నుండి చూస్తే, O1 యొక్క కంప్యూటేషనల్ ఖర్చు గణనీయంగా పెరిగింది. పెద్ద బేస్ మోడల్‌ను ఉపయోగించడం ద్వారా, ఈ సంఖ్యలు పూర్తిగా సహేతుకంగా ఉంటాయి మరియు అదనపు "శోధన" అంశాన్ని జోడించడాన్ని సూచించవు.
  • ఇటీవలి సంవత్సరాలలో డీప్ లెర్నింగ్ పురోగతిని నడిపించిన ప్రధాన కథ ఏమిటంటే, సంభావ్యత కలిగిన రంగాన్ని కనుగొని దానిపై నిరంతరం ఎక్కడం. మొదటి తరంగ పురోగతి ఇంటర్నెట్-స్థాయి ప్రీట్రైనింగ్ నుండి వచ్చింది. ఇప్పుడు, ఓపెన్AI రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ శిక్షణ మరియు పొడవైన సందర్భోచిత తార్కికతను విస్తరించడం ద్వారా ఎక్కడానికి కొత్త మార్గాన్ని కనుగొంది. ఓపెన్AI O1ని విడుదల చేసిన కేవలం మూడు నెలల తర్వాత O3 రావడం జరిగింది. దీనికి సులభమైన వివరణ ఏమిటంటే, ఇది ఒకే నిర్మాణాన్ని మరియు శిక్షణా పద్ధతులను ఉపయోగిస్తుంది, కానీ పెద్ద స్థాయిలో.
  • O3 ట్రీ సెర్చ్‌ను జోడించడం ద్వారా తార్కిక నిర్మాణాన్ని మార్చిందని ఎటువంటి ఆధారాలు లేవు, అన్ని వాదనలు కేవలం పుకార్లు మాత్రమే. తార్కిక స్కేలింగ్ యొక్క ప్రధాన నియమం ఏమిటంటే, ఒకే సింగిల్-స్ట్రీమ్ జనరేషన్ నుండి ఎక్కువ కంటెంట్‌ను నమూనా చేయడం ద్వారా పనితీరు మెరుగుపడుతుంది.
  • ముఖ్యమైన ప్రశ్న ఏమిటంటే, O3 యొక్క బేస్ మోడల్ ఓరియన్ (ఓపెన్AI యొక్క అంతర్గత కోడ్ పేరు, బహుశా GPT-5) లేదా శిక్షణ సమయంలో మాత్రమే కొత్త బేస్ మోడల్ ఓరియన్ నుండి ప్రయోజనం పొందిందా అనేది. బేస్ మోడల్ పరిమాణం 2 నుండి 5 రెట్లు పెరిగితే, ARC అవార్డు నుండి నివేదించబడిన API ధరల ప్రకారం, ఈ డేటా పూర్తిగా అంచనాలకు అనుగుణంగా ఉంటుంది.
  • O3 గురించిన నిర్దిష్ట వివరాలు ఇంకా అనిశ్చితంగా ఉన్నాయి. ARC బృందం విడుదల చేసిన రేఖాచిత్రాలలో, O3 మోడల్ పక్కన "(ట్యూన్డ్)" అని గుర్తించబడింది, కానీ O3 గురించి ఇంకా వివరణాత్మక వివరణ అందుబాటులో లేదు. అయితే, మనం పురోగతి ధోరణిపై దృష్టి పెట్టినప్పుడు, O1 స్థాయి నమూనాలు చాలా కాలం పాటు ఉంటాయని స్పష్టంగా తెలుస్తుంది.
  • చివరగా, వినయంగా ఉండటానికి, O3 పరిష్కరించడంలో విఫలమైన ARC అవార్డు ఉదాహరణ ఇక్కడ ఉంది. ఇది చాలా సులభం.
  • మేము ఇంకా చాలా దూరం వెళ్లాల్సి ఉంది, కానీ మీరు ఉత్సాహంగా ఉండాలి మరియు ఈ నమూనాలు చాలా మంది ఊహించిన దానికంటే ముందుగానే విస్తృతంగా ఉపయోగించబడే వాస్తవికత కోసం ఎదురుచూడాలి. AI నిరంతరం అభివృద్ధి చెందుతుందని భావించడం సురక్షితమైన ఎంపిక.

2024: RL తిరిగి వచ్చింది

  • ఈ రోజు ఉదయం, ఆంత్రోపిక్ ఆంత్రోపిక్ సృష్టి గురించి ఒక వీడియోను విడుదల చేసింది, ఇందులో కొంతమంది సహ వ్యవస్థాపకులు చర్చించారు. సహ వ్యవస్థాపకుడు మరియు CEO డారియో అమోడెయి పంచుకున్న ఊహించని వివరాలు ఉన్నాయి:
    • "...ఈ నమూనాలను విస్తరించడానికి గల కారణం, వాటి మేధస్సు RLHF (మానవ అభిప్రాయాన్ని ఉపయోగించి రీన్ఫోర్స్‌మెంట్ లెర్నింగ్)ని వాటిపై చేయగలిగేంతగా లేకపోవడమే."
  • ఆధునిక RLHF భావన యొక్క వ్యవస్థాపకులలో ఒకరిగా, డారియో మైక్రోట్యూనింగ్ సాంకేతికతలో పురోగతి రాబోతోందని ముందుగానే గ్రహించి ఉండవచ్చు. RLHF యొక్క సామర్థ్యంపై ఈ దృక్కోణం చాలా మంది అభ్యాసకుల అవగాహన కంటే విస్తృతమైనది మరియు లోతైనది.
  • ఈ సంవత్సరం, రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) మరియు సంబంధిత పద్ధతులు కృత్రిమ మేధస్సు యొక్క ప్రధానమైనవిగా తిరిగి స్థాపించబడ్డాయి.
  • ఈ కథనాన్ని వ్రాసే ప్రక్రియలో, నేను 2025లో ఇదే విధమైన తార్కిక ఆధారిత భాషా నమూనాని శిక్షణ ఇవ్వాలని నిర్ణయించుకున్నాను. 2024లో టెక్ కంపెనీలకు ప్రామాణిక ప్రీట్రైనింగ్ పరిశ్రమ యొక్క ప్రాథమిక అవసరంగా మారినట్లు అనిపిస్తోంది. O1-శైలి నమూనాలు భవిష్యత్తులో చాలా కాలం పాటు కృత్రిమ మేధస్సు టూల్‌బాక్స్‌లో డిఫాల్ట్ సాధనంగా ఉంటాయని అంచనా వేయవచ్చు. ఈ కొత్త ప్రపంచ దృష్టికోణాన్ని స్వీకరించడానికి మరియు ఈ నమూనాల శిక్షణ యొక్క పని విధానాన్ని స్వయంగా తెలుసుకోవడానికి నేను చాలా ఆసక్తిగా ఎదురుచూస్తున్నాను.