Published on

Model O3 OpenAI: Lompatan dalam Penalaran dan Terobosan ARC AGI

Penulis
  • avatar
    Nama
    Ajax
    Twitter

Sorotan Utama

  • Konsensus multi-generasi sangat penting untuk kinerja optimal model o1. Ini berlaku untuk semua tahap perhitungan penalaran—untuk hasil terbaik, seseorang tidak boleh hanya bergantung pada satu aliran output.
  • Tidak ada bukti yang menunjukkan bahwa o3 mengubah arsitektur penalaran dengan menambahkan pencarian pohon, semua klaim hanyalah desas-desus. Aturan inti dari hukum penskalaan penalaran adalah bahwa pengambilan sampel lebih banyak dari satu generasi aliran dapat menghasilkan peningkatan kinerja.
  • Tahun ini, tidak diragukan lagi, pembelajaran penguatan (RL) dan metode terkait telah menegaskan kembali diri mereka sebagai inti dari kecerdasan buatan.
  • Hari ini, OpenAI mengumumkan pratinjau model o3 mereka, yang selanjutnya mengembangkan kemajuan baru-baru ini dalam melatih model bahasa untuk menggunakan o1 untuk penalaran. Model-model ini akan dimulai dengan o3-mini dan diperkirakan akan tersedia untuk umum pada akhir Januari 2025. Menjelang akhir tahun 2024, banyak pengamat melihat tahun ini sebagai tahun konsolidasi untuk kecerdasan buatan, dengan banyak peserta telah mencapai tingkat yang sebanding dengan GPT-4 dan mulai mengeksplorasi bagaimana menerapkan model-model ini secara praktis.
  • Tidak ada momen yang menggembirakan seperti "peluncuran GPT-4" pada tahun 2024. Munculnya o3 mengubah ini karena lebih tak terduga daripada o1 dan menandai kemajuan pesat dalam model penalaran. Kita sudah lama tahu tentang kedatangan o1 karena telah melalui masa persiapan yang panjang—sementara rilis o3 yang cepat dan efisien membuat kita menantikan perkembangan tahun 2025.
  • Meskipun banyak orang mempertanyakan penerapan model tipe o1 di luar bidang matematika, pemrograman, fisika, dan ilmu keras, model-model ini akan segera digunakan secara luas di seluruh ekosistem penelitian kecerdasan buatan, sehingga secara signifikan mempercepat kemajuan. Pandangan optimis adalah bahwa belum ada cukup waktu untuk mengeksplorasi kegunaan model-model ini dan tidak ada metode pelatihan pembelajaran penguatan publik untuk memperluas model penalaran ke bidang lain.
  • O3 OpenAI menunjukkan bahwa industri sedang mendaki puncak berikutnya, karena keuntungan hanya bergantung pada pra-pelatihan teks Internet semakin berkurang. o3 mencapai terobosan besar dalam evaluasi penalaran, yang secara khusus diwujudkan dalam aspek-aspek berikut:
    • Ini adalah model pertama yang melampaui tingkat penyelesaian 85% dalam penghargaan ARC AGI (catatan: ini diselesaikan pada kumpulan data publik, bukan kumpulan uji, dan melebihi batasan biaya).
    • Dalam tolok ukur Frontier Math yang baru, kinerja telah melonjak dari 2% menjadi 25%, mencapai lompatan kualitatif.
    • Peningkatan signifikan telah dicapai di semua tolok ukur pemrograman terkemuka (seperti SWE-Bench-Verified).
    • Dan semua ini hanya 3 bulan setelah pengumuman versi pertama model. Perubahan ini akan segera terwujud melalui percepatan kemajuan penelitian kecerdasan buatan. Dengan penurunan biaya penalaran, ini akan menjadi langkah lain dalam mengubah banyak peran rekayasa perangkat lunak seperti yang kita kenal sekarang.
  • Pada saat yang sama, OpenAI merilis posting blog dan makalah penelitian tentang penyelarasan yang bijaksana, yang menunjukkan bagaimana model tingkat o1 dapat meningkatkan keamanan dan penelitian penyelarasan. Ini memberikan beberapa bukti positif awal untuk pertanyaan terbuka yang lebih luas yang disebutkan sebelumnya: Dapatkah kemampuan penalaran yang ditingkatkan membawa nilai di luar ranah yang dapat diverifikasi? Pertanyaan ini akan ditinjau kembali berkali-kali pada tahun 2025.

Ikhtisar O3

Model o3 OpenAI diumumkan pada hari terakhir "Acara Peluncuran 12 Hari OpenAI". Rilis ini disertai dengan hasil yang mencengangkan dalam melampaui model tercanggih sebelumnya (Gemini 1.5 Pro dan Claude 3.5 Sonnet New) di berbagai bidang.

Dalam posting blog dan komunikasi terkait tentang model seri o1, detail yang sering diabaikan adalah arti dari bayangan dalam histogram. Dalam posting blog pertama o1, ini disebutkan dalam deskripsi gambar hasil pertama: kolom solid mewakili akurasi pass@1, dan area berbayang mewakili kinerja menggunakan 64 sampel untuk pemungutan suara mayoritas (konsensus).

Detail ini menunjukkan bahwa konsensus multi-generasi sangat penting untuk kinerja optimal model o1. Ini berlaku untuk semua tahap perhitungan penalaran—untuk hasil terbaik, seseorang tidak boleh hanya bergantung pada satu aliran output. Namun, ini tidak berarti bahwa pencarian pohon atau beberapa representasi perantara harus digunakan. Mode profesional o1 dan hasil penghargaan ARC yang akan kita bahas bergantung pada generasi paralel ini untuk mencapai skor tertinggi mutlak.

Untuk evaluasi kualitatif dari tolok ukur Frontier Math, seseorang dapat merujuk ke komentar dari dua pemenang Medali Fields. Komentar mereka ditujukan pada bagian tersulit dari tolok ukur, tetapi ini dengan baik mencerminkan tujuan kualitatifnya:

  • "Soal-soal ini sangat menantang ... Saya pikir soal-soal ini akan membuat AI tidak berdaya setidaknya dalam beberapa tahun ke depan." — Terence Tao, pemenang Medali Fields 2006
  • "Tidak ada masalah yang saya lihat dalam bidang penelitian saya, dan sepertinya saya sama sekali tidak dapat menyelesaikannya ... tampaknya lebih sulit satu tingkat daripada masalah IMO (Olimpiade Matematika Internasional)." — Timothy Gowers, pemenang Medali Fields 2006

Tolok ukur ini diperkenalkan pada 7 November dan terdaftar sebagai salah satu dari sedikit batas terbuka yang belum diatasi dalam kemampuan AI. Rilis ini menempatkan o3 OpenAI sebagai satu-satunya model yang mencapai skor dua digit, langsung melonjak menjadi 25%.

Hasil terkemuka kedua muncul di bidang pemrograman. Dalam siaran langsung, OpenAI menunjukkan skor 71,7% untuk SWE-Bench Verified (skor ini sampai batas tertentu merupakan tingkat tercanggih saat ini), serta hasil yang luas di Codeforces (situs web kompetisi pemrograman).

O3 mencapai skor 2727 melalui pemungutan suara konsensus pada nilai N yang tidak diungkapkan, mencapai tingkat master internasional, dan berada di antara 200 programmer kompetitif manusia teratas di dunia. Kinerja o3-mini lebih baik daripada o1, sementara biayanya secara signifikan lebih rendah. Mengingat tren yang kita amati pada tahun 2024, ini mungkin menjadi model yang lebih berpengaruh yang digunakan oleh basis pengguna yang lebih luas. Ini memungkinkan terobosan akhir dalam siaran langsung o3—secara efektif memecahkan tantangan ARC AGI.

Menangani Evaluasi ARC

Abstract and Reasoning Corpus (ARC) adalah metode evaluasi kecerdasan buatan yang diusulkan oleh François Chollet dalam makalahnya tahun 2019, "On the Measure of Intelligence." Evaluasi ARC dirancang untuk lebih dekat dengan evaluasi kecerdasan manusia:

Kami mengusulkan definisi formal baru tentang kecerdasan berdasarkan teori informasi algoritmik, menggambarkan kecerdasan sebagai efisiensi perolehan keterampilan, dan menekankan konsep ruang lingkup, kesulitan generalisasi, pengetahuan sebelumnya, dan pengalaman. Berdasarkan definisi ini, kami mengusulkan serangkaian pedoman desain untuk tolok ukur kecerdasan buatan umum. Akhirnya, kami menyajikan tolok ukur yang secara ketat mengikuti pedoman ini—Abstract and Reasoning Corpus (ARC), yang dibangun berdasarkan serangkaian pengetahuan sebelumnya yang jelas yang sedekat mungkin dengan pengetahuan bawaan manusia. Kami percaya bahwa ARC dapat digunakan untuk mengukur kecerdasan fluida umum seperti manusia dan dapat memungkinkan perbandingan kecerdasan umum yang adil antara sistem kecerdasan buatan dan manusia.

Penghargaan ARC AGI diluncurkan pada Juni 2024, dengan hadiah uang tunai sebesar $1 juta yang diberikan kepada solusi pertama yang memenuhi kriteria tertentu dan menyelesaikan serangkaian tugas ARC pribadi. Ambang batas untuk dianggap "menyelesaikan" tugas adalah mencapai akurasi 85%. Hari ini, OpenAI dan ARC Prize membagikan hasil berikut:

Perhatikan dengan cermat sumbu x dari harga, kita akan kembali ke topik ini nanti.

Sebelum model tipe o1, model terbaik OpenAI GPT-4o hanya mencapai akurasi 5%. Kemajuan pesat OpenAI pada model penalaran barunya diringkas oleh Mike Knoop, salah satu pendiri penghargaan ARC:

  • GPT-2 (2019): 0%
  • GPT-3 (2020): 0%
  • GPT-4 (2023): 2%
  • GPT-4o (2024): 5%
  • o1-preview (2024): 21%
  • o1 high (2024): 32%
  • o1 Pro (2024): sekitar 50%
  • o3 tuned low (2024): 76%
  • o3 tuned high (2024): 87%

Pada Juni tahun ini, masih diyakini secara luas bahwa memecahkan ARC-AGI akan sangat sulit. Namun, hanya beberapa bulan kemudian, persepsi ini benar-benar terbalik. Bahkan orang-orang yang optimis tentang Q* dan metode penalaran lainnya tidak menyangka akan mencapai tingkat keberhasilan ini.

Chollet membagikan lebih banyak detail di situs web resmi penghargaan ARC:

Kami menguji o3 dengan dua kumpulan data ARC-AGI:

  • Evaluasi semi-pribadi: 100 tugas pribadi untuk mengevaluasi kelebihan pemasangan
  • Evaluasi publik: 400 tugas publik Di bawah bimbingan OpenAI, kami melakukan pengujian pada dua tingkat komputasi dengan ukuran sampel variabel: 6 (mode efisien) dan 1024 (mode tidak efisien, 172 kali lebih banyak komputasi daripada yang pertama).

Berikut adalah hasil pengujian:

Catatan: Data spesifik tentang biaya komputasi tinggi o3 belum dirilis karena penetapan harga dan ketersediaan fitur masih harus ditentukan. Jumlah komputasi kira-kira 172 kali lipat dari konfigurasi komputasi rendah.

Misalnya, berikut adalah masalah yang belum terpecahkan:

Banyak masalah yang sangat intuitif bagi manusia. Untuk memasukkan masalah ini ke dalam model, warna dikodekan sebagai angka dan dimasukkan sebagai konteks dalam bentuk kisi, seperti yang ditekankan oleh Greg Kamradt:

Secara teknis, hadiah belum diklaim karena biaya solusi melebihi ambang batas dan tidak open source. Kompetisi masih berlanjut. Dalam beberapa tahun, jenis kecerdasan ini akan menjadi hampir gratis. Gratis, berarti biaya menjalankan penalaran akan lebih rendah daripada nilai moneter data iklan pengguna.

Saat ini, harga o3 yang dikutip dalam blog penghargaan ARC (yang diubah menjadi harga relatif terhadap o1 dalam komunikasi OpenAI) mengungkapkan banyak detail tentang cara kerja teknologi o3.

Arsitektur, Biaya, dan Metode Pelatihan O3

Tim ARC AGI bekerja secara langsung dengan OpenAI untuk mendapatkan perkiraan harga untuk model mereka. Harga akhir o3 setelah diluncurkan secara resmi di API kemungkinan akan berbeda. Berdasarkan pentingnya hukum penskalaan penalaran, tim ARC-AGI menambahkan persyaratan tambahan untuk pengajuan solusi untuk evaluasi pribadi. Dalam posting blog mereka, tim mencatat total biaya dan biaya per tugas, sebagai proksi untuk FLOP atau perhitungan langsung penggunaan sumber daya komputasi.

Ini konsisten dengan aturan dalam pengumuman penghargaan ARC tentang papan peringkat publik (yang tidak terkait dengan hadiah uang tunai $1 juta):

$10.000 USD adalah batas biaya operasional yang dapat dihabiskan untuk menyelesaikan 500 tugas (termasuk 400 tugas dalam set evaluasi publik dan 100 tugas dalam set evaluasi semi-pribadi baru), yang mencakup biaya panggilan API komersial.

Biaya o3 jauh melebihi batas ini untuk 500 tugas dalam set evaluasi publik atau semi-publik. Penghargaan ARC menunjukkan bahwa biaya per kueri o3 jauh melebihi $1.000. Mereka juga membuat asumsi tentang sifat model. Yang berikut ini dimaksudkan untuk meredakan spekulasi tentang apakah o3 menggunakan teknik pelatihan yang berbeda dari o1. Secara khusus, Chollet secara eksplisit menyatakan bahwa dia berspekulasi:

Saat ini, kita hanya dapat berspekulasi tentang cara kerja spesifik o3. Namun mekanisme inti o3 tampaknya adalah pencarian dan eksekusi program bahasa alami dalam ruang token—pada waktu pengujian, model akan mencari ruang rantai pemikiran (CoT) yang mungkin, yang menggambarkan langkah-langkah yang diperlukan untuk menyelesaikan tugas, dengan cara yang mungkin agak mirip dengan pencarian pohon Monte Carlo gaya AlphaZero. Dalam kasus o3, pencarian mungkin dipandu oleh semacam model evaluator.

Sekali lagi, referensi dan asumsi tentang MCTS (Pencarian Pohon Monte Carlo) menyesatkan, tetapi dapat dimengerti karena banyak orang pintar kagum dengan kemampuan o1 dan o3 untuk dicapai hanya melalui penerusan ke depan dari satu model bahasa.

Artikel saya baru-baru ini menjelaskan bagaimana ini dapat dicapai melalui pelatihan pembelajaran penguatan skala besar dan menggambarkan mengapa beberapa grafik OpenAI menyesatkan dalam hal biaya komputasi pada tahap penalaran. Karyawan OpenAI juga menekankan sifat o3 "hanya sebuah model yang dilatih melalui pembelajaran penguatan."

Meskipun demikian, kami masih menganalisis berdasarkan biaya yang dicatat oleh tim ARC, dikombinasikan dengan harga OpenAI untuk o1 (60,00/jutatokenoutput).MenurutdiagramhasilpenghargaanARC,biayaperkueriuntuko3lengkapadalahsekitar60,00/juta token output). Menurut diagram hasil penghargaan ARC, biaya per kueri untuk o3 lengkap adalah sekitar 5.000. Membagi total biaya dengan harga per token, hasilnya adalah model menghasilkan 80 juta token per jawaban, yang tidak mungkin terjadi tanpa peningkatan besar dalam model konteks yang panjang. Oleh karena itu, spekulasi tentang arsitektur pencarian yang berbeda pun muncul.

Kuncinya terletak pada beberapa detail dalam posting blog penghargaan ARC, yang menyebutkan:

Di bawah bimbingan OpenAI, kami melakukan pengujian pada dua tingkat komputasi dengan ukuran sampel variabel: 6 (mode efisien) dan 1024 (mode tidak efisien, 172 kali lebih banyak komputasi daripada yang pertama).

Menurut SemiAnalysis, o1 pro menggunakan metode konsistensi diri atau pemeriksaan consensus@N sederhana, dengan memilih jawaban yang paling umum dari beberapa tanggapan paralel untuk kueri yang sama untuk meningkatkan kinerja. Di sini, ukuran sampel N mungkin sesuai dengan nilai consensus@N, yang menunjukkan bahwa konfigurasi evaluasi o3 mendekati konfigurasi o1 pro yang dapat digunakan pelanggan, yaitu 6x komputasi, dan konfigurasi ultra-tinggi 1024x komputasi per masalah.

Skala penalaran ini tidak akan tersedia untuk pengguna berbayar biasa untuk waktu yang lama. Sebagian besar pengguna hanya akan melihat hasil dari satu generasi hingga consensus@10, tergantung pada spesifikasi versi "profesional" dari model o1.

Dengan asumsi bahwa harga per juta token output tetap $60, membaginya dengan 1024 aliran berarti model menghasilkan sekitar 78.000 token per respons. Bahkan, o3 tampaknya juga mendapat manfaat dari model dasar yang lebih besar, karena biaya komputasi o1 meningkat secara signifikan dari semua sumbu x log komputasi yang ditunjukkan oleh OpenAI dalam siaran langsung. Dengan menggunakan model dasar yang lebih besar, angka-angka ini benar-benar masuk akal dan tidak menyiratkan penambahan elemen "pencarian" tambahan.

Kisah inti yang mendorong kemajuan pembelajaran mendalam dalam beberapa tahun terakhir adalah menemukan bidang yang berpotensi kaya dan terus mendakinya. Gelombang pertama kemajuan datang dari pra-pelatihan skala Internet. Sekarang, OpenAI telah menemukan jalan pendakian baru dengan memperluas pelatihan pembelajaran penguatan dan penalaran konteks panjang. Mengingat o3 hanya berjarak sekitar tiga bulan dari rilis o1 OpenAI, penjelasan paling sederhana adalah bahwa ia mengadopsi arsitektur dan metode pelatihan yang sama, hanya dengan skala yang lebih besar.

Tidak ada bukti yang menunjukkan bahwa o3 mengubah arsitektur penalaran dengan menambahkan pencarian pohon, semua klaim hanyalah desas-desus. Aturan inti dari hukum penskalaan penalaran adalah bahwa pengambilan sampel lebih banyak dari satu generasi aliran dapat menghasilkan peningkatan kinerja.

Pertanyaan kuncinya adalah apakah model dasar o3 adalah Orion (nama kode internal OpenAI, mungkin GPT-5), atau apakah model dasar baru hanya diuntungkan oleh Orion selama pelatihan. Jika ukuran model dasar meningkat 2 hingga 5 kali lipat, maka dari harga API yang dilaporkan dalam penghargaan ARC, data ini sepenuhnya sesuai dengan harapan.

Detail khusus tentang o3 masih belum pasti. Dalam diagram yang dirilis oleh tim ARC, model o3 diberi label "(tuned)", tetapi belum ada deskripsi rinci tentang o3. Namun, ketika kita melihat tren kemajuan, jelas bahwa model tingkat o1 akan ada dalam jangka panjang.

Akhirnya, untuk tetap rendah hati, berikut adalah contoh penghargaan ARC yang tidak dapat dipecahkan oleh o3. Ini sangat sederhana.

Kita jelas masih memiliki jalan panjang, tetapi Anda harus bersemangat dan menantikan kenyataan bahwa model-model ini akan digunakan secara luas lebih cepat dari yang diharapkan kebanyakan orang. Mengasumsikan bahwa AI akan terus meningkat adalah pilihan yang paling aman.

2024: RL Kembali

Awal hari ini, Anthropic merilis video tentang proses pembuatan Anthropic, dengan partisipasi beberapa pendiri bersama. Ada detail tak terduga yang dibagikan oleh salah satu pendiri bersama dan CEO, Dario Amodei:

"...alasan keseluruhan untuk menskalakan model ini adalah bahwa kecerdasan mereka tidak cukup bagi kita untuk melakukan RLHF (pembelajaran penguatan menggunakan umpan balik manusia) di atasnya."

Sebagai salah satu pendiri konsep RLHF modern, Dario kemungkinan sudah memiliki intuisi bahwa semua kemajuan dalam teknologi penyetelan halus akan datang. Pandangan tentang potensi RLHF ini lebih luas dan mendalam daripada persepsi kebanyakan praktisi.

Tahun ini, tidak diragukan lagi, pembelajaran penguatan (RL) dan metode terkait telah menegaskan kembali diri mereka sebagai inti dari kecerdasan buatan.

Proses penulisan artikel ini adalah saya meyakinkan diri saya sendiri untuk melatih model bahasa berbasis penalaran seperti ini pada tahun 2025. Perasaan ini seperti pada tahun 2024, pra-pelatihan standar telah menjadi persyaratan dasar untuk perusahaan teknologi. Dapat diperkirakan bahwa model gaya o1 akan menjadi alat default dalam kotak peralatan kecerdasan buatan untuk waktu yang sangat lama di masa mendatang. Saya sangat menantikan untuk merangkul pandangan dunia baru ini dan mempelajari sendiri cara kerja pelatihan model-model ini.