Published on

Kimi k1.5 Model AI Saingi OpenAI o1: Terobosan Baru dalam Kecerdasan Buatan

Penulis
  • avatar
    Nama
    Ajax
    Twitter

Kimi k1.5: Terobosan Baru dalam Dunia Kecerdasan Buatan

Di ranah kecerdasan buatan, sebuah lompatan signifikan telah dicapai dengan peluncuran model multimodal Kimi k1.5 oleh Moonshot AI. Model inovatif ini telah menunjukkan tingkat kinerja yang menyaingi versi lengkap o1 dari OpenAI, sebuah pencapaian yang sebelumnya belum pernah diraih oleh entitas lain di luar OpenAI. Perkembangan ini menandai babak baru dalam pengejaran kemampuan AI tingkat lanjut, yang menunjukkan potensi inovasi domestik dalam menghadapi persaingan global.

Kemampuan Komprehensif Kimi k1.5

Model Kimi k1.5 menonjol karena kemampuannya yang komprehensif di berbagai domain, termasuk matematika, coding, dan penalaran multimodal. Kinerjanya di bidang-bidang ini tidak hanya sebanding dengan versi lengkap o1, tetapi dalam aspek-aspek tertentu, bahkan melampauinya. Khususnya, varian kimi-k1.5-short muncul sebagai model short chain-of-thought (CoT) state-of-the-art (SOTA), mengungguli GPT-4o dan Claude 3.5 Sonnet dengan selisih yang mengejutkan sebesar 550%. Kemajuan signifikan ini menggarisbawahi kemampuan luar biasa model ini dan potensinya untuk mendefinisikan kembali tolok ukur kinerja AI.

Semangat Transparansi dan Kolaborasi Moonshot AI

Pencapaian Moonshot AI bukan sekadar tonggak teknis, tetapi juga bukti transparansi dan semangat kolaborasi yang seringkali kurang dalam lanskap AI yang kompetitif. Dengan menerbitkan laporan teknis mereka, Moonshot AI mengundang komunitas teknologi yang lebih luas untuk meneliti, belajar dari, dan berkontribusi pada pekerjaan mereka. Langkah ini menggarisbawahi keyakinan mereka bahwa perjalanan menuju kecerdasan umum buatan (AGI) adalah upaya kolektif, yang membutuhkan partisipasi dari beragam bakat dan perspektif.

Status SOTA Kimi k1.5 dalam Berbagai Area

Pengujian komprehensif model Kimi k1.5 mengungkapkan status SOTA-nya di beberapa area utama. Dalam mode long-CoT, ia menyamai kinerja rilis resmi OpenAI o1 dalam matematika, coding, dan penalaran multimodal. Skornya pada tolok ukur seperti AIME (77,5), MATH 500 (96,2), Codeforces (persentil ke-94), dan MathVista (74,9) menunjukkan kehebatannya. Pencapaian ini menandai contoh pertama sebuah perusahaan di luar OpenAI mencapai tingkat kinerja o1 penuh.

Selanjutnya, dalam mode short-CoT, model Kimi k1.5 telah menunjukkan kinerja SOTA global, secara signifikan melampaui GPT-4o dan Claude 3.5 Sonnet. Skornya pada AIME (60,8), MATH500 (94,6), dan LiveCodeBench (47,3) adalah bukti kemampuannya yang luar biasa dalam penalaran short chain-of-thought. Hasil ini bukan sekadar angka; mereka mewakili perubahan paradigma dalam kemampuan model AI multimodal.

Pendekatan Inovatif dalam Pengembangan Kimi k1.5

Pengembangan model Kimi k1.5 bukanlah kebetulan, tetapi hasil dari pendekatan yang disengaja dan inovatif. Tim di Moonshot AI menyadari bahwa hanya dengan meningkatkan parameter selama pra-pelatihan tidak akan menghasilkan hasil yang diinginkan. Mereka beralih ke pasca-pelatihan berbasis reinforcement learning sebagai area utama untuk perbaikan. Pendekatan ini memungkinkan model untuk memperluas data pelatihannya melalui eksplorasi berbasis hadiah, sehingga meningkatkan kemampuan komputasinya.

Laporan teknis merinci eksplorasi tim tentang teknik pelatihan reinforcement learning (RL), resep data multimodal, dan optimalisasi infrastruktur. Kerangka kerja RL mereka, khususnya, sederhana dan efektif, menghindari teknik yang lebih kompleks seperti pencarian pohon Monte Carlo dan fungsi nilai. Mereka juga memperkenalkan teknik long2short, yang memanfaatkan model Long-CoT untuk meningkatkan kinerja model Short-CoT.

Elemen Kunci dalam Kerangka Kerja RL

Dua elemen penting mendasari kerangka kerja RL tim: penskalaan konteks panjang dan peningkatan optimalisasi kebijakan. Dengan menskalakan jendela konteks menjadi 128k, mereka mengamati peningkatan berkelanjutan dalam kinerja model. Mereka juga menggunakan partial rollout untuk meningkatkan efisiensi pelatihan, menggunakan kembali lintasan lama untuk mengambil sampel yang baru. Tim juga menurunkan formula reinforcement learning dengan long-CoT, menggunakan varian online mirror descent untuk optimalisasi kebijakan yang kuat.

Teknik Long2short untuk Peningkatan Kinerja

Teknik long2short melibatkan beberapa metode, termasuk model merging, shortest rejection sampling, DPO, dan long2short RL. Model merging menggabungkan model long-CoT dan short-CoT untuk mencapai efisiensi token yang lebih baik. Shortest rejection sampling memilih respons terpendek yang benar untuk fine-tuning. DPO menggunakan pasangan respons pendek dan panjang untuk data pelatihan. Long2short RL melibatkan fase pelatihan terpisah dengan penalti panjang.

Visi Masa Depan Moonshot AI

Ke depan, Moonshot AI berkomitmen untuk mempercepat peningkatan model reinforcement learning seri-k. Mereka bertujuan untuk memperkenalkan lebih banyak modalitas, kemampuan yang lebih luas, dan kemampuan umum yang ditingkatkan. Visi ambisius ini memposisikan mereka sebagai pemain kunci dalam lanskap AI global, siap untuk menantang dominasi pemain mapan seperti OpenAI.

Kimi k1.5: Simbol Inovasi Domestik

Model Kimi k1.5 lebih dari sekadar pencapaian teknologi; ini adalah simbol potensi inovasi domestik di sektor AI. Dengan kinerja luar biasa dan pembagian terbuka detail pelatihannya, Kimi k1.5 menetapkan standar baru untuk pengembangan AI di seluruh dunia. Antisipasi untuk perilisannya tinggi, dan dampaknya diperkirakan akan sangat besar.