o1 Bukan Model Chat Biasa: Perubahan Persepsi Altman dan Brockman

o1: Bukan Model Chat Biasa

Artikel ini membincangkan tentang kehebohan terkini mengenai model o1, menjelaskan bahawa ia tidak direka sebagai model chat, walaupun ramai pengguna pada mulanya menganggapnya demikian. Pendedahan ini muncul selepas catatan blog bertajuk "o1 bukan model chat (dan itulah tujuannya)" mendapat perhatian, malah menarik perhatian Ketua Pegawai Eksekutif OpenAI, Sam Altman, dan Presiden Greg Brockman.

Salah Tanggapan Dan Kekesalan

Ben Hylak, yang dahulunya seorang jurutera perisian di SpaceX dan pereka interaksi untuk Apple VisionOS, berkongsi pengalaman mengecewakannya dengan o1. Beliau mendapati responsnya lambat, sering bercanggah, dan dipenuhi dengan gambar rajah seni bina dan senarai pro dan kontra yang tidak diminta. Reaksi awal Hylak ialah o1 hanyalah "sampah."

Hylak mengalami masa menunggu 5 minit untuk respons.
Respons sering kali bercanggah dan tidak masuk akal.
Model ini menyediakan gambar rajah dan senarai yang tidak diminta.

Kekecewaannya membawa kepada catatan media sosial yang menyatakan kekecewaannya, dengan menyatakan bahawa o1 pro adalah "sangat teruk," dan keluarannya adalah "hampir celaru." Beliau memberikan contoh meminta nasihat pemfaktoran semula, hanya untuk model mencadangkan penggabungan fail, memberikan kod yang tidak menggabungkan fail, dan kemudian melompat kepada kesimpulan yang tidak berkaitan.

Perubahan Perspektif

Pengalaman Hylak tidak bersifat universal. Sesetengah pengguna mendapati o1 sangat berkesan, yang membawa kepada perbincangan lanjut. Melalui interaksi ini, Hylak menyedari kesilapannya: beliau menggunakan o1 sebagai model chat sedangkan ia tidak bertujuan untuk berfungsi sedemikian.

Perubahan perspektif ini dialu-alukan oleh Altman, yang menyatakan bahawa "menarik untuk melihat perubahan sikap orang apabila mereka belajar cara menggunakan o1 (termasuk versi pro)." Greg Brockman mengulangi ini dengan menyatakan bahawa o1 adalah model yang berbeza dan memerlukan pendekatan yang berbeza untuk prestasi optimum.

o1: Penjana Laporan

Artikel ini mencadangkan bahawa bukannya model chat, o1 harus dilihat sebagai "penjana laporan." Dengan konteks yang mencukupi dan keperluan output yang jelas, o1 dapat memberikan penyelesaian dengan berkesan. Kuncinya terletak pada cara model digunakan.

Daripada Prompt Kepada Brief

Apabila menggunakan model chat biasa, pengguna sering memulakan dengan soalan mudah dan menambah konteks mengikut keperluan, terlibat dalam interaksi ulang-alik. Walau bagaimanapun, o1 tidak mencari konteks tambahan. Sebaliknya, pengguna perlu memberikan banyak konteks di awal, yang digambarkan sebagai "banyak" maklumat, atau kira-kira sepuluh kali konteks yang akan anda gunakan untuk prompt standard.

Berikan semua butiran penyelesaian yang telah dicuba.
Sertakan dump skema pangkalan data lengkap.
Terangkan perniagaan, skala dan terminologi khusus syarikat.

Adalah disyorkan untuk menganggap o1 seperti pekerja baharu, memberikan semua maklumat yang diperlukan dari awal.

Fokus Pada Output Yang Diinginkan

Selepas memberikan konteks yang luas, pengguna mesti mentakrifkan dengan jelas output yang diinginkan. Tidak seperti model lain di mana pengguna mungkin menentukan persona atau proses pemikiran, dengan o1, anda harus memberi tumpuan semata-mata pada "apa" yang anda inginkan, bukan "bagaimana" model harus melakukannya. Ini membolehkan o1 merancang dan melaksanakan langkah-langkah yang diperlukan secara bebas, yang membawa kepada hasil yang lebih cepat dan lebih cekap.

Kekuatan dan Kelemahan o1

o1 cemerlang dalam beberapa bidang:

Memproses keseluruhan fail: Ia boleh mengendalikan blok kod yang besar dan konteks yang luas, sering kali melengkapkan keseluruhan fail dengan ralat yang minimum.
Mengurangkan halusinasi: o1 tepat dalam bidang seperti bahasa pertanyaan tersuai (cth., ClickHouse dan New Relic), manakala model lain mungkin mencampuradukkan sintaks.
Diagnosis perubatan: o1 boleh menawarkan diagnosis awal yang agak tepat berdasarkan imej dan penerangan.
Menerangkan konsep: Ia mahir dalam menerangkan konsep kejuruteraan yang kompleks melalui contoh.
Menjana pelan seni bina: o1 boleh membuat pelbagai pelan, membandingkannya, dan menyenaraikan pro dan kontra.
Penilaian: Ia menunjukkan potensi sebagai alat yang berkesan untuk menilai hasil.

Walau bagaimanapun, o1 juga mempunyai batasan:

Menulis dalam gaya tertentu: Ia cenderung menghasilkan laporan dalam gaya akademik atau korporat dan bergelut untuk menyesuaikan diri dengan nada tertentu.
Membina keseluruhan aplikasi: Walaupun mahir dalam menjana keseluruhan fail, ia tidak boleh membina aplikasi SaaS penuh melalui iterasi. Walau bagaimanapun, ia boleh melengkapkan keseluruhan ciri, terutamanya fungsi bahagian hadapan atau bahagian belakang yang mudah.

Kepentingan Kelewatan

Artikel ini menyatakan bahawa kelewatan secara asasnya mengubah persepsi kita terhadap produk, dengan memetik contoh seperti e-mel berbanding mesej teks, dan mesej suara berbanding panggilan telefon. Hylak menyamakan o1 dengan e-mel dan bukannya model chat, disebabkan kelewatan dalam responsnya. Kelewatan ini membolehkan jenis produk baharu yang mendapat manfaat daripada kecerdasan latar belakang latensi tinggi dan jangka panjang. Persoalannya kemudian menjadi: tugas apakah yang orang sanggup menunggu selama 5 minit, sejam, sehari, atau bahkan 3-5 hari bekerja?

Adalah penting untuk ambil perhatian bahawa o1-preview dan o1-mini menyokong penstriman tetapi bukan penjanaan berstruktur atau prompt sistem, manakala o1 menyokong penjanaan berstruktur dan prompt sistem tetapi bukan penstriman. Memahami perbezaan ini akan menjadi penting bagi pembangun apabila mereka bentuk produk pada tahun 2025.