- Published on
Pendedahan Parameter Model OpenAI: Kertas Microsoft Dedahkan Saiz GPT4o
Pendedahan Parameter Model OpenAI: Kertas Microsoft Dedahkan Saiz GPT4o
Dalam dunia teknologi, saiz parameter model bahasa besar (LLM) sentiasa menjadi rahsia yang dijaga ketat. Namun, baru-baru ini, sebuah kertas kerja perubatan yang diterbitkan oleh pasukan gabungan Microsoft dan Universiti Washington secara tidak sengaja mendedahkan maklumat parameter beberapa model OpenAI, menarik perhatian yang meluas.
Parameter Terdedah
Maklumat penting yang didedahkan dalam kertas kerja ini termasuk:
- GPT-4: Kira-kira 1.76 trilion parameter
- GPT-4o: Kira-kira 200 bilion parameter
- GPT-4o mini: Kira-kira 8 bilion parameter
- o1-preview: Kira-kira 300 bilion parameter
- o1-mini: Kira-kira 100 bilion parameter
- Claude 3.5 Sonnet: Kira-kira 175 bilion parameter
Perlu diperhatikan bahawa para penyelidik menyatakan bahawa parameter ini adalah anggaran.
Parameter Siri GPT-4o Mencetuskan Perdebatan
Yang mengejutkan, bilangan parameter siri GPT-4o jauh lebih rendah daripada yang dijangkakan, terutamanya versi mini yang hanya mempunyai 8 bilion parameter. Beberapa netizen membuat spekulasi bahawa GPT-4o mini mungkin menggunakan seni bina model pakar campuran (MoE), dengan parameter aktif sebenar sebanyak 8 bilion, tetapi parameter keseluruhan model mungkin mencapai 400 bilion. Seni bina ini membolehkan model kecil mempelajari lebih banyak pengetahuan sambil mengekalkan kelajuan operasi.
Perbandingan Parameter Claude 3.5 Sonnet
Selain itu, terdapat komen yang menyatakan bahawa bilangan parameter Claude 3.5 Sonnet adalah setanding dengan GPT-3 davinci, yang menimbulkan pemikiran lebih lanjut tentang hubungan antara prestasi dan saiz model yang berbeza.
MEDEC Benchmark: Standard Baru untuk Pengesanan Ralat Perubatan
Kertas kerja yang mendedahkan parameter ini sebenarnya adalah mengenai penanda aras penilaian yang dikenali sebagai MEDEC1, yang bertujuan untuk menilai prestasi model bahasa besar dalam tugas pengesanan dan pembetulan ralat perubatan. Penanda aras ini memfokuskan pada ralat dalam nota klinikal, meliputi lima aspek: diagnosis, pengurusan, rawatan, farmakoterapi, dan agen penyebab.
Sumber dan Ciri Data
Set data MEDEC mengandungi 488 nota klinikal daripada tiga sistem hospital AS, dengan jumlah 3848 teks klinikal. Data ini belum pernah diakses oleh mana-mana model bahasa besar, memastikan ketulenan dan kebolehpercayaan penilaian. Pada masa ini, set data ini telah digunakan dalam tugas bersama MEDIQA-CORR untuk menilai prestasi 17 sistem yang mengambil bahagian.
Ujian dan Hasil
Pasukan penyelidik menggunakan set data MEDEC untuk menguji pelbagai model canggih, termasuk o1-preview, GPT-4, Claude 3.5 Sonnet, dan Gemini 2.0 Flash. Pada masa yang sama, mereka juga menjemput dua doktor profesional untuk mengambil bahagian dalam tugas pengesanan ralat yang sama untuk perbandingan manusia-mesin.
Hasilnya menunjukkan bahawa walaupun model bahasa besar menunjukkan prestasi yang baik dalam pengesanan dan pembetulan ralat perubatan, masih terdapat jurang berbanding doktor manusia. Ini menunjukkan bahawa MEDEC adalah penanda aras yang mencabar.
Kandungan Teras Kertas Kerja: Aplikasi dan Cabaran LLM dalam Bidang Perubatan
Kertas kerja itu menyatakan bahawa tinjauan oleh institusi perubatan AS menunjukkan bahawa satu daripada setiap lima pesakit yang membaca nota klinikal melaporkan menemui ralat. Daripada ralat ini, 40% dianggap agak serius, dan yang paling biasa ialah ralat yang berkaitan dengan diagnosis.
Aplikasi dan Risiko LLM dalam Dokumen Perubatan
Dengan semakin banyak tugas dokumen perubatan (seperti penjanaan nota klinikal) diselesaikan oleh model bahasa besar, bagaimana untuk memastikan ketepatan dan keselamatan maklumat output LLM adalah amat penting. LLM mungkin menghasilkan halusinasi, mengeluarkan kandungan yang salah atau rekaan, yang akan memberi kesan serius kepada keputusan klinikal.
Kepentingan MEDEC Benchmark
Untuk menangani isu-isu ini dan memastikan keselamatan LLM dalam penjanaan kandungan perubatan, kaedah pengesahan yang ketat adalah penting. Pengenalan MEDEC benchmark bertujuan untuk menilai keupayaan model dalam mengesan dan membetulkan ralat perubatan dalam teks klinikal.
Pembinaan Set Data MEDEC
Set data MEDEC mengandungi 3848 teks klinikal daripada pelbagai bidang perubatan, yang telah dilabel oleh 8 orang pelabel perubatan. Set data ini meliputi lima jenis ralat:
- Diagnosis: Diagnosis yang diberikan tidak tepat.
- Pengurusan: Langkah pengurusan seterusnya yang diberikan tidak tepat.
- Farmakoterapi: Rawatan ubat yang disyorkan tidak tepat.
- Rawatan: Rancangan rawatan yang disyorkan tidak tepat.
- Agen Penyebab: Organisma penyebab atau patogen penyebab yang ditunjukkan tidak tepat.
Pemilihan jenis ralat ini adalah berdasarkan jenis soalan yang paling biasa dalam peperiksaan lembaga perubatan.
Kaedah Penciptaan Data
Pembinaan set data menggunakan dua kaedah:
- Kaedah #1 (MS): Menggunakan soalan peperiksaan lembaga perubatan daripada koleksi MedQA, pelabel dengan latar belakang perubatan menyuntik jawapan yang salah ke dalam teks senario.
- Kaedah #2 (UW): Menggunakan pangkalan data nota klinikal sebenar daripada tiga sistem hospital Universiti Washington, pasukan pelajar perubatan secara manual memperkenalkan ralat ke dalam rekod.
Kedua-dua kaedah telah melalui kawalan kualiti yang ketat untuk memastikan ketepatan dan kebolehpercayaan data.
Kaedah Pengesanan dan Pembetulan Ralat Perubatan
Untuk menilai prestasi model dalam tugas pengesanan dan pembetulan ralat perubatan, penyelidik membahagikan proses ini kepada tiga sub-tugas:
- Sub-tugas A: Meramalkan bendera ralat (0: tiada ralat; 1: ada ralat).
- Sub-tugas B: Mengekstrak ayat yang mengandungi ralat.
- Sub-tugas C: Menjana kandungan pembetulan untuk ayat yang mengandungi ralat.
Pasukan penyelidik membina penyelesaian berdasarkan LLM dan menggunakan dua gesaan yang berbeza untuk menghasilkan output yang diperlukan.
Eksperimen dan Hasil
Model Bahasa
Penyelidik menjalankan eksperimen pada pelbagai model bahasa termasuk Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini, dan o1-preview.
Analisis Hasil Eksperimen
Hasil eksperimen menunjukkan bahawa Claude 3.5 Sonnet menunjukkan prestasi yang baik dalam pengesanan bendera ralat dan pengesanan ayat ralat. o1-preview menunjukkan prestasi terbaik dalam pembetulan ralat. Walau bagaimanapun, semua model masih tidak sebaik doktor manusia dalam pengesanan dan pembetulan ralat perubatan.
Hasilnya juga menunjukkan bahawa model mempunyai masalah dengan ketepatan dan dalam banyak kes terlalu meramalkan kewujudan ralat (iaitu, menghasilkan halusinasi). Selain itu, terdapat perbezaan kedudukan antara prestasi klasifikasi dan prestasi penjanaan pembetulan ralat.
Analisis Jenis Ralat
Dalam pengesanan dan pembetulan jenis ralat yang berbeza, o1-preview mempunyai kadar ingatan yang lebih tinggi dalam pengesanan bendera dan ayat ralat, tetapi doktor menunjukkan prestasi yang lebih baik dalam ketepatan.
Arah Penyelidikan Seterusnya
Penyelidik menyatakan bahawa arah penyelidikan seterusnya termasuk memperkenalkan lebih banyak contoh dalam gesaan dan mengoptimumkannya untuk meningkatkan lagi prestasi model dalam pengesanan dan pembetulan ralat perubatan.