Published on

Terungkapnya Parameter Model OpenAI: Makalah Microsoft Membongkar Ukuran GPT4o

Penulis
  • avatar
    Nama
    Ajax
    Twitter

Parameter Model OpenAI Terungkap

Dalam dunia teknologi, skala parameter model bahasa besar (LLM) selalu menjadi rahasia yang dijaga ketat. Namun, sebuah makalah medis yang baru-baru ini diterbitkan oleh tim gabungan dari Microsoft dan University of Washington, secara tak terduga mengungkapkan informasi parameter dari beberapa model OpenAI, yang memicu perhatian luas.

Detail Parameter yang Bocor

Informasi kunci yang diungkapkan dalam makalah ini meliputi:

  • GPT-4: Sekitar 1,76 triliun parameter
  • GPT-4o: Sekitar 200 miliar parameter
  • GPT-4o mini: Sekitar 8 miliar parameter
  • o1-preview: Sekitar 300 miliar parameter
  • o1-mini: Sekitar 100 miliar parameter
  • Claude 3.5 Sonnet: Sekitar 175 miliar parameter

Perlu dicatat bahwa para peneliti menyatakan bahwa parameter ini adalah perkiraan.

Kontroversi Parameter GPT-4o

Yang mengejutkan, jumlah parameter seri GPT-4o jauh lebih rendah dari yang diperkirakan, terutama versi mini yang hanya memiliki 8 miliar parameter. Beberapa pengguna internet berspekulasi bahwa GPT-4o mini mungkin mengadopsi arsitektur Mixture of Experts (MoE), dengan parameter aktif sebesar 8 miliar, tetapi parameter keseluruhan model mungkin mencapai 400 miliar. Arsitektur ini memungkinkan model kecil mempelajari lebih banyak pengetahuan sambil mempertahankan kecepatan operasi.

Perbandingan Parameter Claude 3.5 Sonnet

Selain itu, beberapa komentar menunjukkan bahwa jumlah parameter Claude 3.5 Sonnet setara dengan GPT-3 davinci, yang memicu pemikiran lebih lanjut tentang hubungan antara kinerja dan skala model yang berbeda.

MEDEC: Tolok Ukur Baru untuk Deteksi Kesalahan Medis

Makalah yang membocorkan parameter ini sebenarnya membahas tolok ukur evaluasi bernama MEDEC1, yang dirancang untuk menilai kinerja model bahasa besar dalam deteksi dan koreksi kesalahan medis. Tolok ukur ini berfokus pada kesalahan dalam catatan klinis, yang mencakup lima aspek: diagnosis, manajemen, terapi, pengobatan farmakologis, dan agen penyebab.

Sumber dan Karakteristik Data

Dataset MEDEC berisi 488 catatan klinis dari tiga sistem rumah sakit di Amerika Serikat, dengan total 3.848 teks klinis. Data ini belum pernah terpapar oleh model bahasa besar mana pun, memastikan keaslian dan keandalan evaluasi. Saat ini, dataset tersebut telah digunakan dalam tugas bersama MEDIQA-CORR untuk mengevaluasi kinerja 17 sistem partisipan.

Pengujian dan Hasil

Tim peneliti menggunakan dataset MEDEC untuk menguji berbagai model canggih, termasuk o1-preview, GPT-4, Claude 3.5 Sonnet, dan Gemini 2.0 Flash. Mereka juga mengundang dua dokter profesional untuk berpartisipasi dalam tugas deteksi kesalahan yang sama, melakukan perbandingan antara manusia dan mesin.

Hasilnya menunjukkan bahwa meskipun model bahasa besar menunjukkan kinerja yang baik dalam deteksi dan koreksi kesalahan medis, masih ada kesenjangan dibandingkan dengan dokter manusia. Ini menunjukkan bahwa MEDEC adalah tolok ukur evaluasi yang menantang.

Aplikasi dan Tantangan LLM di Bidang Medis

Makalah tersebut mencatat bahwa survei di lembaga medis Amerika menunjukkan bahwa satu dari lima pasien yang membaca catatan klinis melaporkan menemukan kesalahan. Dari kesalahan ini, 40% dianggap cukup serius, dan yang paling umum adalah kesalahan terkait diagnosis.

Risiko Aplikasi LLM dalam Dokumen Medis

Dengan semakin banyaknya tugas dokumentasi medis (seperti pembuatan catatan klinis) yang diselesaikan oleh model bahasa besar, penting untuk memastikan keakuratan dan keamanan informasi yang dihasilkan LLM. LLM dapat menghasilkan halusinasi, mengeluarkan informasi yang salah atau fiktif, yang dapat memiliki dampak serius pada keputusan klinis.

Signifikansi Tolok Ukur MEDEC

Untuk mengatasi masalah ini dan memastikan keamanan LLM dalam pembuatan konten medis, metode verifikasi yang ketat sangat penting. Pengenalan tolok ukur MEDEC bertujuan untuk mengevaluasi kemampuan model dalam mendeteksi dan mengoreksi kesalahan medis dalam teks klinis.

Konstruksi Dataset MEDEC

Dataset MEDEC berisi 3.848 teks klinis dari berbagai bidang medis, yang dianotasi oleh 8 anotator medis. Dataset ini mencakup lima jenis kesalahan:

  • Diagnosis: Diagnosis yang diberikan tidak akurat.
  • Manajemen: Langkah manajemen selanjutnya yang diberikan tidak akurat.
  • Pengobatan Farmakologis: Pengobatan farmakologis yang direkomendasikan tidak akurat.
  • Terapi: Rencana perawatan yang direkomendasikan tidak akurat.
  • Agen Penyebab: Organisme penyebab atau patogen penyebab yang ditunjukkan tidak akurat.

Pilihan jenis kesalahan ini didasarkan pada jenis pertanyaan yang paling umum dalam ujian dewan medis.

Metode Pembuatan Data

Dataset dibangun menggunakan dua metode:

  1. Metode #1 (MS): Menggunakan soal ujian dewan medis dari koleksi MedQA, anotator dengan latar belakang medis memasukkan jawaban yang salah ke dalam teks skenario.
  2. Metode #2 (UW): Menggunakan database catatan klinis nyata dari tiga sistem rumah sakit di University of Washington, tim mahasiswa kedokteran secara manual memasukkan kesalahan ke dalam catatan.

Kedua metode telah menjalani kontrol kualitas yang ketat untuk memastikan keakuratan dan keandalan data.

Metode Deteksi dan Koreksi Kesalahan Medis

Untuk mengevaluasi kinerja model dalam tugas deteksi dan koreksi kesalahan medis, para peneliti membagi proses ini menjadi tiga sub-tugas:

  • Sub-tugas A: Memprediksi tanda kesalahan (0: tidak ada kesalahan; 1: ada kesalahan).
  • Sub-tugas B: Mengekstrak kalimat yang mengandung kesalahan.
  • Sub-tugas C: Menghasilkan konten koreksi untuk kalimat yang mengandung kesalahan.

Tim peneliti membangun solusi berdasarkan LLM dan menggunakan dua jenis prompt yang berbeda untuk menghasilkan keluaran yang diinginkan.

Eksperimen dan Hasil

Model Bahasa

Para peneliti melakukan eksperimen pada berbagai model bahasa, termasuk Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini, dan o1-preview.

Analisis Hasil Eksperimen

Hasil eksperimen menunjukkan bahwa Claude 3.5 Sonnet menunjukkan kinerja yang sangat baik dalam deteksi tanda kesalahan dan deteksi kalimat kesalahan. o1-preview menunjukkan kinerja terbaik dalam koreksi kesalahan. Namun, semua model masih kalah dari dokter manusia dalam deteksi dan koreksi kesalahan medis.

Hasil juga menunjukkan bahwa model memiliki masalah dengan akurasi dan dalam banyak kasus terlalu memprediksi keberadaan kesalahan (yaitu, menghasilkan halusinasi). Selain itu, ada perbedaan peringkat antara kinerja klasifikasi dan kinerja generasi koreksi kesalahan.

Analisis Jenis Kesalahan

Dalam deteksi dan koreksi berbagai jenis kesalahan, o1-preview memiliki recall yang lebih tinggi dalam deteksi tanda dan kalimat kesalahan, tetapi dokter menunjukkan kinerja yang lebih baik dalam akurasi.

Arah Penelitian Selanjutnya

Para peneliti menyatakan bahwa arah penelitian selanjutnya mencakup memperkenalkan lebih banyak contoh dan mengoptimalkan prompt untuk lebih meningkatkan kinerja model dalam deteksi dan koreksi kesalahan medis.