Published on

Ufichuzi wa Vigezo vya Model za OpenAI: Karatasi ya Microsoft Yafichua Ukubwa wa GPT4o

Waandishi
  • avatar
    Jina
    Ajax
    Twitter

Ufichuzi wa Vigezo vya Model za OpenAI: Karatasi ya Microsoft Yafichua Ukubwa wa GPT4o

Katika ulimwengu wa teknolojia, ukubwa wa vigezo vya model kubwa za lugha (LLM) umekuwa siri kubwa. Hata hivyo, hivi karibuni, karatasi ya kitaaluma iliyochapishwa na timu ya Microsoft na Chuo Kikuu cha Washington, imefichua kwa bahati mbaya taarifa za vigezo vya model kadhaa za OpenAI, na hivyo kusababisha mjadala mkubwa.

Kufichuliwa kwa Vigezo

Taarifa muhimu zilizofichuliwa katika karatasi hii ni pamoja na:

  • GPT-4: Takriban vigezo trilioni 1.76
  • GPT-4o: Takriban vigezo bilioni 200
  • GPT-4o mini: Takriban vigezo bilioni 8
  • o1-preview: Takriban vigezo bilioni 300
  • o1-mini: Takriban vigezo bilioni 100
  • Claude 3.5 Sonnet: Takriban vigezo bilioni 175

Ni muhimu kuzingatia kwamba, watafiti wameeleza kuwa vigezo hivi ni makadirio tu.

Mjadala Kuhusu Vigezo vya GPT-4o

Kinachoshangaza ni kwamba, idadi ya vigezo vya model za GPT-4o ni ndogo kuliko ilivyotarajiwa, hasa toleo la mini lenye vigezo bilioni 8 tu. Baadhi ya watumiaji mtandaoni wamependekeza kuwa, GPT-4o mini huenda inatumia usanifu wa Mchanganyiko wa Wataalamu (MoE), ambapo vigezo vinavyoamilishwa ni bilioni 8, lakini jumla ya vigezo vya model huenda ikafikia bilioni 400. Usanifu huu huwezesha model ndogo kujifunza maarifa mengi zaidi, huku ikidumisha kasi ya utendaji.

Ulinganisho wa Vigezo vya Claude 3.5 Sonnet

Aidha, baadhi ya wachambuzi wamebainisha kuwa, idadi ya vigezo vya Claude 3.5 Sonnet inafanana na ile ya GPT-3 davinci, jambo ambalo limeibua maswali zaidi kuhusu uhusiano kati ya utendaji na ukubwa wa model tofauti.

MEDEC: Kiwango Kipya cha Kugundua Makosa ya Kimatibabu

Karatasi hii iliyofichua vigezo, hasa inahusu kiwango cha tathmini kinachoitwa MEDEC1, ambacho kinalenga kutathmini utendaji wa model kubwa za lugha katika kugundua na kurekebisha makosa ya kimatibabu. Kiwango hiki kinazingatia makosa yaliyo katika kumbukumbu za kliniki, na kinajumuisha maeneo matano: utambuzi, usimamizi, matibabu, tiba ya dawa, na sababu za magonjwa.

Chanzo na Sifa za Data

Dataset ya MEDEC inajumuisha kumbukumbu 488 za kliniki, jumla ya maandishi 3848, kutoka mifumo mitatu ya hospitali nchini Marekani. Data hizi hazijawahi kutumiwa na model yoyote kubwa ya lugha, kuhakikisha uhalisi na uaminifu wa tathmini. Hivi sasa, dataset hii inatumika katika kazi ya pamoja ya MEDIQA-CORR, kutathmini utendaji wa mifumo 17 iliyoshiriki.

Majaribio na Matokeo

Timu ya utafiti ilitumia dataset ya MEDEC kujaribu model mbalimbali za kisasa, ikiwa ni pamoja na o1-preview, GPT-4, Claude 3.5 Sonnet, na Gemini 2.0 Flash. Pia, waliwaalika madaktari wawili wataalamu kushiriki katika kazi sawa ya kugundua makosa, kwa ajili ya kulinganisha utendaji wa binadamu na mashine.

Matokeo yameonyesha kuwa, ingawa model kubwa za lugha zinaonyesha utendaji mzuri katika kugundua na kurekebisha makosa ya kimatibabu, bado zipo nyuma ukilinganisha na madaktari binadamu. Hii inaonyesha kuwa MEDEC ni kiwango cha tathmini chenye changamoto.

Matumizi na Changamoto za LLM Katika Sekta ya Afya

Karatasi hii inaeleza kuwa, tafiti katika taasisi za matibabu nchini Marekani zinaonyesha kuwa, kati ya wagonjwa watano wanaosoma kumbukumbu zao za kliniki, mmoja huripoti kugundua makosa. Asilimia 40 ya makosa haya yanaonekana kuwa makubwa, na makosa yanayohusiana na utambuzi ndiyo yanayojitokeza mara kwa mara.

Matumizi na Hatari za LLM Katika Nyaraka za Kimatibabu

Kadiri kazi nyingi za nyaraka za kimatibabu (kama vile kuandika kumbukumbu za kliniki) zinavyofanywa na model kubwa za lugha, ni muhimu kuhakikisha usahihi na usalama wa taarifa zinazotolewa na LLM. LLM zinaweza kutoa taarifa za uongo, makosa, au maudhui ya kubuni, ambayo yanaweza kuathiri maamuzi ya kimatibabu.

Umuhimu wa Kiwango cha MEDEC

Ili kutatua changamoto hizi na kuhakikisha usalama wa matumizi ya LLM katika kuandaa maudhui ya kimatibabu, mbinu madhubuti za uthibitishaji ni muhimu. Kuanzishwa kwa kiwango cha MEDEC kunalenga kutathmini uwezo wa model katika kugundua na kurekebisha makosa ya kimatibabu katika maandishi ya kliniki.

Ujenzi wa Dataset ya MEDEC

Dataset ya MEDEC inajumuisha maandishi 3848 ya kliniki kutoka maeneo mbalimbali ya tiba, yaliyowekwa alama na wataalamu 8 wa matibabu. Dataset hii inajumuisha aina tano za makosa:

  • Utambuzi (Diagnosis): Utambuzi usio sahihi.
  • Usimamizi (Management): Hatua zisizo sahihi za usimamizi.
  • Tiba ya Dawa (Pharmacotherapy): Mapendekezo yasiyo sahihi ya tiba ya dawa.
  • Matibabu (Treatment): Mapendekezo yasiyo sahihi ya matibabu.
  • Sababu za Magonjwa (Causal Organism): Ufafanuzi usio sahihi wa viumbe au vimelea vinavyosababisha magonjwa.

Aina hizi za makosa zimechaguliwa kwa kuzingatia aina za maswali yanayojitokeza mara kwa mara katika mitihani ya bodi za matibabu.

Mbinu za Uundaji wa Data

Dataset hii imeundwa kwa kutumia mbinu mbili:

  1. Mbinu #1 (MS): Kutumia maswali ya mitihani ya bodi ya matibabu kutoka MedQA, ambapo wataalamu wa matibabu huongeza majibu yasiyo sahihi katika maandishi ya maswali.
  2. Mbinu #2 (UW): Kutumia hifadhidata ya kumbukumbu halisi za kliniki kutoka hospitali tatu za Chuo Kikuu cha Washington, ambapo wanafunzi wa matibabu huongeza makosa kwa mikono.

Mbinu zote mbili zimepitia udhibiti mkali wa ubora, kuhakikisha usahihi na uaminifu wa data.

Mbinu za Kugundua na Kurekebisha Makosa ya Kimatibabu

Ili kutathmini utendaji wa model katika kazi ya kugundua na kurekebisha makosa ya kimatibabu, watafiti wamegawanya mchakato huu katika kazi tatu ndogo:

  • Kazi Ndogo A: Kutabiri alama ya makosa (0: hakuna makosa; 1: kuna makosa).
  • Kazi Ndogo B: Kutoa sentensi iliyo na makosa.
  • Kazi Ndogo C: Kuandaa marekebisho ya sentensi iliyo na makosa.

Timu ya utafiti ilitumia LLM kuunda suluhu, na walitumia aina mbili tofauti za maelekezo ili kutoa matokeo yanayohitajika.

Majaribio na Matokeo

Watafiti walifanya majaribio kwa model mbalimbali za lugha, ikiwa ni pamoja na Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini, na o1-preview.

Uchambuzi wa Matokeo ya Majaribio

Matokeo ya majaribio yameonyesha kuwa Claude 3.5 Sonnet ilifanya vizuri katika kugundua alama ya makosa na sentensi zilizo na makosa. o1-preview ilifanya vizuri zaidi katika kurekebisha makosa. Hata hivyo, model zote bado zilikuwa nyuma ya madaktari binadamu katika kugundua na kurekebisha makosa ya kimatibabu.

Matokeo pia yameonyesha kuwa, model zina changamoto katika usahihi, na mara nyingi zilitabiri uwepo wa makosa kupita kiasi (yaani, kutoa taarifa za uongo). Aidha, kuna tofauti ya viwango kati ya utendaji wa kuainisha na utendaji wa kurekebisha makosa.

Uchambuzi wa Aina za Makosa

Katika kugundua na kurekebisha aina tofauti za makosa, o1-preview ilikuwa na uwezo mkubwa zaidi wa kukumbuka katika kugundua alama na sentensi za makosa, lakini madaktari walikuwa na usahihi zaidi.

Mwelekeo wa Utafiti wa Baadaye

Watafiti wamesema kuwa, mwelekeo wa utafiti wa baadaye ni pamoja na kuongeza mifano na kuboresha maelekezo, ili kuendelea kuboresha utendaji wa model katika kugundua na kurekebisha makosa ya kimatibabu.