ఓపెన్‌ఏఐ మోడల్ పారామీటర్స్ లీక్: మైక్రోసాఫ్ట్ పేపర్ GPT4o పరిమాణాన్ని వెల్లడించింది

టెక్నాలజీ ప్రపంచంలో, పెద్ద భాషా నమూనాల (LLM) పారామీటర్ల పరిమాణం చాలా రహస్యంగా ఉంచబడుతుంది. అయితే, ఇటీవల మైక్రోసాఫ్ట్ మరియు వాషింగ్టన్ విశ్వవిద్యాలయం బృందం సంయుక్తంగా ప్రచురించిన ఒక వైద్య పరిశోధనా పత్రం, అనుకోకుండా OpenAI యొక్క అనేక నమూనాల పారామీటర్ల సమాచారాన్ని వెల్లడించింది, ఇది విస్తృత దృష్టిని ఆకర్షించింది.

పారామీటర్ల బహిర్గతం

ఈ పరిశోధనా పత్రంలో వెల్లడైన ముఖ్యమైన సమాచారం:

GPT-4: సుమారు 1.76 ట్రిలియన్ పారామీటర్లు
GPT-4o: సుమారు 200 బిలియన్ పారామీటర్లు
GPT-4o mini: సుమారు 8 బిలియన్ పారామీటర్లు
o1-preview: సుమారు 300 బిలియన్ పారామీటర్లు
o1-mini: సుమారు 100 బిలియన్ పారామీటర్లు
Claude 3.5 Sonnet: సుమారు 175 బిలియన్ పారామీటర్లు

ఇక్కడ గమనించదగ్గ విషయం ఏమిటంటే, ఈ పారామీటర్లన్నీ అంచనాలు మాత్రమేనని పరిశోధకులు పేర్కొన్నారు.

GPT-4o సిరీస్ పారామీటర్లపై చర్చ

విశేషంగా, GPT-4o సిరీస్ యొక్క పారామీటర్ల పరిమాణం ఊహించిన దానికంటే చాలా తక్కువగా ఉంది, ముఖ్యంగా మినీ వెర్షన్ కేవలం 8 బిలియన్ పారామీటర్లను కలిగి ఉంది. GPT-4o మినీ మోడల్ మిక్స్‌డ్ ఎక్స్‌పర్ట్ మోడల్ (MoE) నిర్మాణాన్ని ఉపయోగించి ఉండవచ్చని, వాస్తవానికి 8 బిలియన్ పారామీటర్లు మాత్రమే యాక్టివేట్ అవుతాయని, కానీ మొత్తం మోడల్ పారామీటర్లు 400 బిలియన్ వరకు ఉండవచ్చని నెటిజన్లు ఊహిస్తున్నారు. ఈ నిర్మాణం చిన్న మోడల్‌లు మరింత జ్ఞానాన్ని నేర్చుకోవడానికి మరియు వేగంగా పనిచేయడానికి వీలు కల్పిస్తుంది.

Claude 3.5 Sonnet పారామీటర్ల పోలిక

అదనంగా, Claude 3.5 Sonnet యొక్క పారామీటర్ల పరిమాణం GPT-3 davinciకి సమానంగా ఉందని కొన్ని వ్యాఖ్యలు సూచిస్తున్నాయి, ఇది వివిధ నమూనాల పనితీరు మరియు పరిమాణం మధ్య సంబంధం గురించి మరింత ఆలోచించడానికి దారితీసింది.

MEDEC ప్రమాణం: వైద్య లోపాల గుర్తింపుకు కొత్త ప్రమాణం

పారామీటర్లను వెల్లడించిన ఈ పరిశోధనా పత్రం, వాస్తవానికి MEDEC1 అనే మూల్యాంకన ప్రమాణం గురించి, ఇది వైద్య లోపాల గుర్తింపు మరియు దిద్దుబాటు పనులలో పెద్ద భాషా నమూనాల పనితీరును అంచనా వేయడానికి ఉద్దేశించబడింది. ఈ ప్రమాణం క్లినికల్ నోట్స్‌లోని లోపాలపై దృష్టి పెడుతుంది మరియు రోగ నిర్ధారణ, నిర్వహణ, చికిత్స, మందుల చికిత్స మరియు వ్యాధి కారకాలు వంటి ఐదు అంశాలను కలిగి ఉంటుంది.

డేటా మూలం మరియు లక్షణాలు

MEDEC డేటా సెట్‌లో మూడు అమెరికన్ హాస్పిటల్ సిస్టమ్‌ల నుండి 488 క్లినికల్ నోట్‌లు ఉన్నాయి, మొత్తం 3848 క్లినికల్ టెక్స్ట్‌లు ఉన్నాయి. ఈ డేటా ఇంతకు ముందు ఏ పెద్ద భాషా నమూనాలకు అందుబాటులో లేదు, ఇది మూల్యాంకన యొక్క ప్రామాణికత మరియు విశ్వసనీయతను నిర్ధారిస్తుంది. ప్రస్తుతం, 17 పాల్గొనే వ్యవస్థల పనితీరును అంచనా వేయడానికి ఈ డేటాసెట్ MEDIQA-CORR షేర్డ్ టాస్క్‌లో ఉపయోగించబడుతోంది.

పరీక్ష మరియు ఫలితాలు

పరిశోధనా బృందం MEDEC డేటా సెట్‌ను ఉపయోగించి o1-preview, GPT-4, Claude 3.5 Sonnet మరియు Gemini 2.0 Flash వంటి అనేక అధునాతన మోడళ్లను పరీక్షించింది. అదే సమయంలో, వారు ఇద్దరు ప్రొఫెషనల్ వైద్యులను కూడా అదే లోపం గుర్తింపు పనిలో పాల్గొనమని ఆహ్వానించారు, తద్వారా మానవ మరియు యంత్ర పనితీరును పోల్చవచ్చు. ఫలితాలు ఏమిటంటే, పెద్ద భాషా నమూనాలు వైద్య లోపాల గుర్తింపు మరియు దిద్దుబాటులో మంచి పనితీరును కనబరిచినప్పటికీ, మానవ వైద్యులతో పోలిస్తే ఇప్పటికీ వెనుకబడి ఉన్నాయి. ఇది MEDEC ఒక సవాలుతో కూడుకున్న మూల్యాంకన ప్రమాణమని సూచిస్తుంది.

పరిశోధనా పత్రం యొక్క ప్రధాన అంశం: వైద్య రంగంలో LLMల అప్లికేషన్ మరియు సవాళ్లు

అమెరికన్ వైద్య సంస్థల సర్వే ప్రకారం, క్లినికల్ నోట్‌లను చదివే ప్రతి ఐదుగురు రోగులలో ఒకరు లోపాలను కనుగొన్నట్లు నివేదించారని పరిశోధనా పత్రం పేర్కొంది. ఈ లోపాలలో 40% తీవ్రమైనవిగా పరిగణించబడ్డాయి మరియు ఎక్కువగా రోగ నిర్ధారణకు సంబంధించినవి.

వైద్య పత్రాలలో LLMల అప్లికేషన్ మరియు ప్రమాదాలు

పెద్ద భాషా నమూనాల ద్వారా ఎక్కువ వైద్య పత్రాల పనులు (క్లినికల్ నోట్స్ జనరేషన్ వంటివి) చేయబడుతున్నందున, LLMలు అందించే సమాచారం యొక్క ఖచ్చితత్వం మరియు భద్రతను నిర్ధారించడం చాలా ముఖ్యం. LLMలు తప్పుడు లేదా కల్పిత సమాచారాన్ని అందించే అవకాశం ఉంది, ఇది క్లినికల్ నిర్ణయాలపై తీవ్ర ప్రభావం చూపుతుంది.

MEDEC ప్రమాణం యొక్క ప్రాముఖ్యత

ఈ సమస్యలను పరిష్కరించడానికి మరియు వైద్య కంటెంట్ జనరేషన్‌లో LLMల భద్రతను నిర్ధారించడానికి, కఠినమైన ధ్రువీకరణ పద్ధతులు అవసరం. క్లినికల్ టెక్స్ట్‌లలో వైద్యపరమైన లోపాలను గుర్తించే మరియు సరిచేసే సామర్థ్యాన్ని అంచనా వేయడానికి MEDEC ప్రమాణాన్ని ప్రవేశపెట్టారు.

MEDEC డేటాసెట్ నిర్మాణం

MEDEC డేటాసెట్‌లో వివిధ వైద్య రంగాల నుండి 3848 క్లినికల్ టెక్స్ట్‌లు ఉన్నాయి, వీటిని 8 మంది వైద్యులు గుర్తించారు. ఈ డేటాసెట్ ఐదు రకాల లోపాలను కలిగి ఉంది:

రోగ నిర్ధారణ (Diagnosis): అందించిన రోగ నిర్ధారణ ఖచ్చితమైనది కాదు.
నిర్వహణ (Management): అందించిన తదుపరి నిర్వహణ చర్యలు ఖచ్చితమైనవి కాదు.
ఔషధ చికిత్స (Pharmacotherapy): సిఫార్సు చేయబడిన ఔషధ చికిత్స ఖచ్చితమైనది కాదు.
చికిత్స (Treatment): సిఫార్సు చేయబడిన చికిత్సా ప్రణాళిక ఖచ్చితమైనది కాదు.
వ్యాధి కారకం (Causal Organism): సూచించిన వ్యాధి కారక జీవి లేదా వ్యాధికారక సూక్ష్మజీవి ఖచ్చితమైనది కాదు.

ఈ లోపాల రకాలను వైద్య మండలి పరీక్షలలో ఎక్కువగా అడిగే ప్రశ్నల ఆధారంగా ఎంపిక చేశారు.

డేటా సృష్టి పద్ధతి

డేటాసెట్ నిర్మాణానికి రెండు పద్ధతులను ఉపయోగించారు:

పద్ధతి #1 (MS): మెడ్‌క్యూఏ సేకరణ నుండి వైద్య మండలి పరీక్షా ప్రశ్నలను ఉపయోగించి, వైద్య నేపథ్యం ఉన్నవారు లోపాలను సన్నివేశ టెక్స్ట్‌లలో చొప్పించారు.
పద్ధతి #2 (UW): వాషింగ్టన్ విశ్వవిద్యాలయం యొక్క మూడు ఆసుపత్రి వ్యవస్థల నుండి నిజమైన క్లినికల్ నోట్ డేటాబేస్‌ను ఉపయోగించి, వైద్య విద్యార్థుల బృందం రికార్డులలో లోపాలను చేతితో నమోదు చేసింది.

రెండు పద్ధతులు డేటా యొక్క ఖచ్చితత్వం మరియు విశ్వసనీయతను నిర్ధారించడానికి కఠినమైన నాణ్యత నియంత్రణకు లోబడి ఉన్నాయి.

వైద్య లోపం గుర్తింపు మరియు దిద్దుబాటు పద్ధతి

వైద్య లోపం గుర్తింపు మరియు దిద్దుబాటు పనులలో మోడల్ పనితీరును అంచనా వేయడానికి, పరిశోధకులు ఈ ప్రక్రియను మూడు ఉప-పనులుగా విభజించారు:

ఉప-పని A: లోపం ఉందా లేదా అని అంచనా వేయడం (0: లోపం లేదు; 1: లోపం ఉంది).
ఉప-పని B: లోపం ఉన్న వాక్యాలను గుర్తించడం.
ఉప-పని C: లోపం ఉన్న వాక్యాలకు సవరణ కంటెంట్‌ను రూపొందించడం.

పరిశోధనా బృందం LLM ఆధారంగా పరిష్కారాలను రూపొందించింది మరియు కావలసిన అవుట్‌పుట్‌ను రూపొందించడానికి రెండు విభిన్న ప్రాంప్ట్‌లను ఉపయోగించింది.

ప్రయోగాలు మరియు ఫలితాలు

భాషా నమూనాలు

పరిశోధకులు Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini మరియు o1-preview వంటి వివిధ భాషా నమూనాలపై ప్రయోగాలు చేశారు.

ప్రయోగ ఫలితాల విశ్లేషణ

ప్రయోగ ఫలితాలు Claude 3.5 Sonnet లోపం గుర్తింపు మరియు లోపం ఉన్న వాక్యాలను గుర్తించడంలో మంచి పనితీరును కనబరిచింది. o1-preview లోపాలను సరిచేయడంలో ఉత్తమంగా పని చేసింది. అయితే, అన్ని నమూనాలు వైద్య లోపాల గుర్తింపు మరియు దిద్దుబాటులో మానవ వైద్యుల కంటే తక్కువ పనితీరును కనబరిచాయి. మోడల్‌లు ఖచ్చితత్వంలో సమస్యలను కలిగి ఉన్నాయని, అనేక సందర్భాల్లో లోపాలను ఎక్కువగా అంచనా వేస్తున్నాయని ఫలితాలు సూచిస్తున్నాయి (అంటే భ్రమలు కలిగిస్తున్నాయి). అదనంగా, వర్గీకరణ పనితీరు మరియు లోపం దిద్దుబాటు పనితీరు మధ్య వ్యత్యాసం ఉంది.

లోపాల రకాల విశ్లేషణ

వివిధ రకాల లోపాల గుర్తింపు మరియు దిద్దుబాటులో, o1-preview లోపాల గుర్తింపు మరియు వాక్యాల గుర్తింపులో అధిక రీకాల్ రేటును కలిగి ఉంది, అయితే వైద్యులు ఖచ్చితత్వంలో మెరుగైన పనితీరును కనబరిచారు.

తదుపరి పరిశోధన దిశ

పరిశోధకులు, వైద్య లోపాల గుర్తింపు మరియు దిద్దుబాటులో మోడల్ పనితీరును మరింత మెరుగుపరచడానికి ప్రాంప్ట్‌లలో మరిన్ని ఉదాహరణలను చేర్చడం మరియు వాటిని ఆప్టిమైజ్ చేయడం వంటి పరిశోధనలు చేస్తామని తెలిపారు.