- Published on
ఓపెన్ఏఐ మోడల్ పారామీటర్స్ లీక్: మైక్రోసాఫ్ట్ పేపర్ GPT4o పరిమాణాన్ని వెల్లడించింది
ఓపెన్ఏఐ మోడల్ పారామీటర్స్ లీక్: మైక్రోసాఫ్ట్ పేపర్ GPT4o పరిమాణాన్ని వెల్లడించింది
టెక్నాలజీ ప్రపంచంలో, పెద్ద భాషా నమూనాల (LLM) పారామీటర్ల పరిమాణం చాలా రహస్యంగా ఉంచబడుతుంది. అయితే, ఇటీవల మైక్రోసాఫ్ట్ మరియు వాషింగ్టన్ విశ్వవిద్యాలయం బృందం సంయుక్తంగా ప్రచురించిన ఒక వైద్య పరిశోధనా పత్రం, అనుకోకుండా OpenAI యొక్క అనేక నమూనాల పారామీటర్ల సమాచారాన్ని వెల్లడించింది, ఇది విస్తృత దృష్టిని ఆకర్షించింది.
పారామీటర్ల బహిర్గతం
ఈ పరిశోధనా పత్రంలో వెల్లడైన ముఖ్యమైన సమాచారం:
- GPT-4: సుమారు 1.76 ట్రిలియన్ పారామీటర్లు
- GPT-4o: సుమారు 200 బిలియన్ పారామీటర్లు
- GPT-4o mini: సుమారు 8 బిలియన్ పారామీటర్లు
- o1-preview: సుమారు 300 బిలియన్ పారామీటర్లు
- o1-mini: సుమారు 100 బిలియన్ పారామీటర్లు
- Claude 3.5 Sonnet: సుమారు 175 బిలియన్ పారామీటర్లు
ఇక్కడ గమనించదగ్గ విషయం ఏమిటంటే, ఈ పారామీటర్లన్నీ అంచనాలు మాత్రమేనని పరిశోధకులు పేర్కొన్నారు.
GPT-4o సిరీస్ పారామీటర్లపై చర్చ
విశేషంగా, GPT-4o సిరీస్ యొక్క పారామీటర్ల పరిమాణం ఊహించిన దానికంటే చాలా తక్కువగా ఉంది, ముఖ్యంగా మినీ వెర్షన్ కేవలం 8 బిలియన్ పారామీటర్లను కలిగి ఉంది. GPT-4o మినీ మోడల్ మిక్స్డ్ ఎక్స్పర్ట్ మోడల్ (MoE) నిర్మాణాన్ని ఉపయోగించి ఉండవచ్చని, వాస్తవానికి 8 బిలియన్ పారామీటర్లు మాత్రమే యాక్టివేట్ అవుతాయని, కానీ మొత్తం మోడల్ పారామీటర్లు 400 బిలియన్ వరకు ఉండవచ్చని నెటిజన్లు ఊహిస్తున్నారు. ఈ నిర్మాణం చిన్న మోడల్లు మరింత జ్ఞానాన్ని నేర్చుకోవడానికి మరియు వేగంగా పనిచేయడానికి వీలు కల్పిస్తుంది.
Claude 3.5 Sonnet పారామీటర్ల పోలిక
అదనంగా, Claude 3.5 Sonnet యొక్క పారామీటర్ల పరిమాణం GPT-3 davinciకి సమానంగా ఉందని కొన్ని వ్యాఖ్యలు సూచిస్తున్నాయి, ఇది వివిధ నమూనాల పనితీరు మరియు పరిమాణం మధ్య సంబంధం గురించి మరింత ఆలోచించడానికి దారితీసింది.
MEDEC ప్రమాణం: వైద్య లోపాల గుర్తింపుకు కొత్త ప్రమాణం
పారామీటర్లను వెల్లడించిన ఈ పరిశోధనా పత్రం, వాస్తవానికి MEDEC1 అనే మూల్యాంకన ప్రమాణం గురించి, ఇది వైద్య లోపాల గుర్తింపు మరియు దిద్దుబాటు పనులలో పెద్ద భాషా నమూనాల పనితీరును అంచనా వేయడానికి ఉద్దేశించబడింది. ఈ ప్రమాణం క్లినికల్ నోట్స్లోని లోపాలపై దృష్టి పెడుతుంది మరియు రోగ నిర్ధారణ, నిర్వహణ, చికిత్స, మందుల చికిత్స మరియు వ్యాధి కారకాలు వంటి ఐదు అంశాలను కలిగి ఉంటుంది.
డేటా మూలం మరియు లక్షణాలు
MEDEC డేటా సెట్లో మూడు అమెరికన్ హాస్పిటల్ సిస్టమ్ల నుండి 488 క్లినికల్ నోట్లు ఉన్నాయి, మొత్తం 3848 క్లినికల్ టెక్స్ట్లు ఉన్నాయి. ఈ డేటా ఇంతకు ముందు ఏ పెద్ద భాషా నమూనాలకు అందుబాటులో లేదు, ఇది మూల్యాంకన యొక్క ప్రామాణికత మరియు విశ్వసనీయతను నిర్ధారిస్తుంది. ప్రస్తుతం, 17 పాల్గొనే వ్యవస్థల పనితీరును అంచనా వేయడానికి ఈ డేటాసెట్ MEDIQA-CORR షేర్డ్ టాస్క్లో ఉపయోగించబడుతోంది.
పరీక్ష మరియు ఫలితాలు
పరిశోధనా బృందం MEDEC డేటా సెట్ను ఉపయోగించి o1-preview, GPT-4, Claude 3.5 Sonnet మరియు Gemini 2.0 Flash వంటి అనేక అధునాతన మోడళ్లను పరీక్షించింది. అదే సమయంలో, వారు ఇద్దరు ప్రొఫెషనల్ వైద్యులను కూడా అదే లోపం గుర్తింపు పనిలో పాల్గొనమని ఆహ్వానించారు, తద్వారా మానవ మరియు యంత్ర పనితీరును పోల్చవచ్చు. ఫలితాలు ఏమిటంటే, పెద్ద భాషా నమూనాలు వైద్య లోపాల గుర్తింపు మరియు దిద్దుబాటులో మంచి పనితీరును కనబరిచినప్పటికీ, మానవ వైద్యులతో పోలిస్తే ఇప్పటికీ వెనుకబడి ఉన్నాయి. ఇది MEDEC ఒక సవాలుతో కూడుకున్న మూల్యాంకన ప్రమాణమని సూచిస్తుంది.
పరిశోధనా పత్రం యొక్క ప్రధాన అంశం: వైద్య రంగంలో LLMల అప్లికేషన్ మరియు సవాళ్లు
అమెరికన్ వైద్య సంస్థల సర్వే ప్రకారం, క్లినికల్ నోట్లను చదివే ప్రతి ఐదుగురు రోగులలో ఒకరు లోపాలను కనుగొన్నట్లు నివేదించారని పరిశోధనా పత్రం పేర్కొంది. ఈ లోపాలలో 40% తీవ్రమైనవిగా పరిగణించబడ్డాయి మరియు ఎక్కువగా రోగ నిర్ధారణకు సంబంధించినవి.
వైద్య పత్రాలలో LLMల అప్లికేషన్ మరియు ప్రమాదాలు
పెద్ద భాషా నమూనాల ద్వారా ఎక్కువ వైద్య పత్రాల పనులు (క్లినికల్ నోట్స్ జనరేషన్ వంటివి) చేయబడుతున్నందున, LLMలు అందించే సమాచారం యొక్క ఖచ్చితత్వం మరియు భద్రతను నిర్ధారించడం చాలా ముఖ్యం. LLMలు తప్పుడు లేదా కల్పిత సమాచారాన్ని అందించే అవకాశం ఉంది, ఇది క్లినికల్ నిర్ణయాలపై తీవ్ర ప్రభావం చూపుతుంది.
MEDEC ప్రమాణం యొక్క ప్రాముఖ్యత
ఈ సమస్యలను పరిష్కరించడానికి మరియు వైద్య కంటెంట్ జనరేషన్లో LLMల భద్రతను నిర్ధారించడానికి, కఠినమైన ధ్రువీకరణ పద్ధతులు అవసరం. క్లినికల్ టెక్స్ట్లలో వైద్యపరమైన లోపాలను గుర్తించే మరియు సరిచేసే సామర్థ్యాన్ని అంచనా వేయడానికి MEDEC ప్రమాణాన్ని ప్రవేశపెట్టారు.
MEDEC డేటాసెట్ నిర్మాణం
MEDEC డేటాసెట్లో వివిధ వైద్య రంగాల నుండి 3848 క్లినికల్ టెక్స్ట్లు ఉన్నాయి, వీటిని 8 మంది వైద్యులు గుర్తించారు. ఈ డేటాసెట్ ఐదు రకాల లోపాలను కలిగి ఉంది:
- రోగ నిర్ధారణ (Diagnosis): అందించిన రోగ నిర్ధారణ ఖచ్చితమైనది కాదు.
- నిర్వహణ (Management): అందించిన తదుపరి నిర్వహణ చర్యలు ఖచ్చితమైనవి కాదు.
- ఔషధ చికిత్స (Pharmacotherapy): సిఫార్సు చేయబడిన ఔషధ చికిత్స ఖచ్చితమైనది కాదు.
- చికిత్స (Treatment): సిఫార్సు చేయబడిన చికిత్సా ప్రణాళిక ఖచ్చితమైనది కాదు.
- వ్యాధి కారకం (Causal Organism): సూచించిన వ్యాధి కారక జీవి లేదా వ్యాధికారక సూక్ష్మజీవి ఖచ్చితమైనది కాదు.
ఈ లోపాల రకాలను వైద్య మండలి పరీక్షలలో ఎక్కువగా అడిగే ప్రశ్నల ఆధారంగా ఎంపిక చేశారు.
డేటా సృష్టి పద్ధతి
డేటాసెట్ నిర్మాణానికి రెండు పద్ధతులను ఉపయోగించారు:
- పద్ధతి #1 (MS): మెడ్క్యూఏ సేకరణ నుండి వైద్య మండలి పరీక్షా ప్రశ్నలను ఉపయోగించి, వైద్య నేపథ్యం ఉన్నవారు లోపాలను సన్నివేశ టెక్స్ట్లలో చొప్పించారు.
- పద్ధతి #2 (UW): వాషింగ్టన్ విశ్వవిద్యాలయం యొక్క మూడు ఆసుపత్రి వ్యవస్థల నుండి నిజమైన క్లినికల్ నోట్ డేటాబేస్ను ఉపయోగించి, వైద్య విద్యార్థుల బృందం రికార్డులలో లోపాలను చేతితో నమోదు చేసింది.
రెండు పద్ధతులు డేటా యొక్క ఖచ్చితత్వం మరియు విశ్వసనీయతను నిర్ధారించడానికి కఠినమైన నాణ్యత నియంత్రణకు లోబడి ఉన్నాయి.
వైద్య లోపం గుర్తింపు మరియు దిద్దుబాటు పద్ధతి
వైద్య లోపం గుర్తింపు మరియు దిద్దుబాటు పనులలో మోడల్ పనితీరును అంచనా వేయడానికి, పరిశోధకులు ఈ ప్రక్రియను మూడు ఉప-పనులుగా విభజించారు:
- ఉప-పని A: లోపం ఉందా లేదా అని అంచనా వేయడం (0: లోపం లేదు; 1: లోపం ఉంది).
- ఉప-పని B: లోపం ఉన్న వాక్యాలను గుర్తించడం.
- ఉప-పని C: లోపం ఉన్న వాక్యాలకు సవరణ కంటెంట్ను రూపొందించడం.
పరిశోధనా బృందం LLM ఆధారంగా పరిష్కారాలను రూపొందించింది మరియు కావలసిన అవుట్పుట్ను రూపొందించడానికి రెండు విభిన్న ప్రాంప్ట్లను ఉపయోగించింది.
ప్రయోగాలు మరియు ఫలితాలు
భాషా నమూనాలు
పరిశోధకులు Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini మరియు o1-preview వంటి వివిధ భాషా నమూనాలపై ప్రయోగాలు చేశారు.
ప్రయోగ ఫలితాల విశ్లేషణ
ప్రయోగ ఫలితాలు Claude 3.5 Sonnet లోపం గుర్తింపు మరియు లోపం ఉన్న వాక్యాలను గుర్తించడంలో మంచి పనితీరును కనబరిచింది. o1-preview లోపాలను సరిచేయడంలో ఉత్తమంగా పని చేసింది. అయితే, అన్ని నమూనాలు వైద్య లోపాల గుర్తింపు మరియు దిద్దుబాటులో మానవ వైద్యుల కంటే తక్కువ పనితీరును కనబరిచాయి. మోడల్లు ఖచ్చితత్వంలో సమస్యలను కలిగి ఉన్నాయని, అనేక సందర్భాల్లో లోపాలను ఎక్కువగా అంచనా వేస్తున్నాయని ఫలితాలు సూచిస్తున్నాయి (అంటే భ్రమలు కలిగిస్తున్నాయి). అదనంగా, వర్గీకరణ పనితీరు మరియు లోపం దిద్దుబాటు పనితీరు మధ్య వ్యత్యాసం ఉంది.
లోపాల రకాల విశ్లేషణ
వివిధ రకాల లోపాల గుర్తింపు మరియు దిద్దుబాటులో, o1-preview లోపాల గుర్తింపు మరియు వాక్యాల గుర్తింపులో అధిక రీకాల్ రేటును కలిగి ఉంది, అయితే వైద్యులు ఖచ్చితత్వంలో మెరుగైన పనితీరును కనబరిచారు.
తదుపరి పరిశోధన దిశ
పరిశోధకులు, వైద్య లోపాల గుర్తింపు మరియు దిద్దుబాటులో మోడల్ పనితీరును మరింత మెరుగుపరచడానికి ప్రాంప్ట్లలో మరిన్ని ఉదాహరణలను చేర్చడం మరియు వాటిని ఆప్టిమైజ్ చేయడం వంటి పరిశోధనలు చేస్తామని తెలిపారు.