Published on

OpenAI மாதிரி அளவுருக்கள் கசிந்தன: மைக்ரோசாஃப்ட் தாள் GPT4o அளவை வெளிப்படுத்துகிறது

ஆசிரியர்கள்
  • avatar
    பெயர்
    Ajax
    Twitter

OpenAI மாதிரி அளவுருக்கள் கசிந்தன: மைக்ரோசாஃப்ட் தாள் GPT4o அளவை வெளிப்படுத்துகிறது

தொழில்நுட்ப உலகில், பெரிய மொழி மாதிரிகளின் (LLM) அளவுரு அளவுகள் எப்போதும் மிகவும் ரகசியமாக வைக்கப்படுகின்றன. இருப்பினும், சமீபத்தில் மைக்ரோசாஃப்ட் மற்றும் வாஷிங்டன் பல்கலைக்கழகக் குழு இணைந்து வெளியிட்ட மருத்துவ ஆய்வுக் கட்டுரை, OpenAI இன் பல மாதிரிகளின் அளவுரு தகவல்களை எதிர்பாராதவிதமாக வெளிப்படுத்தியுள்ளது. இது பரவலான கவனத்தை ஈர்த்துள்ளது.

அளவுருக்கள் வெளிப்பாடு

இந்த ஆய்வுக் கட்டுரையில் வெளிப்படுத்தப்பட்ட முக்கிய தகவல்கள் பின்வருமாறு:

  • GPT-4: சுமார் 1.76 டிரில்லியன் அளவுருக்கள்
  • GPT-4o: சுமார் 200 பில்லியன் அளவுருக்கள்
  • GPT-4o mini: சுமார் 8 பில்லியன் அளவுருக்கள்
  • o1-preview: சுமார் 300 பில்லியன் அளவுருக்கள்
  • o1-mini: சுமார் 100 பில்லியன் அளவுருக்கள்
  • Claude 3.5 Sonnet: சுமார் 175 பில்லியன் அளவுருக்கள்

ஆராய்ச்சியாளர்கள் இந்த அளவுருக்கள் அனைத்தும் மதிப்பீடுகள் மட்டுமே என்று கூறியுள்ளனர் என்பது குறிப்பிடத்தக்கது.

GPT-4o தொடர் அளவுருக்கள் பற்றிய விவாதம்

ஆச்சரியமான விஷயம் என்னவென்றால், GPT-4o தொடரின் அளவுருக்கள் எதிர்பார்த்ததை விட மிகக் குறைவாக உள்ளன. குறிப்பாக, மினி பதிப்பு வெறும் 8 பில்லியன் அளவுருக்களை மட்டுமே கொண்டுள்ளது. GPT-4o மினி கலப்பின நிபுணர் மாதிரி (MoE) கட்டமைப்பைப் பயன்படுத்தலாம் என்றும், உண்மையில் 8 பில்லியன் அளவுருக்கள் செயல்படுத்தப்பட்டிருக்கலாம் எனவும், ஆனால் மாதிரி ஒட்டுமொத்தமாக 400 பில்லியன் அளவுருக்களைக் கொண்டிருக்கலாம் என்றும் இணையவாசிகள் ஊகிக்கின்றனர். இந்த கட்டமைப்பு, சிறிய மாதிரிகள் அதிக அறிவைப் பெறவும், அதே நேரத்தில் இயக்க வேகத்தைத் தக்கவைக்கவும் உதவுகிறது.

Claude 3.5 Sonnet அளவுரு ஒப்பீடு

கூடுதலாக, Claude 3.5 Sonnet இன் அளவுருக்கள் GPT-3 davinci க்கு சமமாக இருப்பதாக கருத்துரைக்கப்பட்டுள்ளது. இது, வெவ்வேறு மாதிரிகளின் செயல்திறன் மற்றும் அளவு ஆகியவற்றுக்கு இடையிலான உறவைப் பற்றி மேலும் சிந்திக்கத் தூண்டுகிறது.

MEDEC தரநிலை: மருத்துவ பிழை கண்டறிதலுக்கான ஒரு புதிய தரநிலை

அளவுருக்களை வெளிப்படுத்திய ஆய்வுக் கட்டுரை, உண்மையில் MEDEC1 என்ற மதிப்பீட்டுத் தரநிலையைப் பற்றியது. இது மருத்துவப் பிழை கண்டறிதல் மற்றும் திருத்தும் பணிகளில் பெரிய மொழி மாதிரிகளின் செயல்திறனை மதிப்பிடுவதை நோக்கமாகக் கொண்டுள்ளது. இந்தத் தரநிலை, மருத்துவக் குறிப்புகளில் உள்ள பிழைகளில் கவனம் செலுத்துகிறது. இது நோயறிதல், மேலாண்மை, சிகிச்சை, மருந்து சிகிச்சை, மற்றும் காரணிகளை உள்ளடக்கிய ஐந்து அம்சங்களை உள்ளடக்கியது.

தரவு ஆதாரம் மற்றும் சிறப்பம்சங்கள்

MEDEC தரவுத்தொகுப்பில் மூன்று அமெரிக்க மருத்துவமனை அமைப்புகளிலிருந்து 488 மருத்துவக் குறிப்புகள் உள்ளன. மொத்தம் 3848 மருத்துவ உரைகள் உள்ளன. இந்தத் தரவு இதற்கு முன்பு எந்த பெரிய மொழி மாதிரியிலும் பயன்படுத்தப்படவில்லை. இது மதிப்பீட்டின் நம்பகத்தன்மையை உறுதி செய்கிறது. தற்போது, இந்த தரவுத்தொகுப்பு 17 பங்கேற்பு அமைப்புகளின் செயல்திறனை மதிப்பிடுவதற்காக MEDIQA-CORR பகிர்வு பணியில் பயன்படுத்தப்படுகிறது.

சோதனை மற்றும் முடிவுகள்

o1-preview, GPT-4, Claude 3.5 Sonnet, மற்றும் Gemini 2.0 Flash உள்ளிட்ட பல மேம்பட்ட மாதிரிகளைப் பயன்படுத்தி MEDEC தரவுத்தொகுப்பில் ஆராய்ச்சியாளர்கள் சோதனை செய்தனர். அதே நேரத்தில், இரண்டு தொழில்முறை மருத்துவர்களையும் அதே பிழை கண்டறிதல் பணியில் ஈடுபடுத்தி, மனிதன்-இயந்திர ஒப்பீட்டை மேற்கொண்டனர்.

பெரிய மொழி மாதிரிகள் மருத்துவப் பிழை கண்டறிதல் மற்றும் திருத்துவதில் சிறப்பாக செயல்பட்டாலும், மனித மருத்துவர்களுடன் ஒப்பிடும்போது இன்னும் வேறுபாடுகள் உள்ளன என்பது முடிவுகளின் மூலம் தெரியவந்தது. இது MEDEC ஒரு சவாலான மதிப்பீட்டு தரநிலை என்பதை நிரூபிக்கிறது.

ஆய்வுக் கட்டுரையின் மையக்கருத்து: மருத்துவத் துறையில் LLM பயன்பாடுகள் மற்றும் சவால்கள்

அமெரிக்க மருத்துவ நிறுவனங்களின் ஆய்வுகள், மருத்துவக் குறிப்புகளைப் படிக்கும் ஒவ்வொரு ஐந்து நோயாளிகளில் ஒருவராவது பிழைகளைக் கண்டறிவதாகக் காட்டுகிறது. இந்த பிழைகளில் 40% மிகவும் கடுமையானதாகக் கருதப்படுகின்றன. இதில் நோயறிதலுடன் தொடர்புடைய பிழைகள் மிகவும் பொதுவானவை.

மருத்துவ ஆவணங்களில் LLM பயன்பாட்டின் ஆபத்துகள்

மருத்துவ ஆவணப் பணிகளான மருத்துவக் குறிப்புகளை உருவாக்குவது போன்ற பல வேலைகள் பெரிய மொழி மாதிரிகளால் செய்யப்படும்போது, LLM வழங்கும் தகவல்கள் துல்லியமாகவும் பாதுகாப்பாகவும் இருக்க வேண்டியது அவசியம். LLM மாயத்தோற்றங்களை உருவாக்கி, தவறான அல்லது புனைவான உள்ளடக்கத்தை வழங்கக்கூடும். இது மருத்துவ முடிவுகளில் கடுமையான தாக்கத்தை ஏற்படுத்தும்.

MEDEC தரநிலையின் முக்கியத்துவம்

இந்த சிக்கல்களைத் தீர்க்கவும், மருத்துவ உள்ளடக்க உருவாக்கத்தில் LLM இன் பாதுகாப்பை உறுதிப்படுத்தவும், கடுமையான சரிபார்ப்பு முறைகள் அவசியமாகின்றன. மருத்துவ உரைகளில் உள்ள மருத்துவ பிழைகளைக் கண்டறிந்து சரிசெய்வதில் மாதிரிகளின் திறனை மதிப்பிடுவதற்காக MEDEC தரநிலை அறிமுகப்படுத்தப்பட்டுள்ளது.

MEDEC தரவுத்தொகுப்பின் உருவாக்கம்

MEDEC தரவுத்தொகுப்பில் பல்வேறு மருத்துவத் துறைகளிலிருந்து 3848 மருத்துவ உரைகள் உள்ளன. இது 8 மருத்துவக் குறிப்பாளர்களால் குறிக்கப்பட்டது. இந்த தரவுத்தொகுப்பு ஐந்து வகையான பிழைகளை உள்ளடக்கியது:

  • நோயறிதல் (Diagnosis): வழங்கப்பட்ட நோயறிதல் துல்லியமற்றது.
  • மேலாண்மை (Management): வழங்கப்பட்ட அடுத்த கட்ட மேலாண்மை நடவடிக்கைகள் துல்லியமற்றவை.
  • மருந்து சிகிச்சை (Pharmacotherapy): பரிந்துரைக்கப்பட்ட மருந்து சிகிச்சை துல்லியமற்றது.
  • சிகிச்சை (Treatment): பரிந்துரைக்கப்பட்ட சிகிச்சை திட்டம் துல்லியமற்றது.
  • காரணமான உயிரினம் (Causal Organism): குறிக்கப்பட்ட நோய்க்காரணி அல்லது நோய்க்கிருமி துல்லியமற்றது.

இந்த பிழை வகைகளுக்கான தேர்வு, மருத்துவ வாரிய தேர்வுகளில் அடிக்கடி கேட்கப்படும் கேள்விகளின் அடிப்படையில் அமைந்துள்ளது.

தரவு உருவாக்கும் முறைகள்

தரவுத்தொகுப்பை உருவாக்க இரண்டு முறைகள் பயன்படுத்தப்பட்டன:

  1. முறை #1 (MS): MedQA தொகுப்பில் உள்ள மருத்துவ வாரியத் தேர்வு கேள்விகளைப் பயன்படுத்தி, மருத்துவப் பின்னணி கொண்ட குறிப்பாளர்கள் பிழையான பதில்களை அந்தந்த சூழல் உரைகளில் சேர்த்தனர்.
  2. முறை #2 (UW): வாஷிங்டன் பல்கலைக்கழகத்தின் மூன்று மருத்துவமனை அமைப்புகளின் உண்மையான மருத்துவக் குறிப்பு தரவுத்தளத்தைப் பயன்படுத்தி, மருத்துவ மாணவர் குழுக்கள் பதிவுகளில் கைகளால் பிழைகளைச் சேர்த்தனர்.

இரண்டு முறைகளும் தரவு துல்லியமாகவும் நம்பகத்தன்மையுடனும் இருப்பதை உறுதி செய்ய கடுமையான தரக் கட்டுப்பாட்டுக்கு உட்படுத்தப்பட்டன.

மருத்துவ பிழை கண்டறிதல் மற்றும் திருத்தும் முறைகள்

மருத்துவ பிழை கண்டறிதல் மற்றும் திருத்தும் பணிகளில் மாதிரிகளின் செயல்திறனை மதிப்பிடுவதற்கு, ஆராய்ச்சியாளர்கள் இந்த செயல்முறையை மூன்று துணை பணிகளாகப் பிரித்தனர்:

  • துணை பணி A: பிழை குறியீட்டை முன்னறிவித்தல் (0: பிழை இல்லை; 1: பிழை உள்ளது).
  • துணை பணி B: பிழை உள்ள வாக்கியத்தை பிரித்தெடுத்தல்.
  • துணை பணி C: பிழை உள்ள வாக்கியத்திற்கான திருத்தப்பட்ட உள்ளடக்கத்தை உருவாக்குதல்.

ஆராய்ச்சிக் குழுவினர் LLM ஐ அடிப்படையாகக் கொண்டு தீர்வுகளை உருவாக்கி, தேவையான வெளியீட்டை உருவாக்க இரண்டு வெவ்வேறு குறிப்புகளைப் பயன்படுத்தினர்.

பரிசோதனைகள் மற்றும் முடிவுகள்

மொழி மாதிரிகள்

Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini, மற்றும் o1-preview உள்ளிட்ட பல்வேறு மொழி மாதிரிகளில் ஆராய்ச்சியாளர்கள் பரிசோதனைகளை மேற்கொண்டனர்.

பரிசோதனை முடிவுகள் பகுப்பாய்வு

பரிசோதனை முடிவுகளின்படி, Claude 3.5 Sonnet பிழை குறியீடு கண்டறிதல் மற்றும் பிழை வாக்கியம் கண்டறிதலில் சிறப்பாக செயல்பட்டது. o1-preview பிழை திருத்துவதில் சிறந்தது. இருப்பினும், அனைத்து மாதிரிகளும் மருத்துவ பிழை கண்டறிதல் மற்றும் திருத்துவதில் மனித மருத்துவர்களை விட பின்தங்கியே உள்ளன.

மேலும், மாதிரிகள் துல்லியத்தன்மை குறைபாடு உள்ளதாகவும், பல சந்தர்ப்பங்களில் பிழைகள் இருப்பதை அதிகமாக முன்னறிவிப்பதாகவும் (அதாவது மாயத்தோற்றத்தை உருவாக்குதல்) முடிவுகள் காட்டுகின்றன. கூடுதலாக, வகைப்படுத்தல் செயல்திறன் மற்றும் பிழை திருத்தும் செயல்திறனுக்கு இடையே தரவரிசை வேறுபாடு உள்ளது.

பிழை வகை பகுப்பாய்வு

வெவ்வேறு பிழை வகைகளைக் கண்டறிந்து சரிசெய்வதில், o1-preview பிழை குறியீடு மற்றும் வாக்கியம் கண்டறிதலில் அதிக திரும்பப் பெறும் விகிதத்தைக் கொண்டிருந்தது, ஆனால் மருத்துவர்கள் துல்லியத்தில் சிறப்பாக செயல்பட்டனர்.

அடுத்தகட்ட ஆய்வுக்கான திசைகள்

மருத்துவ பிழை கண்டறிதல் மற்றும் திருத்துவதில் மாதிரிகளின் செயல்திறனை மேலும் மேம்படுத்துவதற்கு, குறிப்புகளில் கூடுதல் எடுத்துக்காட்டுகளைச் சேர்ப்பது மற்றும் அவற்றை மேம்படுத்துவது போன்ற ஆய்வுகளை அடுத்தகட்டமாக மேற்கொள்ள ஆராய்ச்சியாளர்கள் திட்டமிட்டுள்ளனர்.