Published on

டிஃப்யூஷன்-மாடல்-இன்ஃபரன்ஸ்-ஸ்கேலிங்-புதிய-பாரடைம்

ஆசிரியர்கள்
  • avatar
    பெயர்
    Ajax
    Twitter

[article]

அறிமுகம்

பெரிய மொழி மாதிரிகளில் (LLMs) அனுமானத்தின் போது அளவிடுதலின் செயல்திறனை சமீபத்திய முன்னேற்றங்கள் நிரூபித்துள்ளன. o1, o3, DeepSeek R1, QwQ மற்றும் Step Reasoner mini போன்ற மாதிரிகள், அனுமானத்தின் போது அதிகரித்த கணக்கீடு செயல்திறனை கணிசமாக மேம்படுத்தும் என்பதைக் காட்டியுள்ளன. இந்த கொள்கையை டிஃப்யூஷன் மாடல்களிலும் பயன்படுத்த முடியுமா என்ற கேள்வியை இது எழுப்புகிறது.

நியூயார்க் பல்கலைக்கழகத்தில் உள்ள Xie Saining தலைமையிலான ஒரு குழு இந்த கேள்வியை ஆராய்ந்துள்ளது. ஒரு பொதுவான தேடல் கட்டமைப்பைப் பயன்படுத்தி ஒரு முறையான விசாரணையின் மூலம், அனுமான நேர அளவிடுதல் டிஃப்யூஷன் மாடல்களுக்கு உண்மையில் பயனுள்ளதாக இருக்கும் என்று அவர்கள் கண்டறிந்தனர். அனுமானத்தின் போது கணக்கீட்டை அதிகரிப்பது, உருவாக்கப்பட்ட மாதிரிகளின் தரத்தில் குறிப்பிடத்தக்க முன்னேற்றத்திற்கு வழிவகுக்கிறது. மேலும், படங்களின் சிக்கலானது, பல்வேறு பயன்பாட்டு சூழ்நிலைகளுக்கு ஏற்றவாறு கட்டமைப்பிற்குள் உள்ள கூறுகளின் வெவ்வேறு சேர்க்கைகளை அனுமதிக்கிறது.

முக்கிய கண்டுபிடிப்புகள்

  • டிஃப்யூஷன் மாடல்களுக்கு அனுமான நேர அளவிடுதல் பயனுள்ளதாக இருக்கும்: அனுமானத்தின் போது அதிக கணக்கீட்டு வளங்களை ஒதுக்குவது அதிக தரமான மாதிரிகளுக்கு வழிவகுக்கிறது.
  • கூறு சேர்க்கைகளில் நெகிழ்வுத்தன்மை: கட்டமைப்பு பல்வேறு பயன்பாடுகளுக்கு ஏற்றவாறு வெவ்வேறு கூறு உள்ளமைவுகளை அனுமதிக்கிறது.
  • டெனோயிசிங் படிகளுக்கு அப்பால்: மாதிரியின் போது சிறந்த இரைச்சலைத் தேடுவது NFE ஐ அளவிடுவதற்கான மற்றொரு பரிமாணம் என்பதை ஆராய்ச்சி கூறுகிறது, டெனோயிசிங் படிகளை அதிகரிப்பதை விட.
  • இரண்டு வடிவமைப்பு அச்சுகள்: கட்டமைப்பு இரண்டு முக்கிய வடிவமைப்பு அச்சுகளில் கவனம் செலுத்துகிறது:
    • சரிபார்ப்பாளர்கள்: தேடல் செயல்முறையின் போது கருத்துக்களை வழங்குதல்.
    • அல்காரிதம்கள்: சிறந்த இரைச்சல் வேட்பாளர்களைக் கண்டுபிடிப்பது.

ஆராய்ச்சி முறை

பல்வேறு பயன்பாட்டு நிகழ்வுகளை உருவகப்படுத்தும் சரிபார்ப்பாளர்களுக்கான மூன்று வெவ்வேறு காட்சிகளை குழு ஆராய்ந்தது: 1. இறுதி மதிப்பீட்டைப் பற்றிய சலுகை பெற்ற தகவல் கிடைக்கும் சூழ்நிலைகள். 2. உருவாக்கத்திற்கு வழிகாட்ட நிபந்தனை தகவல் கிடைக்கும் சூழ்நிலைகள். 3. கூடுதல் தகவல் எதுவும் கிடைக்காத சூழ்நிலைகள்.

அல்காரிதம்களுக்கு, அவர்கள் விசாரித்தனர்: 1. ரேண்டம் தேடல்: நிலையான வேட்பாளர்களின் தொகுப்பிலிருந்து சிறந்ததைத் தேர்ந்தெடுப்பது. 2. பூஜ்ஜிய-வரிசை தேடல்: சரிபார்ப்பு கருத்துக்களைப் பயன்படுத்தி இரைச்சல் வேட்பாளர்களை மீண்டும் மீண்டும் மேம்படுத்துதல். 3. பாதை தேடல்: சரிபார்ப்பு கருத்துக்களைப் பயன்படுத்தி டிஃப்யூஷன் மாதிரி பாதைகளை மீண்டும் மீண்டும் மேம்படுத்துதல்.

இந்த ஆய்வு ஆரம்பத்தில் ஒப்பீட்டளவில் எளிய ImageNet கிளாஸ்-கண்டிஷனல் ஜெனரேஷன் அமைப்பில் இந்த வடிவமைப்புகளை ஆராய்ந்தது. பின்னர், அவர்கள் இந்த வடிவமைப்புகளை பெரிய அளவிலான உரை-நிபந்தனை உருவாக்கத்திற்கு பயன்படுத்தினர் மற்றும் அவர்கள் முன்மொழியப்பட்ட கட்டமைப்பை மதிப்பீடு செய்தனர்.

அனுமான நேரத்தை அளவிடுதல்

டிஃப்யூஷன் மாதிரிகளில் அனுமான நேரத்தை அளவிடுவதற்கான ஒரு கட்டமைப்பை இந்த ஆய்வறிக்கை முன்மொழிகிறது, உகந்த மாதிரி இரைச்சலுக்கான தேடலாக சவாலை வடிவமைக்கிறது. இந்த செயல்முறையில் இரண்டு முக்கிய கூறுகள் உள்ளன:

  • சரிபார்ப்பாளர்கள்: இவை உருவாக்கப்பட்ட மாதிரிகளின் தரத்தை மதிப்பிடும் முன் பயிற்சி அளிக்கப்பட்ட மாதிரிகள். அவை உருவாக்கப்பட்ட மாதிரிகளை விருப்ப நிபந்தனைகளுடன் எடுத்துக்கொண்டு, ஒரு ஸ்கேலர் மதிப்பெண்ணை வெளியிடுகின்றன.
  • அல்காரிதம்கள்: இந்த அல்காரிதம்கள் சிறந்த மாதிரி வேட்பாளர்களைக் கண்டறிய சரிபார்ப்பு மதிப்பெண்களைப் பயன்படுத்துகின்றன. இந்த செயல்பாடு ஒரு சரிபார்ப்பாளர் (V), முன் பயிற்சி அளிக்கப்பட்ட டிஃப்யூஷன் மாடல் (_θ), மற்றும் உருவாக்கப்பட்ட மாதிரிகள் மற்றும் நிபந்தனைகளின் தொகுப்பை எடுத்துக்கொண்டு, சிறந்த ஆரம்ப இரைச்சலை வெளியிடுகிறது.

மொத்த அனுமான பட்ஜெட் என்பது டெனோயிசிங் படிகள் மற்றும் தேடல் செலவுகள் உட்பட மொத்த செயல்பாட்டு மதிப்பீடுகளின் எண்ணிக்கை (NFE) மூலம் அளவிடப்படுகிறது.

சரிபார்ப்பாளர்களைத் தேடுங்கள்

ஆராய்ச்சியாளர்கள் ஒரு Oracle சரிபார்ப்பாளருடன் தொடங்கினர், இது தேர்ந்தெடுக்கப்பட்ட மாதிரிகளின் இறுதி மதிப்பீட்டைப் பற்றிய முழுமையான தகவலைக் கொண்டுள்ளது. ImageNet க்கு, இது FID மற்றும் IS போன்ற அளவீடுகளை உள்ளடக்கியது. பின்னர் அவர்கள் CLIP மற்றும் DINO போன்ற மேற்பார்வையிடப்பட்ட சரிபார்ப்பாளர்களாக அதிக அணுகக்கூடிய முன் பயிற்சி அளிக்கப்பட்ட மாதிரிகளை ஆராய்ந்தனர். இந்த மாதிரிகள் மாதிரிகளை வகைப்படுத்தவும், வகுப்பு லேபிளுக்கு ஒத்த அதிக லோகிட் கொண்ட மாதிரியைத் தேர்ந்தெடுக்கவும் பயன்படுத்தப்பட்டன.

இருப்பினும், இந்த வகைப்படுத்திகள் புள்ளி வாரியாக செயல்படுவதால், FID மதிப்பெண்ணின் நோக்கங்களுடன் ஓரளவு மட்டுமே ஒத்துப்போகின்றன என்பதை அவர்கள் கவனித்தனர். இது கணக்கீடு அதிகரித்ததால் மாதிரி மாறுபாடு மற்றும் பயன்முறை சரிவுக்கு வழிவகுத்தது. "சரிபார்ப்பு ஹேக்கிங்" என்று அழைக்கப்படும் இந்த நிகழ்வு, ரேண்டம் தேடல் அல்காரிதமின் கட்டுப்பாடற்ற தேடல் இடத்தால் துரிதப்படுத்தப்பட்டது.

சுவாரஸ்யமாக, தேடலை திறம்பட வழிநடத்த சரிபார்ப்பாளர்களுக்கு நிபந்தனை தகவல் தேவையில்லை என்பதை இந்த ஆய்வு கண்டறிந்துள்ளது. DINO/CLIP வகைப்படுத்திகளிலிருந்து வரும் லோகிட்களுக்கும், குறைந்த இரைச்சல் மட்டத்தில் உள்ள x கணிப்புக்கும் இறுதி சுத்தமான மாதிரிக்கும் இடையிலான அம்ச இடத்தின் கொசைன் ஒற்றுமைக்கும் இடையே ஒரு வலுவான தொடர்பு இருப்பதாக அவர்கள் கவனித்தனர். இது கூடுதல் நிபந்தனை தகவல் தேவையில்லாத மற்றும் இன்னும் பயனுள்ள அளவிடுதல் நடத்தையை வெளிப்படுத்திய சுய மேற்பார்வையிடப்பட்ட சரிபார்ப்பாளர்களின் பயன்பாட்டிற்கு வழிவகுத்தது.

தேடல் அல்காரிதம்கள்

சரிபார்ப்பு ஹேக்கிங்கைத் தணிக்க, ஆராய்ச்சியாளர்கள் வேட்பாளர் மாதிரிகளை படிப்படியாக மேம்படுத்தும் மிகவும் மேம்பட்ட தேடல் அல்காரிதம்களை ஆராய்ந்தனர். இதில் பூஜ்ஜிய-வரிசை தேடல் முறையும் அடங்கும்: 1. ஒரு திருப்புமுனை புள்ளியாக ஒரு ரேண்டம் காஸியன் இரைச்சலுடன் தொடங்குதல். 2. திருப்புமுனை புள்ளியின் சுற்றுப்புறத்தில் N வேட்பாளர்களைக் கண்டறிதல். 3. மாதிரிகள் மற்றும் சரிபார்ப்பு மதிப்பெண்களைப் பெற ODE சால்வர் மூலம் வேட்பாளர்களை இயக்குதல். 4. சிறந்த வேட்பாளருடன் திருப்புமுனை புள்ளியைப் புதுப்பித்து 1-3 படிகளை மீண்டும் செய்தல்.

அவர்கள் பாதை தேடல் அல்காரிதத்தையும் விசாரித்தனர், இது மாதிரி பாதையில் தேடுவதற்கான சாத்தியக்கூறுகளை ஆராய்கிறது: 1. N ஆரம்ப இரைச்சல் மாதிரிகளை மாதிரியாக எடுத்து, ODE சால்வரை இரைச்சல் நிலை σ வரை இயக்குதல். 2. ஒவ்வொரு மாதிரிக்கும் இரைச்சலைச் சேர்த்து, ஒரு முன்னோக்கி இரைச்சல் செயல்முறையை உருவகப்படுத்துதல். 3. ஒவ்வொரு இரைச்சலான மாதிரியிலும் ODE சால்வரை இயக்குதல் மற்றும் சரிபார்ப்பு மதிப்பெண்களின் அடிப்படையில் சிறந்த N வேட்பாளர்களை வைத்திருத்தல், ODE சால்வர் σ=0 ஐ அடையும் வரை மீண்டும் செய்தல். 4. மீதமுள்ள N மாதிரிகளைத் தோராயமாகத் தேடி சிறந்த ஒன்றைத் தக்கவைத்தல்.

பூஜ்ஜிய-வரிசை மற்றும் பாதை தேடல் அல்காரிதம்கள் இரண்டும் ரேண்டம் தேடலுடன் ஒப்பிடும்போது வலுவான இடத்தைப் பராமரிக்கின்றன.

உரை-பட சூழ்நிலைகளில் அளவிடுதல்

பெரிய அளவிலான உரை-பட பணிகளில் தேடல் கட்டமைப்பின் அளவிடுதல் திறன்களை குழு ஆய்வு செய்தது. அவர்கள் மதிப்பீட்டிற்காக DrawBench மற்றும் T2I-CompBench தரவுத்தொகுப்புகளைப் பயன்படுத்தினர், FLUX.1-dev மாடலை முதுகெலும்பாகக் கொண்டுள்ளனர். அவர்கள் அழகியல் ஸ்கோர் முன்னறிவிப்பாளர், CLIPScore மற்றும் ImageReward உள்ளிட்ட மேற்பார்வையிடப்பட்ட சரிபார்ப்பாளர்களின் தேர்வை விரிவுபடுத்தினர். கூடுதலாக, அவர்கள் இந்த மூன்று சரிபார்ப்பாளர்களையும் இணைத்து ஒரு சரிபார்ப்பு குழுவை உருவாக்கினர்.

பகுப்பாய்வு: சரிபார்ப்பு-பணி சீரமைப்பு

பல்வேறு தரவுத்தொகுப்புகளில் பல்வேறு சரிபார்ப்பு-அல்காரிதம் சேர்க்கைகளின் முடிவுகளை ஆய்வு ஒப்பிட்டது. DrawBench இல், அனைத்து சரிபார்ப்பாளர்களையும் பயன்படுத்துவது பொதுவாக மாதிரி தரத்தை மேம்படுத்தும் என்று அவர்கள் கண்டறிந்தனர். இருப்பினும், அழகியல் மற்றும் CLIP சரிபார்ப்பாளர்களைத் தனித்தனியாகப் பயன்படுத்துவது அவற்றின் சார்புகளுக்கு அதிகமாகப் பொருந்த வழிவகுக்கும் என்பதைக் கவனித்தனர், இதன் விளைவாக ஒன்றுக்கொன்று எதிர்மறையான தாக்கங்கள் ஏற்படும். இது அவற்றின் மதிப்பீட்டு கவனத்தில் உள்ள பொருந்தாத தன்மையிலிருந்து வருகிறது: அழகியல் ஸ்கோர் காட்சி தரத்தில் கவனம் செலுத்துகிறது, பெரும்பாலும் அதிக ஸ்டைலான படங்களை விரும்புகிறது, அதே நேரத்தில் CLIP காட்சி-உரை சீரமைப்பிற்கு முன்னுரிமை அளிக்கிறது, சில சமயங்களில் காட்சி தரத்தை தியாகம் செய்கிறது. சில சரிபார்ப்பாளர்கள் குறிப்பிட்ட பணிகளுக்கு மிகவும் பொருத்தமானவர்கள் என்றும், ஒரு சரிபார்ப்பாளரின் செயல்திறன் பணி தேவைகளுடன் அதன் சீரமைப்பைப் பொறுத்தது என்றும் அவர்கள் குறிப்பிட்டனர்.

அல்காரிதம் செயல்திறன்

மூன்று தேடல் அல்காரிதம்களும் (ரேண்டம், பூஜ்ஜிய-வரிசை மற்றும் பாதை) அனைத்தும் DrawBench இல் மாதிரி தரத்தை திறம்பட மேம்படுத்தின. இருப்பினும், மற்ற இரண்டு முறைகளின் உள்ளூர் தன்மை காரணமாக ரேண்டம் தேடல் சில அம்சங்களில் சிறப்பாக செயல்பட்டது. ரேண்டம் தேடல் சரிபார்ப்பு சார்புக்கு விரைவாக ஒன்றிணைந்தது, அதே நேரத்தில் மற்ற இரண்டு அல்காரிதம்களும் உகந்த வேட்பாளர்களை விட குறைவாக மேம்படுத்த வேண்டும்.

ஃபைன்-ட்யூனிங்குடன் இணக்கம்

ஃபைன்-ட்யூன் செய்யப்பட்ட மாடல்களுடன் தங்கள் தேடல் முறையின் இணக்கத்தன்மையை குழு ஆய்வு செய்தது. அவர்கள் DPO-ஃபைன்-ட்யூன் செய்யப்பட்ட ஸ்டேபிள் டிஃப்யூஷன் XL மாடலைப் பயன்படுத்தினர், மேலும் தேடல் முறையை வெவ்வேறு மாடல்களுக்குப் பொதுமைப்படுத்த முடியும் மற்றும் ஏற்கனவே சீரமைக்கப்பட்ட மாடல்களின் செயல்திறனை மேம்படுத்த முடியும் என்பதைக் கண்டறிந்தனர்.

அனுமான கணக்கீட்டின் வெவ்வேறு பரிமாணங்களின் விளைவுகள்

இந்த ஆய்வு அனுமான கணக்கீட்டின் வெவ்வேறு அம்சங்கள் முடிவுகளை எவ்வாறு பாதிக்கின்றன என்பதை ஆராய்ந்தது:

  • தேடல் மறு செய்கைகளின் எண்ணிக்கை: மறு செய்கைகளை அதிகரிப்பது இரைச்சலை உகந்த நிலைக்கு நெருக்கமாகக் கொண்டுவருகிறது.
  • தேடல் மறு செய்கைக்கான கணக்கீடு: ஒரு மறு செய்கைக்கு டெனோயிசிங் படிகளின் எண்ணிக்கையை சரிசெய்வது கணக்கீட்டு ரீதியாக உகந்த வெவ்வேறு பகுதிகளை வெளிப்படுத்துகிறது.
  • இறுதி உருவாக்கும் கணக்கீடு: இறுதி மாதிரி தரம் மிக உயர்ந்ததாக இருப்பதை உறுதி செய்வதற்காக இறுதி டெனோயிசிங் படிகளுக்கு உகந்த அமைப்புகளை குழு பயன்படுத்தியது.

கணக்கீட்டில் முதலீட்டின் செயல்திறன்

சிறிய டிஃப்யூஷன் மாடல்களில் அனுமான நேர அளவிடுதலின் செயல்திறனை ஆராய்ச்சியாளர்கள் ஆராய்ந்தனர். ImageNet க்கு, சிறிய மாடல்களை அளவிடுவது மிகவும் திறமையானதாக இருக்கும் என்று அவர்கள் கண்டறிந்தனர். சில சந்தர்ப்பங்களில், சிறிய மாதிரியில் தேடுவது தேடல் இல்லாமல் பெரிய மாதிரிகளை விட சிறப்பாக செயல்பட முடியும். இருப்பினும், செயல்திறன் சிறிய மாதிரியின் அடிப்படை செயல்திறனைப் பொறுத்தது.

உரை அடிப்படையிலான அமைப்புகளில், PixArt-Σ, கணக்கீட்டின் ஒரு பகுதியை மட்டுமே பயன்படுத்தி, FLUX-1.dev ஐ விட சிறப்பாக செயல்பட்டது. இந்த முடிவுகள் பயிற்சியின் போது செலவிடப்பட்ட குறிப்பிடத்தக்க கணக்கீட்டு வளங்களை உருவாக்கத்தின் போது சிறிய அளவிலான கணக்கீடு மூலம் ஈடுசெய்ய முடியும் என்பதைக் காட்டுகிறது, இதன் விளைவாக அதிக தரமான மாதிரிகள் மிகவும் திறமையாக இருக்கும்.