Published on

డిఫ్యూషన్ మోడల్ ఇన్ఫరెన్స్ స్కేలింగ్ కొత్త నమూనా

రచయితలు
  • avatar
    పేరు
    Ajax
    Twitter

పరిచయం

పెద్ద భాషా నమూనాలు (LLMలు) ఇటీవల ఇన్ఫరెన్స్ సమయంలో స్కేలింగ్ యొక్క ప్రభావాన్ని ప్రదర్శించాయి. o1, o3, DeepSeek R1, QwQ, మరియు Step Reasoner mini వంటి నమూనాలు ఇన్ఫరెన్స్ సమయంలో పెరిగిన కంప్యూటేషన్ పనితీరును గణనీయంగా మెరుగుపరుస్తుందని చూపించాయి. ఈ సూత్రాన్ని డిఫ్యూషన్ మోడళ్లకు కూడా వర్తింపజేయవచ్చా అనే ప్రశ్న తలెత్తుతుంది?

న్యూయార్క్ విశ్వవిద్యాలయంలోని Xie Saining నేతృత్వంలోని బృందం ఈ ప్రశ్నే పరిశీలించింది. సాధారణ శోధన ఫ్రేమ్‌వర్క్‌ను ఉపయోగించి క్రమబద్ధమైన పరిశోధన ద్వారా, ఇన్ఫరెన్స్-టైమ్ స్కేలింగ్ డిఫ్యూషన్ మోడళ్లకు నిజంగా ప్రభావవంతంగా ఉంటుందని వారు కనుగొన్నారు. ఇన్ఫరెన్స్ సమయంలో కంప్యూటేషన్ పెంచడం ద్వారా ఉత్పత్తి చేయబడిన నమూనాల నాణ్యతలో గణనీయమైన మెరుగుదలలకు దారితీస్తుంది. అంతేకాకుండా, చిత్రాల సంక్లిష్టత ఫ్రేమ్‌వర్క్‌లోని భాగాల యొక్క విభిన్న కలయికలను వివిధ అప్లికేషన్ దృశ్యాలకు అనుగుణంగా అనుమతిస్తుంది.

ముఖ్యమైన విషయాలు

  • ఇన్ఫరెన్స్-టైమ్ స్కేలింగ్ డిఫ్యూషన్ మోడళ్లకు ప్రభావవంతమైనది: ఇన్ఫరెన్స్ సమయంలో ఎక్కువ కంప్యూటేషనల్ రిసోర్స్‌లను కేటాయించడం అధిక నాణ్యత గల నమూనాలకు దారితీస్తుంది.
  • భాగాల కలయికలలో సౌలభ్యం: ఫ్రేమ్‌వర్క్ వివిధ అప్లికేషన్‌లకు అనుగుణంగా వివిధ భాగాల కాన్ఫిగరేషన్‌లను అనుమతిస్తుంది.
  • డీనోయిసింగ్ దశలకు మించి: నమూనా సమయంలో మెరుగైన శబ్దం కోసం వెతకడం అనేది డీనోయిసింగ్ దశలను పెంచడం కంటే NFEని స్కేల్ చేయడానికి మరొక కొలత అని పరిశోధన సూచిస్తుంది.
  • రెండు డిజైన్ యాక్సెస్‌లు: ఫ్రేమ్‌వర్క్ రెండు ముఖ్యమైన డిజైన్ యాక్సెస్‌లపై దృష్టి పెడుతుంది:
    • వెరిఫైయర్‌లు: శోధన ప్రక్రియలో అభిప్రాయాన్ని అందిస్తాయి.
    • అల్గారిథమ్‌లు: మెరుగైన శబ్ద అభ్యర్థులను కనుగొంటాయి.

పరిశోధనా విధానం

వివిధ ఉపయోగ సందర్భాలను అనుకరిస్తూ, వెరిఫైయర్‌ల కోసం బృందం మూడు విభిన్న దృశ్యాలను అన్వేషించింది:

  1. తుది మూల్యాంకనం గురించి ప్రత్యేక సమాచారం అందుబాటులో ఉన్న దృశ్యాలు.
  2. ఉత్పత్తికి మార్గనిర్దేశం చేయడానికి షరతులతో కూడిన సమాచారం అందుబాటులో ఉన్న దృశ్యాలు.
  3. అదనపు సమాచారం అందుబాటులో లేని దృశ్యాలు.

అల్గారిథమ్‌ల కోసం, వారు దీనిని పరిశోధించారు:

  1. రాండమ్ సెర్చ్: స్థిరమైన అభ్యర్థుల నుండి ఉత్తమమైనదాన్ని ఎంచుకోవడం.
  2. జీరో-ఆర్డర్ సెర్చ్: వెరిఫైయర్ ఫీడ్‌బ్యాక్‌ని ఉపయోగించి శబ్ద అభ్యర్థులను పునరావృతంగా మెరుగుపరచడం.
  3. పాత్ సెర్చ్: వెరిఫైయర్ ఫీడ్‌బ్యాక్‌ని ఉపయోగించి డిఫ్యూషన్ నమూనా పథాలను పునరావృతంగా మెరుగుపరచడం.

ఈ అధ్యయనం ప్రారంభంలో సాపేక్షంగా సాధారణ ImageNet తరగతి-షరతులతో కూడిన ఉత్పత్తి సెటప్‌లో ఈ డిజైన్‌లను అన్వేషించింది. ఆ తరువాత, వారు ఈ డిజైన్‌లను పెద్ద-స్థాయి టెక్స్ట్-కండిషనల్ జనరేషన్‌కు వర్తింపజేసి, ప్రతిపాదిత ఫ్రేమ్‌వర్క్‌ను మూల్యాంకనం చేశారు.

ఇన్ఫరెన్స్ సమయాన్ని స్కేల్ చేయడం

డిఫ్యూషన్ మోడల్‌లలో ఇన్ఫరెన్స్ సమయాన్ని స్కేల్ చేయడానికి పేపర్ ఒక ఫ్రేమ్‌వర్క్‌ను ప్రతిపాదిస్తుంది, సరైన నమూనా శబ్దం కోసం వెతకడం ఒక సవాలుగా ఉంటుంది. ఈ ప్రక్రియలో రెండు ప్రధాన భాగాలు ఉన్నాయి:

  • వెరిఫైయర్‌లు: ఇవి ఉత్పత్తి చేయబడిన నమూనాల నాణ్యతను అంచనా వేసే ముందుగా శిక్షణ పొందిన నమూనాలు. అవి ఉత్పత్తి చేయబడిన నమూనాలను ఐచ్ఛిక షరతులతో తీసుకుంటాయి మరియు స్కేలార్ స్కోర్‌ను అవుట్‌పుట్ చేస్తాయి.
  • అల్గారిథమ్‌లు: ఈ అల్గారిథమ్‌లు మెరుగైన అభ్యర్థి నమూనాలను కనుగొనడానికి వెరిఫైయర్ స్కోర్‌లను ఉపయోగిస్తాయి. ఫంక్షన్ వెరిఫైయర్ (V), ముందుగా శిక్షణ పొందిన డిఫ్యూషన్ మోడల్ (θ) మరియు ఉత్పత్తి చేయబడిన నమూనాలు మరియు షరతుల సమితిని తీసుకుంటుంది, ఉత్తమ ప్రారంభ శబ్దాన్ని అవుట్‌పుట్ చేస్తుంది.

మొత్తం ఇన్ఫరెన్స్ బడ్జెట్‌ను డీనోయిసింగ్ దశలు మరియు శోధన ఖర్చులతో సహా మొత్తం ఫంక్షన్ మూల్యాంకనాల సంఖ్య (NFE) ద్వారా కొలుస్తారు.

వెరిఫైయర్‌లను వెతకండి

పరిశోధకులు Oracle వెరిఫైయర్‌తో ప్రారంభించారు, ఇది ఎంపిక చేసిన నమూనాల తుది మూల్యాంకనం గురించి పూర్తి సమాచారాన్ని కలిగి ఉంది. ImageNet కోసం, ఇందులో FID మరియు IS వంటి కొలమానాలు ఉన్నాయి. వారు CLIP మరియు DINO వంటి పర్యవేక్షించబడిన వెరిఫైయర్‌లుగా మరింత అందుబాటులో ఉన్న ముందుగా శిక్షణ పొందిన నమూనాలను అన్వేషించారు. ఈ నమూనాలను నమూనాలను వర్గీకరించడానికి ఉపయోగించారు, తరగతి లేబుల్‌కు అనుగుణంగా అత్యధిక లాగిట్‌తో నమూనాను ఎంచుకున్నారు.

అయితే, ఈ వర్గీకరణలు పాయింట్-వైజ్‌గా పనిచేస్తున్నాయని, FID స్కోర్ యొక్క లక్ష్యాలతో పాక్షికంగా మాత్రమే సరిపోతున్నాయని వారు గమనించారు. ఇది కంప్యూటేషన్ పెరిగేకొద్దీ నమూనా వైవిధ్యం మరియు మోడ్ పతనం తగ్గడానికి దారితీసింది. ఈ దృగ్విషయాన్ని "వెరిఫైయర్ హ్యాకింగ్" అని పిలుస్తారు, ఇది యాదృచ్ఛిక శోధన అల్గారిథమ్ యొక్క అనియంత్రిత శోధన స్థలం ద్వారా వేగవంతం చేయబడింది.

ఆసక్తికరంగా, వెరిఫైయర్‌లు శోధనను సమర్థవంతంగా మార్గనిర్దేశం చేయడానికి షరతులతో కూడిన సమాచారం అవసరం లేదని అధ్యయనం కనుగొంది. DINO/CLIP వర్గీకరణల నుండి వచ్చిన లాగిట్‌లకు మరియు తక్కువ శబ్ద స్థాయిలో x అంచనా మరియు తుది క్లీన్ నమూనా మధ్య ఫీచర్ స్థలం యొక్క కొసైన్ సారూప్యతకు మధ్య బలమైన సంబంధాన్ని వారు గమనించారు. ఇది అదనపు షరతులతో కూడిన సమాచారం అవసరం లేని మరియు ఇప్పటికీ సమర్థవంతమైన స్కేలింగ్ ప్రవర్తనను ప్రదర్శించే స్వీయ-పర్యవేక్షిత వెరిఫైయర్‌ల వాడకానికి దారితీసింది.

శోధన అల్గారిథమ్‌లు

వెరిఫైయర్ హ్యాకింగ్‌ను తగ్గించడానికి, పరిశోధకులు అభ్యర్థి నమూనాలను క్రమంగా ఆప్టిమైజ్ చేసే మరింత శుద్ధి చేసిన శోధన అల్గారిథమ్‌లను అన్వేషించారు. ఇందులో జీరో-ఆర్డర్ సెర్చ్ పద్ధతి ఉంది:

  1. యాదృచ్ఛిక గాస్సియన్ శబ్దాన్ని పివోట్ పాయింట్‌గా ప్రారంభించడం.
  2. పివోట్ పాయింట్ పరిసరాల్లో N అభ్యర్థులను కనుగొనడం.
  3. నమూనాలు మరియు వెరిఫైయర్ స్కోర్‌లను పొందడానికి ODE సాల్వర్ ద్వారా అభ్యర్థులను అమలు చేయడం.
  4. ఉత్తమ అభ్యర్థితో పివోట్ పాయింట్‌ను నవీకరించడం మరియు దశలను 1-3 పునరావృతం చేయడం.

వారు నమూనా పథం వెంట వెతకడం యొక్క అవకాశాన్ని అన్వేషించే పాత్ సెర్చ్ అల్గారిథమ్‌ను కూడా పరిశోధించారు:

  1. N ప్రారంభ శబ్ద నమూనాలను నమూనా చేయడం మరియు శబ్ద స్థాయి σకి ODE సాల్వర్‌ను అమలు చేయడం.
  2. ప్రతి నమూనాకు శబ్దాన్ని జోడించడం మరియు ఫార్వర్డ్ నోయిసింగ్ ప్రక్రియను అనుకరించడం.
  3. ప్రతి శబ్ద నమూనాలో ODE సాల్వర్‌ను అమలు చేయడం మరియు వెరిఫైయర్ స్కోర్‌ల ఆధారంగా మొదటి N అభ్యర్థులను ఉంచడం, ODE సాల్వర్ σ=0కి చేరుకునే వరకు పునరావృతం చేయడం.
  4. మిగిలిన N నమూనాలను యాదృచ్ఛికంగా వెతకడం మరియు ఉత్తమమైనదాన్ని ఉంచడం.

జీరో-ఆర్డర్ మరియు పాత్ సెర్చ్ అల్గారిథమ్‌లు రెండూ యాదృచ్ఛిక శోధనతో పోలిస్తే బలమైన స్థానికతను కలిగి ఉంటాయి.

టెక్స్ట్-టు-ఇమేజ్ దృశ్యాలలో స్కేలింగ్

పెద్ద-స్థాయి టెక్స్ట్-టు-ఇమేజ్ టాస్క్‌లలో శోధన ఫ్రేమ్‌వర్క్ యొక్క స్కేలింగ్ సామర్థ్యాలను బృందం పరిశీలించింది. వారు మూల్యాంకనం కోసం డ్రాబెంచ్ మరియు T2I-కాంప్‌బెంచ్ డేటాసెట్‌లను ఉపయోగించారు, FLUX.1-dev నమూనాని బ్యాక్‌బోన్‌గా ఉపయోగించారు. వారు సౌందర్య స్కోర్ ప్రిడిక్టర్, CLIPScore మరియు ImageRewardతో సహా పర్యవేక్షించబడిన వెరిఫైయర్‌ల ఎంపికను కూడా విస్తరించారు. అదనంగా, వారు ఈ మూడు వెరిఫైయర్‌లను కలపడం ద్వారా వెరిఫైయర్ సమితిని రూపొందించారు.

విశ్లేషణ: వెరిఫైయర్-టాస్క్ అమరిక

వివిధ డేటాసెట్‌లపై వివిధ వెరిఫైయర్-అల్గారిథమ్ కలయికల ఫలితాలను అధ్యయనం పోల్చింది. డ్రాబెంచ్‌లో, అన్ని వెరిఫైయర్‌లను ఉపయోగించడం సాధారణంగా నమూనా నాణ్యతను మెరుగుపరుస్తుందని వారు కనుగొన్నారు. అయితే, సౌందర్య మరియు CLIP వెరిఫైయర్‌లను విడిగా ఉపయోగించడం వలన వారి పక్షపాతాలకు సరిపోయేలా చేయడం వలన ఒకదానిపై ఒకటి ప్రతికూల ప్రభావాలు వస్తాయని వారు గమనించారు. ఇది వారి మూల్యాంకన దృష్టిలో అసమతుల్యత నుండి వస్తుంది: సౌందర్య స్కోర్ దృశ్య నాణ్యతపై దృష్టి పెడుతుంది, తరచుగా అత్యంత శైలీకృత చిత్రాలకు అనుకూలంగా ఉంటుంది, అయితే CLIP దృశ్య-వచన అమరికకు ప్రాధాన్యతనిస్తుంది, కొన్నిసార్లు దృశ్య నాణ్యతను త్యాగం చేస్తుంది. కొన్ని వెరిఫైయర్‌లు నిర్దిష్ట పనులకు మరింత అనుకూలంగా ఉంటాయని మరియు వెరిఫైయర్ యొక్క ప్రభావం దాని పని అవసరాలతో దాని అమరికపై ఆధారపడి ఉంటుందని వారు గుర్తించారు.

అల్గారిథమ్ పనితీరు

మూడు శోధన అల్గారిథమ్‌లు (రాండమ్, జీరో-ఆర్డర్ మరియు పాత్) అన్నీ డ్రాబెంచ్‌లో నమూనా నాణ్యతను సమర్థవంతంగా మెరుగుపరిచాయి. అయితే, ఇతర రెండు పద్ధతుల యొక్క స్థానిక స్వభావం కారణంగా రాండమ్ సెర్చ్ కొన్ని అంశాలలో మెరుగ్గా పని చేసింది. యాదృచ్ఛిక శోధన వెరిఫైయర్ పక్షపాతానికి వేగంగా చేరుకుంది, అయితే ఇతర రెండు అల్గారిథమ్‌లకు తక్కువ సరైన అభ్యర్థులపై మెరుగుదల అవసరం.

ఫైన్-ట్యూనింగ్‌తో అనుకూలత

ఫైన్-ట్యూన్డ్ మోడళ్లతో వారి శోధన పద్ధతి యొక్క అనుకూలతను బృందం పరిశీలించింది. వారు DPO-ఫైన్-ట్యూన్డ్ స్టేబుల్ డిఫ్యూషన్ XL మోడల్‌ను ఉపయోగించారు మరియు శోధన పద్ధతిని వివిధ నమూనాలకు సాధారణీకరించవచ్చని మరియు ఇప్పటికే అమర్చబడిన మోడళ్ల పనితీరును మెరుగుపరుస్తుందని కనుగొన్నారు.

ఇన్ఫరెన్స్ కంప్యూటేషన్ యొక్క విభిన్న కొలతల ప్రభావాలు

ఫలితాలను ఇన్ఫరెన్స్ కంప్యూటేషన్ యొక్క విభిన్న అంశాలు ఎలా ప్రభావితం చేస్తాయో అధ్యయనం అన్వేషించింది:

  • శోధన పునరావృత్తుల సంఖ్య: పునరావృత్తులను పెంచడం వలన శబ్దం సరైనదానికి దగ్గరగా వస్తుంది.
  • శోధన పునరావృత్తికి కంప్యూటేషన్: పునరావృత్తికి డీనోయిసింగ్ దశల సంఖ్యను సర్దుబాటు చేయడం వలన విభిన్న కంప్యూటేషనల్ సరైన ప్రాంతాలు తెలుస్తాయి.
  • తుది జనరేషన్ కంప్యూటేషన్: తుది నమూనా నాణ్యతను నిర్ధారించడానికి బృందం తుది డీనోయిసింగ్ దశల కోసం సరైన సెట్టింగ్‌లను ఉపయోగించింది.

కంప్యూటేషన్‌లో పెట్టుబడి యొక్క ప్రభావం

చిన్న డిఫ్యూషన్ మోడల్‌లపై ఇన్ఫరెన్స్-టైమ్ స్కేలింగ్ యొక్క ప్రభావాన్ని పరిశోధకులు అన్వేషించారు. ImageNet కోసం, చిన్న నమూనాలను స్కేల్ చేయడం చాలా సమర్థవంతంగా ఉంటుందని వారు కనుగొన్నారు. కొన్ని సందర్భాల్లో, శోధన లేకుండా పెద్ద నమూనాల కంటే చిన్న నమూనాపై శోధించడం మెరుగ్గా పనిచేస్తుంది. అయితే, ప్రభావం చిన్న నమూనా యొక్క బేస్‌లైన్ పనితీరుపై ఆధారపడి ఉంటుంది.

టెక్స్ట్-ఆధారిత సెట్టింగ్‌లలో, PixArt-Σ, కంప్యూటేషన్ యొక్క కొంత భాగాన్ని మాత్రమే ఉపయోగించి, FLUX-1.dev కంటే మెరుగ్గా పనిచేసింది. ఈ ఫలితాలు శిక్షణ సమయంలో గడిపిన గణనీయమైన కంప్యూటేషనల్ వనరులను ఉత్పత్తి సమయంలో తక్కువ మొత్తంలో కంప్యూటేషన్‌తో భర్తీ చేయవచ్చని చూపిస్తుంది, ఫలితంగా అధిక నాణ్యత గల నమూనాలు మరింత సమర్థవంతంగా వస్తాయి.