- Published on
డిఫ్యూషన్ మోడల్ ఇన్ఫరెన్స్ స్కేలింగ్ కొత్త నమూనా
పరిచయం
పెద్ద భాషా నమూనాలు (LLMలు) ఇటీవల ఇన్ఫరెన్స్ సమయంలో స్కేలింగ్ యొక్క ప్రభావాన్ని ప్రదర్శించాయి. o1, o3, DeepSeek R1, QwQ, మరియు Step Reasoner mini వంటి నమూనాలు ఇన్ఫరెన్స్ సమయంలో పెరిగిన కంప్యూటేషన్ పనితీరును గణనీయంగా మెరుగుపరుస్తుందని చూపించాయి. ఈ సూత్రాన్ని డిఫ్యూషన్ మోడళ్లకు కూడా వర్తింపజేయవచ్చా అనే ప్రశ్న తలెత్తుతుంది?
న్యూయార్క్ విశ్వవిద్యాలయంలోని Xie Saining నేతృత్వంలోని బృందం ఈ ప్రశ్నే పరిశీలించింది. సాధారణ శోధన ఫ్రేమ్వర్క్ను ఉపయోగించి క్రమబద్ధమైన పరిశోధన ద్వారా, ఇన్ఫరెన్స్-టైమ్ స్కేలింగ్ డిఫ్యూషన్ మోడళ్లకు నిజంగా ప్రభావవంతంగా ఉంటుందని వారు కనుగొన్నారు. ఇన్ఫరెన్స్ సమయంలో కంప్యూటేషన్ పెంచడం ద్వారా ఉత్పత్తి చేయబడిన నమూనాల నాణ్యతలో గణనీయమైన మెరుగుదలలకు దారితీస్తుంది. అంతేకాకుండా, చిత్రాల సంక్లిష్టత ఫ్రేమ్వర్క్లోని భాగాల యొక్క విభిన్న కలయికలను వివిధ అప్లికేషన్ దృశ్యాలకు అనుగుణంగా అనుమతిస్తుంది.
ముఖ్యమైన విషయాలు
- ఇన్ఫరెన్స్-టైమ్ స్కేలింగ్ డిఫ్యూషన్ మోడళ్లకు ప్రభావవంతమైనది: ఇన్ఫరెన్స్ సమయంలో ఎక్కువ కంప్యూటేషనల్ రిసోర్స్లను కేటాయించడం అధిక నాణ్యత గల నమూనాలకు దారితీస్తుంది.
- భాగాల కలయికలలో సౌలభ్యం: ఫ్రేమ్వర్క్ వివిధ అప్లికేషన్లకు అనుగుణంగా వివిధ భాగాల కాన్ఫిగరేషన్లను అనుమతిస్తుంది.
- డీనోయిసింగ్ దశలకు మించి: నమూనా సమయంలో మెరుగైన శబ్దం కోసం వెతకడం అనేది డీనోయిసింగ్ దశలను పెంచడం కంటే NFEని స్కేల్ చేయడానికి మరొక కొలత అని పరిశోధన సూచిస్తుంది.
- రెండు డిజైన్ యాక్సెస్లు: ఫ్రేమ్వర్క్ రెండు ముఖ్యమైన డిజైన్ యాక్సెస్లపై దృష్టి పెడుతుంది:
- వెరిఫైయర్లు: శోధన ప్రక్రియలో అభిప్రాయాన్ని అందిస్తాయి.
- అల్గారిథమ్లు: మెరుగైన శబ్ద అభ్యర్థులను కనుగొంటాయి.
పరిశోధనా విధానం
వివిధ ఉపయోగ సందర్భాలను అనుకరిస్తూ, వెరిఫైయర్ల కోసం బృందం మూడు విభిన్న దృశ్యాలను అన్వేషించింది:
- తుది మూల్యాంకనం గురించి ప్రత్యేక సమాచారం అందుబాటులో ఉన్న దృశ్యాలు.
- ఉత్పత్తికి మార్గనిర్దేశం చేయడానికి షరతులతో కూడిన సమాచారం అందుబాటులో ఉన్న దృశ్యాలు.
- అదనపు సమాచారం అందుబాటులో లేని దృశ్యాలు.
అల్గారిథమ్ల కోసం, వారు దీనిని పరిశోధించారు:
- రాండమ్ సెర్చ్: స్థిరమైన అభ్యర్థుల నుండి ఉత్తమమైనదాన్ని ఎంచుకోవడం.
- జీరో-ఆర్డర్ సెర్చ్: వెరిఫైయర్ ఫీడ్బ్యాక్ని ఉపయోగించి శబ్ద అభ్యర్థులను పునరావృతంగా మెరుగుపరచడం.
- పాత్ సెర్చ్: వెరిఫైయర్ ఫీడ్బ్యాక్ని ఉపయోగించి డిఫ్యూషన్ నమూనా పథాలను పునరావృతంగా మెరుగుపరచడం.
ఈ అధ్యయనం ప్రారంభంలో సాపేక్షంగా సాధారణ ImageNet తరగతి-షరతులతో కూడిన ఉత్పత్తి సెటప్లో ఈ డిజైన్లను అన్వేషించింది. ఆ తరువాత, వారు ఈ డిజైన్లను పెద్ద-స్థాయి టెక్స్ట్-కండిషనల్ జనరేషన్కు వర్తింపజేసి, ప్రతిపాదిత ఫ్రేమ్వర్క్ను మూల్యాంకనం చేశారు.
ఇన్ఫరెన్స్ సమయాన్ని స్కేల్ చేయడం
డిఫ్యూషన్ మోడల్లలో ఇన్ఫరెన్స్ సమయాన్ని స్కేల్ చేయడానికి పేపర్ ఒక ఫ్రేమ్వర్క్ను ప్రతిపాదిస్తుంది, సరైన నమూనా శబ్దం కోసం వెతకడం ఒక సవాలుగా ఉంటుంది. ఈ ప్రక్రియలో రెండు ప్రధాన భాగాలు ఉన్నాయి:
- వెరిఫైయర్లు: ఇవి ఉత్పత్తి చేయబడిన నమూనాల నాణ్యతను అంచనా వేసే ముందుగా శిక్షణ పొందిన నమూనాలు. అవి ఉత్పత్తి చేయబడిన నమూనాలను ఐచ్ఛిక షరతులతో తీసుకుంటాయి మరియు స్కేలార్ స్కోర్ను అవుట్పుట్ చేస్తాయి.
- అల్గారిథమ్లు: ఈ అల్గారిథమ్లు మెరుగైన అభ్యర్థి నమూనాలను కనుగొనడానికి వెరిఫైయర్ స్కోర్లను ఉపయోగిస్తాయి. ఫంక్షన్ వెరిఫైయర్ (V), ముందుగా శిక్షణ పొందిన డిఫ్యూషన్ మోడల్ (θ) మరియు ఉత్పత్తి చేయబడిన నమూనాలు మరియు షరతుల సమితిని తీసుకుంటుంది, ఉత్తమ ప్రారంభ శబ్దాన్ని అవుట్పుట్ చేస్తుంది.
మొత్తం ఇన్ఫరెన్స్ బడ్జెట్ను డీనోయిసింగ్ దశలు మరియు శోధన ఖర్చులతో సహా మొత్తం ఫంక్షన్ మూల్యాంకనాల సంఖ్య (NFE) ద్వారా కొలుస్తారు.
వెరిఫైయర్లను వెతకండి
పరిశోధకులు Oracle వెరిఫైయర్తో ప్రారంభించారు, ఇది ఎంపిక చేసిన నమూనాల తుది మూల్యాంకనం గురించి పూర్తి సమాచారాన్ని కలిగి ఉంది. ImageNet కోసం, ఇందులో FID మరియు IS వంటి కొలమానాలు ఉన్నాయి. వారు CLIP మరియు DINO వంటి పర్యవేక్షించబడిన వెరిఫైయర్లుగా మరింత అందుబాటులో ఉన్న ముందుగా శిక్షణ పొందిన నమూనాలను అన్వేషించారు. ఈ నమూనాలను నమూనాలను వర్గీకరించడానికి ఉపయోగించారు, తరగతి లేబుల్కు అనుగుణంగా అత్యధిక లాగిట్తో నమూనాను ఎంచుకున్నారు.
అయితే, ఈ వర్గీకరణలు పాయింట్-వైజ్గా పనిచేస్తున్నాయని, FID స్కోర్ యొక్క లక్ష్యాలతో పాక్షికంగా మాత్రమే సరిపోతున్నాయని వారు గమనించారు. ఇది కంప్యూటేషన్ పెరిగేకొద్దీ నమూనా వైవిధ్యం మరియు మోడ్ పతనం తగ్గడానికి దారితీసింది. ఈ దృగ్విషయాన్ని "వెరిఫైయర్ హ్యాకింగ్" అని పిలుస్తారు, ఇది యాదృచ్ఛిక శోధన అల్గారిథమ్ యొక్క అనియంత్రిత శోధన స్థలం ద్వారా వేగవంతం చేయబడింది.
ఆసక్తికరంగా, వెరిఫైయర్లు శోధనను సమర్థవంతంగా మార్గనిర్దేశం చేయడానికి షరతులతో కూడిన సమాచారం అవసరం లేదని అధ్యయనం కనుగొంది. DINO/CLIP వర్గీకరణల నుండి వచ్చిన లాగిట్లకు మరియు తక్కువ శబ్ద స్థాయిలో x అంచనా మరియు తుది క్లీన్ నమూనా మధ్య ఫీచర్ స్థలం యొక్క కొసైన్ సారూప్యతకు మధ్య బలమైన సంబంధాన్ని వారు గమనించారు. ఇది అదనపు షరతులతో కూడిన సమాచారం అవసరం లేని మరియు ఇప్పటికీ సమర్థవంతమైన స్కేలింగ్ ప్రవర్తనను ప్రదర్శించే స్వీయ-పర్యవేక్షిత వెరిఫైయర్ల వాడకానికి దారితీసింది.
శోధన అల్గారిథమ్లు
వెరిఫైయర్ హ్యాకింగ్ను తగ్గించడానికి, పరిశోధకులు అభ్యర్థి నమూనాలను క్రమంగా ఆప్టిమైజ్ చేసే మరింత శుద్ధి చేసిన శోధన అల్గారిథమ్లను అన్వేషించారు. ఇందులో జీరో-ఆర్డర్ సెర్చ్ పద్ధతి ఉంది:
- యాదృచ్ఛిక గాస్సియన్ శబ్దాన్ని పివోట్ పాయింట్గా ప్రారంభించడం.
- పివోట్ పాయింట్ పరిసరాల్లో N అభ్యర్థులను కనుగొనడం.
- నమూనాలు మరియు వెరిఫైయర్ స్కోర్లను పొందడానికి ODE సాల్వర్ ద్వారా అభ్యర్థులను అమలు చేయడం.
- ఉత్తమ అభ్యర్థితో పివోట్ పాయింట్ను నవీకరించడం మరియు దశలను 1-3 పునరావృతం చేయడం.
వారు నమూనా పథం వెంట వెతకడం యొక్క అవకాశాన్ని అన్వేషించే పాత్ సెర్చ్ అల్గారిథమ్ను కూడా పరిశోధించారు:
- N ప్రారంభ శబ్ద నమూనాలను నమూనా చేయడం మరియు శబ్ద స్థాయి σకి ODE సాల్వర్ను అమలు చేయడం.
- ప్రతి నమూనాకు శబ్దాన్ని జోడించడం మరియు ఫార్వర్డ్ నోయిసింగ్ ప్రక్రియను అనుకరించడం.
- ప్రతి శబ్ద నమూనాలో ODE సాల్వర్ను అమలు చేయడం మరియు వెరిఫైయర్ స్కోర్ల ఆధారంగా మొదటి N అభ్యర్థులను ఉంచడం, ODE సాల్వర్ σ=0కి చేరుకునే వరకు పునరావృతం చేయడం.
- మిగిలిన N నమూనాలను యాదృచ్ఛికంగా వెతకడం మరియు ఉత్తమమైనదాన్ని ఉంచడం.
జీరో-ఆర్డర్ మరియు పాత్ సెర్చ్ అల్గారిథమ్లు రెండూ యాదృచ్ఛిక శోధనతో పోలిస్తే బలమైన స్థానికతను కలిగి ఉంటాయి.
టెక్స్ట్-టు-ఇమేజ్ దృశ్యాలలో స్కేలింగ్
పెద్ద-స్థాయి టెక్స్ట్-టు-ఇమేజ్ టాస్క్లలో శోధన ఫ్రేమ్వర్క్ యొక్క స్కేలింగ్ సామర్థ్యాలను బృందం పరిశీలించింది. వారు మూల్యాంకనం కోసం డ్రాబెంచ్ మరియు T2I-కాంప్బెంచ్ డేటాసెట్లను ఉపయోగించారు, FLUX.1-dev నమూనాని బ్యాక్బోన్గా ఉపయోగించారు. వారు సౌందర్య స్కోర్ ప్రిడిక్టర్, CLIPScore మరియు ImageRewardతో సహా పర్యవేక్షించబడిన వెరిఫైయర్ల ఎంపికను కూడా విస్తరించారు. అదనంగా, వారు ఈ మూడు వెరిఫైయర్లను కలపడం ద్వారా వెరిఫైయర్ సమితిని రూపొందించారు.
విశ్లేషణ: వెరిఫైయర్-టాస్క్ అమరిక
వివిధ డేటాసెట్లపై వివిధ వెరిఫైయర్-అల్గారిథమ్ కలయికల ఫలితాలను అధ్యయనం పోల్చింది. డ్రాబెంచ్లో, అన్ని వెరిఫైయర్లను ఉపయోగించడం సాధారణంగా నమూనా నాణ్యతను మెరుగుపరుస్తుందని వారు కనుగొన్నారు. అయితే, సౌందర్య మరియు CLIP వెరిఫైయర్లను విడిగా ఉపయోగించడం వలన వారి పక్షపాతాలకు సరిపోయేలా చేయడం వలన ఒకదానిపై ఒకటి ప్రతికూల ప్రభావాలు వస్తాయని వారు గమనించారు. ఇది వారి మూల్యాంకన దృష్టిలో అసమతుల్యత నుండి వస్తుంది: సౌందర్య స్కోర్ దృశ్య నాణ్యతపై దృష్టి పెడుతుంది, తరచుగా అత్యంత శైలీకృత చిత్రాలకు అనుకూలంగా ఉంటుంది, అయితే CLIP దృశ్య-వచన అమరికకు ప్రాధాన్యతనిస్తుంది, కొన్నిసార్లు దృశ్య నాణ్యతను త్యాగం చేస్తుంది. కొన్ని వెరిఫైయర్లు నిర్దిష్ట పనులకు మరింత అనుకూలంగా ఉంటాయని మరియు వెరిఫైయర్ యొక్క ప్రభావం దాని పని అవసరాలతో దాని అమరికపై ఆధారపడి ఉంటుందని వారు గుర్తించారు.
అల్గారిథమ్ పనితీరు
మూడు శోధన అల్గారిథమ్లు (రాండమ్, జీరో-ఆర్డర్ మరియు పాత్) అన్నీ డ్రాబెంచ్లో నమూనా నాణ్యతను సమర్థవంతంగా మెరుగుపరిచాయి. అయితే, ఇతర రెండు పద్ధతుల యొక్క స్థానిక స్వభావం కారణంగా రాండమ్ సెర్చ్ కొన్ని అంశాలలో మెరుగ్గా పని చేసింది. యాదృచ్ఛిక శోధన వెరిఫైయర్ పక్షపాతానికి వేగంగా చేరుకుంది, అయితే ఇతర రెండు అల్గారిథమ్లకు తక్కువ సరైన అభ్యర్థులపై మెరుగుదల అవసరం.
ఫైన్-ట్యూనింగ్తో అనుకూలత
ఫైన్-ట్యూన్డ్ మోడళ్లతో వారి శోధన పద్ధతి యొక్క అనుకూలతను బృందం పరిశీలించింది. వారు DPO-ఫైన్-ట్యూన్డ్ స్టేబుల్ డిఫ్యూషన్ XL మోడల్ను ఉపయోగించారు మరియు శోధన పద్ధతిని వివిధ నమూనాలకు సాధారణీకరించవచ్చని మరియు ఇప్పటికే అమర్చబడిన మోడళ్ల పనితీరును మెరుగుపరుస్తుందని కనుగొన్నారు.
ఇన్ఫరెన్స్ కంప్యూటేషన్ యొక్క విభిన్న కొలతల ప్రభావాలు
ఫలితాలను ఇన్ఫరెన్స్ కంప్యూటేషన్ యొక్క విభిన్న అంశాలు ఎలా ప్రభావితం చేస్తాయో అధ్యయనం అన్వేషించింది:
- శోధన పునరావృత్తుల సంఖ్య: పునరావృత్తులను పెంచడం వలన శబ్దం సరైనదానికి దగ్గరగా వస్తుంది.
- శోధన పునరావృత్తికి కంప్యూటేషన్: పునరావృత్తికి డీనోయిసింగ్ దశల సంఖ్యను సర్దుబాటు చేయడం వలన విభిన్న కంప్యూటేషనల్ సరైన ప్రాంతాలు తెలుస్తాయి.
- తుది జనరేషన్ కంప్యూటేషన్: తుది నమూనా నాణ్యతను నిర్ధారించడానికి బృందం తుది డీనోయిసింగ్ దశల కోసం సరైన సెట్టింగ్లను ఉపయోగించింది.
కంప్యూటేషన్లో పెట్టుబడి యొక్క ప్రభావం
చిన్న డిఫ్యూషన్ మోడల్లపై ఇన్ఫరెన్స్-టైమ్ స్కేలింగ్ యొక్క ప్రభావాన్ని పరిశోధకులు అన్వేషించారు. ImageNet కోసం, చిన్న నమూనాలను స్కేల్ చేయడం చాలా సమర్థవంతంగా ఉంటుందని వారు కనుగొన్నారు. కొన్ని సందర్భాల్లో, శోధన లేకుండా పెద్ద నమూనాల కంటే చిన్న నమూనాపై శోధించడం మెరుగ్గా పనిచేస్తుంది. అయితే, ప్రభావం చిన్న నమూనా యొక్క బేస్లైన్ పనితీరుపై ఆధారపడి ఉంటుంది.
టెక్స్ట్-ఆధారిత సెట్టింగ్లలో, PixArt-Σ, కంప్యూటేషన్ యొక్క కొంత భాగాన్ని మాత్రమే ఉపయోగించి, FLUX-1.dev కంటే మెరుగ్గా పనిచేసింది. ఈ ఫలితాలు శిక్షణ సమయంలో గడిపిన గణనీయమైన కంప్యూటేషనల్ వనరులను ఉత్పత్తి సమయంలో తక్కువ మొత్తంలో కంప్యూటేషన్తో భర్తీ చేయవచ్చని చూపిస్తుంది, ఫలితంగా అధిక నాణ్యత గల నమూనాలు మరింత సమర్థవంతంగా వస్తాయి.