Uboreshaji wa Utoaji wa Picha kwa Kutumia Miundo ya Uenezaji

Utangulizi

Maendeleo ya hivi karibuni katika Miundo Mikuu ya Lugha (LLMs) yameonyesha ufanisi wa upanuzi wakati wa utoaji. Miundo kama o1, o3, DeepSeek R1, QwQ, na Step Reasoner mini imeonyesha kuwa kuongezeka kwa hesabu wakati wa utoaji kunaweza kuboresha utendaji kwa kiasi kikubwa. Hii inaibua swali: je, kanuni hii inaweza kutumika kwa miundo ya uenezaji pia?

Timu inayoongozwa na Xie Saining katika Chuo Kikuu cha New York imeangalia swali hili. Kupitia uchunguzi wa kimfumo kwa kutumia mfumo mkuu wa utafutaji, waligundua kuwa upanuzi wa wakati wa utoaji unafaa kwa miundo ya uenezaji. Kuongeza hesabu wakati wa utoaji huleta uboreshaji mkubwa katika ubora wa sampuli zilizozalishwa. Zaidi ya hayo, ugumu wa picha huruhusu mchanganyiko tofauti wa vipengele ndani ya mfumo, unaolengwa kwa matukio mbalimbali ya maombi.

Matokeo Muhimu

Upanuzi wa wakati wa utoaji unafaa kwa miundo ya uenezaji: Kutenga rasilimali zaidi za hesabu wakati wa utoaji huleta sampuli za ubora wa juu.
Kubadilika katika mchanganyiko wa vipengele: Mfumo huruhusu usanidi tofauti wa vipengele, unaokidhi matumizi mbalimbali.
Zaidi ya Hatua za Kupunguza Kelele: Utafiti unaonyesha kuwa kutafuta kelele bora wakati wa sampuli ni mwelekeo mwingine wa kupanua NFE, zaidi ya kuongeza hatua za kupunguza kelele.
Misingi Miwili ya Ubunifu: Mfumo unazingatia misingi miwili muhimu ya ubunifu:
- Waangalizi: Kutoa maoni wakati wa mchakato wa utafutaji.
- Aligoriti: Kutafuta wagombea bora wa kelele.

Mbinu za Utafiti

Timu ilichunguza matukio matatu tofauti kwa waangalizi, ikifanya simulizi za matumizi mbalimbali: 1. Matukio ambapo habari maalum kuhusu tathmini ya mwisho inapatikana. 2. Matukio ambapo habari ya masharti inapatikana kuongoza uzalishaji. 3. Matukio bila habari ya ziada inayopatikana.

Kwa aligoriti, walichunguza: 1. Utafutaji wa Nasibu: Kuchagua bora kutoka seti maalum ya wagombea. 2. Utafutaji wa Zero-Order: Kuboresha wagombea wa kelele kwa kutumia maoni ya mwangalizi. 3. Utafutaji wa Njia: Kuboresha njia za sampuli za uenezaji kwa kutumia maoni ya mwangalizi.

Utafiti hapo awali ulichunguza miundo hii katika usanidi rahisi wa uzalishaji wa masharti ya darasa la ImageNet. Baadaye, walitumia miundo hii kwa uzalishaji mkubwa wa masharti ya maandishi na kutathmini mfumo wao uliopendekezwa.

Upanuzi wa Wakati wa Utoaji

Karatasi inapendekeza mfumo wa kupanua wakati wa utoaji katika miundo ya uenezaji, ikitaja changamoto kama utafutaji wa kelele bora ya sampuli. Mchakato unahusisha vipengele viwili muhimu:

Waangalizi: Hizi ni miundo iliyoandaliwa ambayo hutathmini ubora wa sampuli zilizozalishwa. Wanachukua sampuli zilizozalishwa, pamoja na masharti ya hiari, na kutoa alama ya kiasi.
Aligoriti: Aligoriti hizi hutumia alama za mwangalizi kupata sampuli bora za wagombea. Kazi huchukua mwangalizi (V), mfumo wa uenezaji ulioandaliwa (_θ), na seti ya sampuli zilizozalishwa na masharti, ikitoa kelele bora ya awali.

Bajeti yote ya utoaji inapimwa na idadi ya jumla ya tathmini za kazi (NFE), ikiwa ni pamoja na hatua za kupunguza kelele na gharama za utafutaji.

Tafuta Waangalizi

Watafiti walianza na mwangalizi wa Oracle, ambaye ana habari kamili kuhusu tathmini ya mwisho ya sampuli zilizochaguliwa. Kwa ImageNet, hii ilijumuisha metriki kama FID na IS. Kisha walichunguza miundo iliyoandaliwa zaidi kama waangalizi wa kusimamiwa, kama CLIP na DINO. Miundo hii ilitumiwa kuainisha sampuli, ikichagua sampuli yenye logit ya juu zaidi inayolingana na lebo ya darasa.

Hata hivyo, waliona kwamba waainishaji hawa, wanaofanya kazi kwa hatua, wanaendana kiasi tu na malengo ya alama ya FID. Hii ilisababisha kupungua kwa tofauti ya sampuli na kuanguka kwa hali kadri hesabu ilipoongezeka. Hali hii, inayoitwa "verifier hacking," iliharakishwa na nafasi isiyo na kikomo ya utafutaji wa aligoriti ya utafutaji wa nasibu.

Kwa kupendeza, utafiti uligundua kuwa waangalizi hawahitaji habari ya masharti ili kuongoza utafutaji kwa ufanisi. Waliona uhusiano mkubwa kati ya logiti kutoka kwa waainishaji wa DINO/CLIP na kufanana kwa cosine ya nafasi ya kipengele kati ya utabiri wa x katika kiwango cha chini cha kelele na sampuli safi ya mwisho. Hii ilisababisha matumizi ya waangalizi wanaojisimamia, ambao hawahitaji habari ya ziada ya masharti na bado walionyesha tabia ya upanuzi yenye ufanisi.

Tafuta Aligoriti

Ili kupunguza "verifier hacking," watafiti walichunguza aligoriti za utafutaji zilizoboreshwa zaidi ambazo huboresha sampuli za wagombea hatua kwa hatua. Hii ilijumuisha njia ya utafutaji wa zero-order: 1. Kuanzia na kelele ya nasibu ya Gaussian kama sehemu ya kuzunguka. 2. Kupata wagombea N katika jirani ya sehemu ya kuzunguka. 3. Kuendesha wagombea kupitia suluhisho la ODE ili kupata sampuli na alama za mwangalizi. 4. Kusasisha sehemu ya kuzunguka na mgombea bora na kurudia hatua 1-3.

Pia walichunguza aligoriti ya utafutaji wa njia, ambayo huchunguza uwezekano wa kutafuta kando ya njia ya sampuli: 1. Sampuli ya kelele N ya awali na kuendesha suluhisho la ODE hadi kiwango cha kelele σ. 2. Kuongeza kelele kwa kila sampuli, na kuiga mchakato wa kupunguza kelele mbele. 3. Kuendesha suluhisho la ODE kwenye kila sampuli yenye kelele na kuweka wagombea N wa juu kulingana na alama za mwangalizi, kurudia hadi suluhisho la ODE lifike σ=0. 4. Kutafuta kwa nasibu sampuli zilizobaki N na kuweka bora zaidi.

Aligoriti za utafutaji wa zero-order na njia hudumisha eneo kali ikilinganishwa na utafutaji wa nasibu.

Upanuzi Katika Matukio ya Maandishi-Hadi-Picha

Timu ilichunguza uwezo wa upanuzi wa mfumo wa utafutaji katika majukumu makubwa ya maandishi-hadi-picha. Walitumia seti za data za DrawBench na T2I-CompBench kwa tathmini, na mfumo wa FLUX.1-dev kama msingi. Pia walipanua uteuzi wa waangalizi wa kusimamiwa, ikiwa ni pamoja na Aesthetic Score Predictor, CLIPScore, na ImageReward. Kwa kuongeza, waliunda Verifier Ensemble kwa kuchanganya waangalizi hawa watatu.

Uchambuzi: Ulinganifu wa Mwangalizi-Kazi

Utafiti ulinganisha matokeo ya mchanganyiko mbalimbali wa aligoriti-mwangalizi kwenye seti tofauti za data. Kwenye DrawBench, waligundua kuwa kutumia waangalizi wote kwa ujumla kuliboresha ubora wa sampuli. Hata hivyo, waliona kwamba kutumia waangalizi wa Aesthetic na CLIP peke yao kunaweza kusababisha kupindukia upendeleo wao, na kusababisha athari hasi kwa kila mmoja. Hii inatokana na kutolingana katika mwelekeo wao wa tathmini: Aesthetic Score inazingatia ubora wa kuona, mara nyingi ikipendelea picha za mtindo wa hali ya juu, wakati CLIP inatanguliza ulinganifu wa kuona-maandishi, wakati mwingine ikitoa ubora wa kuona.

Waligundua kuwa baadhi ya waangalizi wanafaa zaidi kwa kazi maalum, na ufanisi wa mwangalizi unategemea ulinganifu wake na mahitaji ya kazi.

Utendaji wa Aligoriti

Aligoriti tatu za utafutaji (Nasibu, Zero-Order na Njia) zote ziliboresha ubora wa sampuli kwa ufanisi kwenye DrawBench. Hata hivyo, Utafutaji wa Nasibu ulizidi katika baadhi ya vipengele kutokana na asili ya ndani ya mbinu nyingine mbili. Utafutaji wa nasibu uligeuka haraka zaidi kwa upendeleo wa mwangalizi, ambapo aligoriti nyingine mbili zinahitaji uboreshaji kwa wagombea wasio bora.

Upatanifu na Uboreshaji Mzuri

Timu ilichunguza uoanifu wa mbinu yao ya utafutaji na miundo iliyoboreshwa. Walitumia mfumo wa Stable Diffusion XL uliopangwa vizuri wa DPO na kugundua kwamba mbinu ya utafutaji inaweza kujumlishwa kwa miundo tofauti na kuboresha utendaji wa miundo ambayo tayari imeunganishwa.

Athari za Vipimo Tofauti vya Hesabu ya Utoaji

Utafiti ulichunguza jinsi vipengele tofauti vya hesabu ya utoaji huathiri matokeo:

Idadi ya Marudio ya Utafutaji: Kuongeza marudio huleta kelele karibu na kiwango bora.
Hesabu kwa kila Marudio ya Utafutaji: Kurekebisha idadi ya hatua za kupunguza kelele kwa kila marudio huonyesha maeneo tofauti bora ya hesabu.
Hesabu ya Mwisho ya Utoaji: Timu ilitumia mipangilio bora kwa hatua za mwisho za kupunguza kelele ili kuhakikisha ubora wa juu wa sampuli ya mwisho.

Ufanisi wa Uwekezaji katika Hesabu

Watafiti walichunguza ufanisi wa upanuzi wa wakati wa utoaji kwenye miundo midogo ya uenezaji. Waligundua kuwa, kwa ImageNet, kupanua miundo midogo kunaweza kuwa na ufanisi sana. Katika baadhi ya matukio, kutafuta kwenye mfumo mdogo kunaweza kuzidi mifumo mikubwa bila utafutaji. Hata hivyo, ufanisi unategemea utendaji wa msingi wa mfumo mdogo.

Katika mipangilio ya maandishi, PixArt-Σ, kwa kutumia sehemu ndogo tu ya hesabu, ilizidi FLUX-1.dev. Matokeo haya yanaonyesha kuwa rasilimali kubwa za hesabu zinazotumiwa wakati wa mafunzo zinaweza kufidiwa na kiasi kidogo cha hesabu wakati wa uzalishaji, na kusababisha sampuli za ubora wa juu kwa ufanisi zaidi.