การขยายขนาดโมเดล Diffusion ในช่วง Inference: กระบวนทัศน์ใหม่

การปรับขนาด Inference ใน Diffusion Models: กระบวนทัศน์ใหม่

การพัฒนาล่าสุดใน Large Language Models (LLMs) แสดงให้เห็นถึงประสิทธิภาพของการปรับขนาดในช่วง inference โมเดลต่างๆ เช่น o1, o3, DeepSeek R1, QwQ และ Step Reasoner mini ได้แสดงให้เห็นว่าการเพิ่มการคำนวณในช่วง inference สามารถปรับปรุงประสิทธิภาพได้อย่างมาก สิ่งนี้ทำให้เกิดคำถามว่าหลักการนี้สามารถนำไปใช้กับ diffusion models ได้หรือไม่

ทีมงานนำโดย Xie Saining ที่ New York University ได้สำรวจคำถามนี้ ผ่านการตรวจสอบอย่างเป็นระบบโดยใช้กรอบการค้นหาทั่วไป พวกเขาพบว่าการปรับขนาดในช่วง inference มีประสิทธิภาพสำหรับ diffusion models จริง การเพิ่มการคำนวณในช่วง inference นำไปสู่การปรับปรุงคุณภาพของตัวอย่างที่สร้างขึ้นอย่างมีนัยสำคัญ นอกจากนี้ ความซับซ้อนของภาพยังช่วยให้สามารถรวมส่วนประกอบต่างๆ ภายในกรอบงานได้ ซึ่งปรับให้เหมาะกับสถานการณ์การใช้งานที่หลากหลาย

ข้อค้นพบที่สำคัญ

การปรับขนาดในช่วง inference มีประสิทธิภาพสำหรับ diffusion models: การจัดสรรทรัพยากรการคำนวณมากขึ้นในช่วง inference ส่งผลให้ได้ตัวอย่างที่มีคุณภาพสูงขึ้น
ความยืดหยุ่นในการรวมส่วนประกอบ: กรอบงานช่วยให้มีการกำหนดค่าส่วนประกอบที่แตกต่างกัน ซึ่งตอบสนองต่อการใช้งานที่หลากหลาย
นอกเหนือจากขั้นตอนการ Denoising: งานวิจัยชี้ให้เห็นว่าการค้นหา noise ที่ดีขึ้นในระหว่างการ sampling เป็นอีกมิติหนึ่งสำหรับการปรับขนาด NFE นอกเหนือจากการเพิ่มขั้นตอนการ denoising เท่านั้น
สองแกนการออกแบบ: กรอบงานมุ่งเน้นไปที่สองแกนการออกแบบหลัก:
- Verifiers: ให้ข้อเสนอแนะระหว่างกระบวนการค้นหา
- Algorithms: ค้นหา noise candidates ที่ดีขึ้น

ระเบียบวิธีวิจัย

ทีมงานได้สำรวจสามสถานการณ์ที่แตกต่างกันสำหรับ verifiers โดยจำลองกรณีการใช้งานต่างๆ:

สถานการณ์ที่มีข้อมูลพิเศษเกี่ยวกับการประเมินขั้นสุดท้าย
สถานการณ์ที่มีข้อมูลตามเงื่อนไขเพื่อเป็นแนวทางในการสร้าง
สถานการณ์ที่ไม่มีข้อมูลเพิ่มเติม

สำหรับ algorithms พวกเขาได้ตรวจสอบ:

Random Search: เลือกสิ่งที่ดีที่สุดจากชุดของ candidates ที่กำหนด
Zero-Order Search: ปรับปรุง noise candidates ซ้ำๆ โดยใช้ feedback จาก verifier
Path Search: ปรับปรุงเส้นทางการ sampling diffusion ซ้ำๆ โดยใช้ feedback จาก verifier

การศึกษานี้เริ่มแรกสำรวจการออกแบบเหล่านี้ในการตั้งค่าการสร้าง ImageNet class-conditional ที่ค่อนข้างง่าย จากนั้นจึงนำการออกแบบเหล่านี้ไปใช้กับการสร้าง text-conditional ขนาดใหญ่ขึ้นและประเมินกรอบงานที่นำเสนอ

การปรับขนาดเวลา Inference

บทความนี้เสนอ framework สำหรับการปรับขนาดเวลา inference ใน diffusion models โดยกำหนดความท้าทายเป็น search สำหรับ sampling noise ที่เหมาะสมที่สุด กระบวนการนี้เกี่ยวข้องกับสององค์ประกอบหลัก:

Verifiers: เป็นโมเดลที่ผ่านการฝึกอบรมล่วงหน้าที่ประเมินคุณภาพของตัวอย่างที่สร้างขึ้น โดยจะรับตัวอย่างที่สร้างขึ้น พร้อมกับเงื่อนไขเสริม และส่งออกคะแนนสเกลาร์
Algorithms: เป็น algorithms ที่ใช้คะแนน verifier เพื่อค้นหาตัวอย่าง candidates ที่ดีกว่า ฟังก์ชันนี้จะรับ verifier (V), diffusion model ที่ผ่านการฝึกอบรมล่วงหน้า (_θ) และชุดของตัวอย่างที่สร้างขึ้นและเงื่อนไข โดยจะส่งออก noise เริ่มต้นที่ดีที่สุด

งบประมาณ inference ทั้งหมดวัดจากจำนวนการประเมินฟังก์ชัน (NFE) ทั้งหมด รวมถึงทั้งขั้นตอนการ denoising และค่าใช้จ่ายในการค้นหา

Search Verifiers

นักวิจัยเริ่มต้นด้วย Oracle verifier ซึ่งมีข้อมูลครบถ้วนเกี่ยวกับการประเมินขั้นสุดท้ายของตัวอย่างที่เลือก สำหรับ ImageNet ซึ่งรวมถึง metrics เช่น FID และ IS จากนั้นพวกเขาก็สำรวจโมเดลที่ผ่านการฝึกอบรมล่วงหน้าที่เข้าถึงได้ง่ายกว่าในฐานะ supervised verifiers เช่น CLIP และ DINO โมเดลเหล่านี้ถูกใช้เพื่อจัดประเภทตัวอย่าง โดยเลือกตัวอย่างที่มี logit สูงสุดที่สอดคล้องกับ class label

อย่างไรก็ตาม พวกเขาพบว่า classifiers เหล่านี้ ซึ่งทำงานแบบ point-wise นั้นสอดคล้องกับวัตถุประสงค์ของคะแนน FID เพียงบางส่วน สิ่งนี้นำไปสู่การลดความแปรปรวนของตัวอย่างและ mode collapse เมื่อการคำนวณเพิ่มขึ้น ปรากฏการณ์นี้เรียกว่า "verifier hacking" ซึ่งถูกเร่งโดยพื้นที่การค้นหาที่ไม่จำกัดของ algorithm random search

ที่น่าสนใจคือ การศึกษาพบว่า verifiers ไม่จำเป็นต้องมีข้อมูลตามเงื่อนไขเพื่อเป็นแนวทางในการค้นหาอย่างมีประสิทธิภาพ พวกเขาพบความสัมพันธ์ที่แข็งแกร่งระหว่าง logits จาก DINO/CLIP classifiers และ cosine similarity ของ feature space ระหว่าง x prediction ที่ระดับ noise ต่ำ และ final clean sample สิ่งนี้นำไปสู่การใช้ self-supervised verifiers ซึ่งไม่ต้องการข้อมูลตามเงื่อนไขเพิ่มเติมและยังแสดงพฤติกรรมการปรับขนาดที่มีประสิทธิภาพ

Search Algorithms

เพื่อลด verifier hacking นักวิจัยได้สำรวจ algorithms การค้นหาที่ละเอียดมากขึ้นซึ่งปรับตัวอย่าง candidates ให้เหมาะสมทีละน้อย ซึ่งรวมถึงวิธี zero-order search:

เริ่มต้นด้วย random Gaussian noise เป็น pivot point
ค้นหา N candidates ใน neighborhood ของ pivot point
เรียกใช้ candidates ผ่าน ODE solver เพื่อให้ได้ตัวอย่างและคะแนน verifier
อัปเดต pivot point ด้วย candidate ที่ดีที่สุดและทำซ้ำขั้นตอนที่ 1-3

พวกเขายังตรวจสอบ path search algorithm ซึ่งสำรวจความเป็นไปได้ในการค้นหาตามเส้นทางการ sampling:

Sampling ตัวอย่าง noise เริ่มต้น N ตัว และเรียกใช้ ODE solver ไปที่ระดับ noise σ
เพิ่ม noise ให้กับแต่ละตัวอย่าง และจำลองกระบวนการ forward noising
เรียกใช้ ODE solver บนแต่ละ noisy sample และเก็บ candidates N อันดับแรกตามคะแนน verifier ทำซ้ำจนกว่า ODE solver จะไปถึง σ=0
สุ่มค้นหาตัวอย่าง N ที่เหลือและเก็บตัวอย่างที่ดีที่สุด

ทั้ง zero-order และ path search algorithms รักษา locality ที่แข็งแกร่งเมื่อเทียบกับ random search

การปรับขนาดใน Text-To-Image Scenarios

ทีมงานได้ตรวจสอบความสามารถในการปรับขนาดของ search framework ในงาน text-to-image ขนาดใหญ่ พวกเขาใช้ datasets DrawBench และ T2I-CompBench สำหรับการประเมิน โดยมีโมเดล FLUX.1-dev เป็นแกนหลัก พวกเขายังได้ขยายการเลือก supervised verifiers ซึ่งรวมถึง Aesthetic Score Predictor, CLIPScore และ ImageReward นอกจากนี้ พวกเขายังได้สร้าง Verifier Ensemble โดยรวม verifiers ทั้งสามนี้เข้าด้วยกัน

การวิเคราะห์: การจัดแนว Verifier-Task

การศึกษาได้เปรียบเทียบผลลัพธ์ของการรวม verifier-algorithm ต่างๆ ใน datasets ที่แตกต่างกัน ใน DrawBench พวกเขาพบว่าการใช้ verifiers ทั้งหมดโดยทั่วไปจะช่วยปรับปรุงคุณภาพของตัวอย่าง อย่างไรก็ตาม พวกเขาพบว่าการใช้ Aesthetic และ CLIP verifiers แยกกันอาจนำไปสู่การ overfit biases ของพวกเขา ซึ่งส่งผลกระทบเชิงลบต่อกัน สิ่งนี้เกิดจากความไม่ตรงกันในจุดเน้นการประเมินของพวกเขา:

Aesthetic Score มุ่งเน้นไปที่คุณภาพของภาพ โดยมักจะชอบภาพที่มีสไตล์สูง
CLIP ให้ความสำคัญกับการจัดแนว visual-text ซึ่งบางครั้งก็ลดทอนคุณภาพของภาพ

พวกเขาสังเกตว่า verifiers บางตัวเหมาะสำหรับงานเฉพาะมากกว่า และประสิทธิภาพของ verifier ขึ้นอยู่กับการจัดแนวกับข้อกำหนดของงาน

ประสิทธิภาพของ Algorithm

Algorithms การค้นหาสามแบบ (Random, Zero-Order และ Path) ทั้งหมดช่วยปรับปรุงคุณภาพการ sampling บน DrawBench ได้อย่างมีประสิทธิภาพ อย่างไรก็ตาม Random Search มีประสิทธิภาพเหนือกว่าในบางด้านเนื่องจากลักษณะ local ของอีกสองวิธี Random search บรรจบกันกับ verifier bias ได้เร็วกว่า ในขณะที่อีกสอง algorithms ต้องการการปรับปรุงใน candidates ที่ไม่ดีเท่าที่ควร

ความเข้ากันได้กับการ Fine-Tuning

ทีมงานได้ตรวจสอบความเข้ากันได้ของวิธีการค้นหาของพวกเขากับโมเดลที่ fine-tuned พวกเขาใช้โมเดล Stable Diffusion XL ที่ fine-tuned ด้วย DPO และพบว่าวิธีการค้นหาสามารถนำไปใช้กับโมเดลต่างๆ และปรับปรุงประสิทธิภาพของโมเดลที่จัดแนวไว้แล้วได้

ผลกระทบของมิติต่างๆ ของการคำนวณ Inference

การศึกษาได้สำรวจว่าแง่มุมต่างๆ ของการคำนวณ inference ส่งผลต่อผลลัพธ์อย่างไร:

จำนวน Search Iterations: การเพิ่ม iterations ทำให้ noise ใกล้เคียงกับค่าที่เหมาะสมที่สุด
การคำนวณต่อ Search Iteration: การปรับจำนวนขั้นตอนการ denoising ต่อ iteration เผยให้เห็น regions ที่เหมาะสมที่สุดในการคำนวณที่แตกต่างกัน
การคำนวณการสร้างขั้นสุดท้าย: ทีมงานใช้การตั้งค่าที่เหมาะสมที่สุดสำหรับขั้นตอนการ denoising ขั้นสุดท้ายเพื่อให้แน่ใจว่าตัวอย่างขั้นสุดท้ายมีคุณภาพสูงสุด

ประสิทธิภาพของการลงทุนในการคำนวณ

นักวิจัยได้สำรวจประสิทธิภาพของการปรับขนาด inference-time ใน diffusion models ที่มีขนาดเล็กกว่า พวกเขาพบว่าสำหรับ ImageNet การปรับขนาดโมเดลขนาดเล็กสามารถมีประสิทธิภาพมาก ในบางกรณี การค้นหาในโมเดลขนาดเล็กสามารถมีประสิทธิภาพเหนือกว่าโมเดลขนาดใหญ่ที่ไม่มีการค้นหา อย่างไรก็ตาม ประสิทธิภาพขึ้นอยู่กับ baseline performance ของโมเดลขนาดเล็ก

ในการตั้งค่าที่ใช้ข้อความ PixArt-Σ ซึ่งใช้การคำนวณเพียงเศษเสี้ยว มีประสิทธิภาพเหนือกว่า FLUX-1.dev ผลลัพธ์เหล่านี้แสดงให้เห็นว่าทรัพยากรการคำนวณจำนวนมากที่ใช้ในระหว่างการฝึกอบรมสามารถชดเชยได้ด้วยการคำนวณจำนวนน้อยลงในระหว่างการสร้าง ซึ่งส่งผลให้ได้ตัวอย่างที่มีคุณภาพสูงขึ้นอย่างมีประสิทธิภาพมากขึ้น