- Published on
Mở Rộng Suy Diễn Mô Hình Khuếch Tán: Một Paradigm Mới
Giới thiệu
Những tiến bộ gần đây trong Large Language Models (LLMs) đã chứng minh tính hiệu quả của việc mở rộng quy mô trong quá trình suy diễn. Các mô hình như o1, o3, DeepSeek R1, QwQ và Step Reasoner mini đã cho thấy rằng việc tăng cường tính toán trong quá trình suy diễn có thể cải thiện đáng kể hiệu suất. Điều này đặt ra câu hỏi: liệu nguyên tắc này có thể được áp dụng cho các mô hình khuếch tán hay không?
Một nhóm nghiên cứu do Xie Saining tại Đại học New York dẫn đầu đã khám phá câu hỏi này. Thông qua một nghiên cứu có hệ thống sử dụng framework tìm kiếm tổng quát, họ phát hiện ra rằng việc mở rộng quy mô trong thời gian suy diễn thực sự hiệu quả đối với các mô hình khuếch tán. Việc tăng cường tính toán trong quá trình suy diễn dẫn đến sự cải thiện đáng kể về chất lượng của các mẫu được tạo ra. Hơn nữa, độ phức tạp của hình ảnh cho phép các tổ hợp khác nhau của các thành phần trong framework, phù hợp với nhiều tình huống ứng dụng khác nhau.
Các phát hiện chính
- Mở rộng quy mô thời gian suy diễn hiệu quả cho các mô hình khuếch tán: Việc phân bổ nhiều tài nguyên tính toán hơn trong quá trình suy diễn dẫn đến các mẫu chất lượng cao hơn.
- Tính linh hoạt trong các tổ hợp thành phần: Framework cho phép các cấu hình thành phần khác nhau, phục vụ cho nhiều ứng dụng khác nhau.
- Vượt ra ngoài các bước khử nhiễu: Nghiên cứu cho thấy rằng việc tìm kiếm nhiễu tốt hơn trong quá trình lấy mẫu là một khía cạnh khác để mở rộng NFE, không chỉ đơn giản là tăng số bước khử nhiễu.
- Hai trục thiết kế: Framework tập trung vào hai trục thiết kế chính:
- Bộ xác minh: Cung cấp phản hồi trong quá trình tìm kiếm.
- Thuật toán: Tìm các ứng cử viên nhiễu tốt hơn.
Phương pháp nghiên cứu
Nhóm nghiên cứu đã khám phá ba kịch bản khác nhau cho bộ xác minh, mô phỏng các trường hợp sử dụng khác nhau:
- Các kịch bản có thông tin đặc quyền về đánh giá cuối cùng.
- Các kịch bản có thông tin có điều kiện để hướng dẫn quá trình tạo.
- Các kịch bản không có thông tin bổ sung.
Đối với thuật toán, họ đã điều tra:
- Tìm kiếm ngẫu nhiên: Chọn ứng viên tốt nhất từ một tập hợp cố định.
- Tìm kiếm bậc không: Cải thiện lặp đi lặp lại các ứng viên nhiễu bằng cách sử dụng phản hồi của bộ xác minh.
- Tìm kiếm đường dẫn: Cải thiện lặp đi lặp lại các quỹ đạo lấy mẫu khuếch tán bằng cách sử dụng phản hồi của bộ xác minh.
Nghiên cứu ban đầu khám phá các thiết kế này trong thiết lập tạo có điều kiện lớp ImageNet tương đối đơn giản. Sau đó, họ áp dụng các thiết kế này để tạo văn bản có điều kiện quy mô lớn hơn và đánh giá framework được đề xuất.
Mở rộng thời gian suy diễn
Bài báo đề xuất một framework để mở rộng thời gian suy diễn trong các mô hình khuếch tán, coi thách thức là tìm kiếm nhiễu lấy mẫu tối ưu. Quá trình này bao gồm hai thành phần cốt lõi:
- Bộ xác minh: Đây là các mô hình được đào tạo trước để đánh giá chất lượng của các mẫu được tạo ra. Chúng nhận các mẫu được tạo ra, cùng với các điều kiện tùy chọn và xuất ra một điểm số vô hướng.
- Thuật toán: Các thuật toán này sử dụng điểm số của bộ xác minh để tìm các mẫu ứng viên tốt hơn. Hàm nhận một bộ xác minh (V), một mô hình khuếch tán được đào tạo trước (_θ) và một tập hợp các mẫu và điều kiện được tạo ra, xuất ra nhiễu ban đầu tốt nhất.
Tổng ngân sách suy diễn được đo bằng tổng số lần đánh giá hàm (NFE), bao gồm cả các bước khử nhiễu và chi phí tìm kiếm.
Tìm kiếm bộ xác minh
Các nhà nghiên cứu bắt đầu với bộ xác minh Oracle, có đầy đủ thông tin về đánh giá cuối cùng của các mẫu đã chọn. Đối với ImageNet, điều này bao gồm các số liệu như FID và IS. Sau đó, họ khám phá các mô hình được đào tạo trước dễ tiếp cận hơn với tư cách là bộ xác minh được giám sát, chẳng hạn như CLIP và DINO. Các mô hình này được sử dụng để phân loại các mẫu, chọn mẫu có logit cao nhất tương ứng với nhãn lớp.
Tuy nhiên, họ nhận thấy rằng các bộ phân loại này, hoạt động theo từng điểm, chỉ phù hợp một phần với các mục tiêu của điểm FID. Điều này dẫn đến việc giảm phương sai mẫu và sự sụp đổ chế độ khi tính toán tăng lên. Hiện tượng này, được gọi là "hack bộ xác minh", được tăng tốc bởi không gian tìm kiếm không bị ràng buộc của thuật toán tìm kiếm ngẫu nhiên.
Điều thú vị là nghiên cứu cho thấy bộ xác minh không nhất thiết cần thông tin có điều kiện để hướng dẫn tìm kiếm hiệu quả. Họ quan sát thấy mối tương quan mạnh mẽ giữa các logit từ bộ phân loại DINO/CLIP và độ tương đồng cosine của không gian đặc trưng giữa dự đoán x ở mức nhiễu thấp và mẫu sạch cuối cùng. Điều này dẫn đến việc sử dụng các bộ xác minh tự giám sát, không yêu cầu thông tin có điều kiện bổ sung và vẫn thể hiện hành vi mở rộng hiệu quả.
Thuật toán tìm kiếm
Để giảm thiểu việc hack bộ xác minh, các nhà nghiên cứu đã khám phá các thuật toán tìm kiếm tinh vi hơn, tối ưu hóa dần các mẫu ứng viên. Điều này bao gồm một phương pháp tìm kiếm bậc không:
- Bắt đầu với nhiễu Gaussian ngẫu nhiên làm điểm trục.
- Tìm N ứng viên trong vùng lân cận của điểm trục.
- Chạy các ứng viên thông qua bộ giải ODE để có được các mẫu và điểm số của bộ xác minh.
- Cập nhật điểm trục với ứng viên tốt nhất và lặp lại các bước 1-3.
Họ cũng đã điều tra một thuật toán tìm kiếm đường dẫn, khám phá khả năng tìm kiếm dọc theo quỹ đạo lấy mẫu:
- Lấy mẫu N mẫu nhiễu ban đầu và chạy bộ giải ODE đến mức nhiễu σ.
- Thêm nhiễu vào mỗi mẫu và mô phỏng quá trình gây nhiễu chuyển tiếp.
- Chạy bộ giải ODE trên mỗi mẫu nhiễu và giữ lại N ứng viên hàng đầu dựa trên điểm số của bộ xác minh, lặp lại cho đến khi bộ giải ODE đạt đến σ=0.
- Tìm kiếm ngẫu nhiên các N mẫu còn lại và giữ lại mẫu tốt nhất.
Cả thuật toán tìm kiếm bậc không và đường dẫn đều duy trì tính cục bộ mạnh mẽ so với tìm kiếm ngẫu nhiên.
Mở rộng trong các kịch bản văn bản thành hình ảnh
Nhóm nghiên cứu đã kiểm tra khả năng mở rộng của framework tìm kiếm trong các tác vụ văn bản thành hình ảnh quy mô lớn hơn. Họ đã sử dụng bộ dữ liệu DrawBench và T2I-CompBench để đánh giá, với mô hình FLUX.1-dev làm xương sống. Họ cũng mở rộng lựa chọn bộ xác minh được giám sát, bao gồm Aesthetic Score Predictor, CLIPScore và ImageReward. Ngoài ra, họ đã tạo ra một Verifier Ensemble bằng cách kết hợp ba bộ xác minh này.
Phân tích: Sự phù hợp giữa bộ xác minh và tác vụ
Nghiên cứu so sánh kết quả của các tổ hợp bộ xác minh-thuật toán khác nhau trên các tập dữ liệu khác nhau. Trên DrawBench, họ nhận thấy rằng việc sử dụng tất cả các bộ xác minh nói chung đã cải thiện chất lượng mẫu. Tuy nhiên, họ nhận thấy rằng việc sử dụng các bộ xác minh Aesthetic và CLIP riêng lẻ có thể dẫn đến việc trang bị quá mức các sai lệch của chúng, dẫn đến tác động tiêu cực lẫn nhau. Điều này bắt nguồn từ sự không phù hợp trong trọng tâm đánh giá của chúng:
- Aesthetic Score tập trung vào chất lượng hình ảnh, thường ưu tiên các hình ảnh có phong cách cao.
- CLIP ưu tiên sự phù hợp giữa hình ảnh và văn bản, đôi khi hy sinh chất lượng hình ảnh.
Họ lưu ý rằng một số bộ xác minh phù hợp hơn cho các tác vụ cụ thể và hiệu quả của bộ xác minh phụ thuộc vào sự phù hợp của nó với các yêu cầu của tác vụ.
Hiệu suất thuật toán
Cả ba thuật toán tìm kiếm (Ngẫu nhiên, Bậc không và Đường dẫn) đều cải thiện hiệu quả chất lượng lấy mẫu trên DrawBench. Tuy nhiên, Tìm kiếm ngẫu nhiên đã vượt trội hơn ở một số khía cạnh do tính chất cục bộ của hai phương pháp còn lại. Tìm kiếm ngẫu nhiên hội tụ nhanh hơn vào sai lệch của bộ xác minh, trong khi hai thuật toán còn lại yêu cầu cải thiện các ứng viên kém tối ưu.
Khả năng tương thích với tinh chỉnh
Nhóm nghiên cứu đã điều tra khả năng tương thích của phương pháp tìm kiếm của họ với các mô hình đã được tinh chỉnh. Họ đã sử dụng mô hình Stable Diffusion XL đã được tinh chỉnh DPO và nhận thấy rằng phương pháp tìm kiếm có thể được khái quát hóa cho các mô hình khác nhau và cải thiện hiệu suất của các mô hình đã được căn chỉnh.
Ảnh hưởng của các khía cạnh khác nhau của tính toán suy diễn
Nghiên cứu đã khám phá cách các khía cạnh khác nhau của tính toán suy diễn ảnh hưởng đến kết quả:
- Số lần lặp lại tìm kiếm: Tăng số lần lặp lại sẽ đưa nhiễu đến gần mức tối ưu hơn.
- Tính toán trên mỗi lần lặp lại tìm kiếm: Điều chỉnh số bước khử nhiễu trên mỗi lần lặp lại sẽ tiết lộ các vùng tối ưu về mặt tính toán khác nhau.
- Tính toán tạo cuối cùng: Nhóm nghiên cứu đã sử dụng các cài đặt tối ưu cho các bước khử nhiễu cuối cùng để đảm bảo chất lượng mẫu cuối cùng cao nhất.
Hiệu quả của việc đầu tư vào tính toán
Các nhà nghiên cứu đã khám phá hiệu quả của việc mở rộng quy mô thời gian suy diễn trên các mô hình khuếch tán nhỏ hơn. Họ nhận thấy rằng, đối với ImageNet, việc mở rộng quy mô các mô hình nhỏ hơn có thể rất hiệu quả. Trong một số trường hợp nhất định, việc tìm kiếm trên một mô hình nhỏ hơn có thể vượt trội hơn các mô hình lớn hơn mà không cần tìm kiếm. Tuy nhiên, hiệu quả phụ thuộc vào hiệu suất cơ bản của mô hình nhỏ hơn.
Trong các cài đặt dựa trên văn bản, PixArt-Σ, chỉ sử dụng một phần nhỏ tính toán, đã vượt trội hơn FLUX-1.dev. Những kết quả này chứng minh rằng các tài nguyên tính toán đáng kể được sử dụng trong quá trình đào tạo có thể được bù đắp bằng một lượng tính toán nhỏ hơn trong quá trình tạo, dẫn đến các mẫu chất lượng cao hơn một cách hiệu quả hơn.