Published on

ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ ਇਨਫਰੈਂਸ ਸਕੇਲਿੰਗ ਨਵਾਂ ਪੈਰਾਡਾਈਮ

ਲੇਖਕ
  • avatar
    ਨਾਮ
    Ajax
    Twitter

ਜਾਣ-ਪਛਾਣ

ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਵਿੱਚ ਹਾਲ ਹੀ ਵਿੱਚ ਹੋਏ ਵਿਕਾਸ ਨੇ ਇਨਫਰੈਂਸ ਦੌਰਾਨ ਸਕੇਲਿੰਗ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤਾ ਹੈ। o1, o3, DeepSeek R1, QwQ, ਅਤੇ Step Reasoner mini ਵਰਗੇ ਮਾਡਲਾਂ ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ ਇਨਫਰੈਂਸ ਦੌਰਾਨ ਵਧੀ ਹੋਈ ਗਣਨਾ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਰੂਪ ਵਿੱਚ ਸੁਧਾਰ ਸਕਦੀ ਹੈ। ਇਹ ਸਵਾਲ ਪੈਦਾ ਹੁੰਦਾ ਹੈ: ਕੀ ਇਹ ਸਿਧਾਂਤ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ 'ਤੇ ਵੀ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ?

ਨਿਊਯਾਰਕ ਯੂਨੀਵਰਸਿਟੀ ਵਿਖੇ Xie Saining ਦੀ ਅਗਵਾਈ ਵਾਲੀ ਇੱਕ ਟੀਮ ਨੇ ਇਸ ਸਵਾਲ ਦੀ ਖੋਜ ਕੀਤੀ ਹੈ। ਇੱਕ ਆਮ ਖੋਜ ਫਰੇਮਵਰਕ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਇੱਕ ਯੋਜਨਾਬੱਧ ਜਾਂਚ ਦੁਆਰਾ, ਉਹਨਾਂ ਨੇ ਪਾਇਆ ਕਿ ਇਨਫਰੈਂਸ-ਟਾਈਮ ਸਕੇਲਿੰਗ ਅਸਲ ਵਿੱਚ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਲਈ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ। ਇਨਫਰੈਂਸ ਦੌਰਾਨ ਗਣਨਾ ਵਧਾਉਣ ਨਾਲ ਪੈਦਾ ਹੋਏ ਨਮੂਨਿਆਂ ਦੀ ਗੁਣਵੱਤਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਹੁੰਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਚਿੱਤਰਾਂ ਦੀ ਜਟਿਲਤਾ ਫਰੇਮਵਰਕ ਦੇ ਅੰਦਰ ਕੰਪੋਨੈਂਟਸ ਦੇ ਵੱਖ-ਵੱਖ ਸੰਜੋਗਾਂ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ, ਜੋ ਕਿ ਵੱਖ-ਵੱਖ ਐਪਲੀਕੇਸ਼ਨ ਦ੍ਰਿਸ਼ਾਂ ਦੇ ਅਨੁਸਾਰ ਤਿਆਰ ਕੀਤੀ ਗਈ ਹੈ।

ਮੁੱਖ ਖੋਜਾਂ

  • ਇਨਫਰੈਂਸ-ਟਾਈਮ ਸਕੇਲਿੰਗ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਲਈ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ: ਇਨਫਰੈਂਸ ਦੌਰਾਨ ਵਧੇਰੇ ਗਣਨਾਤਮਕ ਸਰੋਤਾਂ ਨੂੰ ਵੰਡਣ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਉੱਚ ਗੁਣਵੱਤਾ ਵਾਲੇ ਨਮੂਨੇ ਮਿਲਦੇ ਹਨ।
  • ਕੰਪੋਨੈਂਟ ਸੰਜੋਗਾਂ ਵਿੱਚ ਲਚਕਤਾ: ਫਰੇਮਵਰਕ ਵੱਖ-ਵੱਖ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦੇ ਹੋਏ, ਵੱਖ-ਵੱਖ ਕੰਪੋਨੈਂਟ ਕੌਨਫਿਗਰੇਸ਼ਨਾਂ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
  • ਡਿਨੋਇਸਿੰਗ ਸਟੈਪਸ ਤੋਂ ਪਰੇ: ਖੋਜ ਸੁਝਾਅ ਦਿੰਦੀ ਹੈ ਕਿ ਸਿਰਫ਼ ਡਿਨੋਇਸਿੰਗ ਸਟੈਪਸ ਨੂੰ ਵਧਾਉਣ ਤੋਂ ਇਲਾਵਾ, ਸੈਂਪਲਿੰਗ ਦੌਰਾਨ ਬਿਹਤਰ ਸ਼ੋਰ ਦੀ ਖੋਜ ਕਰਨਾ NFE ਨੂੰ ਸਕੇਲ ਕਰਨ ਦਾ ਇੱਕ ਹੋਰ ਪਹਿਲੂ ਹੈ।
  • ਦੋ ਡਿਜ਼ਾਈਨ ਧੁਰੇ: ਫਰੇਮਵਰਕ ਦੋ ਮੁੱਖ ਡਿਜ਼ਾਈਨ ਧੁਰਿਆਂ 'ਤੇ ਕੇਂਦ੍ਰਤ ਹੈ:
    • ਵੈਰੀਫਾਇਰ: ਖੋਜ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਫੀਡਬੈਕ ਪ੍ਰਦਾਨ ਕਰਨਾ।
    • ਐਲਗੋਰਿਦਮ: ਬਿਹਤਰ ਸ਼ੋਰ ਉਮੀਦਵਾਰਾਂ ਨੂੰ ਲੱਭਣਾ।

ਖੋਜ ਵਿਧੀ

ਟੀਮ ਨੇ ਵੈਰੀਫਾਇਰਾਂ ਲਈ ਤਿੰਨ ਵੱਖ-ਵੱਖ ਦ੍ਰਿਸ਼ਾਂ ਦੀ ਖੋਜ ਕੀਤੀ, ਵੱਖ-ਵੱਖ ਵਰਤੋਂ ਦੇ ਮਾਮਲਿਆਂ ਦੀ ਨਕਲ ਕਰਦੇ ਹੋਏ:

  1. ਦ੍ਰਿਸ਼ ਜਿੱਥੇ ਅੰਤਿਮ ਮੁਲਾਂਕਣ ਬਾਰੇ ਵਿਸ਼ੇਸ਼ ਜਾਣਕਾਰੀ ਉਪਲਬਧ ਹੈ।
  2. ਦ੍ਰਿਸ਼ ਜਿੱਥੇ ਪੀੜ੍ਹੀ ਨੂੰ ਮਾਰਗਦਰਸ਼ਨ ਕਰਨ ਲਈ ਸ਼ਰਤੀਆ ਜਾਣਕਾਰੀ ਉਪਲਬਧ ਹੈ।
  3. ਦ੍ਰਿਸ਼ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਕੋਈ ਵਾਧੂ ਜਾਣਕਾਰੀ ਉਪਲਬਧ ਨਹੀਂ ਹੈ।

ਐਲਗੋਰਿਦਮਾਂ ਲਈ, ਉਹਨਾਂ ਨੇ ਜਾਂਚ ਕੀਤੀ:

  1. ਰੈਂਡਮ ਖੋਜ: ਉਮੀਦਵਾਰਾਂ ਦੇ ਇੱਕ ਫਿਕਸ ਸੈੱਟ ਵਿੱਚੋਂ ਸਭ ਤੋਂ ਵਧੀਆ ਦੀ ਚੋਣ ਕਰਨਾ।
  2. ਜ਼ੀਰੋ-ਆਰਡਰ ਖੋਜ: ਵੈਰੀਫਾਇਰ ਫੀਡਬੈਕ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸ਼ੋਰ ਉਮੀਦਵਾਰਾਂ ਨੂੰ ਦੁਹਰਾਉਂਦੇ ਹੋਏ ਸੁਧਾਰ ਕਰਨਾ।
  3. ਪਾਥ ਖੋਜ: ਵੈਰੀਫਾਇਰ ਫੀਡਬੈਕ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਡਿਫਿਊਜ਼ਨ ਸੈਂਪਲਿੰਗ ਟ੍ਰੈਜੈਕਟਰੀਜ਼ ਨੂੰ ਦੁਹਰਾਉਂਦੇ ਹੋਏ ਸੁਧਾਰ ਕਰਨਾ।

ਸ਼ੁਰੂ ਵਿੱਚ ਅਧਿਐਨ ਨੇ ਇਹਨਾਂ ਡਿਜ਼ਾਈਨਾਂ ਨੂੰ ਇੱਕ ਮੁਕਾਬਲਤਨ ਸਧਾਰਨ ImageNet ਕਲਾਸ-ਕੰਡੀਸ਼ਨਲ ਜਨਰੇਸ਼ਨ ਸੈੱਟਅੱਪ ਵਿੱਚ ਖੋਜਿਆ। ਬਾਅਦ ਵਿੱਚ, ਉਹਨਾਂ ਨੇ ਇਹਨਾਂ ਡਿਜ਼ਾਈਨਾਂ ਨੂੰ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਟੈਕਸਟ-ਕੰਡੀਸ਼ਨਲ ਜਨਰੇਸ਼ਨ 'ਤੇ ਲਾਗੂ ਕੀਤਾ ਅਤੇ ਆਪਣੇ ਪ੍ਰਸਤਾਵਿਤ ਫਰੇਮਵਰਕ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ।

ਇਨਫਰੈਂਸ ਟਾਈਮ ਨੂੰ ਸਕੇਲ ਕਰਨਾ

ਪੇਪਰ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਵਿੱਚ ਇਨਫਰੈਂਸ ਟਾਈਮ ਨੂੰ ਸਕੇਲ ਕਰਨ ਲਈ ਇੱਕ ਫਰੇਮਵਰਕ ਪ੍ਰਸਤਾਵਿਤ ਕਰਦਾ ਹੈ, ਚੁਣੌਤੀ ਨੂੰ ਅਨੁਕੂਲ ਸੈਂਪਲਿੰਗ ਸ਼ੋਰ ਦੀ ਖੋਜ ਵਜੋਂ ਤਿਆਰ ਕਰਦਾ ਹੈ। ਇਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਦੋ ਮੁੱਖ ਕੰਪੋਨੈਂਟ ਸ਼ਾਮਲ ਹਨ:

  • ਵੈਰੀਫਾਇਰ: ਇਹ ਪ੍ਰੀ-ਟ੍ਰੇਨਡ ਮਾਡਲ ਹਨ ਜੋ ਪੈਦਾ ਹੋਏ ਨਮੂਨਿਆਂ ਦੀ ਗੁਣਵੱਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਨ। ਉਹ ਪੈਦਾ ਹੋਏ ਨਮੂਨਿਆਂ ਨੂੰ, ਵਿਕਲਪਿਕ ਸ਼ਰਤਾਂ ਦੇ ਨਾਲ, ਲੈਂਦੇ ਹਨ ਅਤੇ ਇੱਕ ਸਕੇਲਰ ਸਕੋਰ ਆਉਟਪੁੱਟ ਕਰਦੇ ਹਨ।
  • ਐਲਗੋਰਿਦਮ: ਇਹ ਐਲਗੋਰਿਦਮ ਵਧੀਆ ਉਮੀਦਵਾਰ ਨਮੂਨੇ ਲੱਭਣ ਲਈ ਵੈਰੀਫਾਇਰ ਸਕੋਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਫੰਕਸ਼ਨ ਇੱਕ ਵੈਰੀਫਾਇਰ (V), ਇੱਕ ਪ੍ਰੀ-ਟ੍ਰੇਨਡ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ (_θ), ਅਤੇ ਪੈਦਾ ਹੋਏ ਨਮੂਨਿਆਂ ਅਤੇ ਸ਼ਰਤਾਂ ਦਾ ਇੱਕ ਸੈੱਟ ਲੈਂਦਾ ਹੈ, ਸਭ ਤੋਂ ਵਧੀਆ ਸ਼ੁਰੂਆਤੀ ਸ਼ੋਰ ਨੂੰ ਆਉਟਪੁੱਟ ਕਰਦਾ ਹੈ।

ਕੁੱਲ ਇਨਫਰੈਂਸ ਬਜਟ ਨੂੰ ਫੰਕਸ਼ਨ ਮੁਲਾਂਕਣਾਂ (NFE) ਦੀ ਕੁੱਲ ਸੰਖਿਆ ਦੁਆਰਾ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਡਿਨੋਇਸਿੰਗ ਸਟੈਪਸ ਅਤੇ ਖੋਜ ਖਰਚੇ ਦੋਵੇਂ ਸ਼ਾਮਲ ਹਨ।

ਖੋਜ ਵੈਰੀਫਾਇਰ

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇੱਕ ਓਰੇਕਲ ਵੈਰੀਫਾਇਰ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕੀਤੀ, ਜਿਸ ਕੋਲ ਚੁਣੇ ਗਏ ਨਮੂਨਿਆਂ ਦੇ ਅੰਤਿਮ ਮੁਲਾਂਕਣ ਬਾਰੇ ਪੂਰੀ ਜਾਣਕਾਰੀ ਹੈ। ImageNet ਲਈ, ਇਸ ਵਿੱਚ FID ਅਤੇ IS ਵਰਗੇ ਮੈਟ੍ਰਿਕਸ ਸ਼ਾਮਲ ਹਨ। ਫਿਰ ਉਹਨਾਂ ਨੇ CLIP ਅਤੇ DINO ਵਰਗੇ ਸੁਪਰਵਾਈਜ਼ਡ ਵੈਰੀਫਾਇਰਾਂ ਵਜੋਂ ਵਧੇਰੇ ਪਹੁੰਚਯੋਗ ਪ੍ਰੀ-ਟ੍ਰੇਨਡ ਮਾਡਲਾਂ ਦੀ ਖੋਜ ਕੀਤੀ। ਇਹਨਾਂ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਨਮੂਨਿਆਂ ਨੂੰ ਵਰਗੀਕ੍ਰਿਤ ਕਰਨ ਲਈ ਕੀਤੀ ਗਈ ਸੀ, ਕਲਾਸ ਲੇਬਲ ਨਾਲ ਸੰਬੰਧਿਤ ਸਭ ਤੋਂ ਵੱਧ ਲੌਗਿਟ ਵਾਲੇ ਨਮੂਨੇ ਦੀ ਚੋਣ ਕਰਦੇ ਹੋਏ।

ਹਾਲਾਂਕਿ, ਉਹਨਾਂ ਨੇ ਦੇਖਿਆ ਕਿ ਇਹ ਵਰਗੀਕਰਨਕਾਰ, ਜੋ ਕਿ ਪੁਆਇੰਟ-ਵਾਈਜ਼ ਕੰਮ ਕਰਦੇ ਹਨ, FID ਸਕੋਰ ਦੇ ਉਦੇਸ਼ਾਂ ਨਾਲ ਸਿਰਫ ਅੰਸ਼ਕ ਤੌਰ 'ਤੇ ਇਕਸਾਰ ਹੁੰਦੇ ਹਨ। ਇਸ ਨਾਲ ਗਣਨਾ ਵਧਣ ਦੇ ਨਾਲ ਨਮੂਨੇ ਦੇ ਭਿੰਨਤਾ ਅਤੇ ਮੋਡ ਕੋਲੇਪਸ ਵਿੱਚ ਕਮੀ ਆਈ। ਇਹ ਵਰਤਾਰਾ, ਜਿਸਨੂੰ "ਵੈਰੀਫਾਇਰ ਹੈਕਿੰਗ" ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਨੂੰ ਰੈਂਡਮ ਖੋਜ ਐਲਗੋਰਿਦਮ ਦੀ ਅਨਿਯੰਤ੍ਰਿਤ ਖੋਜ ਸਪੇਸ ਦੁਆਰਾ ਤੇਜ਼ ਕੀਤਾ ਗਿਆ ਸੀ।

ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ ਅਧਿਐਨ ਵਿੱਚ ਪਾਇਆ ਗਿਆ ਕਿ ਵੈਰੀਫਾਇਰਾਂ ਨੂੰ ਖੋਜ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਮਾਰਗਦਰਸ਼ਨ ਕਰਨ ਲਈ ਜ਼ਰੂਰੀ ਤੌਰ 'ਤੇ ਸ਼ਰਤੀਆ ਜਾਣਕਾਰੀ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ ਹੈ। ਉਹਨਾਂ ਨੇ DINO/CLIP ਵਰਗੀਕਰਨਕਾਰਾਂ ਦੇ ਲੌਗਿਟਸ ਅਤੇ ਘੱਟ ਸ਼ੋਰ ਪੱਧਰ 'ਤੇ x ਭਵਿੱਖਬਾਣੀ ਅਤੇ ਅੰਤਿਮ ਸਾਫ਼ ਨਮੂਨੇ ਵਿਚਕਾਰ ਫੀਚਰ ਸਪੇਸ ਦੀ ਕੋਸਾਈਨ ਸਮਾਨਤਾ ਵਿਚਕਾਰ ਇੱਕ ਮਜ਼ਬੂਤ ਸਬੰਧ ਦੇਖਿਆ। ਇਸ ਨਾਲ ਸਵੈ-ਨਿਗਰਾਨੀ ਵਾਲੇ ਵੈਰੀਫਾਇਰਾਂ ਦੀ ਵਰਤੋਂ ਹੋਈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਵਾਧੂ ਸ਼ਰਤੀਆ ਜਾਣਕਾਰੀ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ ਹੈ ਅਤੇ ਫਿਰ ਵੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਕੇਲਿੰਗ ਵਿਵਹਾਰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦੇ ਹਨ।

ਖੋਜ ਐਲਗੋਰਿਦਮ

ਵੈਰੀਫਾਇਰ ਹੈਕਿੰਗ ਨੂੰ ਘਟਾਉਣ ਲਈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਵਧੇਰੇ ਸੋਧੇ ਹੋਏ ਖੋਜ ਐਲਗੋਰਿਦਮਾਂ ਦੀ ਖੋਜ ਕੀਤੀ ਜੋ ਉਮੀਦਵਾਰ ਨਮੂਨਿਆਂ ਨੂੰ ਹੌਲੀ-ਹੌਲੀ ਅਨੁਕੂਲਿਤ ਕਰਦੇ ਹਨ। ਇਸ ਵਿੱਚ ਇੱਕ ਜ਼ੀਰੋ-ਆਰਡਰ ਖੋਜ ਵਿਧੀ ਸ਼ਾਮਲ ਹੈ:

  1. ਇੱਕ ਪਿਵੋਟ ਪੁਆਇੰਟ ਵਜੋਂ ਇੱਕ ਰੈਂਡਮ ਗੌਸੀਅਨ ਸ਼ੋਰ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕਰਨਾ।
  2. ਪਿਵੋਟ ਪੁਆਇੰਟ ਦੇ ਗੁਆਂਢ ਵਿੱਚ N ਉਮੀਦਵਾਰਾਂ ਨੂੰ ਲੱਭਣਾ।
  3. ਨਮੂਨੇ ਅਤੇ ਵੈਰੀਫਾਇਰ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ODE ਸੋਲਵਰ ਰਾਹੀਂ ਉਮੀਦਵਾਰਾਂ ਨੂੰ ਚਲਾਉਣਾ।
  4. ਸਭ ਤੋਂ ਵਧੀਆ ਉਮੀਦਵਾਰ ਨਾਲ ਪਿਵੋਟ ਪੁਆਇੰਟ ਨੂੰ ਅੱਪਡੇਟ ਕਰਨਾ ਅਤੇ ਕਦਮ 1-3 ਨੂੰ ਦੁਹਰਾਉਣਾ।

ਉਹਨਾਂ ਨੇ ਇੱਕ ਪਾਥ ਖੋਜ ਐਲਗੋਰਿਦਮ ਦੀ ਵੀ ਜਾਂਚ ਕੀਤੀ, ਜੋ ਸੈਂਪਲਿੰਗ ਟ੍ਰੈਜੈਕਟਰੀ ਦੇ ਨਾਲ ਖੋਜ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਦੀ ਖੋਜ ਕਰਦਾ ਹੈ:

  1. N ਸ਼ੁਰੂਆਤੀ ਸ਼ੋਰ ਨਮੂਨਿਆਂ ਦੀ ਸੈਂਪਲਿੰਗ ਕਰਨਾ ਅਤੇ ODE ਸੋਲਵਰ ਨੂੰ ਸ਼ੋਰ ਪੱਧਰ σ ਤੱਕ ਚਲਾਉਣਾ।
  2. ਹਰੇਕ ਨਮੂਨੇ ਵਿੱਚ ਸ਼ੋਰ ਜੋੜਨਾ, ਅਤੇ ਇੱਕ ਫਾਰਵਰਡ ਨੋਇਸਿੰਗ ਪ੍ਰਕਿਰਿਆ ਦੀ ਨਕਲ ਕਰਨਾ।
  3. ਹਰੇਕ ਸ਼ੋਰ ਵਾਲੇ ਨਮੂਨੇ 'ਤੇ ਇੱਕ ODE ਸੋਲਵਰ ਚਲਾਉਣਾ ਅਤੇ ਵੈਰੀਫਾਇਰ ਸਕੋਰਾਂ ਦੇ ਆਧਾਰ 'ਤੇ ਚੋਟੀ ਦੇ N ਉਮੀਦਵਾਰਾਂ ਨੂੰ ਰੱਖਣਾ, ਜਦੋਂ ਤੱਕ ODE ਸੋਲਵਰ σ=0 ਤੱਕ ਨਹੀਂ ਪਹੁੰਚ ਜਾਂਦਾ, ਉਦੋਂ ਤੱਕ ਦੁਹਰਾਉਣਾ।
  4. ਬਾਕੀ ਬਚੇ N ਨਮੂਨਿਆਂ ਦੀ ਰੈਂਡਮ ਖੋਜ ਕਰਨਾ ਅਤੇ ਸਭ ਤੋਂ ਵਧੀਆ ਨੂੰ ਰੱਖਣਾ।

ਜ਼ੀਰੋ-ਆਰਡਰ ਅਤੇ ਪਾਥ ਖੋਜ ਐਲਗੋਰਿਦਮ ਦੋਵੇਂ ਰੈਂਡਮ ਖੋਜ ਦੇ ਮੁਕਾਬਲੇ ਇੱਕ ਮਜ਼ਬੂਤ ਸਥਾਨਕਤਾ ਬਣਾਈ ਰੱਖਦੇ ਹਨ।

ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਸਕੇਲਿੰਗ

ਟੀਮ ਨੇ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਕਾਰਜਾਂ ਵਿੱਚ ਖੋਜ ਫਰੇਮਵਰਕ ਦੀ ਸਕੇਲਿੰਗ ਸਮਰੱਥਾਵਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ। ਉਹਨਾਂ ਨੇ FLUX.1-dev ਮਾਡਲ ਦੇ ਬੈਕਬੋਨ ਵਜੋਂ DrawBench ਅਤੇ T2I-CompBench ਡੇਟਾਸੈਟਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਉਹਨਾਂ ਨੇ ਸੁਪਰਵਾਈਜ਼ਡ ਵੈਰੀਫਾਇਰਾਂ ਦੀ ਚੋਣ ਦਾ ਵੀ ਵਿਸਤਾਰ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ Aesthetic Score Predictor, CLIPScore, ਅਤੇ ImageReward ਸ਼ਾਮਲ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਉਹਨਾਂ ਨੇ ਇਹਨਾਂ ਤਿੰਨਾਂ ਵੈਰੀਫਾਇਰਾਂ ਨੂੰ ਜੋੜ ਕੇ ਇੱਕ ਵੈਰੀਫਾਇਰ ਐਨਸੈਂਬਲ ਬਣਾਇਆ।

ਵਿਸ਼ਲੇਸ਼ਣ: ਵੈਰੀਫਾਇਰ-ਟਾਸਕ ਅਲਾਈਨਮੈਂਟ

ਅਧਿਐਨ ਨੇ ਵੱਖ-ਵੱਖ ਡੇਟਾਸੈਟਾਂ 'ਤੇ ਵੱਖ-ਵੱਖ ਵੈਰੀਫਾਇਰ-ਐਲਗੋਰਿਦਮ ਸੰਜੋਗਾਂ ਦੇ ਨਤੀਜਿਆਂ ਦੀ ਤੁਲਨਾ ਕੀਤੀ। DrawBench 'ਤੇ, ਉਹਨਾਂ ਨੇ ਪਾਇਆ ਕਿ ਆਮ ਤੌਰ 'ਤੇ ਸਾਰੇ ਵੈਰੀਫਾਇਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਨਾਲ ਨਮੂਨੇ ਦੀ ਗੁਣਵੱਤਾ ਵਿੱਚ ਸੁਧਾਰ ਹੋਇਆ ਹੈ। ਹਾਲਾਂਕਿ, ਉਹਨਾਂ ਨੇ ਦੇਖਿਆ ਕਿ ਇਕੱਲੇ ਤੌਰ 'ਤੇ Aesthetic ਅਤੇ CLIP ਵੈਰੀਫਾਇਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਨਾਲ ਉਹਨਾਂ ਦੇ ਪੱਖਪਾਤ ਨੂੰ ਓਵਰਫਿਟ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਜਿਸਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਦੂਜੇ 'ਤੇ ਨਕਾਰਾਤਮਕ ਪ੍ਰਭਾਵ ਪੈਂਦੇ ਹਨ। ਇਹ ਉਹਨਾਂ ਦੇ ਮੁਲਾਂਕਣ ਫੋਕਸ ਵਿੱਚ ਇੱਕ ਮੇਲ-ਮਿਲਾਪ ਤੋਂ ਪੈਦਾ ਹੁੰਦਾ ਹੈ: Aesthetic Score ਵਿਜ਼ੂਅਲ ਗੁਣਵੱਤਾ 'ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦਾ ਹੈ, ਅਕਸਰ ਉੱਚ ਸਟਾਈਲਾਈਜ਼ਡ ਚਿੱਤਰਾਂ ਦਾ ਪੱਖ ਪੂਰਦਾ ਹੈ, ਜਦੋਂ ਕਿ CLIP ਵਿਜ਼ੂਅਲ-ਟੈਕਸਟ ਅਲਾਈਨਮੈਂਟ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦਾ ਹੈ, ਕਈ ਵਾਰ ਵਿਜ਼ੂਅਲ ਗੁਣਵੱਤਾ ਨੂੰ ਕੁਰਬਾਨ ਕਰਦਾ ਹੈ। ਉਹਨਾਂ ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ ਕੁਝ ਵੈਰੀਫਾਇਰ ਖਾਸ ਕਾਰਜਾਂ ਲਈ ਵਧੇਰੇ ਢੁਕਵੇਂ ਹਨ, ਅਤੇ ਇੱਕ ਵੈਰੀਫਾਇਰ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਇਸਦੀ ਕਾਰਜ ਲੋੜਾਂ ਨਾਲ ਅਲਾਈਨਮੈਂਟ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ।

ਐਲਗੋਰਿਦਮ ਪ੍ਰਦਰਸ਼ਨ

ਤਿੰਨ ਖੋਜ ਐਲਗੋਰਿਦਮ (ਰੈਂਡਮ, ਜ਼ੀਰੋ-ਆਰਡਰ ਅਤੇ ਪਾਥ) ਸਾਰੇ DrawBench 'ਤੇ ਸੈਂਪਲਿੰਗ ਗੁਣਵੱਤਾ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸੁਧਾਰਦੇ ਹਨ। ਹਾਲਾਂਕਿ, ਰੈਂਡਮ ਖੋਜ ਨੇ ਕੁਝ ਪਹਿਲੂਆਂ ਵਿੱਚ ਦੂਜੀਆਂ ਦੋ ਵਿਧੀਆਂ ਦੀ ਸਥਾਨਕ ਪ੍ਰਕਿਰਤੀ ਕਾਰਨ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਰੈਂਡਮ ਖੋਜ ਵੈਰੀਫਾਇਰ ਪੱਖਪਾਤ ਵੱਲ ਤੇਜ਼ੀ ਨਾਲ ਇਕੱਠੀ ਹੋ ਗਈ, ਜਦੋਂ ਕਿ ਦੂਜੇ ਦੋ ਐਲਗੋਰਿਦਮ ਨੂੰ ਘੱਟ ਤੋਂ ਘੱਟ ਅਨੁਕੂਲ ਉਮੀਦਵਾਰਾਂ 'ਤੇ ਸੁਧਾਰ ਦੀ ਲੋੜ ਹੈ।

ਫਾਈਨ-ਟਿਊਨਿੰਗ ਨਾਲ ਅਨੁਕੂਲਤਾ

ਟੀਮ ਨੇ ਫਾਈਨ-ਟਿਊਨਡ ਮਾਡਲਾਂ ਨਾਲ ਆਪਣੀ ਖੋਜ ਵਿਧੀ ਦੀ ਅਨੁਕੂਲਤਾ ਦੀ ਜਾਂਚ ਕੀਤੀ। ਉਹਨਾਂ ਨੇ ਇੱਕ DPO-ਫਾਈਨ-ਟਿਊਨਡ ਸਟੇਬਲ ਡਿਫਿਊਜ਼ਨ XL ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਅਤੇ ਪਾਇਆ ਕਿ ਖੋਜ ਵਿਧੀ ਨੂੰ ਵੱਖ-ਵੱਖ ਮਾਡਲਾਂ ਲਈ ਆਮ ਬਣਾਇਆ ਜਾ ਸਕਦਾ ਹੈ ਅਤੇ ਪਹਿਲਾਂ ਤੋਂ ਇਕਸਾਰ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਸੁਧਾਰ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

ਇਨਫਰੈਂਸ ਗਣਨਾ ਦੇ ਵੱਖ-ਵੱਖ ਪਹਿਲੂਆਂ ਦੇ ਪ੍ਰਭਾਵ

ਅਧਿਐਨ ਨੇ ਖੋਜ ਕੀਤੀ ਕਿ ਇਨਫਰੈਂਸ ਗਣਨਾ ਦੇ ਵੱਖ-ਵੱਖ ਪਹਿਲੂ ਨਤੀਜਿਆਂ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਭਾਵਿਤ ਕਰਦੇ ਹਨ:

  • ਖੋਜ ਦੁਹਰਾਓ ਦੀ ਸੰਖਿਆ: ਦੁਹਰਾਓ ਨੂੰ ਵਧਾਉਣ ਨਾਲ ਸ਼ੋਰ ਅਨੁਕੂਲ ਦੇ ਨੇੜੇ ਆ ਜਾਂਦਾ ਹੈ।
  • ਖੋਜ ਦੁਹਰਾਓ ਪ੍ਰਤੀ ਗਣਨਾ: ਦੁਹਰਾਓ ਪ੍ਰਤੀ ਡਿਨੋਇਸਿੰਗ ਸਟੈਪਸ ਦੀ ਸੰਖਿਆ ਨੂੰ ਵਿਵਸਥਿਤ ਕਰਨ ਨਾਲ ਵੱਖ-ਵੱਖ ਗਣਨਾਤਮਕ ਤੌਰ 'ਤੇ ਅਨੁਕੂਲ ਖੇਤਰਾਂ ਦਾ ਪਤਾ ਚੱਲਦਾ ਹੈ।
  • ਅੰਤਿਮ ਪੀੜ੍ਹੀ ਗਣਨਾ: ਟੀਮ ਨੇ ਅੰਤਿਮ ਡਿਨੋਇਸਿੰਗ ਸਟੈਪਸ ਲਈ ਅਨੁਕੂਲ ਸੈਟਿੰਗਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਤਾਂ ਜੋ ਸਭ ਤੋਂ ਉੱਚੀ ਅੰਤਿਮ ਨਮੂਨਾ ਗੁਣਵੱਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ।

ਗਣਨਾ ਵਿੱਚ ਨਿਵੇਸ਼ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਛੋਟੇ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ 'ਤੇ ਇਨਫਰੈਂਸ-ਟਾਈਮ ਸਕੇਲਿੰਗ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਦੀ ਖੋਜ ਕੀਤੀ। ਉਹਨਾਂ ਨੇ ਪਾਇਆ ਕਿ, ImageNet ਲਈ, ਛੋਟੇ ਮਾਡਲਾਂ ਨੂੰ ਸਕੇਲ ਕਰਨਾ ਬਹੁਤ ਕੁਸ਼ਲ ਹੋ ਸਕਦਾ ਹੈ। ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਇੱਕ ਛੋਟੇ ਮਾਡਲ 'ਤੇ ਖੋਜ ਕਰਨਾ ਬਿਨਾਂ ਖੋਜ ਦੇ ਵੱਡੇ ਮਾਡਲਾਂ ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰ ਸਕਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਛੋਟੇ ਮਾਡਲ ਦੀ ਬੇਸਲਾਈਨ ਕਾਰਗੁਜ਼ਾਰੀ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ।

ਟੈਕਸਟ-ਅਧਾਰਿਤ ਸੈਟਿੰਗਾਂ ਵਿੱਚ, PixArt-Σ, ਗਣਨਾ ਦਾ ਸਿਰਫ ਇੱਕ ਹਿੱਸਾ ਵਰਤਦੇ ਹੋਏ, FLUX-1.dev ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਇਹ ਨਤੀਜੇ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਸਿਖਲਾਈ ਦੌਰਾਨ ਖਰਚੇ ਗਏ ਮਹੱਤਵਪੂਰਨ ਗਣਨਾਤਮਕ ਸਰੋਤਾਂ ਨੂੰ ਪੀੜ੍ਹੀ ਦੌਰਾਨ ਗਣਨਾ ਦੀ ਛੋਟੀ ਮਾਤਰਾ ਦੁਆਰਾ ਆਫਸੈੱਟ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਜਿਸਦੇ ਨਤੀਜੇ ਵਜੋਂ ਉੱਚ ਗੁਣਵੱਤਾ ਵਾਲੇ ਨਮੂਨੇ ਵਧੇਰੇ ਕੁਸ਼ਲਤਾ ਨਾਲ ਮਿਲਦੇ ਹਨ।