Published on

ਨਵੀਂ ਅਟੈਂਸ਼ਨ ਮਕੈਨਿਜ਼ਮ KV ਕੈਸ਼ ਘਟਾਈ ਗਈ

ਲੇਖਕ
  • avatar
    ਨਾਮ
    Ajax
    Twitter

ਜਾਣ-ਪਛਾਣ

ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਦੀ ਵੱਧਦੀ ਵਰਤੋਂ ਅਤੇ ਅਨੁਮਾਨ ਵਿੱਚ ਨਵੇਂ ਪੈਰਾਡਾਈਮਾਂ ਦੇ ਉਭਾਰ ਨੇ ਕੁਸ਼ਲ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਅਨੁਮਾਨ ਦੀ ਚੁਣੌਤੀ ਨੂੰ ਸਾਹਮਣੇ ਲਿਆਂਦਾ ਹੈ। ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਰੁਕਾਵਟ ਰਵਾਇਤੀ ਧਿਆਨ ਵਿਧੀ ਦੇ ਅੰਦਰ ਕੀ-ਵੈਲਯੂ (KV) ਕੈਸ਼ ਹੈ, ਜੋ ਕਿ ਬੈਚ ਦੇ ਆਕਾਰ ਅਤੇ ਕ੍ਰਮ ਦੀ ਲੰਬਾਈ ਦੇ ਨਾਲ ਲੀਨੀਅਰ ਰੂਪ ਵਿੱਚ ਫੈਲਦੀ ਹੈ, ਇੱਕ "ਮੈਮੋਰੀ ਹੋਗ" ਬਣ ਜਾਂਦੀ ਹੈ ਜੋ LLMs ਦੇ ਸਕੇਲਿੰਗ ਅਤੇ ਵਿਸਥਾਰ ਵਿੱਚ ਰੁਕਾਵਟ ਪਾਉਂਦੀ ਹੈ।

ਜਦੋਂ ਕਿ MQA, GQA, ਅਤੇ MLA ਵਰਗੇ ਰੂਪ ਇਸ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਉਭਰੇ ਹਨ, ਉਹ ਅਕਸਰ ਸਖ਼ਤ ਮੈਮੋਰੀ ਰੁਕਾਵਟਾਂ ਦੇ ਤਹਿਤ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਣ ਲਈ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ ਜਾਂ ਗੁੰਝਲਦਾਰਤਾਵਾਂ ਪੇਸ਼ ਕਰਦੇ ਹਨ ਜੋ ਇੰਜੀਨੀਅਰਿੰਗ ਚੁਣੌਤੀਆਂ ਅਤੇ ਅਨੁਕੂਲਤਾ ਮੁੱਦਿਆਂ ਨੂੰ ਪੇਸ਼ ਕਰਦੇ ਹਨ।

ਮਲਟੀ-ਮੈਟ੍ਰਿਕਸ ਫੈਕਟੋਰਾਈਜ਼ੇਸ਼ਨ ਅਟੈਂਸ਼ਨ (MFA)

ਸਟੈਪਸ, ਸਿੰਘੁਆ ਯੂਨੀਵਰਸਿਟੀ ਅਤੇ ਹੋਰ ਸੰਸਥਾਵਾਂ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਦੁਆਰਾ ਇੱਕ ਹਾਲ ਹੀ ਵਿੱਚ ਪ੍ਰਕਾਸ਼ਿਤ ਪੇਪਰ ਇੱਕ ਨਵੀਂ ਧਿਆਨ ਵਿਧੀ ਆਰਕੀਟੈਕਚਰ ਪੇਸ਼ ਕਰਦਾ ਹੈ: ਮਲਟੀ-ਮੈਟ੍ਰਿਕਸ ਫੈਕਟੋਰਾਈਜ਼ੇਸ਼ਨ ਅਟੈਂਸ਼ਨ (MFA) ਅਤੇ ਇਸਦਾ ਰੂਪ MFA-Key-Reuse (MFA-KR)। ਇਹ ਵਿਧੀ ਭਾਸ਼ਾ ਮਾਡਲ ਅਨੁਮਾਨ ਦੀ ਲਾਗਤ ਨੂੰ ਕਾਫ਼ੀ ਘਟਾਉਂਦੀ ਹੈ ਜਦੋਂ ਕਿ ਇੱਕੋ ਸਮੇਂ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਸੁਧਾਰ ਹੁੰਦਾ ਹੈ।

MFA ਅਤੇ MFA-KR ਨਾ ਸਿਰਫ਼ MLA ਨੂੰ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਪਛਾੜਦੇ ਹਨ, ਸਗੋਂ ਰਵਾਇਤੀ MHA ਪ੍ਰਦਰਸ਼ਨ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ ਜਦੋਂ ਕਿ KV ਕੈਸ਼ ਦੀ ਵਰਤੋਂ ਨੂੰ 93.7% ਤੱਕ ਘਟਾਉਂਦੇ ਹਨ।

MFA ਨੂੰ ਸਾਦਗੀ, ਆਸਾਨ ਪ੍ਰਜਨਨ, ਹਾਈਪਰਪੈਰਾਮੀਟਰਾਂ ਪ੍ਰਤੀ ਘੱਟ ਸੰਵੇਦਨਸ਼ੀਲਤਾ, ਅਤੇ ਵੱਖ-ਵੱਖ ਪੋਸ-ਏਮਬੈਡਿੰਗ ਵਿਧੀਆਂ ਨਾਲ ਅਨੁਕੂਲਤਾ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ।

MFA ਪਹੁੰਚ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ

ਖੋਜ ਟੀਮ ਨੇ ਧਿਆਨ ਵਿਧੀਆਂ ਦੇ ਆਮ ਡਿਜ਼ਾਈਨ ਅਤੇ ਸਮਰੱਥਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ, ਸਮਰੱਥਾ ਨਾਲ ਸਬੰਧਤ ਦੋ ਮਹੱਤਵਪੂਰਨ ਮਾਪਾਂ ਦੀ ਪਛਾਣ ਕੀਤੀ। ਇਸ ਵਿਸ਼ਲੇਸ਼ਣ ਨੇ ਨਵੀਆਂ ਵਿਸ਼ਲੇਸ਼ਣਾਤਮਕ ਵਿਧੀਆਂ ਅਤੇ ਡਿਜ਼ਾਈਨ ਸਿਧਾਂਤਾਂ ਦੇ ਵਿਕਾਸ ਵੱਲ ਅਗਵਾਈ ਕੀਤੀ।

ਉਹਨਾਂ ਨੇ ਵੱਖ-ਵੱਖ MHA ਰੂਪਾਂ ਨੂੰ ਸਮਝਣ ਲਈ ਇੱਕ ਯੂਨੀਫਾਈਡ ਫਰੇਮਵਰਕ ਵਜੋਂ ਜਨਰਲਾਈਜ਼ਡ ਮਲਟੀ-ਹੈੱਡ ਅਟੈਂਸ਼ਨ (GMHA) ਦੀ ਧਾਰਨਾ ਪੇਸ਼ ਕੀਤੀ।

ਟੀਮ ਨੇ ਇੱਕ ਅਨੁਮਾਨ ਦੇ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਤੋਂ ਕੀ-ਮੁੱਲਾਂ ਦੀ ਗਣਨਾ ਅਤੇ ਸਟੋਰੇਜ ਦੀ ਵੀ ਖੋਜ ਕੀਤੀ ਅਤੇ ਇੱਕ ਡੀਕੰਪੋਜ਼ੀਸ਼ਨ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਤੋਂ ਮਾਡਲ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕੀਤੀ।

ਪੂਰੀ ਤਰ੍ਹਾਂ ਪੈਰਾਮੀਟਰਾਈਜ਼ਡ ਬਿਲਿਨੀਅਰ ਅਟੈਂਸ਼ਨ (FPBA) ਨੂੰ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਸਿਧਾਂਤਕ ਉਪਰਲੀ ਸੀਮਾ ਵਜੋਂ ਸਥਾਪਿਤ ਕੀਤਾ ਗਿਆ ਸੀ। ਉਹਨਾਂ ਨੇ ਪਾਇਆ ਕਿ MHA ਅਤੇ ਇਸਦੇ ਰੂਪ FPBA ਦੇ ਘੱਟ-ਦਰਜੇ ਦੇ ਡੀਕੰਪੋਜ਼ੀਸ਼ਨ ਹਨ।

MQA ਅਤੇ MLA ਨਾਲ ਤੁਲਨਾ

ਵਿਸ਼ਲੇਸ਼ਣ ਦੋ ਪ੍ਰਤੀਨਿਧੀ ਸੁਧਾਰ ਯੋਜਨਾਵਾਂ 'ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ: ਮਲਟੀ-ਕੁਏਰੀ ਅਟੈਂਸ਼ਨ (MQA) ਅਤੇ ਮਲਟੀ-ਹੈੱਡ ਲੇਟੈਂਟ ਅਟੈਂਸ਼ਨ (MLA)।

MQA ਇੱਕ ਵਧੇਰੇ ਹਮਲਾਵਰ ਪੈਰਾਮੀਟਰ-ਸ਼ੇਅਰਿੰਗ ਰਣਨੀਤੀ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਜਿੱਥੇ ਸਾਰੇ ਧਿਆਨ ਸਿਰ ਕੀ-ਮੁੱਲ ਪੈਰਾਮੀਟਰਾਂ ਦੇ ਇੱਕੋ ਸੈੱਟ ਨੂੰ ਸਾਂਝਾ ਕਰਦੇ ਹਨ। ਇਹ ਮੈਮੋਰੀ ਦੀ ਵਰਤੋਂ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ ਪਰ ਮਾਡਲ ਦੀ ਪ੍ਰਗਟਾਵੇਸ਼ੀਲਤਾ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰ ਸਕਦਾ ਹੈ।

MLA ਪੈਰਾਮੀਟਰ ਕੰਪਰੈਸ਼ਨ ਲਈ ਇੱਕ ਸਾਂਝੀ ਲੇਟੈਂਟ ਸਪੇਸ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਪਰ ਅਸਲ ਪ੍ਰਗਟਾਵੇਸ਼ੀਲ ਸ਼ਕਤੀ ਸਭ ਤੋਂ ਛੋਟੇ ਮਾਪ ਦੁਆਰਾ ਸੀਮਿਤ ਹੈ, ਭਾਵ ਵਿਚਕਾਰਲੇ ਮਾਪਾਂ ਨੂੰ ਵਧਾਉਣ ਨਾਲ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਨਹੀਂ ਹੁੰਦਾ ਹੈ।

MFA ਮੁੱਖ ਨਵੀਨਤਾਵਾਂ

MFA ਦਾ ਵਿਕਾਸ ਇੱਕ ਧਿਆਨ ਵਿਧੀ ਬਣਾਉਣ ਦੇ ਟੀਚੇ ਦੁਆਰਾ ਚਲਾਇਆ ਗਿਆ ਸੀ ਜੋ ਕਿ ਸਿਧਾਂਤਕ ਪ੍ਰਦਰਸ਼ਨ ਸੀਮਾਵਾਂ ਦੇ ਨੇੜੇ ਆਉਂਦੇ ਹੋਏ ਸਰੋਤਾਂ ਦੀ ਖਪਤ ਨੂੰ ਘੱਟ ਕਰਦਾ ਹੈ। MFA ਦੇ ਡਿਜ਼ਾਈਨ ਵਿੱਚ ਤਿੰਨ ਮੁੱਖ ਨਵੀਨਤਾਵਾਂ ਸ਼ਾਮਲ ਹਨ:

  1. ਮਾਡਲ ਸਮਰੱਥਾ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ ਧਿਆਨ ਸਿਰਾਂ ਦੀ ਗਿਣਤੀ ਅਤੇ ਮਾਪ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਰੂਪ ਵਿੱਚ ਵਧਾਉਣਾ।
  2. ਧਿਆਨ ਸਿਰ ਦੀ ਗਿਣਤੀ ਅਤੇ ਮਾਪਾਂ ਦਾ ਵਿਸਤਾਰ ਕਰਦੇ ਹੋਏ ਪੈਰਾਮੀਟਰ ਕੁਸ਼ਲਤਾ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਣ ਲਈ ਇੱਕ ਹਮਲਾਵਰ ਘੱਟ-ਦਰਜੇ ਦੀ ਡੀਕੰਪੋਜ਼ੀਸ਼ਨ ਰਣਨੀਤੀ ਦੀ ਵਰਤੋਂ ਕਰਨਾ।
  3. ਵਧੇ ਹੋਏ ਮਾਡਲ ਜਟਿਲਤਾ ਦੇ ਨਾਲ ਵੀ, ਮੈਮੋਰੀ ਦੀ ਖਪਤ ਨੂੰ ਘੱਟ ਰੱਖਣ ਲਈ ਇੱਕ ਸਿੰਗਲ ਕੀ-ਵੈਲਯੂ ਹੈੱਡ ਡਿਜ਼ਾਈਨ ਦੀ ਵਰਤੋਂ ਕਰਨਾ।

ਸਮਰੱਥਾ ਮਾਪ ਅਤੇ ਤੁਲਨਾ

MFA ਅਤੇ ਹੋਰ ਧਿਆਨ ਵਿਧੀਆਂ ਦਾ ਹੋਰ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ, ਟੀਮ ਨੇ ਦੋ ਮੁੱਖ ਮੈਟ੍ਰਿਕਸ ਪੇਸ਼ ਕੀਤੇ:

  • ਕੁੱਲ ਪ੍ਰਭਾਵੀ ਰੈਂਕ (TER): ਧਿਆਨ ਸਿਰਾਂ ਦੀ ਗਿਣਤੀ ਅਤੇ ਪ੍ਰਤੀ ਸਿਰ ਫੈਕਟੋਰਾਈਜ਼ੇਸ਼ਨ ਰੈਂਕ (FRH) ਦਾ ਉਤਪਾਦ।
  • ਸਾਂਝਾ ਲੇਟੈਂਟ ਸਬਸਪੇਸ ਡਾਇਮੈਂਸ਼ਨ (SLSD): ਸਾਰੇ ਧਿਆਨ ਸਿਰਾਂ ਦੁਆਰਾ ਸਾਂਝੀ ਕੀਤੀ ਗਈ ਲੁਕਵੀਂ ਥਾਂ ਦਾ ਮਾਪ।

MFA MQA ਦੇ ਮੁਕਾਬਲੇ ਉੱਚ SLSD ਅਤੇ TER ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।

MLA ਦੇ ਮੁਕਾਬਲੇ, MFA ਇੱਕ ਸਮਾਨ ਪੈਰਾਮੀਟਰ ਬਜਟ ਦੇ ਨਾਲ ਇੱਕ ਛੋਟਾ KV ਕੈਸ਼ ਆਕਾਰ ਅਤੇ ਉੱਚ TER ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਇੱਕ ਤੁਲਨਾਤਮਕ SLSD ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦਾ ਹੈ।

ਰਵਾਇਤੀ MHA ਦੇ ਮੁਕਾਬਲੇ, MFA ਵਿੱਚ ਇੱਕ ਉੱਚ TER ਹੈ, ਭਾਵੇਂ ਇਸਦਾ SLSD ਛੋਟਾ ਹੈ।

ਪ੍ਰਯੋਗਾਤਮਕ ਨਤੀਜੇ

ਨਵੇਂ ਆਰਕੀਟੈਕਚਰ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਵੱਡੇ ਪੈਮਾਨੇ 'ਤੇ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਵਿਆਪਕ ਪ੍ਰਯੋਗ ਕੀਤੇ ਗਏ ਸਨ, 1B ਤੋਂ 7B ਪੈਰਾਮੀਟਰਾਂ ਤੱਕ ਦੇ ਮਾਡਲਾਂ ਅਤੇ 10B ਤੋਂ 1T ਤੱਕ ਦੇ ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਜਾਂਚ ਕੀਤੀ ਗਈ ਸੀ।

MFA ਨੇ ਰਵਾਇਤੀ MHA ਦੇ ਮੁਕਾਬਲੇ ਸਕੇਲਿੰਗ ਸਮਰੱਥਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਵੱਡੇ ਪੈਮਾਨੇ 'ਤੇ ਵੀ ਸ਼ਾਨਦਾਰ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਿਆ।

ਜਦੋਂ ਕਿ MFA-KR ਨੇ ਥੋੜ੍ਹਾ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਇਆ, ਇਸਦਾ ਸਕੇਲਿੰਗ ਰੁਝਾਨ MHA ਦੇ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ। MFA ਅਤੇ MFA-KR ਦੇ ਮੈਮੋਰੀ-ਬਚਾਉਣ ਦੇ ਫਾਇਦੇ ਮਾਡਲ ਦੇ ਆਕਾਰ ਦੇ ਨਾਲ ਫੈਲਦੇ ਰਹੇ, MFA ਨੇ 87.5% ਮੈਮੋਰੀ ਬਚਤ ਪ੍ਰਾਪਤ ਕੀਤੀ ਅਤੇ MFA-KR ਨੇ ਸਭ ਤੋਂ ਵੱਡੇ ਪੈਮਾਨੇ 'ਤੇ ਮੈਮੋਰੀ ਦੀ ਵਰਤੋਂ ਨੂੰ 6.25% ਤੱਕ ਘਟਾ ਦਿੱਤਾ।

ਐਬਲੇਸ਼ਨ ਸਟੱਡੀਜ਼

ਐਬਲੇਸ਼ਨ ਸਟੱਡੀਜ਼ ਨੇ MFA ਅਤੇ MFA-KR ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਕੀਤਾ। ਉਹਨਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਫਾਇਦਿਆਂ ਦੀ ਪੁਸ਼ਟੀ ਵੱਖ-ਵੱਖ ਮੁੱਖ ਧਾਰਾ ਦੀ ਸਥਿਤੀ ਸੰਬੰਧੀ ਏਨਕੋਡਿੰਗ ਵਿਧੀਆਂ ਵਿੱਚ ਵੀ ਕੀਤੀ ਗਈ ਸੀ।

ਆਊਟਲੁੱਕ

MFA ਇੱਕ ਸਧਾਰਨ ਡਿਜ਼ਾਈਨ ਦੇ ਨਾਲ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰਾਂ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ, ਵਾਧੂ ਇੰਜੀਨੀਅਰਿੰਗ ਗੁੰਝਲਤਾ ਨੂੰ ਜੋੜਨ ਤੋਂ ਬਿਨਾਂ LLM ਅਨੁਮਾਨ ਵਿੱਚ ਮੈਮੋਰੀ ਦੀ ਰੁਕਾਵਟ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਹੱਲ ਕਰਦਾ ਹੈ। ਇਹ ਮੌਜੂਦਾ ਟ੍ਰਾਂਸਫਾਰਮਰ ਈਕੋਸਿਸਟਮ ਵਿੱਚ ਸਹਿਜ ਰੂਪ ਵਿੱਚ ਜੋੜਦਾ ਹੈ, ਵੱਖ-ਵੱਖ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ LLMs ਦੀ ਐਪਲੀਕੇਸ਼ਨ ਨੂੰ ਤੇਜ਼ ਕਰਦਾ ਹੈ।