Published on

ਵੱਡੇ ਮਾਡਲਾਂ ਦਾ ਘਣਤਾ ਨਿਯਮ: ਸਕੇਲਿੰਗ ਕਾਨੂੰਨਾਂ ਤੋਂ ਪਰੇ ਇੱਕ ਨਵਾਂ ਦ੍ਰਿਸ਼ਟੀਕੋਣ

ਲੇਖਕ
  • avatar
    ਨਾਮ
    Ajax
    Twitter

ਵੱਡੇ ਮਾਡਲਾਂ ਦਾ ਘਣਤਾ ਨਿਯਮ: ਸਕੇਲਿੰਗ ਕਾਨੂੰਨਾਂ ਤੋਂ ਪਰੇ ਇੱਕ ਨਵਾਂ ਦ੍ਰਿਸ਼ਟੀਕੋਣ

ਤਸਿੰਗਹੁਆ ਯੂਨੀਵਰਸਿਟੀ ਦੀ ਟੀਮ, ਪ੍ਰੋਫੈਸਰ ਲਿਊ ਝੀਯੁਆਨ ਦੀ ਅਗਵਾਈ ਹੇਠ, ਨੇ ਵੱਡੇ ਮਾਡਲਾਂ ਲਈ "ਘਣਤਾ ਨਿਯਮ" ਦਾ ਪ੍ਰਸਤਾਵ ਦਿੱਤਾ ਹੈ। ਇਸ ਨਿਯਮ ਅਨੁਸਾਰ, ਮਾਡਲ ਸਮਰੱਥਾ ਘਣਤਾ ਹਰ 100 ਦਿਨਾਂ ਵਿੱਚ ਦੁੱਗਣੀ ਹੋ ਜਾਂਦੀ ਹੈ। ਇਹ ਨਿਯਮ ਚਿੱਪ ਉਦਯੋਗ ਵਿੱਚ ਮੂਰ ਦੇ ਨਿਯਮ ਦੇ ਸਮਾਨ ਹੈ, ਜੋ ਸਿਰਫ਼ ਸਕੇਲ ਦੀ ਬਜਾਏ ਮਾਡਲ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਕੁਸ਼ਲਤਾ 'ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ।

ਪਿਛੋਕੜ ਅਤੇ ਪ੍ਰੇਰਣਾ

ਪਰੰਪਰਾਗਤ ਸਕੇਲਿੰਗ ਕਾਨੂੰਨ ਦੱਸਦੇ ਹਨ ਕਿ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਕਿਵੇਂ ਵਧੇ ਹੋਏ ਆਕਾਰ (ਪੈਰਾਮੀਟਰ) ਅਤੇ ਸਿਖਲਾਈ ਡੇਟਾ ਨਾਲ ਬਿਹਤਰ ਹੁੰਦੀ ਹੈ। ਨਵਾਂ "ਘਣਤਾ ਨਿਯਮ" ਇੱਕ ਵੱਖਰਾ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਜੋ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਵਰਤੋਂ ਅਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਮਾਡਲ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਸੁਧਾਰ 'ਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਹੈ। ਖੋਜ ਟੀਮ "ਸਮਰੱਥਾ ਘਣਤਾ" ਦੀ ਧਾਰਨਾ ਪੇਸ਼ ਕਰਦੀ ਹੈ, ਜੋ ਕਿ ਅਸਲ ਪੈਰਾਮੀਟਰਾਂ ਦੇ ਅਨੁਪਾਤ ਨੂੰ ਮਾਪਦੀ ਹੈ।

ਮੁੱਖ ਸੰਕਲਪ

  • ਸਮਰੱਥਾ ਘਣਤਾ: ਇੱਕ ਮਾਡਲ ਵਿੱਚ "ਪ੍ਰਭਾਵੀ ਪੈਰਾਮੀਟਰਾਂ" ਦਾ ਅਸਲ ਗਿਣਤੀ ਵਿੱਚ ਪੈਰਾਮੀਟਰਾਂ ਨਾਲ ਅਨੁਪਾਤ।
  • ਪ੍ਰਭਾਵੀ ਪੈਰਾਮੀਟਰ: ਇੱਕ ਹਵਾਲਾ ਮਾਡਲ ਨੂੰ ਟੀਚਾ ਮਾਡਲ ਦੇ ਸਮਾਨ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਲੋੜੀਂਦੇ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਘੱਟੋ ਘੱਟ ਗਿਣਤੀ।
  • ਹਵਾਲਾ ਮਾਡਲ: ਇੱਕ ਮਾਡਲ ਜੋ ਦੂਜੇ ਮਾਡਲਾਂ ਦੇ ਪ੍ਰਭਾਵੀ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਗਿਣਤੀ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ ਇੱਕ ਬੈਂਚਮਾਰਕ ਵਜੋਂ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ।
  • ਨੁਕਸਾਨ ਅਨੁਮਾਨ: ਹਵਾਲਾ ਮਾਡਲਾਂ ਦੀ ਇੱਕ ਲੜੀ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਮਾਡਲ ਪੈਰਾਮੀਟਰਾਂ ਅਤੇ ਨੁਕਸਾਨ ਦੇ ਵਿਚਕਾਰ ਸਬੰਧ ਨੂੰ ਫਿਟ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ।
  • ਕਾਰਗੁਜ਼ਾਰੀ ਅਨੁਮਾਨ: ਮਾਡਲਾਂ ਵਿੱਚ ਨਵੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੇ ਉਭਾਰ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦੇ ਹੋਏ, ਨੁਕਸਾਨ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਸੰਪੂਰਨ ਮੈਪਿੰਗ ਸਥਾਪਤ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ।

ਘਣਤਾ ਨਿਯਮ

ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਦੀ ਵੱਧ ਤੋਂ ਵੱਧ ਸਮਰੱਥਾ ਘਣਤਾ ਸਮੇਂ ਦੇ ਨਾਲ ਤੇਜ਼ੀ ਨਾਲ ਵਧਦੀ ਹੈ। ਇਸ ਵਾਧੇ ਦਾ ਫਾਰਮੂਲਾ ਇਸ ਤਰ੍ਹਾਂ ਦਰਸਾਇਆ ਗਿਆ ਹੈ: ln(ρmax) = At + B, ਜਿੱਥੇ ρmax ਸਮੇਂ t 'ਤੇ ਵੱਧ ਤੋਂ ਵੱਧ ਸਮਰੱਥਾ ਘਣਤਾ ਹੈ। ਇਹ ਨਿਯਮ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਹਰ 3.3 ਮਹੀਨਿਆਂ (ਲਗਭਗ 100 ਦਿਨ) ਵਿੱਚ ਅੱਧੇ ਪੈਰਾਮੀਟਰਾਂ ਨਾਲ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

ਘਣਤਾ ਨਿਯਮ ਦੇ ਪ੍ਰਭਾਵ

  • ਘੱਟ ਇਨਫਰੈਂਸ ਲਾਗਤਾਂ: ਮਾਡਲ ਇਨਫਰੈਂਸ ਲਾਗਤਾਂ ਸਮੇਂ ਦੇ ਨਾਲ ਤੇਜ਼ੀ ਨਾਲ ਘੱਟ ਰਹੀਆਂ ਹਨ। ਉਦਾਹਰਨ ਲਈ, ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਟੋਕਨਾਂ ਦੀ ਲਾਗਤ GPT-3.5 ਤੋਂ Gemini-1.5-Flash ਤੱਕ ਕਾਫ਼ੀ ਘੱਟ ਗਈ ਹੈ।
  • ਤੇਜ਼ੀ ਨਾਲ ਸਮਰੱਥਾ ਘਣਤਾ ਵਾਧਾ: ChatGPT ਦੇ ਰਿਲੀਜ਼ ਹੋਣ ਤੋਂ ਬਾਅਦ, ਸਮਰੱਥਾ ਘਣਤਾ ਵਿੱਚ ਵਾਧੇ ਦੀ ਦਰ ਤੇਜ਼ ਹੋ ਗਈ ਹੈ।
  • ਮੂਰ ਦੇ ਨਿਯਮ ਅਤੇ ਘਣਤਾ ਨਿਯਮ ਦਾ ਮੇਲ: ਵਧਦੀ ਚਿੱਪ ਘਣਤਾ (ਮੂਰ ਦਾ ਨਿਯਮ) ਅਤੇ ਮਾਡਲ ਸਮਰੱਥਾ ਘਣਤਾ (ਘਣਤਾ ਨਿਯਮ) ਦਾ ਮੇਲ ਆਨ-ਡਿਵਾਈਸ AI ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।
  • ਮਾਡਲ ਕੰਪਰੈਸ਼ਨ ਦੀਆਂ ਸੀਮਾਵਾਂ: ਇਕੱਲੇ ਮਾਡਲ ਕੰਪਰੈਸ਼ਨ ਤਕਨੀਕਾਂ ਸਮਰੱਥਾ ਘਣਤਾ ਨੂੰ ਨਹੀਂ ਵਧਾ ਸਕਦੀਆਂ। ਅਸਲ ਵਿੱਚ, ਜ਼ਿਆਦਾਤਰ ਕੰਪਰੈਸਡ ਮਾਡਲਾਂ ਦੀ ਘਣਤਾ ਉਹਨਾਂ ਦੇ ਅਸਲ ਹਮਰੁਤਬਾ ਨਾਲੋਂ ਘੱਟ ਹੁੰਦੀ ਹੈ।
  • ਛੋਟੇ ਮਾਡਲ ਲਾਈਫਸਾਈਕਲ: ਸਮਰੱਥਾ ਘਣਤਾ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਵਾਧੇ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਉੱਚ-ਪ੍ਰਦਰਸ਼ਨ ਵਾਲੇ ਮਾਡਲਾਂ ਦੀ ਪ੍ਰਭਾਵੀ ਉਮਰ ਛੋਟੀ ਹੁੰਦੀ ਜਾ ਰਹੀ ਹੈ, ਜਿਸ ਨਾਲ ਮੁਨਾਫੇ ਲਈ ਇੱਕ ਸੰਖੇਪ ਵਿੰਡੋ ਮਿਲਦੀ ਹੈ।

ਵਿਆਪਕ ਸੰਦਰਭ

ਘਣਤਾ ਨਿਯਮ ਇੱਕ ਵੱਡੇ ਰੁਝਾਨ ਦਾ ਹਿੱਸਾ ਹੈ ਜਿੱਥੇ ਏਆਈ ਯੁੱਗ ਦੇ ਮੁੱਖ ਇੰਜਣ—ਬਿਜਲੀ, ਕੰਪਿਊਟਿੰਗ ਪਾਵਰ, ਅਤੇ ਖੁਫੀਆ—ਸਾਰੇ ਤੇਜ਼ੀ ਨਾਲ ਘਣਤਾ ਵਾਧੇ ਦਾ ਅਨੁਭਵ ਕਰ ਰਹੇ ਹਨ।

  • ਬੈਟਰੀ ਊਰਜਾ ਘਣਤਾ ਪਿਛਲੇ 20 ਸਾਲਾਂ ਵਿੱਚ ਚਾਰ ਗੁਣਾ ਹੋ ਗਈ ਹੈ।
  • ਚਿੱਪ ਟ੍ਰਾਂਜਿਸਟਰ ਘਣਤਾ ਹਰ 18 ਮਹੀਨਿਆਂ ਵਿੱਚ ਦੁੱਗਣੀ ਹੋ ਜਾਂਦੀ ਹੈ (ਮੂਰ ਦਾ ਨਿਯਮ)।
  • ਏਆਈ ਮਾਡਲ ਸਮਰੱਥਾ ਘਣਤਾ ਹਰ 100 ਦਿਨਾਂ ਵਿੱਚ ਦੁੱਗਣੀ ਹੋ ਜਾਂਦੀ ਹੈ।

ਇਹ ਰੁਝਾਨ ਵਧੇਰੇ ਕੁਸ਼ਲ ਏਆਈ ਵੱਲ ਤਬਦੀਲੀ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਊਰਜਾ ਅਤੇ ਕੰਪਿਊਟਿੰਗ ਸਰੋਤਾਂ ਦੀ ਮੰਗ ਘੱਟ ਹੁੰਦੀ ਹੈ। ਐਜ ਕੰਪਿਊਟਿੰਗ ਅਤੇ ਸਥਾਨਕ ਏਆਈ ਮਾਡਲਾਂ ਦੇ ਵਧਣ ਦੀ ਉਮੀਦ ਹੈ, ਜਿਸ ਨਾਲ ਇੱਕ ਅਜਿਹਾ ਭਵਿੱਖ ਹੋਵੇਗਾ ਜਿੱਥੇ ਏਆਈ ਹਰ ਥਾਂ ਮੌਜੂਦ ਹੋਵੇਗੀ।

ਵਾਧੂ ਨੁਕਤੇ

  • ਖੋਜ ਟੀਮ ਨੇ ਸਮਰੱਥਾ ਘਣਤਾ ਦੇ ਰੁਝਾਨ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ 29 ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤੇ ਜਾਂਦੇ ਓਪਨ-ਸੋਰਸ ਵੱਡੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ।
  • ਅਧਿਐਨ ਇਸ ਗੱਲ 'ਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਹੈ ਕਿ ਸਿਰਫ਼ ਮਾਡਲ ਕੰਪਰੈਸ਼ਨ ਐਲਗੋਰਿਦਮ 'ਤੇ ਭਰੋਸਾ ਕਰਨਾ ਮਾਡਲ ਸਮਰੱਥਾ ਘਣਤਾ ਨੂੰ ਵਧਾਉਣ ਲਈ ਕਾਫ਼ੀ ਨਹੀਂ ਹੋ ਸਕਦਾ।
  • ਖੋਜ ਪੱਤਰ ਇੱਥੇ ਉਪਲਬਧ ਹੈ: Densing Law of LLMs