Published on

ਮੈਟਾ ਦੀ BLT ਆਰਕੀਟੈਕਚਰ ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ ਨੂੰ ਖਤਮ ਕਰਦੀ ਹੈ

ਲੇਖਕ
  • avatar
    ਨਾਮ
    Ajax
    Twitter

ਜਾਣ-ਪਛਾਣ

ਮੈਟਾ, ਸ਼ਿਕਾਗੋ ਯੂਨੀਵਰਸਿਟੀ ਅਤੇ ਹੋਰ ਸੰਸਥਾਵਾਂ ਦੇ ਸਹਿਯੋਗੀਆਂ ਦੇ ਨਾਲ, ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ "ਬਾਈਟ ਲੇਟੈਂਟ ਟ੍ਰਾਂਸਫਾਰਮਰ: ਪੈਚ ਟੋਕਨਾਂ ਨਾਲੋਂ ਬਿਹਤਰ ਸਕੇਲ ਕਰਦੇ ਹਨ" ਸਿਰਲੇਖ ਵਾਲਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪੇਪਰ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ ਹੈ। ਇਸ ਖੋਜ ਨੇ ਖਾਸ ਤੌਰ 'ਤੇ ਹੈਕਰ ਨਿਊਜ਼ ਵਰਗੇ ਪਲੇਟਫਾਰਮਾਂ 'ਤੇ ਕਾਫੀ ਚਰਚਾ ਛੇੜ ਦਿੱਤੀ ਹੈ। ਮੂਲ ਸੰਕਲਪ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਲਈ ਇੱਕ ਨਵੇਂ ਤਰੀਕੇ ਦੇ ਦੁਆਲੇ ਘੁੰਮਦਾ ਹੈ ਜੋ ਸੰਭਾਵੀ ਤੌਰ 'ਤੇ ਰਵਾਇਤੀ ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਬਦਲ ਸਕਦਾ ਹੈ। ਉਤਸ਼ਾਹ ਸਪੱਸ਼ਟ ਹੈ, ਕੁਝ ਖੋਜਕਰਤਾ ਟੋਕਨਾਈਜ਼ਰਾਂ ਤੋਂ ਅੱਗੇ ਵਧਣ ਲਈ ਉਤਸੁਕਤਾ ਜ਼ਾਹਰ ਕਰ ਰਹੇ ਹਨ। ਹਾਲਾਂਕਿ, ਇਸ ਨਵੀਂ ਤਕਨਾਲੋਜੀ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਬਾਰੇ ਵੀ ਚਿੰਤਾ ਹੈ, ਕਿਉਂਕਿ ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ ਬਹੁਤ ਸਾਰੇ ਮੌਜੂਦਾ ਮਾਡਲਾਂ ਦੀ ਬੁਨਿਆਦ ਬਣਾਉਂਦਾ ਹੈ।

ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ ਨਾਲ ਸਮੱਸਿਆ

ਰਵਾਇਤੀ ਭਾਸ਼ਾ ਮਾਡਲ ਡੇਟਾ ਨੂੰ ਪ੍ਰੀਪ੍ਰੋਸੈਸ ਕਰਨ ਲਈ ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ। ਹਾਲਾਂਕਿ, ਇਸ ਵਿਧੀ ਦੀਆਂ ਕਈ ਸੀਮਾਵਾਂ ਹਨ। ਇਹਨਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ਇੱਕ ਨਿਸ਼ਚਿਤ ਸ਼ਬਦਾਵਲੀ ਦਾ ਆਕਾਰ, ਜੋ ਕਿ ਸਾਰੀਆਂ ਭਾਸ਼ਾਵਾਂ ਜਾਂ ਪ੍ਰਸੰਗਾਂ ਲਈ ਢੁਕਵਾਂ ਨਹੀਂ ਹੋ ਸਕਦਾ ਹੈ।
  • ਬਹੁਭਾਸ਼ਾਈ ਜਾਂ ਸ਼ੋਰ ਵਾਲੇ ਡੇਟਾ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਵਿੱਚ ਅਕੁਸ਼ਲਤਾਵਾਂ।
  • ਕੰਪਰੈਸ਼ਨ ਹੀਊਰਿਸਟਿਕਸ ਕਾਰਨ ਪੱਖਪਾਤ ਦੀ ਸ਼ੁਰੂਆਤ।

ਬਾਈਟ ਲੇਟੈਂਟ ਟ੍ਰਾਂਸਫਾਰਮਰ (BLT)

ਖੋਜ ਬਾਈਟ ਲੇਟੈਂਟ ਟ੍ਰਾਂਸਫਾਰਮਰ (BLT) ਨੂੰ ਇੱਕ ਹੱਲ ਵਜੋਂ ਪੇਸ਼ ਕਰਦੀ ਹੈ ਜੋ ਰਵਾਇਤੀ ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ ਪਹੁੰਚ ਨੂੰ ਚੁਣੌਤੀ ਦਿੰਦੀ ਹੈ। ਟੋਕਨਾਂ ਨਾਲ ਕੰਮ ਕਰਨ ਦੀ ਬਜਾਏ, BLT ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਕੱਚੇ ਬਾਈਟ ਸਟ੍ਰੀਮਾਂ ਨੂੰ ਮਾਡਲ ਕਰਦਾ ਹੈ। ਇਹ ਗਤੀਸ਼ੀਲ ਰੂਪ ਵਿੱਚ ਇਹਨਾਂ ਬਾਈਟਸ ਨੂੰ ਉਹਨਾਂ ਦੀ ਐਂਟਰੋਪੀ ਦੇ ਅਧਾਰ ਤੇ ਪੈਚਾਂ ਵਿੱਚ ਸਮੂਹ ਕਰਦਾ ਹੈ, ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੁਸ਼ਲਤਾ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਂਦਾ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ BLT ਇੱਕ ਸਥਿਰ ਸ਼ਬਦਾਵਲੀ 'ਤੇ ਨਿਰਭਰ ਕੀਤੇ ਬਿਨਾਂ, ਅਸਲ ਬਾਈਟ ਡੇਟਾ ਤੋਂ ਸਿੱਧਾ ਸਿੱਖ ਸਕਦਾ ਹੈ। BLT ਨੂੰ ਵੱਖ-ਵੱਖ ਅਤੇ ਸ਼ੋਰ ਵਾਲੇ ਇਨਪੁਟਸ ਨੂੰ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸੰਭਾਲਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ।

BLT ਦੀਆਂ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ਐਂਟਰੋਪੀ-ਅਧਾਰਤ ਪੈਚਿੰਗ: BLT ਗਤੀਸ਼ੀਲ ਰੂਪ ਵਿੱਚ ਬਾਈਟਾਂ ਨੂੰ ਉਹਨਾਂ ਦੀ ਜਾਣਕਾਰੀ ਦੀ ਗੁੰਝਲਤਾ ਦੇ ਅਧਾਰ ਤੇ ਪੈਚਾਂ ਵਿੱਚ ਸਮੂਹ ਕਰਦਾ ਹੈ। ਇਹ ਪਹੁੰਚ ਉੱਚ-ਐਂਟਰੋਪੀ (ਗੁੰਝਲਦਾਰ) ਖੇਤਰਾਂ ਲਈ ਵਧੇਰੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਦੀ ਵੰਡ ਕਰਦੀ ਹੈ ਅਤੇ ਘੱਟ-ਐਂਟਰੋਪੀ ਖੇਤਰਾਂ ਵਿੱਚ ਸਰੋਤਾਂ ਨੂੰ ਬਚਾਉਂਦੀ ਹੈ।
  • ਕੁਸ਼ਲ ਸਕੇਲਿੰਗ: BLT ਪੈਚ ਆਕਾਰਾਂ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਂਦਾ ਹੈ ਅਤੇ LLaMA ਵਰਗੇ ਟੋਕਨ-ਅਧਾਰਿਤ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਜਾਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹੋਏ, ਹਲਕੇ ਭਾਰ ਵਾਲੇ ਸਥਾਨਕ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਅਨੁਮਾਨ ਦੌਰਾਨ ਕੰਪਿਊਟੇਸ਼ਨਲ ਖਰਚਿਆਂ ਨੂੰ 50% ਤੱਕ ਘਟਾਉਂਦਾ ਹੈ।
  • ਮਜ਼ਬੂਤੀ ਅਤੇ ਲਚਕਤਾ: BLT ਉਹਨਾਂ ਕੰਮਾਂ ਵਿੱਚ ਬੇਮਿਸਾਲ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਲਈ ਅੱਖਰ-ਪੱਧਰ ਦੀ ਸਮਝ, ਸ਼ੋਰ ਵਾਲੇ ਇਨਪੁਟਸ ਨੂੰ ਸੰਭਾਲਣ, ਜਾਂ ਲੰਬੇ-ਪੂਛ ਡੇਟਾ ਨੂੰ ਆਮ ਬਣਾਉਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਬਹੁਤ ਸਾਰੇ ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਟੋਕਨ-ਅਧਾਰਿਤ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਪਛਾੜਦਾ ਹੈ।

BLT ਆਰਕੀਟੈਕਚਰ

BLT ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  1. ਇੱਕ ਵੱਡਾ ਗਲੋਬਲ ਆਟੋਰੈਗ੍ਰੈਸਿਵ ਭਾਸ਼ਾ ਮਾਡਲ ਜੋ ਪੈਚ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ 'ਤੇ ਕੰਮ ਕਰਦਾ ਹੈ।
  2. ਦੋ ਛੋਟੇ ਸਥਾਨਕ ਮਾਡਲ ਜੋ ਬਾਈਟ ਕ੍ਰਮਾਂ ਨੂੰ ਪੈਚਾਂ ਵਿੱਚ ਇਨਕੋਡ ਕਰਦੇ ਹਨ ਅਤੇ ਪੈਚ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਨੂੰ ਵਾਪਸ ਬਾਈਟਾਂ ਵਿੱਚ ਡੀਕੋਡ ਕਰਦੇ ਹਨ।

ਗਲੋਬਲ ਲੇਟੈਂਟ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ

ਗਲੋਬਲ ਲੇਟੈਂਟ ਟ੍ਰਾਂਸਫਾਰਮਰ ਇੱਕ ਆਟੋਰੈਗ੍ਰੈਸਿਵ ਮਾਡਲ ਹੈ ਜੋ ਇਨਪੁਟ ਪੈਚ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਨੂੰ ਆਉਟਪੁੱਟ ਪੈਚ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਨਾਲ ਮੈਪ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਬਲਾਕ ਕਾਰਜਸ਼ੀਲ ਧਿਆਨ ਮਾਸਕ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।

ਸਥਾਨਕ ਏਨਕੋਡਰ

ਸਥਾਨਕ ਏਨਕੋਡਰ ਮਾਡਲ ਇੱਕ ਹਲਕਾ ਟ੍ਰਾਂਸਫਾਰਮਰ-ਅਧਾਰਿਤ ਮਾਡਲ ਹੈ ਜੋ ਇਨਪੁਟ ਬਾਈਟ ਕ੍ਰਮਾਂ ਨੂੰ ਪ੍ਰਗਟਾਵੇ ਵਾਲੇ ਪੈਚ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਨਾਲ ਕੁਸ਼ਲਤਾ ਨਾਲ ਮੈਪ ਕਰਦਾ ਹੈ। ਇਸ ਵਿੱਚ ਹਰੇਕ ਟ੍ਰਾਂਸਫਾਰਮਰ ਲੇਅਰ ਤੋਂ ਬਾਅਦ ਕਰਾਸ-ਧਿਆਨ ਪਰਤਾਂ ਹੁੰਦੀਆਂ ਹਨ, ਜੋ ਬਾਈਟ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਨੂੰ ਪੈਚ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਵਿੱਚ ਪੂਲ ਕਰਦੀਆਂ ਹਨ।

  • ਬਾਈਟ ਏਮਬੈਡਿੰਗ: ਇਨਪੁਟ ਬਾਈਟ ਕ੍ਰਮਾਂ ਨੂੰ ਇੱਕ ਮੈਟ੍ਰਿਕਸ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਏਮਬੈਡ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
  • ਟ੍ਰਾਂਸਫਾਰਮਰ ਲੇਅਰਜ਼: ਬਦਲਵੇਂ ਟ੍ਰਾਂਸਫਾਰਮਰ ਅਤੇ ਕ੍ਰਾਸ-ਅਟੈਂਸ਼ਨ ਲੇਅਰਾਂ ਦੀ ਇੱਕ ਲੜੀ ਏਮਬੈਡਿੰਗ ਨੂੰ ਪੈਚ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਵਿੱਚ ਬਦਲਦੀ ਹੈ। ਇਸ ਵਿੱਚ ਇੱਕ ਸਥਾਨਕ ਬਲਾਕ ਕਾਰਜਸ਼ੀਲ ਧਿਆਨ ਮਾਸਕ ਸ਼ਾਮਲ ਹੈ।

ਸਥਾਨਕ ਡੀਕੋਡਰ

ਸਥਾਨਕ ਡੀਕੋਡਰ ਇੱਕ ਹੋਰ ਹਲਕਾ ਟ੍ਰਾਂਸਫਾਰਮਰ-ਅਧਾਰਿਤ ਮਾਡਲ ਹੈ। ਇਹ ਗਲੋਬਲ ਪੈਚ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਨੂੰ ਅਸਲ ਬਾਈਟਾਂ ਵਿੱਚ ਡੀਕੋਡ ਕਰਦਾ ਹੈ। ਇਹ ਕਰਾਸ-ਧਿਆਨ ਅਤੇ ਟ੍ਰਾਂਸਫਾਰਮਰ ਲੇਅਰਾਂ ਦੀ ਇੱਕ ਲੜੀ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਪਹਿਲਾਂ ਡੀਕੋਡ ਕੀਤੀਆਂ ਬਾਈਟਾਂ ਦੇ ਆਧਾਰ 'ਤੇ ਅਸਲ ਬਾਈਟ ਕ੍ਰਮਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।

ਸਕੇਲਿੰਗ ਰੁਝਾਨ

ਖੋਜ BLT ਮਾਡਲ ਦੇ ਹੋਰ ਵਿਕਾਸ ਨੂੰ ਸੂਚਿਤ ਕਰਨ ਲਈ ਬਾਈਟ-ਪੱਧਰ ਦੇ ਮਾਡਲਾਂ ਦੇ ਸਕੇਲਿੰਗ ਰੁਝਾਨਾਂ ਦੀ ਖੋਜ ਕਰਦੀ ਹੈ। ਇਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ਗਣਨਾਤਮਕ ਤੌਰ 'ਤੇ ਅਨੁਕੂਲ ਸਿਖਲਾਈ ਸਕੀਮਾਂ ਵਿੱਚ ਰੁਝਾਨਾਂ ਦੀ ਤੁਲਨਾ ਕਰਨਾ।
  • ਵੱਡੇ ਡੇਟਾਸੈਟਾਂ 'ਤੇ 8B ਪੈਰਾਮੀਟਰ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣਾ ਅਤੇ ਹੇਠਲੇ ਪੱਧਰ ਦੇ ਕੰਮਾਂ 'ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ।
  • ਅਨੁਮਾਨ ਲਾਗਤ-ਨਿਯੰਤਰਿਤ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਸਕੇਲਿੰਗ ਰੁਝਾਨਾਂ ਨੂੰ ਮਾਪਣਾ।

ਪੈਰਾਮੀਟਰ-ਮੈਚਡ ਗਣਨਾਤਮਕ ਤੌਰ 'ਤੇ ਅਨੁਕੂਲ ਸਕੇਲਿੰਗ ਰੁਝਾਨ

Llama 2 ਡੇਟਾਸੈਟ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਵੱਖ-ਵੱਖ ਆਕਾਰਾਂ (1B ਤੋਂ 8B ਪੈਰਾਮੀਟਰ) ਦੇ ਵੱਖ-ਵੱਖ BPE ਅਤੇ BLT ਮਾਡਲਾਂ ਨੂੰ ਗਣਨਾਤਮਕ ਤੌਰ 'ਤੇ ਅਨੁਕੂਲ ਸੈਟਿੰਗਾਂ ਨਾਲ ਸਿਖਲਾਈ ਦਿੱਤੀ। ਸਿਖਲਾਈ ਫਲੌਪਾਂ ਨੂੰ ਭਾਸ਼ਾ ਮਾਡਲਿੰਗ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਵਿਰੁੱਧ ਪਲਾਟ ਕੀਤਾ ਗਿਆ ਸੀ। BLT ਮਾਡਲਾਂ ਨੇ ਜਾਂ ਤਾਂ BPE ਮਾਡਲਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ ਜਾਂ ਉਹਨਾਂ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ, ਅਤੇ ਇਹ ਰੁਝਾਨ ਉਦੋਂ ਤੱਕ ਜਾਰੀ ਰਿਹਾ ਜਦੋਂ ਤੱਕ ਮਾਡਲ ਆਕਾਰ ਅਤੇ ਫਲੌਪ ਵਧਦੇ ਗਏ।

BLT-1T ਡੇਟਾਸੈਟ

ਇੱਕ 8B ਪੈਰਾਮੀਟਰ BLT ਮਾਡਲ ਨੂੰ ਇੱਕ ਵੱਡੇ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਡੇਟਾਸੈਟ, BLT-1T 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ। ਨਤੀਜਿਆਂ ਨੇ ਦਿਖਾਇਆ ਕਿ BLT-ਐਂਟਰੋਪੀ ਮਾਡਲ ਨੇ 7 ਵਿੱਚੋਂ 4 ਕੰਮਾਂ 'ਤੇ Llama 3 ਮਾਡਲ ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ। ਇਹ ਸੁਧਾਰ ਗਤੀਸ਼ੀਲ ਪੈਚਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿਖਲਾਈ ਕੰਪਿਊਟੇਸ਼ਨ ਦੀ ਬਿਹਤਰ ਵਰਤੋਂ ਅਤੇ ਟੋਕਨਾਂ ਦੀ ਬਜਾਏ ਬਾਈਟ-ਪੱਧਰ ਦੀ ਜਾਣਕਾਰੀ ਨੂੰ ਮਾਡਲਿੰਗ ਕਰਨ ਲਈ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ।

ਪੈਚ ਸਕੇਲਿੰਗ

ਖੋਜ ਇਸ ਗੱਲ 'ਤੇ ਜ਼ੋਰ ਦਿੰਦੀ ਹੈ ਕਿ ਪੈਚ ਟੋਕਨਾਂ ਨਾਲੋਂ ਆਸਾਨੀ ਨਾਲ ਸਕੇਲ ਕਰਦੇ ਹਨ। ਪੈਚ ਲੰਬਾਈ ਸਕੇਲਿੰਗ 'ਤੇ ਅਧਿਐਨ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਪੈਚ-ਅਧਾਰਿਤ BLT ਆਰਕੀਟੈਕਚਰ ਪੈਚ ਅਤੇ ਮਾਡਲ ਆਕਾਰ ਦੋਵਾਂ ਨੂੰ ਵਧਾ ਕੇ ਬਿਹਤਰ ਸਕੇਲਿੰਗ ਰੁਝਾਨ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦਾ ਹੈ।

ਬਾਈਟ ਮਾਡਲਿੰਗ ਦੁਆਰਾ ਮਜ਼ਬੂਤੀ

ਅੱਖਰ-ਪੱਧਰ ਦੇ ਕੰਮ

BLT ਮਾਡਲ ਸ਼ੋਰ ਵਾਲੇ ਹੇਲਾਸਵੈਗ ਟੈਸਟਾਂ ਵਿੱਚ ਵਧੀਆ ਮਜ਼ਬੂਤੀ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਟੋਕਨਾਈਜ਼ਰ-ਅਧਾਰਿਤ ਮਾਡਲਾਂ ਨੂੰ ਔਸਤਨ 8 ਪ੍ਰਤੀਸ਼ਤ ਅੰਕਾਂ ਨਾਲ ਪਛਾੜਦਾ ਹੈ। ਇਸਨੇ ਵੱਡੇ ਡੇਟਾਸੈਟਾਂ 'ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ Llama 3.1 ਮਾਡਲਾਂ ਨੂੰ ਵੀ ਪਛਾੜ ਦਿੱਤਾ।

ਘੱਟ-ਸਰੋਤ ਭਾਸ਼ਾਵਾਂ

BLT ਪ੍ਰਸਿੱਧ ਭਾਸ਼ਾ ਜੋੜਿਆਂ ਵਿੱਚ Llama 3 ਦੇ ਮੁਕਾਬਲੇ ਜਾਂ ਥੋੜ੍ਹਾ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਇਹ ਘੱਟ-ਸਰੋਤ ਭਾਸ਼ਾ ਜੋੜਿਆਂ ਵਿੱਚ Llama 3 ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ ਪਛਾੜਦਾ ਹੈ, ਜੋ ਕਿ ਲੰਬੇ-ਪੂਛ ਬਾਈਟ ਕ੍ਰਮਾਂ ਨੂੰ ਆਮ ਬਣਾਉਣ ਵਿੱਚ ਬਾਈਟ ਮਾਡਲਿੰਗ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

Llama 3 ਤੋਂ BLT ਤੱਕ

ਲੇਖਕਾਂ ਨੇ ਇੱਕ ਵਰਕਫਲੋ ਦੀ ਜਾਂਚ ਕੀਤੀ ਜਿੱਥੇ BLT ਮਾਡਲ ਪਹਿਲਾਂ ਤੋਂ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਟੋਕਨਾਈਜ਼ਰ-ਅਧਾਰਿਤ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹਨ। ਇਹ ਇੱਕ ਪਹਿਲਾਂ ਤੋਂ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ Llama 3.1 ਨਾਲ BLT ਦੇ ਗਲੋਬਲ ਟੋਕਨਾਈਜ਼ਰ ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਸ਼ੁਰੂ ਕਰਕੇ ਕੀਤਾ ਗਿਆ ਸੀ। ਨਤੀਜਿਆਂ ਨੇ ਦਿਖਾਇਆ ਕਿ Llama 3.1 ਨਾਲ ਸ਼ੁਰੂ ਕੀਤਾ ਗਿਆ BLT ਨੇ Llama 3 ਅਤੇ ਉਸੇ ਗਿਣਤੀ ਦੇ ਫਲੌਪਾਂ ਨਾਲ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਬੇਸਲਾਈਨ BLT ਮਾਡਲਾਂ ਦੋਵਾਂ ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ।