Published on

ਮਿਨੀਮੈਕਸ ਓਪਨ ਸੋਰਸ ਮਾਡਲ 456B ਪੈਰਾਮੀਟਰ 4M ਕੰਟੈਕਸਟ ਦਾ ਖੁਲਾਸਾ

ਲੇਖਕ
  • avatar
    ਨਾਮ
    Ajax
    Twitter

ਮਿਨੀਮੈਕਸ ਨੇ ਏਜੰਟ ਯੁੱਗ ਨੂੰ ਅਪਣਾਇਆ

ਏਆਈ ਕਮਿਊਨਿਟੀ 'ਚ ਇਹ ਭਵਿੱਖਬਾਣੀਆਂ ਜ਼ੋਰਾਂ 'ਤੇ ਹਨ ਕਿ 2025 ਏਆਈ ਏਜੰਟ ਦਾ ਸਾਲ ਹੋਵੇਗਾ। OpenAI ਦੇ ਸੈਮ ਆਲਟਮੈਨ, ਮੈਟਾ ਦੇ ਮਾਰਕ ਜ਼ੁਕਰਬਰਗ ਅਤੇ Nvidia ਦੇ ਜੇਨਸਨ ਹੁਆਂਗ ਵਰਗੇ ਉਦਯੋਗ ਦੇ ਆਗੂਆਂ ਨੇ ਸੁਝਾਅ ਦਿੱਤਾ ਹੈ ਕਿ ਏਆਈ ਏਜੰਟ ਕਰਮਚਾਰੀਆਂ ਅਤੇ ਆਈਟੀ ਲੈਂਡਸਕੇਪ 'ਤੇ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਭਾਵ ਪਾਉਣਗੇ। ਮਿਨੀਮੈਕਸ ਨੇ ਆਪਣੇ ਨਵੀਨਤਮ ਬੁਨਿਆਦੀ ਭਾਸ਼ਾਈ ਮਾਡਲ, MiniMax-Text-01, ਅਤੇ ਵਿਜ਼ੂਅਲ-ਮਲਟੀਮੋਡਲ ਮਾਡਲ, MiniMax-VL-01 ਨੂੰ ਓਪਨ-ਸੋਰਸ ਕਰਕੇ ਇਸ ਉੱਭਰਦੇ ਰੁਝਾਨ ਦਾ ਜਵਾਬ ਦਿੱਤਾ ਹੈ।

ਇਹਨਾਂ ਨਵੇਂ ਮਾਡਲਾਂ ਦੀ ਇੱਕ ਮੁੱਖ ਖੋਜ ਇੱਕ ਨਾਵਲ ਰੇਖਿਕ ਧਿਆਨ ਵਿਧੀ ਦਾ ਲਾਗੂਕਰਨ ਹੈ, ਜੋ ਸੰਦਰਭ ਵਿੰਡੋ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਰੂਪ ਵਿੱਚ ਵਧਾਉਂਦੀ ਹੈ। ਮਿਨੀਮੈਕਸ ਦੇ ਮਾਡਲ ਇੱਕ ਵਾਰ ਵਿੱਚ 4 ਮਿਲੀਅਨ ਟੋਕਨਾਂ 'ਤੇ ਕਾਰਵਾਈ ਕਰ ਸਕਦੇ ਹਨ, ਜੋ ਕਿ ਦੂਜੇ ਮਾਡਲਾਂ ਨਾਲੋਂ 20 ਤੋਂ 32 ਗੁਣਾ ਵੱਧ ਹੈ। ਇਹ ਤਰੱਕੀ ਏਜੰਟ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਮੈਮੋਰੀ ਅਤੇ ਕਈ ਏਜੰਟਾਂ ਵਿਚਕਾਰ ਸਹਿਯੋਗ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਨ ਲਈ ਲੰਬੇ ਸੰਦਰਭ ਵਿੰਡੋਜ਼ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਮਿਨੀਮੈਕਸ ਦੇ ਓਪਨ-ਸੋਰਸ ਮਾਡਲਾਂ ਨੂੰ ਚਲਾਉਣ ਵਾਲੀਆਂ ਖੋਜਾਂ

MiniMax-Text-01 ਕਈ ਖੋਜਾਂ ਦਾ ਨਤੀਜਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ਲਾਈਟਨਿੰਗ ਅਟੈਨਸ਼ਨ: ਇੱਕ ਕਿਸਮ ਦਾ ਰੇਖਿਕ ਧਿਆਨ ਜੋ ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰ ਦੀ ਗਣਨਾਤਮਕ ਜਟਿਲਤਾ ਨੂੰ ਵਰਗ ਤੋਂ ਰੇਖਿਕ ਤੱਕ ਘਟਾਉਂਦਾ ਹੈ। ਇਹ ਇੱਕ ਸੱਜੇ ਉਤਪਾਦ ਕਰਨਲ ਟ੍ਰਿਕ ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜੋ ਧਿਆਨ ਦੀ ਵਧੇਰੇ ਕੁਸ਼ਲ ਗਣਨਾ ਲਈ ਸਹਾਇਕ ਹੈ।
  • ਹਾਈਬ੍ਰਿਡ-ਲਾਈਟਨਿੰਗ: ਲਾਈਟਨਿੰਗ ਅਟੈਨਸ਼ਨ ਅਤੇ ਸੌਫਟਮੈਕਸ ਅਟੈਨਸ਼ਨ ਦਾ ਸੁਮੇਲ, ਜਿੱਥੇ ਲਾਈਟਨਿੰਗ ਅਟੈਨਸ਼ਨ ਨੂੰ ਹਰ ਅੱਠ ਲੇਅਰਾਂ ਵਿੱਚ ਸੌਫਟਮੈਕਸ ਅਟੈਨਸ਼ਨ ਨਾਲ ਬਦਲ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ। ਇਹ ਪਹੁੰਚ ਕੁਸ਼ਲਤਾ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦੇ ਹੋਏ ਸਕੇਲਿੰਗ ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦੀ ਹੈ।
  • ਮਾਹਰਾਂ ਦਾ ਮਿਸ਼ਰਣ (MoE): ਸੰਘਣੇ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ, MoE ਮਾਡਲ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਾਰ ਦਿਖਾਉਂਦੇ ਹਨ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਗਣਨਾਤਮਕ ਲੋਡ ਸਮਾਨ ਹੁੰਦੇ ਹਨ। ਮਿਨੀਮੈਕਸ ਨੇ MoE ਮਾਡਲਾਂ ਨੂੰ ਸਕੇਲ ਕਰਦੇ ਸਮੇਂ ਰੂਟਿੰਗ ਦੇ ਢਹਿਣ ਨੂੰ ਰੋਕਣ ਲਈ ਇੱਕ ਆਲਗੈਦਰ ਸੰਚਾਰ ਕਦਮ ਵੀ ਪੇਸ਼ ਕੀਤਾ।
  • ਗਣਨਾਤਮਕ ਅਨੁਕੂਲਤਾ: ਮਿਨੀਮੈਕਸ ਨੇ ਸੰਚਾਰ ਲੋਡ ਨੂੰ ਘਟਾਉਣ ਲਈ ਇੱਕ ਟੋਕਨ-ਗਰੁੱਪਿੰਗ ਅਧਾਰਤ ਓਵਰਲੈਪ ਸਕੀਮ ਦੀ ਵਰਤੋਂ ਕਰਕੇ MoE ਆਰਕੀਟੈਕਚਰ ਲਈ ਅਨੁਕੂਲ ਬਣਾਇਆ। ਲੰਬੇ-ਸੰਦਰਭ ਸਿਖਲਾਈ ਲਈ, ਉਹਨਾਂ ਨੇ ਇੱਕ ਡਾਟਾ-ਪੈਕਿੰਗ ਤਕਨੀਕ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਿੱਥੇ ਸਿਖਲਾਈ ਦੇ ਨਮੂਨਿਆਂ ਨੂੰ ਕ੍ਰਮ ਮਾਪ ਦੇ ਨਾਲ ਅੰਤ-ਤੋਂ-ਅੰਤ ਨਾਲ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ। ਉਹਨਾਂ ਨੇ ਲਾਈਟਨਿੰਗ ਅਟੈਨਸ਼ਨ ਲਈ ਚਾਰ ਅਨੁਕੂਲਤਾ ਰਣਨੀਤੀਆਂ ਵੀ ਅਪਣਾਈਆਂ: ਬੈਚਡ ਕਰਨਲ ਫਿਊਜ਼ਨ, ਵੱਖਰੀ ਪ੍ਰੀਫਿਲ ਅਤੇ ਡੀਕੋਡ ਐਗਜ਼ੀਕਿਊਸ਼ਨ, ਮਲਟੀ-ਲੈਵਲ ਪੈਡਿੰਗ, ਅਤੇ ਸਟ੍ਰਾਈਡਡ ਬੈਚਡ ਮੈਟ੍ਰਿਕਸ ਮਲਟੀਪਲੀਕੇਸ਼ਨ ਐਕਸਪੈਂਸ਼ਨ।

ਇਹਨਾਂ ਖੋਜਾਂ ਨੇ 32 ਮਾਹਰਾਂ ਦੇ ਨਾਲ ਇੱਕ 456 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ LLM ਦੀ ਸਿਰਜਣਾ ਕੀਤੀ ਹੈ, ਜਿੱਥੇ ਹਰੇਕ ਟੋਕਨ 45.9 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਸਰਗਰਮ ਕਰਦਾ ਹੈ।

MiniMax-Text-01's ਬੈਂਚਮਾਰਕ ਪ੍ਰਦਰਸ਼ਨ

MiniMax-Text-01 ਨੇ ਕਈ ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ ਸ਼ਾਨਦਾਰ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਇਆ ਹੈ, ਜੋ ਕਿ GPT-4o ਅਤੇ Claude 3.5 Sonnet ਵਰਗੇ ਕਲੋਜ਼ਡ-ਸੋਰਸ ਮਾਡਲਾਂ ਦੇ ਨਾਲ-ਨਾਲ Qwen2.5 ਅਤੇ Llama 3.1 ਵਰਗੇ ਓਪਨ-ਸੋਰਸ ਮਾਡਲਾਂ ਨੂੰ ਵੀ ਪਛਾੜਦਾ ਹੈ।

  • HumanEval 'ਤੇ, MiniMax-Text-01 ਨੇ Instruct Qwen2.5-72B ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ ਹੈ।
  • ਇਸਨੇ ਚੁਣੌਤੀਪੂਰਨ GPQA ਡਾਇਮੰਡ ਡੇਟਾਸੈੱਟ 'ਤੇ 54.4 ਦਾ ਸਕੋਰ ਹਾਸਲ ਕੀਤਾ, ਜ਼ਿਆਦਾਤਰ ਫਾਈਨ-ਟਿਊਨਡ LLM ਅਤੇ ਨਵੀਨਤਮ GPT-4o ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ।
  • MiniMax-Text-01 ਨੇ MMLU, IFEval, ਅਤੇ Arena-Hard ਵਿੱਚ ਵੀ ਚੋਟੀ ਦੇ ਤਿੰਨ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤੇ, ਜੋ ਕਿ ਗਿਆਨ ਨੂੰ ਲਾਗੂ ਕਰਨ ਅਤੇ ਉਪਭੋਗਤਾ ਪੁੱਛਗਿੱਛਾਂ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਪੂਰਾ ਕਰਨ ਦੀ ਆਪਣੀ ਯੋਗਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਉੱਤਮ ਸੰਦਰਭ ਸਮਰੱਥਾਵਾਂ

MiniMax-Text-01 ਦੀ ਵਿਸਤ੍ਰਿਤ ਸੰਦਰਭ ਵਿੰਡੋ ਇੱਕ ਮੁੱਖ ਵਿਭਿੰਨਤਾ ਹੈ:

  • ਰੂਲਰ ਬੈਂਚਮਾਰਕ ਵਿੱਚ, MiniMax-Text-01 64k ਸੰਦਰਭ ਲੰਬਾਈ ਤੱਕ ਹੋਰ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਪਰ ਇਸਦਾ ਪ੍ਰਦਰਸ਼ਨ 128k ਤੋਂ ਵੱਧ ਮਹੱਤਵਪੂਰਨ ਰੂਪ ਵਿੱਚ ਵੱਧਦਾ ਹੈ।
  • ਮਾਡਲ ਲੌਂਗਬੈਂਚ v2 ਦੇ ਲੰਬੇ-ਸੰਦਰਭ ਤਰਕ ਕਾਰਜਾਂ ਵਿੱਚ ਵੀ ਬੇਮਿਸਾਲ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।
  • ਇਸ ਤੋਂ ਇਲਾਵਾ, MiniMax-Text-01 ਦੀਆਂ ਲੰਬੇ-ਸੰਦਰਭ ਸਿੱਖਣ ਦੀਆਂ ਯੋਗਤਾਵਾਂ MTOB ਬੈਂਚਮਾਰਕ ਦੁਆਰਾ ਤਸਦੀਕ ਕੀਤੇ ਅਨੁਸਾਰ, ਅਤਿ-ਆਧੁਨਿਕ ਹਨ।

ਅਸਲ-ਸੰਸਾਰ ਐਪਲੀਕੇਸ਼ਨ

MiniMax-Text-01 ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ ਪਰੇ ਹਨ।

  • ਇਹ ਗੁੰਝਲਦਾਰ ਭਾਸ਼ਾ ਅਤੇ ਭਾਵਨਾਤਮਕ ਡੂੰਘਾਈ ਨਾਲ, ਇੱਕ ਗੀਤ ਵਰਗੀ ਰਚਨਾਤਮਕ ਸਮੱਗਰੀ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ।
  • ਇਹ ਕਲਾਮੰਗ ਵਰਗੀ ਘੱਟ ਆਮ ਭਾਸ਼ਾ ਦਾ ਅਨੁਵਾਦ ਕਰਨਾ, ਪ੍ਰਦਾਨ ਕੀਤੀਆਂ ਹਦਾਇਤਾਂ, ਵਿਆਕਰਣ ਅਤੇ ਸ਼ਬਦਾਵਲੀ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ।
  • ਇਹ ਲੰਬੀਆਂ ਗੱਲਬਾਤਾਂ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਮੈਮੋਰੀ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦਾ ਹੈ।

MiniMax-VL-01: ਇੱਕ ਵਿਜ਼ੂਅਲ-ਲੈਂਗੂਏਜ ਮਾਡਲ

MiniMax-Text-01 'ਤੇ ਆਧਾਰਿਤ, MiniMax ਨੇ ਇੱਕ ਮਲਟੀਮੋਡਲ ਸੰਸਕਰਣ, MiniMax-VL-01, ਵਿਕਸਿਤ ਕੀਤਾ, ਜੋ ਇੱਕ ਚਿੱਤਰ ਏਨਕੋਡਰ ਅਤੇ ਅਡੈਪਟਰ ਨੂੰ ਜੋੜਦਾ ਹੈ। ਮਾਡਲ ਚਿੱਤਰ ਅਨੁਕੂਲਤਾ ਲਈ ਦੋ-ਲੇਅਰ MLP ਪ੍ਰੋਜੈਕਟਰ ਦੇ ਨਾਲ ਵਿਜ਼ੂਅਲ ਏਨਕੋਡਿੰਗ ਲਈ ਇੱਕ ViT ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਸ ਮਾਡਲ ਨੇ ਇੱਕ ਮਲਟੀ-ਸਟੇਜ ਸਿਖਲਾਈ ਰਣਨੀਤੀ ਅਤੇ ਇੱਕ ਮਲਕੀਅਤ ਡੇਟਾਸੈੱਟ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਚਿੱਤਰ-ਭਾਸ਼ਾਈ ਡੇਟਾ ਨਾਲ ਨਿਰੰਤਰ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਕੀਤੀ।

MiniMax-VL-01 ਵੱਖ-ਵੱਖ ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਅਕਸਰ ਦੂਜੇ SOTA ਮਾਡਲਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ ਜਾਂ ਵੱਧ ਜਾਂਦਾ ਹੈ। ਇਸਨੇ ਗੁੰਝਲਦਾਰ ਵਿਜ਼ੂਅਲ ਡੇਟਾ, ਜਿਵੇਂ ਕਿ ਨੈਵੀਗੇਸ਼ਨ ਨਕਸ਼ਿਆਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੇ ਸਮਰੱਥ ਸਾਬਤ ਕੀਤਾ ਹੈ।

ਏਆਈ ਏਜੰਟਾਂ ਦਾ ਭਵਿੱਖ

ਮਿਨੀਮੈਕਸ ਸੰਦਰਭ ਵਿੰਡੋ ਸਮਰੱਥਾਵਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾ ਰਿਹਾ ਹੈ, ਆਰਕੀਟੈਕਚਰਾਂ ਵਿੱਚ ਚੱਲ ਰਹੀ ਖੋਜ ਦੇ ਨਾਲ ਜੋ ਸੌਫਟਮੈਕਸ ਅਟੈਨਸ਼ਨ ਨੂੰ ਖਤਮ ਕਰ ਸਕਦੇ ਹਨ ਅਤੇ ਅਨੰਤ ਸੰਦਰਭ ਵਿੰਡੋਜ਼ ਨੂੰ ਸਮਰੱਥ ਕਰ ਸਕਦੇ ਹਨ। ਕੰਪਨੀ ਏਆਈ ਏਜੰਟਾਂ ਲਈ ਮਲਟੀਮੋਡਲ ਮਾਡਲਾਂ ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਪਛਾਣਦੀ ਹੈ, ਕਿਉਂਕਿ ਬਹੁਤ ਸਾਰੇ ਅਸਲ-ਸੰਸਾਰ ਕਾਰਜਾਂ ਲਈ ਵਿਜ਼ੂਅਲ ਅਤੇ ਟੈਕਸਟ ਸਮਝ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਮਿਨੀਮੈਕਸ ਦਾ ਉਦੇਸ਼ ਏਆਈ ਏਜੰਟ ਬਣਾਉਣਾ ਹੈ ਜੋ ਕੁਦਰਤੀ, ਪਹੁੰਚਯੋਗ ਅਤੇ ਸਰਵ ਵਿਆਪਕ ਹੋਣ, ਜਿਸ ਵਿੱਚ ਭੌਤਿਕ ਸੰਸਾਰ ਨਾਲ ਗੱਲਬਾਤ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਹੋਵੇ।