- Published on
ਕਿਮੀ k1.5 ਮਾਡਲ ਓਪਨਏਆਈ o1 ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ
ਮੂਨਸ਼ਾਟ ਏਆਈ ਦੁਆਰਾ ਕਿਮੀ k1.5 ਮਲਟੀਮੋਡਲ ਮਾਡਲ
ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਦੇ ਖੇਤਰ ਵਿੱਚ, ਮੂਨਸ਼ਾਟ ਏਆਈ ਦੁਆਰਾ ਕਿਮੀ k1.5 ਮਲਟੀਮੋਡਲ ਮਾਡਲ ਦੇ ਉਦਘਾਟਨ ਨਾਲ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਛਾਲ ਮਾਰੀ ਗਈ ਹੈ। ਇਸ ਮਹੱਤਵਪੂਰਨ ਮਾਡਲ ਨੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਪੱਧਰਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ ਜੋ ਓਪਨਏਆਈ ਦੇ ਪੂਰੇ ਸੰਸਕਰਣ o1 ਨਾਲ ਮੁਕਾਬਲਾ ਕਰਦੇ ਹਨ, ਇੱਕ ਅਜਿਹਾ ਕਾਰਨਾਮਾ ਜੋ ਪਹਿਲਾਂ ਓਪਨਏਆਈ ਤੋਂ ਬਾਹਰ ਕਿਸੇ ਹੋਰ ਸੰਸਥਾ ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਹ ਵਿਕਾਸ ਉੱਨਤ ਏਆਈ ਸਮਰੱਥਾਵਾਂ ਦੀ ਪ੍ਰਾਪਤੀ ਵਿੱਚ ਇੱਕ ਨਵਾਂ ਅਧਿਆਏ ਦਰਸਾਉਂਦਾ ਹੈ, ਜੋ ਕਿ ਗਲੋਬਲ ਮੁਕਾਬਲੇ ਦੇ ਮੱਦੇਨਜ਼ਰ ਘਰੇਲੂ ਨਵੀਨਤਾ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।
ਕਿਮੀ k1.5 ਮਾਡਲ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ
ਕਿਮੀ k1.5 ਮਾਡਲ ਗਣਿਤ, ਕੋਡਿੰਗ ਅਤੇ ਮਲਟੀਮੋਡਲ ਤਰਕ ਸਮੇਤ ਕਈ ਖੇਤਰਾਂ ਵਿੱਚ ਆਪਣੀਆਂ ਵਿਆਪਕ ਯੋਗਤਾਵਾਂ ਲਈ ਵੱਖਰਾ ਹੈ। ਇਹਨਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਇਸਦਾ ਪ੍ਰਦਰਸ਼ਨ ਨਾ ਸਿਰਫ ਪੂਰੇ o1 ਸੰਸਕਰਣ ਦੇ ਬਰਾਬਰ ਹੈ, ਸਗੋਂ ਕੁਝ ਪਹਿਲੂਆਂ ਵਿੱਚ ਇਸ ਤੋਂ ਵੱਧ ਹੈ। ਖਾਸ ਤੌਰ 'ਤੇ, ਕਿਮੀ-k1.5-ਸ਼ਾਰਟ ਵੇਰੀਐਂਟ ਇੱਕ ਸਟੇਟ-ਆਫ-ਦੀ-ਆਰਟ (SOTA) ਸ਼ਾਰਟ ਚੇਨ-ਆਫ-ਥੌਟ (CoT) ਮਾਡਲ ਵਜੋਂ ਉੱਭਰਦਾ ਹੈ, ਜੋ GPT-4o ਅਤੇ ਕਲਾਉਡ 3.5 ਸੋਨੇਟ ਨੂੰ 550% ਨਾਲੋਂ ਵੱਧ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਇਹ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਮਾਡਲ ਦੀਆਂ ਬੇਮਿਸਾਲ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਏਆਈ ਪ੍ਰਦਰਸ਼ਨ ਲਈ ਬੈਂਚਮਾਰਕ ਨੂੰ ਮੁੜ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਦੀ ਇਸਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ।
ਮੂਨਸ਼ਾਟ ਏਆਈ ਦੀ ਪਾਰਦਰਸ਼ਤਾ
ਮੂਨਸ਼ਾਟ ਏਆਈ ਦੀ ਪ੍ਰਾਪਤੀ ਸਿਰਫ਼ ਇੱਕ ਤਕਨੀਕੀ ਮੀਲ ਪੱਥਰ ਨਹੀਂ ਹੈ, ਸਗੋਂ ਪਾਰਦਰਸ਼ਤਾ ਅਤੇ ਸਹਿਯੋਗੀ ਭਾਵਨਾ ਦਾ ਪ੍ਰਮਾਣ ਹੈ ਜੋ ਅਕਸਰ ਮੁਕਾਬਲੇ ਵਾਲੇ ਏਆਈ ਲੈਂਡਸਕੇਪ ਵਿੱਚ ਘੱਟ ਹੁੰਦੀ ਹੈ। ਆਪਣੀ ਤਕਨੀਕੀ ਰਿਪੋਰਟ ਪ੍ਰਕਾਸ਼ਿਤ ਕਰਕੇ, ਮੂਨਸ਼ਾਟ ਏਆਈ ਵਿਆਪਕ ਤਕਨੀਕੀ ਭਾਈਚਾਰੇ ਨੂੰ ਉਹਨਾਂ ਦੇ ਕੰਮ ਦੀ ਜਾਂਚ ਕਰਨ, ਸਿੱਖਣ ਅਤੇ ਯੋਗਦਾਨ ਪਾਉਣ ਲਈ ਸੱਦਾ ਦਿੰਦਾ ਹੈ। ਇਹ ਕਦਮ ਉਹਨਾਂ ਦੇ ਇਸ ਵਿਸ਼ਵਾਸ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਆਰਟੀਫੀਸ਼ੀਅਲ ਜਨਰਲ ਇੰਟੈਲੀਜੈਂਸ (AGI) ਵੱਲ ਯਾਤਰਾ ਇੱਕ ਸਮੂਹਿਕ ਯਤਨ ਹੈ, ਜਿਸ ਵਿੱਚ ਵਿਭਿੰਨ ਪ੍ਰਤਿਭਾਵਾਂ ਅਤੇ ਦ੍ਰਿਸ਼ਟੀਕੋਣਾਂ ਦੀ ਭਾਗੀਦਾਰੀ ਦੀ ਲੋੜ ਹੈ।
ਕਿਮੀ k1.5 ਮਾਡਲ ਦੀ ਵਿਆਪਕ ਜਾਂਚ
ਕਿਮੀ k1.5 ਮਾਡਲ ਦੀ ਵਿਆਪਕ ਜਾਂਚ ਕਈ ਮੁੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਇਸਦੀ SOTA ਸਥਿਤੀ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ। ਲੰਬੇ-CoT ਮੋਡ ਵਿੱਚ, ਇਹ ਗਣਿਤ, ਕੋਡਿੰਗ ਅਤੇ ਮਲਟੀਮੋਡਲ ਤਰਕ ਵਿੱਚ ਓਪਨਏਆਈ o1 ਦੇ ਅਧਿਕਾਰਤ ਰੀਲੀਜ਼ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ। AIME (77.5), MATH 500 (96.2), Codeforces (94th percentile), ਅਤੇ MathVista (74.9) ਵਰਗੇ ਬੈਂਚਮਾਰਕ 'ਤੇ ਇਸਦੇ ਸਕੋਰ ਇਸਦੀ ਸਮਰੱਥਾ ਦੇ ਸੂਚਕ ਹਨ। ਇਹ ਪ੍ਰਾਪਤੀ ਓਪਨਏਆਈ ਤੋਂ ਬਾਹਰ ਕਿਸੇ ਕੰਪਨੀ ਦੁਆਰਾ ਪੂਰੇ o1 ਪ੍ਰਦਰਸ਼ਨ ਪੱਧਰ ਤੱਕ ਪਹੁੰਚਣ ਦੀ ਪਹਿਲੀ ਉਦਾਹਰਣ ਹੈ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਛੋਟੇ-CoT ਮੋਡ ਵਿੱਚ, ਕਿਮੀ k1.5 ਮਾਡਲ ਨੇ ਗਲੋਬਲ SOTA ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ, ਜੋ GPT-4o ਅਤੇ ਕਲਾਉਡ 3.5 ਸੋਨੇਟ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ ਪਛਾੜਦਾ ਹੈ। AIME (60.8), MATH500 (94.6), ਅਤੇ LiveCodeBench (47.3) 'ਤੇ ਇਸਦੇ ਸਕੋਰ ਛੋਟੀ ਚੇਨ-ਆਫ-ਥੌਟ ਤਰਕ ਵਿੱਚ ਇਸਦੀਆਂ ਬੇਮਿਸਾਲ ਸਮਰੱਥਾਵਾਂ ਦੇ ਸਬੂਤ ਹਨ। ਇਹ ਨਤੀਜੇ ਸਿਰਫ਼ ਅੰਕੜੇ ਨਹੀਂ ਹਨ; ਉਹ ਮਲਟੀਮੋਡਲ ਏਆਈ ਮਾਡਲਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ ਇੱਕ ਪੈਰਾਡਾਈਮ ਸ਼ਿਫਟ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।
ਕਿਮੀ k1.5 ਮਾਡਲ ਦਾ ਵਿਕਾਸ
ਕਿਮੀ k1.5 ਮਾਡਲ ਦਾ ਵਿਕਾਸ ਕਿਸਮਤ ਦੀ ਸੱਟ ਨਹੀਂ ਸੀ, ਸਗੋਂ ਇੱਕ ਜਾਣਬੁੱਝ ਕੇ ਅਤੇ ਨਵੀਨਤਾਕਾਰੀ ਪਹੁੰਚ ਦਾ ਨਤੀਜਾ ਸੀ। ਮੂਨਸ਼ਾਟ ਏਆਈ ਦੀ ਟੀਮ ਨੇ ਮਹਿਸੂਸ ਕੀਤਾ ਕਿ ਸਿਰਫ਼ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਵਧਾਉਣ ਨਾਲ ਲੋੜੀਂਦੇ ਨਤੀਜੇ ਨਹੀਂ ਮਿਲਣਗੇ। ਉਹਨਾਂ ਨੇ ਸੁਧਾਰ ਲਈ ਇੱਕ ਮੁੱਖ ਖੇਤਰ ਵਜੋਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ-ਅਧਾਰਤ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਵੱਲ ਧਿਆਨ ਦਿੱਤਾ। ਇਹ ਪਹੁੰਚ ਮਾਡਲ ਨੂੰ ਇਨਾਮ-ਅਧਾਰਤ ਖੋਜ ਦੁਆਰਾ ਆਪਣੇ ਸਿਖਲਾਈ ਡੇਟਾ ਦਾ ਵਿਸਤਾਰ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ, ਇਸ ਤਰ੍ਹਾਂ ਇਸਦੀਆਂ ਗਣਨਾਤਮਕ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਂਦੀ ਹੈ।
ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਫਰੇਮਵਰਕ
ਤਕਨੀਕੀ ਰਿਪੋਰਟ ਵਿੱਚ ਟੀਮ ਦੁਆਰਾ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ, ਮਲਟੀਮੋਡਲ ਡੇਟਾ ਪਕਵਾਨਾਂ ਅਤੇ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਦੇ ਅਨੁਕੂਲਤਾ ਦੀ ਖੋਜ ਦਾ ਵੇਰਵਾ ਦਿੱਤਾ ਗਿਆ ਹੈ। ਉਹਨਾਂ ਦਾ RL ਫਰੇਮਵਰਕ, ਖਾਸ ਤੌਰ 'ਤੇ, ਸਿੱਧਾ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਦੋਵੇਂ ਹੈ, ਮੋਂਟੇ ਕਾਰਲੋ ਟ੍ਰੀ ਸਰਚ ਅਤੇ ਵੈਲਯੂ ਫੰਕਸ਼ਨਾਂ ਵਰਗੀਆਂ ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਤਕਨੀਕਾਂ ਤੋਂ ਬਚਦਾ ਹੈ। ਉਹਨਾਂ ਨੇ ਲੰਬੇ2ਸ਼ਾਰਟ ਤਕਨੀਕ ਵੀ ਪੇਸ਼ ਕੀਤੀ, ਜੋ ਕਿ ਛੋਟੇ-CoT ਮਾਡਲਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਵਧਾਉਣ ਲਈ ਲੰਬੇ-CoT ਮਾਡਲਾਂ ਦਾ ਲਾਭ ਲੈਂਦੀ ਹੈ।
RL ਫਰੇਮਵਰਕ ਦੇ ਮੁੱਖ ਤੱਤ
ਟੀਮ ਦੇ RL ਫਰੇਮਵਰਕ ਦੇ ਦੋ ਮਹੱਤਵਪੂਰਨ ਤੱਤ ਹਨ: ਲੰਬੇ ਸੰਦਰਭ ਸਕੇਲਿੰਗ ਅਤੇ ਸੁਧਾਰੀ ਗਈ ਨੀਤੀ ਅਨੁਕੂਲਤਾ। ਸੰਦਰਭ ਵਿੰਡੋ ਨੂੰ 128k ਤੱਕ ਸਕੇਲ ਕਰਕੇ, ਉਹਨਾਂ ਨੇ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਨਿਰੰਤਰ ਸੁਧਾਰ ਦੇਖਿਆ। ਉਹ ਸਿਖਲਾਈ ਕੁਸ਼ਲਤਾ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਅੰਸ਼ਕ ਰੋਲਆਉਟ ਦੀ ਵਰਤੋਂ ਵੀ ਕਰਦੇ ਹਨ, ਨਵੀਆਂ ਨੂੰ ਸੈਂਪਲ ਕਰਨ ਲਈ ਪੁਰਾਣੇ ਟ੍ਰੈਜੈਕਟਰੀਆਂ ਦੀ ਮੁੜ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਟੀਮ ਨੇ ਲੰਬੇ-CoT ਨਾਲ ਇੱਕ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਫਾਰਮੂਲਾ ਵੀ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜੋ ਕਿ ਮਜ਼ਬੂਤ ਨੀਤੀ ਅਨੁਕੂਲਤਾ ਲਈ ਔਨਲਾਈਨ ਮਿਰਰ ਡਿਸੈਂਟ ਦੀ ਇੱਕ ਰੂਪ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।
ਲੰਬੇ2ਸ਼ਾਰਟ ਤਕਨੀਕ
ਲੰਬੇ2ਸ਼ਾਰਟ ਤਕਨੀਕ ਵਿੱਚ ਕਈ ਤਰੀਕੇ ਸ਼ਾਮਲ ਹਨ, ਜਿਸ ਵਿੱਚ ਮਾਡਲ ਮਰਜਿੰਗ, ਸਭ ਤੋਂ ਛੋਟੀ ਰੱਦ ਕਰਨ ਦੀ ਸੈਂਪਲਿੰਗ, DPO, ਅਤੇ ਲੰਬੇ2ਸ਼ਾਰਟ RL ਸ਼ਾਮਲ ਹਨ। ਮਾਡਲ ਮਰਜਿੰਗ ਬਿਹਤਰ ਟੋਕਨ ਕੁਸ਼ਲਤਾ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਲੰਬੇ-CoT ਅਤੇ ਛੋਟੇ-CoT ਮਾਡਲਾਂ ਨੂੰ ਜੋੜਦੀ ਹੈ। ਸਭ ਤੋਂ ਛੋਟੀ ਰੱਦ ਕਰਨ ਦੀ ਸੈਂਪਲਿੰਗ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਲਈ ਸਭ ਤੋਂ ਛੋਟਾ ਸਹੀ ਜਵਾਬ ਚੁਣਦੀ ਹੈ। DPO ਸਿਖਲਾਈ ਡੇਟਾ ਲਈ ਛੋਟੇ ਅਤੇ ਲੰਬੇ ਜਵਾਬਾਂ ਦੇ ਜੋੜਿਆਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਲੰਬੇ2ਸ਼ਾਰਟ RL ਵਿੱਚ ਲੰਬਾਈ ਜੁਰਮਾਨੇ ਦੇ ਨਾਲ ਇੱਕ ਵੱਖਰਾ ਸਿਖਲਾਈ ਪੜਾਅ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ।
ਭਵਿੱਖ ਦੀਆਂ ਯੋਜਨਾਵਾਂ
ਅੱਗੇ ਦੇਖਦੇ ਹੋਏ, ਮੂਨਸ਼ਾਟ ਏਆਈ ਆਪਣੇ k-ਸੀਰੀਜ਼ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਮਾਡਲਾਂ ਦੇ ਅਪਗ੍ਰੇਡ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ ਵਚਨਬੱਧ ਹੈ। ਉਹਨਾਂ ਦਾ ਉਦੇਸ਼ ਵਧੇਰੇ ਮੋਡੈਲਿਟੀਆਂ, ਵਿਆਪਕ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਵਧੀ ਹੋਈ ਆਮ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਪੇਸ਼ ਕਰਨਾ ਹੈ। ਇਹ ਅਭਿਲਾਸ਼ੀ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਉਹਨਾਂ ਨੂੰ ਗਲੋਬਲ ਏਆਈ ਲੈਂਡਸਕੇਪ ਵਿੱਚ ਇੱਕ ਮੁੱਖ ਖਿਡਾਰੀ ਵਜੋਂ ਸਥਾਪਿਤ ਕਰਦਾ ਹੈ, ਜੋ ਓਪਨਏਆਈ ਵਰਗੇ ਸਥਾਪਿਤ ਖਿਡਾਰੀਆਂ ਦੇ ਦਬਦਬੇ ਨੂੰ ਚੁਣੌਤੀ ਦੇਣ ਲਈ ਤਿਆਰ ਹੈ।
ਕਿਮੀ k1.5 ਮਾਡਲ ਦਾ ਪ੍ਰਭਾਵ
ਕਿਮੀ k1.5 ਮਾਡਲ ਸਿਰਫ਼ ਇੱਕ ਤਕਨੀਕੀ ਪ੍ਰਾਪਤੀ ਤੋਂ ਵੱਧ ਹੈ; ਇਹ ਏਆਈ ਸੈਕਟਰ ਵਿੱਚ ਘਰੇਲੂ ਨਵੀਨਤਾ ਦੀ ਸੰਭਾਵਨਾ ਦਾ ਪ੍ਰਤੀਕ ਹੈ। ਇਸਦੇ ਬੇਮਿਸਾਲ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਇਸਦੇ ਸਿਖਲਾਈ ਵੇਰਵਿਆਂ ਦੀ ਖੁੱਲ੍ਹੀ ਸਾਂਝ ਨਾਲ, ਕਿਮੀ k1.5 ਦੁਨੀਆ ਭਰ ਵਿੱਚ ਏਆਈ ਵਿਕਾਸ ਲਈ ਇੱਕ ਨਵਾਂ ਮਿਆਰ ਸਥਾਪਤ ਕਰਦਾ ਹੈ। ਇਸਦੇ ਰਿਲੀਜ਼ ਦੀ ਉਮੀਦ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ, ਅਤੇ ਇਸਦਾ ਪ੍ਰਭਾਵ ਡੂੰਘਾ ਹੋਣ ਦੀ ਉਮੀਦ ਹੈ।