- Published on
ਡੀਪਸੀਕ ਦਾ ਨਵਾਂ ਮਾਡਲ ਅਚਾਨਕ ਪ੍ਰਗਟ ਹੋਇਆ: ਪ੍ਰੋਗਰਾਮਿੰਗ ਬੈਂਚਮਾਰਕ ਕਲਾਊਡ 3.5 ਸੋਨੇਟ ਤੋਂ ਵੱਧ
ਡੀਪਸੀਕ-ਵੀ3: ਇੱਕ ਨਵਾਂ ਮਾਡਲ ਜੋ ਉਮੀਦਾਂ ਤੋਂ ਵੱਧ ਹੈ
ਡੀਪਸੀਕ-ਵੀ3, ਇੱਕ ਅਣਐਲਾਨਿਆ ਮਾਡਲ, ਅਚਾਨਕ ਸਾਹਮਣੇ ਆਇਆ ਹੈ ਅਤੇ ਇਸਨੇ ਪਹਿਲਾਂ ਹੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਉਣਾ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤਾ ਹੈ। ਇਸ ਮਾਡਲ ਨੇ ਕਲਾਊਡ 3.5 ਸੋਨੇਟ ਨੂੰ ਏਡਰ ਬਹੁਭਾਸ਼ਾਈ ਪ੍ਰੋਗਰਾਮਿੰਗ ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਪਛਾੜ ਦਿੱਤਾ ਹੈ, ਜੋ ਕਿ ਇਸਦੀ ਸਮਰੱਥਾ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸੰਕੇਤ ਹੈ। ਵਰਤਮਾਨ ਵਿੱਚ, ਡੀਪਸੀਕ-ਵੀ3 ਲਾਈਵਬੈਂਚ ਮੁਲਾਂਕਣ ਪਲੇਟਫਾਰਮ 'ਤੇ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ ਓਪਨ-ਸੋਰਸ ਐਲਐਲਐਮ ਵਜੋਂ ਸਥਾਪਿਤ ਹੋ ਗਿਆ ਹੈ।
ਇਸ ਮਾਡਲ ਦੀ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ 685B ਪੈਰਾਮੀਟਰ MoE ਢਾਂਚਾ ਹੈ, ਜੋ ਕਿ ਪਿਛਲੇ ਸੰਸਕਰਣਾਂ ਦੇ ਮੁਕਾਬਲੇ ਬਹੁਤ ਸੁਧਾਰਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਇਹ ਤਕਨੀਕੀ ਤਰੱਕੀ ਡੀਪਸੀਕ-ਵੀ3 ਨੂੰ ਇੱਕ ਪ੍ਰਮੁੱਖ ਖਿਡਾਰੀ ਵਜੋਂ ਉਭਾਰਦੀ ਹੈ, ਖਾਸ ਕਰਕੇ ਓਪਨ-ਸੋਰਸ ਖੇਤਰ ਵਿੱਚ।
ਲੀਕ ਅਤੇ ਪਿਛੋਕੜ ਜਾਣਕਾਰੀ
ਇਸ ਮਾਡਲ ਦੇ ਲੀਕ ਹੋਣ ਦੀ ਪਹਿਲੀ ਖ਼ਬਰ ਰੈਡਿਟ ਉਪਭੋਗਤਾਵਾਂ ਦੁਆਰਾ ਦਿੱਤੀ ਗਈ ਸੀ, ਜਿਨ੍ਹਾਂ ਨੇ ਇਸਨੂੰ ਏਪੀਆਈ ਅਤੇ ਵੈੱਬ ਪੰਨਿਆਂ 'ਤੇ ਉਪਲਬਧ ਪਾਇਆ। ਡੀਪਸੀਕ-ਵੀ3 ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਏਡਰ ਅਤੇ ਲਾਈਵਬੈਂਚ ਸਮੇਤ ਕਈ ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ ਹੈ।
ਮਾਡਲ ਦੇ ਓਪਨ-ਸੋਰਸ ਵੇਟਸ ਪਹਿਲਾਂ ਹੀ ਹੱਗਿੰਗ ਫੇਸ 'ਤੇ ਉਪਲਬਧ ਹਨ, ਹਾਲਾਂਕਿ ਇੱਕ ਮਾਡਲ ਕਾਰਡ ਅਜੇ ਉਪਲਬਧ ਨਹੀਂ ਹੈ। ਇਸਦੇ ਬਾਵਜੂਦ, ਕਮਿਊਨਿਟੀ ਇਸ ਨਵੇਂ ਮਾਡਲ ਦੇ ਆਉਣ ਤੋਂ ਬਹੁਤ ਉਤਸ਼ਾਹਿਤ ਹੈ।
ਡੀਪਸੀਕ-ਵੀ3 ਦੇ ਤਕਨੀਕੀ ਵੇਰਵੇ
ਮਾਡਲ ਆਰਕੀਟੈਕਚਰ
- ਪੈਰਾਮੀਟਰ ਸਾਈਜ਼: 685 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ
- MoE ਢਾਂਚਾ: 256 ਮਾਹਿਰਾਂ ਨਾਲ ਮਿਕਸਚਰ ਆਫ਼ ਐਕਸਪਰਟਸ ਆਰਕੀਟੈਕਚਰ
- ਰਾਊਟਿੰਗ: ਰਾਊਟਿੰਗ ਲਈ ਇੱਕ ਸਿਗਮੋਇਡ ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਚੋਟੀ ਦੇ 8 ਮਾਹਿਰਾਂ ਦੀ ਚੋਣ ਕਰਦਾ ਹੈ (Top-k=8)
- ਸੰਦਰਭ ਵਿੰਡੋ: 64K ਸੰਦਰਭ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਡਿਫਾਲਟ 4K ਅਤੇ ਅਧਿਕਤਮ 8K ਹੈ
- ਟੋਕਨ ਜਨਰੇਸ਼ਨ ਸਪੀਡ: ਲਗਭਗ 60 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ
ਡੀਪਸੀਕ-ਵੀ3 ਦੀ ਇਹ ਤਕਨੀਕੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਇਸਨੂੰ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਭਾਸ਼ਾ ਮਾਡਲ ਬਣਾਉਂਦੀਆਂ ਹਨ।
ਵੀ2 ਦੇ ਮੁਕਾਬਲੇ ਮੁੱਖ ਆਰਕੀਟੈਕਚਰਲ ਬਦਲਾਅ
- ਗੇਟ ਫੰਕਸ਼ਨ: ਵੀ3 ਮਾਹਿਰਾਂ ਦੀ ਚੋਣ ਲਈ ਸੌਫਟਮੈਕਸ ਦੀ ਬਜਾਏ ਇੱਕ ਸਿਗਮੋਇਡ ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਮਾਡਲ ਨੂੰ ਮਾਹਿਰਾਂ ਦੇ ਇੱਕ ਵੱਡੇ ਸਮੂਹ ਵਿੱਚੋਂ ਚੋਣ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਜਿਸਦੇ ਉਲਟ ਸੌਫਟਮੈਕਸ ਕੁਝ ਮਾਹਿਰਾਂ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦਾ ਹੈ।
- ਟੌਪ-ਕੇ ਸਿਲੈਕਸ਼ਨ: ਵੀ3 ਟੌਪ-ਕੇ ਸਿਲੈਕਸ਼ਨ ਲਈ ਇੱਕ ਨਵਾਂ noaux_tc ਮੈਥਡ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਜਿਸਨੂੰ ਇੱਕ ਸਹਾਇਕ ਨੁਕਸਾਨ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ ਹੈ। ਇਹ ਸਿਖਲਾਈ ਨੂੰ ਸਰਲ ਬਣਾਉਂਦਾ ਹੈ ਅਤੇ ਮੁੱਖ ਕਾਰਜ ਦੇ ਨੁਕਸਾਨ ਫੰਕਸ਼ਨ ਦੀ ਸਿੱਧੀ ਵਰਤੋਂ ਕਰਕੇ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦਾ ਹੈ।
- ਮਾਹਿਰ ਸਕੋਰ ਐਡਜਸਟਮੈਂਟ: ਇੱਕ ਨਵਾਂ ਪੈਰਾਮੀਟਰ, e_score_correction_bias, ਮਾਹਿਰ ਸਕੋਰਾਂ ਨੂੰ ਐਡਜਸਟ ਕਰਨ ਲਈ ਜੋੜਿਆ ਗਿਆ ਹੈ, ਜਿਸ ਨਾਲ ਮਾਹਿਰ ਚੋਣ ਅਤੇ ਮਾਡਲ ਸਿਖਲਾਈ ਦੌਰਾਨ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਹੁੰਦਾ ਹੈ।
ਇਹ ਤਬਦੀਲੀਆਂ ਡੀਪਸੀਕ-ਵੀ3 ਨੂੰ ਆਪਣੇ ਪਿਛਲੇ ਸੰਸਕਰਣਾਂ ਨਾਲੋਂ ਵਧੇਰੇ ਸਮਰੱਥ ਬਣਾਉਂਦੀਆਂ ਹਨ।
ਵੀ2 ਅਤੇ ਵੀ2.5 ਨਾਲ ਤੁਲਨਾ
- ਵੀ3 ਬਨਾਮ ਵੀ2: ਵੀ3 ਅਸਲ ਵਿੱਚ ਵੀ2 ਦਾ ਇੱਕ ਵਧਿਆ ਹੋਇਆ ਸੰਸਕਰਣ ਹੈ, ਜਿਸ ਵਿੱਚ ਸਾਰੇ ਪੈਰਾਮੀਟਰਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਹਨ।
- ਵੀ3 ਬਨਾਮ ਵੀ2.5: ਵੀ3 ਸੰਰਚਨਾ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਵੀ2.5 ਨੂੰ ਪਛਾੜਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਵਧੇਰੇ ਮਾਹਿਰ, ਵੱਡੇ ਵਿਚਕਾਰਲੇ ਪਰਤ ਦੇ ਆਕਾਰ, ਅਤੇ ਪ੍ਰਤੀ ਟੋਕਨ ਵਧੇਰੇ ਮਾਹਿਰ ਸ਼ਾਮਲ ਹਨ।
ਇਹ ਤੁਲਨਾਵਾਂ ਡੀਪਸੀਕ-ਵੀ3 ਦੀ ਪ੍ਰਮੁੱਖਤਾ ਨੂੰ ਸਪੱਸ਼ਟ ਰੂਪ ਵਿੱਚ ਦਰਸਾਉਂਦੀਆਂ ਹਨ।
ਉਪਭੋਗਤਾ ਟੈਸਟਿੰਗ ਅਤੇ ਨਿਰੀਖਣ
ਸ਼ੁਰੂਆਤੀ ਟੈਸਟ
ਸਾਈਮਨ ਵਿਲਿਸਨ, ਇੱਕ ਡਿਵੈਲਪਰ, ਨੇ ਡੀਪਸੀਕ-ਵੀ3 ਦੀ ਜਾਂਚ ਕੀਤੀ ਅਤੇ ਪਾਇਆ ਕਿ ਇਸਨੇ ਆਪਣੇ ਆਪ ਨੂੰ ਓਪਨਏਆਈ ਦੇ ਜੀਪੀਟੀ-4 ਆਰਕੀਟੈਕਚਰ 'ਤੇ ਅਧਾਰਤ ਦੱਸਿਆ। ਮਾਡਲ ਦੀ ਜਾਂਚ ਚਿੱਤਰ ਜਨਰੇਸ਼ਨ ਲਈ ਵੀ ਕੀਤੀ ਗਈ ਸੀ, ਜਿਸ ਵਿੱਚ ਇੱਕ ਪੇਲਿਕਨ ਦੀ ਸਾਈਕਲ ਚਲਾਉਂਦੇ ਹੋਏ ਇੱਕ ਐਸਵੀਜੀ ਚਿੱਤਰ ਬਣਾਇਆ ਗਿਆ ਸੀ।
ਅਚਾਨਕ ਸਵੈ-ਪਛਾਣ
ਕਈ ਉਪਭੋਗਤਾਵਾਂ ਨੇ ਰਿਪੋਰਟ ਕੀਤੀ ਕਿ ਡੀਪਸੀਕ-ਵੀ3 ਨੇ ਆਪਣੇ ਆਪ ਨੂੰ ਓਪਨਏਆਈ ਮਾਡਲਾਂ 'ਤੇ ਅਧਾਰਤ ਦੱਸਿਆ, ਸੰਭਵ ਤੌਰ 'ਤੇ ਸਿਖਲਾਈ ਦੌਰਾਨ ਓਪਨਏਆਈ ਮਾਡਲ ਪ੍ਰਤੀਕਿਰਿਆਵਾਂ ਦੀ ਵਰਤੋਂ ਕਾਰਨ।
ਕਮਿਊਨਿਟੀ ਪ੍ਰਤੀਕਿਰਿਆ
ਡੀਪਸੀਕ-ਵੀ3 ਦੀ ਅਚਾਨਕ ਰਿਲੀਜ਼ ਅਤੇ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਨੇ ਕਮਿਊਨਿਟੀ ਵਿੱਚ ਉਤਸ਼ਾਹ ਪੈਦਾ ਕੀਤਾ ਹੈ। ਕੁਝ ਉਪਭੋਗਤਾਵਾਂ ਦਾ ਮੰਨਣਾ ਹੈ ਕਿ ਡੀਪਸੀਕ-ਵੀ3 ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਓਪਨਏਆਈ ਦੇ ਮਾਡਲਾਂ ਤੋਂ ਵੱਧ ਹੈ, ਖਾਸ ਕਰਕੇ ਓਪਨ-ਸੋਰਸ ਡੋਮੇਨ ਵਿੱਚ।