- Published on
ਡੀਪਸੀਕ V3: ਇੱਕ ਨਵਾਂ ਓਪਨ-ਸੋਰਸ ਮਾਡਲ
ਡੀਪਸੀਕ V3: ਇੱਕ ਨਵਾਂ ਓਪਨ-ਸੋਰਸ ਮਾਡਲ
ਡੀਪਸੀਕ V3, ਇੱਕ 671B ਪੈਰਾਮੀਟਰ ਮਿਕਸਚਰ-ਆਫ-ਐਕਸਪਰਟਸ (MoE) ਮਾਡਲ, ਨੂੰ ਓਪਨ-ਸੋਰਸ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਹੈ, ਜਿਸ ਨਾਲ AI ਭਾਈਚਾਰੇ ਵਿੱਚ ਇੱਕ ਹਲਚਲ ਪੈਦਾ ਹੋ ਗਈ ਹੈ। ਇਸਨੂੰ 14.8T ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਟੋਕਨਾਂ 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਹੈ, ਜਿਸ ਵਿੱਚ ਸਿਰਫ 37B ਪੈਰਾਮੀਟਰ ਇਨਫਰੈਂਸ ਦੌਰਾਨ ਐਕਟੀਵੇਟ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਇਹ ਮਾਡਲ ਓਪਨ-ਸੋਰਸ ਮਾਡਲਾਂ ਵਿੱਚ ਸਟੇਟ-ਆਫ-ਦੀ-ਆਰਟ (SOTA) ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, Llama 3.1 405B ਨੂੰ ਪਛਾੜਦਾ ਹੈ ਅਤੇ GPT-4o ਅਤੇ Claude 3.5 Sonnet ਵਰਗੇ ਚੋਟੀ ਦੇ ਮਾਡਲਾਂ ਨਾਲ ਮੁਕਾਬਲਾ ਕਰਦਾ ਹੈ।
ਡੀਪਸੀਕ V3, Claude 3.5 ਮਾਡਲਾਂ ਨਾਲੋਂ ਕਾਫ਼ੀ ਸਸਤਾ ਹੈ, ਜਿਸਦੀ ਕੀਮਤ Claude 3.5 Sonnet ਦੇ ਮੁਕਾਬਲੇ ਸਿਰਫ 9% ਹੈ।
ਲਾਗਤ-ਪ੍ਰਭਾਵੀ ਸਿਖਲਾਈ
ਡੀਪਸੀਕ V3 ਦੀ ਸਿਖਲਾਈ ਲਈ 2.8 ਮਿਲੀਅਨ ਤੋਂ ਘੱਟ GPU ਘੰਟਿਆਂ ਦੀ ਲੋੜ ਸੀ, ਜੋ ਕਿ Llama 3 405B ਦੇ 30.8 ਮਿਲੀਅਨ GPU ਘੰਟਿਆਂ ਦੇ ਮੁਕਾਬਲੇ ਬਹੁਤ ਘੱਟ ਹੈ। ਡੀਪਸੀਕ V3 ਦੀ ਕੁੱਲ ਸਿਖਲਾਈ ਲਾਗਤ ਲਗਭਗ 760,000 ਹੈ। ਇਹ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਅਨੁਕੂਲਿਤ ਐਲਗੋਰਿਦਮ, ਫਰੇਮਵਰਕ ਅਤੇ ਹਾਰਡਵੇਅਰ ਨੂੰ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ।
ਓਪਨਏਆਈ ਦੇ ਸੰਸਥਾਪਕ ਮੈਂਬਰ, ਕਰਪਾਥੀ ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ ਡੀਪਸੀਕ V3 ਬਹੁਤ ਘੱਟ ਸਰੋਤਾਂ ਨਾਲ ਤੁਲਨਾਤਮਕ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਡੇਟਾ ਅਤੇ ਐਲਗੋਰਿਦਮ ਵਿੱਚ ਅਨੁਕੂਲਤਾ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ।
ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਮੁਲਾਂਕਣ
ਡੀਪਸੀਕ V3 ਨੂੰ ਜਿਆ ਯਾਂਗਕਿੰਗ ਅਤੇ ਮੈਟਾ ਦੇ ਤਿਆਨ ਯੁੰਡੋਂਗ ਵਰਗੇ AI ਮਾਹਿਰਾਂ ਦੁਆਰਾ ਪ੍ਰਸ਼ੰਸਾ ਮਿਲੀ ਹੈ। ਇਹ ਵੱਖ-ਵੱਖ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ Qwen2.5-72B ਅਤੇ Llama-3.1-405B ਵਰਗੇ ਹੋਰ ਓਪਨ-ਸੋਰਸ ਮਾਡਲਾਂ ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਇਸ ਮਾਡਲ ਦਾ ਪ੍ਰਦਰਸ਼ਨ GPT-4o ਅਤੇ Claude-3.5-Sonnet ਵਰਗੇ ਚੋਟੀ ਦੇ ਬੰਦ-ਸੋਰਸ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ ਹੈ।
ਡੀਪਸੀਕ V3 60 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ ਦੀ ਦਰ ਨਾਲ ਟੋਕਨ ਪੈਦਾ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ 3x ਸਪੀਡ ਸੁਧਾਰ ਹੈ। API ਦੀ ਕੀਮਤ ਵੀ ਬਹੁਤ ਮੁਕਾਬਲੇ ਵਾਲੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਇਨਪੁਟ ਟੋਕਨਾਂ ਦੀ ਕੀਮਤ 0.5-2 RMB ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਅਤੇ ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ ਦੀ ਕੀਮਤ 8 RMB ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਹੈ।
ਕਾਗੀ ਦੇ ਮੁਲਾਂਕਣ ਨੇ ਡੀਪਸੀਕ V3 ਨੂੰ ਓਪਨ-ਸੋਰਸ ਮਾਡਲਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਉੱਪਰ ਰੱਖਿਆ ਹੈ, ਜੋ ਕਿ Sonnet-3.5 ਅਤੇ GPT-4o ਤੋਂ ਥੋੜ੍ਹਾ ਪਿੱਛੇ ਹੈ।
ਭਾਈਚਾਰਕ ਸ਼ਮੂਲੀਅਤ
ਇਹ ਮਾਡਲ ਅਧਿਕਾਰਤ ਪਲੇਟਫਾਰਮ 'ਤੇ ਟੈਸਟਿੰਗ ਲਈ ਉਪਲਬਧ ਹੈ, ਜਿਸ ਵਿੱਚ ਕੋਡ ਡਾਊਨਲੋਡ ਕਰਨ ਲਈ ਓਪਨ-ਸੋਰਸ ਹੈ। AI ਦੇ ਸ਼ੌਕੀਨਾਂ ਨੇ ਡੀਪਸੀਕ V3 ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਸਟੈਕਡ ਮੈਕ ਮਿਨੀਜ਼ 'ਤੇ ਇਸਨੂੰ ਚਲਾਉਣਾ ਸ਼ਾਮਲ ਹੈ। ਡਿਵੈਲਪਰਾਂ ਨੇ ਮਾਡਲ ਦੀ ਗੁੰਝਲਦਾਰ ਹਦਾਇਤਾਂ ਨੂੰ ਬਿਨਾਂ ਸਪੱਸ਼ਟ ਵਿਆਖਿਆਵਾਂ ਦੇ ਸਮਝਣ ਦੀ ਸਮਰੱਥਾ 'ਤੇ ਹੈਰਾਨੀ ਪ੍ਰਗਟਾਈ ਹੈ।
ਇੱਕ ਡਿਵੈਲਪਰ ਨੇ ਥੋੜ੍ਹੇ ਸਮੇਂ ਵਿੱਚ ਡੀਪਸੀਕ V3 ਨਾਲ AI ਕੰਪਨੀ ਦੇ ਲੋਗੋ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਗੇਮ ਬਣਾਈ। ਡੀਪਸੀਕ V3 ਨੂੰ ਚਲਾਉਣ ਦੀ ਘੱਟ ਲਾਗਤ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਇੱਕ ਉਪਭੋਗਤਾ ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ ਇਸਨੂੰ 60 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ 'ਤੇ ਚਲਾਉਣ ਲਈ ਸਿਰਫ $2 ਪ੍ਰਤੀ ਦਿਨ ਖਰਚ ਆਉਂਦਾ ਹੈ।
ਸਿਖਲਾਈ ਵੇਰਵੇ
ਡੀਪਸੀਕ V3 ਦੀ ਸਿਖਲਾਈ ਨੂੰ ਐਲਗੋਰਿਦਮਿਕ, ਫਰੇਮਵਰਕ ਅਤੇ ਹਾਰਡਵੇਅਰ ਸੁਧਾਰਾਂ ਦੁਆਰਾ ਅਨੁਕੂਲਿਤ ਕੀਤਾ ਗਿਆ ਸੀ। ਮਾਡਲ ਨੂੰ ਇੱਕ ਟ੍ਰਿਲੀਅਨ ਟੋਕਨਾਂ 'ਤੇ 180,000 GPU ਘੰਟਿਆਂ ਵਿੱਚ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ, ਜਿਸ ਨਾਲ ਦੋ ਮਹੀਨਿਆਂ ਤੋਂ ਵੀ ਘੱਟ ਸਮੇਂ ਵਿੱਚ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਪੂਰੀ ਕੀਤੀ ਗਈ। ਕੁੱਲ ਸਿਖਲਾਈ ਲਾਗਤ 2.788 ਮਿਲੀਅਨ GPU ਘੰਟੇ, ਜਾਂ $5.576 ਮਿਲੀਅਨ ਸੀ।
ਮੁੱਖ ਅਨੁਕੂਲਤਾਵਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- ਲੋਡ ਬੈਲੇਂਸਿੰਗ: MoE ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਹਰੇਕ ਮਾਹਿਰ ਲਈ ਬਾਇਸ ਸ਼ਰਤਾਂ ਦੇ ਨਾਲ ਇੱਕ ਨਵੀਂ ਲੋਡ ਬੈਲੇਂਸਿੰਗ ਰਣਨੀਤੀ।
- ਮਲਟੀ-ਟੋਕਨ ਪ੍ਰੈਡਿਕਸ਼ਨ (MTP): ਇੱਕ ਸਿਖਲਾਈ ਉਦੇਸ਼ ਜੋ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਂਦਾ ਹੈ ਅਤੇ ਅਟਕਲਪੂਰਨ ਡੀਕੋਡਿੰਗ ਦੁਆਰਾ ਤੇਜ਼ ਇਨਫਰੈਂਸ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ।
- FP8 ਸਿਖਲਾਈ: FP8 ਮਿਕਸਡ-ਪ੍ਰੀਸੀਜ਼ਨ ਸਿਖਲਾਈ ਦੀ ਵਰਤੋਂ, ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਮਾਡਲਾਂ ਲਈ ਇਸਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ।
- ਡੁਅਲਪਾਈਪ: ਇੱਕ ਕੁਸ਼ਲ ਪਾਈਪਲਾਈਨ ਪੈਰਲਲ ਐਲਗੋਰਿਦਮ ਜੋ ਕੰਪਿਊਟੇਸ਼ਨ ਅਤੇ ਸੰਚਾਰ ਨੂੰ ਓਵਰਲੈਪ ਕਰਦਾ ਹੈ, ਸੰਚਾਰ ਓਵਰਹੈੱਡ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ।
MoE ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ 256 ਰੂਟਿੰਗ ਮਾਹਿਰ ਅਤੇ 1 ਸਾਂਝਾ ਮਾਹਿਰ ਸ਼ਾਮਲ ਹਨ, ਜਿਸ ਵਿੱਚ ਹਰੇਕ ਟੋਕਨ 8 ਮਾਹਿਰਾਂ ਨੂੰ ਐਕਟੀਵੇਟ ਕਰਦਾ ਹੈ ਅਤੇ ਵੱਧ ਤੋਂ ਵੱਧ 4 ਨੋਡਾਂ 'ਤੇ ਭੇਜਿਆ ਜਾਂਦਾ ਹੈ। ਇਨਫਰੈਂਸ ਦੌਰਾਨ ਲੋਡ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਨ ਲਈ ਵਾਧੂ ਮਾਹਿਰਾਂ ਨੂੰ ਤਾਇਨਾਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
ਮਾਡਲ ਦੀ ਇਨਫਰੈਂਸ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਲੰਬੀ-ਚੇਨ ਮਾਡਲ (ਡੀਪਸੀਕ R1) ਤੋਂ ਗਿਆਨ ਕੱਢ ਕੇ ਵਧਾਇਆ ਗਿਆ ਸੀ।
ਪ੍ਰਯੋਗਾਤਮਕ ਨਤੀਜੇ
ਡੀਪਸੀਕ V3 ਵੱਖ-ਵੱਖ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਓਪਨ-ਸੋਰਸ ਮਾਡਲਾਂ ਵਿੱਚ SOTA ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਮਾਡਲ "ਸੂਈ-ਇਨ-ਏ-ਹੇਸਟੈਕ" ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ ਚੰਗਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਲੰਬੇ ਸੰਦਰਭਾਂ ਤੋਂ ਖਾਸ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਆਪਣੀ ਸਮਰੱਥਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।
ਸਰੋਤ
- ਤਕਨੀਕੀ ਰਿਪੋਰਟ: DeepSeek_V3.pdf
- ਹੱਗਿੰਗ ਫੇਸ: DeepSeek-V3