Published on

ਓਪਨਏਆਈ ਦਾ ਓ3 ਮਾਡਲ: ਤਰਕ ਅਤੇ ਏਆਰਸੀ ਏਜੀਆਈ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਕਦਮ

ਲੇਖਕ
  • avatar
    ਨਾਮ
    Ajax
    Twitter

ਓਪਨਏਆਈ ਦਾ ਓ3 ਮਾਡਲ: ਤਰਕ ਅਤੇ ਏਆਰਸੀ ਏਜੀਆਈ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਕਦਮ

ਓਪਨਏਆਈ ਦਾ ਓ3 ਮਾਡਲ (OpenAI's O3 Model) ਹਾਲ ਹੀ ਵਿੱਚ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਹੈ, ਅਤੇ ਇਹ ਨਕਲੀ ਬੁੱਧੀ (Artificial Intelligence) ਦੇ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਮੰਨਿਆ ਜਾ ਰਿਹਾ ਹੈ। ਇਹ ਮਾਡਲ ਨਾ ਸਿਰਫ਼ ਪਹਿਲਾਂ ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਸਗੋਂ ਇਸ ਵਿੱਚ ਕਈ ਨਵੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵੀ ਹਨ ਜੋ ਇਸਨੂੰ ਹੋਰ ਵੀ ਸ਼ਕਤੀਸ਼ਾਲੀ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਇਹ ਮਾਡਲ ਖਾਸ ਤੌਰ 'ਤੇ ਤਰਕ (reasoning) ਅਤੇ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਦੇ ਖੇਤਰਾਂ ਵਿੱਚ ਇੱਕ ਮੀਲ ਪੱਥਰ ਸਾਬਤ ਹੋਇਆ ਹੈ। ਇਸ ਲੇਖ ਵਿਚ, ਅਸੀਂ ਓ3 ਮਾਡਲ ਦੀਆਂ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ, ਇਸਦੀ ਕਾਰਗੁਜ਼ਾਰੀ, ਅਤੇ ਇਸਦੇ ਸੰਭਾਵੀ ਪ੍ਰਭਾਵਾਂ ਬਾਰੇ ਵਿਸਥਾਰ ਨਾਲ ਗੱਲ ਕਰਾਂਗੇ।

ਮਹੱਤਵਪੂਰਨ ਗੱਲਾਂ

  • ਬਹੁ-ਉਤਪਾਦਨ ਸਹਿਮਤੀ (Multi-generation Consensus): ਓ1 ਮਾਡਲ ਦੀ ਸਭ ਤੋਂ ਵਧੀਆ ਕਾਰਗੁਜ਼ਾਰੀ ਲਈ ਬਹੁ-ਉਤਪਾਦਨ ਸਹਿਮਤੀ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਸਿਰਫ਼ ਇੱਕ ਆਉਟਪੁੱਟ ਸਟ੍ਰੀਮ 'ਤੇ ਭਰੋਸਾ ਕਰਨ ਦੀ ਬਜਾਏ, ਸਾਰੇ ਤਰਕ ਪੜਾਵਾਂ ਵਿੱਚ ਕਈ ਆਉਟਪੁੱਟਾਂ ਪੈਦਾ ਕਰਨੀਆਂ ਚਾਹੀਦੀਆਂ ਹਨ।
  • ਕੋਈ ਰੁੱਖ ਖੋਜ (No Tree Search): ਇਸ ਗੱਲ ਦਾ ਕੋਈ ਸਬੂਤ ਨਹੀਂ ਹੈ ਕਿ ਓ3 ਨੇ ਰੁੱਖ ਖੋਜ ਨੂੰ ਜੋੜ ਕੇ ਆਪਣੇ ਤਰਕ ਦੇ ਢਾਂਚੇ ਵਿੱਚ ਕੋਈ ਬਦਲਾਅ ਕੀਤਾ ਹੈ। ਸਾਰੀਆਂ ਗੱਲਾਂ ਸਿਰਫ਼ ਅਫ਼ਵਾਹਾਂ ਹਨ। ਤਰਕ ਵਿਸਥਾਰ ਦਾ ਮੁੱਖ ਨਿਯਮ ਇਹ ਹੈ ਕਿ ਇੱਕੋ ਸਿੰਗਲ-ਸਟ੍ਰੀਮ ਉਤਪਾਦਨ ਤੋਂ ਵਧੇਰੇ ਨਮੂਨੇ ਲੈਣ ਨਾਲ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਸੁਧਾਰ ਹੋ ਸਕਦਾ ਹੈ।
  • ਮਜ਼ਬੂਤ ਸਿਖਲਾਈ (Reinforcement Learning): ਇਸ ਸਾਲ, ਮਜ਼ਬੂਤ ਸਿਖਲਾਈ (RL) ਅਤੇ ਇਸ ਨਾਲ ਜੁੜੇ ਢੰਗਾਂ ਨੇ ਨਕਲੀ ਬੁੱਧੀ ਦੇ ਕੇਂਦਰ ਵਜੋਂ ਆਪਣੀ ਸਥਿਤੀ ਨੂੰ ਮੁੜ ਸਥਾਪਿਤ ਕੀਤਾ ਹੈ।
  • ਓ3 ਮਾਡਲ ਦੀ ਸ਼ੁਰੂਆਤ: ਓਪਨਏਆਈ ਨੇ ਆਪਣੇ ਓ3 ਮਾਡਲ ਦੀ ਝਲਕ ਜਾਰੀ ਕੀਤੀ ਹੈ, ਜੋ ਕਿ ਓ1 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤਰਕ ਕਰਨ ਲਈ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਵਿੱਚ ਇੱਕ ਹੋਰ ਕਦਮ ਹੈ। ਇਹ ਮਾਡਲ ਓ3-ਮਿਨੀ ਤੋਂ ਸ਼ੁਰੂ ਹੋਣਗੇ ਅਤੇ ਜਨਵਰੀ 2025 ਦੇ ਅੰਤ ਤੱਕ ਲੋਕਾਂ ਲਈ ਉਪਲਬਧ ਹੋਣ ਦੀ ਉਮੀਦ ਹੈ।
  • ਏਆਈ ਦਾ ਏਕੀਕਰਣ: 2024 ਦੇ ਅੰਤ ਤੱਕ, ਬਹੁਤ ਸਾਰੇ ਲੋਕਾਂ ਦਾ ਮੰਨਣਾ ਹੈ ਕਿ ਇਹ ਸਾਲ ਨਕਲੀ ਬੁੱਧੀ ਦੇ ਏਕੀਕਰਣ ਦਾ ਸਾਲ ਹੈ, ਕਿਉਂਕਿ ਬਹੁਤ ਸਾਰੇ ਖਿਡਾਰੀਆਂ ਨੇ ਜੀਪੀਟੀ-4 ਦੇ ਬਰਾਬਰ ਦਾ ਪੱਧਰ ਹਾਸਲ ਕਰ ਲਿਆ ਹੈ ਅਤੇ ਇਹ ਖੋਜਣਾ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤਾ ਹੈ ਕਿ ਇਹਨਾਂ ਮਾਡਲਾਂ ਨੂੰ ਅਸਲ ਵਿੱਚ ਕਿਵੇਂ ਲਾਗੂ ਕਰਨਾ ਹੈ।
  • ਓ3 ਦੀ ਹੈਰਾਨੀਜਨਕ ਸ਼ੁਰੂਆਤ: 2024 ਵਿੱਚ "ਜੀਪੀਟੀ-4 ਲਾਂਚ" ਵਰਗਾ ਕੋਈ ਉਤਸ਼ਾਹਜਨਕ ਪਲ ਨਹੀਂ ਆਇਆ। ਓ3 ਦੀ ਸ਼ੁਰੂਆਤ ਨੇ ਇਸ ਨੂੰ ਬਦਲ ਦਿੱਤਾ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਓ1 ਨਾਲੋਂ ਵਧੇਰੇ ਹੈਰਾਨੀਜਨਕ ਹੈ ਅਤੇ ਤਰਕ ਮਾਡਲਾਂ ਵਿੱਚ ਤੇਜ਼ ਤਰੱਕੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਓ1 ਦੇ ਆਉਣ ਬਾਰੇ ਪਹਿਲਾਂ ਹੀ ਪਤਾ ਸੀ, ਕਿਉਂਕਿ ਇਸਨੇ ਲੰਬੀ ਤਿਆਰੀ ਦੀ ਮਿਆਦ ਪੂਰੀ ਕੀਤੀ ਸੀ, ਪਰ ਓ3 ਦੀ ਤੇਜ਼ ਅਤੇ ਕੁਸ਼ਲ ਸ਼ੁਰੂਆਤ ਸਾਨੂੰ 2025 ਵਿੱਚ ਹੋਣ ਵਾਲੇ ਵਿਕਾਸ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰਦੀ ਹੈ।
  • ਵਿਆਪਕ ਵਰਤੋਂ: ਭਾਵੇਂ ਬਹੁਤ ਸਾਰੇ ਲੋਕਾਂ ਨੇ ਗਣਿਤ, ਪ੍ਰੋਗਰਾਮਿੰਗ, ਭੌਤਿਕ ਵਿਗਿਆਨ ਅਤੇ ਸਖ਼ਤ ਵਿਗਿਆਨ ਤੋਂ ਬਾਹਰ ਓ1 ਵਰਗੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ 'ਤੇ ਸਵਾਲ ਉਠਾਏ ਹਨ, ਪਰ ਇਹ ਮਾਡਲ ਜਲਦੀ ਹੀ ਨਕਲੀ ਬੁੱਧੀ ਦੇ ਪੂਰੇ ਖੋਜ ਈਕੋਸਿਸਟਮ ਵਿੱਚ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤੇ ਜਾਣਗੇ, ਜਿਸ ਨਾਲ ਤਰੱਕੀ ਵਿੱਚ ਤੇਜ਼ੀ ਆਵੇਗੀ। ਇੱਕ ਆਸ਼ਾਵਾਦੀ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਇਹ ਹੈ ਕਿ ਇਹਨਾਂ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਦੀ ਖੋਜ ਕਰਨ ਲਈ ਅਜੇ ਤੱਕ ਕਾਫ਼ੀ ਸਮਾਂ ਨਹੀਂ ਹੈ, ਅਤੇ ਨਾ ਹੀ ਤਰਕ ਮਾਡਲਾਂ ਨੂੰ ਹੋਰ ਖੇਤਰਾਂ ਵਿੱਚ ਵਧਾਉਣ ਲਈ ਕੋਈ ਜਨਤਕ ਤੌਰ 'ਤੇ ਉਪਲਬਧ ਮਜ਼ਬੂਤ ਸਿਖਲਾਈ ਢੰਗ ਹਨ।
  • ਅਗਲਾ ਕਦਮ: ਓਪਨਏਆਈ ਦਾ ਓ3 ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਉਦਯੋਗ ਅਗਲੀ ਸਿਖਰ 'ਤੇ ਚੜ੍ਹ ਰਿਹਾ ਹੈ, ਕਿਉਂਕਿ ਸਿਰਫ਼ ਇੰਟਰਨੈੱਟ ਟੈਕਸਟ 'ਤੇ ਨਿਰਭਰ ਕਰਨ ਤੋਂ ਹੋਣ ਵਾਲਾ ਲਾਭ ਘਟ ਰਿਹਾ ਹੈ। ਓ3 ਨੇ ਤਰਕ ਮੁਲਾਂਕਣ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਸਫਲਤਾ ਹਾਸਲ ਕੀਤੀ ਹੈ, ਖਾਸ ਤੌਰ 'ਤੇ ਹੇਠਾਂ ਦਿੱਤੇ ਖੇਤਰਾਂ ਵਿੱਚ:
    • ਇਹ ਏਆਰਸੀ ਏਜੀਆਈ ਪੁਰਸਕਾਰ ਵਿੱਚ 85% ਤੋਂ ਵੱਧ ਸਫਲਤਾ ਦਰ ਵਾਲਾ ਪਹਿਲਾ ਮਾਡਲ ਹੈ (ਨੋਟ: ਇਹ ਜਨਤਕ ਡੇਟਾ ਸੈੱਟ 'ਤੇ ਪੂਰਾ ਕੀਤਾ ਗਿਆ ਹੈ, ਨਾ ਕਿ ਟੈਸਟ ਸੈੱਟ 'ਤੇ, ਅਤੇ ਲਾਗਤ ਸੀਮਾਵਾਂ ਤੋਂ ਵੱਧ ਹੈ)।
    • ਨਵੇਂ ਫਰੰਟੀਅਰ ਗਣਿਤ ਬੈਂਚਮਾਰਕ ਵਿੱਚ, ਪ੍ਰਦਰਸ਼ਨ 2% ਤੋਂ 25% ਤੱਕ ਵਧ ਗਿਆ ਹੈ, ਜੋ ਇੱਕ ਵੱਡੀ ਛਾਲ ਹੈ।
    • ਸਾਰੇ ਪ੍ਰਮੁੱਖ ਪ੍ਰੋਗਰਾਮਿੰਗ ਬੈਂਚਮਾਰਕਸ (ਜਿਵੇਂ ਕਿ SWE-Bench-Verified) 'ਤੇ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਕੀਤੇ ਗਏ ਹਨ।
    • ਇਹ ਸਭ ਮਾਡਲ ਦੇ ਪਹਿਲੇ ਸੰਸਕਰਣ ਦੇ ਐਲਾਨ ਤੋਂ ਸਿਰਫ਼ ਤਿੰਨ ਮਹੀਨਿਆਂ ਬਾਅਦ ਹੋਇਆ ਹੈ।
  • ਸੁਰੱਖਿਆ ਅਤੇ ਇਕਸਾਰਤਾ: ਇਸ ਦੇ ਨਾਲ ਹੀ, ਓਪਨਏਆਈ ਨੇ ਇੱਕ ਬਲੌਗ ਪੋਸਟ ਅਤੇ ਖੋਜ ਪੱਤਰ ਜਾਰੀ ਕੀਤਾ ਹੈ ਜਿਸ ਵਿੱਚ ਇਹ ਦਰਸਾਇਆ ਗਿਆ ਹੈ ਕਿ ਓ1-ਪੱਧਰ ਦੇ ਮਾਡਲ ਸੁਰੱਖਿਆ ਅਤੇ ਇਕਸਾਰਤਾ ਖੋਜ ਨੂੰ ਕਿਵੇਂ ਵਧਾ ਸਕਦੇ ਹਨ। ਇਹ ਪਹਿਲਾਂ ਜ਼ਿਕਰ ਕੀਤੇ ਗਏ ਇੱਕ ਹੋਰ ਵਿਆਪਕ ਖੁੱਲ੍ਹੇ ਸਵਾਲ ਲਈ ਕੁਝ ਸ਼ੁਰੂਆਤੀ ਸਕਾਰਾਤਮਕ ਸਬੂਤ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ: ਕੀ ਵਧੀ ਹੋਈ ਤਰਕ ਸਮਰੱਥਾ ਪ੍ਰਮਾਣਿਤ ਖੇਤਰਾਂ ਤੋਂ ਬਾਹਰ ਮੁੱਲ ਲਿਆ ਸਕਦੀ ਹੈ? ਇਸ ਸਵਾਲ 'ਤੇ 2025 ਵਿੱਚ ਕਈ ਵਾਰ ਮੁੜ ਵਿਚਾਰ ਕੀਤਾ ਜਾਵੇਗਾ।

ਓ3 ਦਾ ਸੰਖੇਪ ਜਾਣਕਾਰੀ

ਓਪਨਏਆਈ ਦਾ ਓ3 ਮਾਡਲ "ਓਪਨਏਆਈ ਦੇ 12 ਦਿਨਾਂ ਦੇ ਲਾਂਚ ਈਵੈਂਟ" ਦੇ ਆਖਰੀ ਦਿਨ ਐਲਾਨਿਆ ਗਿਆ ਸੀ। ਇਹ ਲਾਂਚ ਕਈ ਖੇਤਰਾਂ ਵਿੱਚ ਪਹਿਲਾਂ ਦੇ ਸਭ ਤੋਂ ਉੱਨਤ ਮਾਡਲਾਂ (ਜੈਮਿਨੀ 1.5 ਪ੍ਰੋ ਅਤੇ ਕਲਾਉਡ 3.5 ਸੋਨੇਟ ਨਿਊ) ਤੋਂ ਵੱਧ ਸ਼ਾਨਦਾਰ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਨਾਲ ਆਇਆ ਹੈ।

ਓ1 ਸੀਰੀਜ਼ ਦੇ ਮਾਡਲਾਂ 'ਤੇ ਬਲੌਗ ਪੋਸਟਾਂ ਅਤੇ ਸੰਬੰਧਿਤ ਗੱਲਬਾਤ ਵਿੱਚ, ਇੱਕ ਅਕਸਰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕੀਤਾ ਜਾਣ ਵਾਲਾ ਵੇਰਵਾ ਬਾਰ ਗ੍ਰਾਫ ਵਿੱਚ ਸ਼ੇਡਿੰਗ ਦਾ ਅਰਥ ਹੈ। ਓ1 ਦੀ ਪਹਿਲੀ ਬਲੌਗ ਪੋਸਟ ਵਿੱਚ, ਪਹਿਲੇ ਨਤੀਜੇ ਚਿੱਤਰ ਦੇ ਵਰਣਨ ਵਿੱਚ ਇਸਦਾ ਜ਼ਿਕਰ ਕੀਤਾ ਗਿਆ ਹੈ: ਠੋਸ ਬਾਰਾਂ ਪਾਸ@1 ਦੀ ਸ਼ੁੱਧਤਾ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ, ਅਤੇ ਸ਼ੇਡ ਕੀਤੇ ਖੇਤਰ 64 ਨਮੂਨਿਆਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬਹੁਗਿਣਤੀ ਵੋਟਿੰਗ (ਸਹਿਮਤੀ) ਦੇ ਨਾਲ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।

ਇਹ ਵੇਰਵਾ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਓ1 ਮਾਡਲ ਦੀ ਸਭ ਤੋਂ ਵਧੀਆ ਕਾਰਗੁਜ਼ਾਰੀ ਲਈ ਕਈ ਉਤਪਾਦਨਾਂ ਦੀ ਸਹਿਮਤੀ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ। ਇਹ ਸਾਰੇ ਤਰਕ ਪੜਾਵਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ - ਵਧੀਆ ਨਤੀਜਿਆਂ ਲਈ, ਸਿਰਫ਼ ਇੱਕ ਆਉਟਪੁੱਟ ਸਟ੍ਰੀਮ 'ਤੇ ਭਰੋਸਾ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ। ਹਾਲਾਂਕਿ, ਇਸਦਾ ਇਹ ਮਤਲਬ ਨਹੀਂ ਹੈ ਕਿ ਰੁੱਖ ਖੋਜ ਜਾਂ ਕਿਸੇ ਕਿਸਮ ਦੀ ਵਿਚਕਾਰਲੀ ਪ੍ਰਤੀਨਿਧਤਾ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਣੀ ਚਾਹੀਦੀ ਹੈ। ਓ1 ਦਾ ਪੇਸ਼ੇਵਰ ਮੋਡ ਅਤੇ ਏਆਰਸੀ ਪੁਰਸਕਾਰ ਦੇ ਨਤੀਜੇ ਜਿਨ੍ਹਾਂ ਬਾਰੇ ਅਸੀਂ ਚਰਚਾ ਕਰਾਂਗੇ, ਪੂਰੇ ਅੰਕ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਇਸ ਸਮਾਨਾਂਤਰ ਉਤਪਾਦਨ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ।

ਫਰੰਟੀਅਰ ਗਣਿਤ ਬੈਂਚਮਾਰਕ ਦੇ ਗੁਣਾਤਮਕ ਮੁਲਾਂਕਣ ਲਈ, ਦੋ ਫੀਲਡਜ਼ ਮੈਡਲ ਜੇਤੂਆਂ ਦੀਆਂ ਟਿੱਪਣੀਆਂ ਦਾ ਹਵਾਲਾ ਦਿੱਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਉਨ੍ਹਾਂ ਦੀਆਂ ਟਿੱਪਣੀਆਂ ਬੈਂਚਮਾਰਕ ਦੇ ਸਭ ਤੋਂ ਮੁਸ਼ਕਲ ਹਿੱਸੇ 'ਤੇ ਕੇਂਦ੍ਰਿਤ ਹਨ, ਪਰ ਇਹ ਇਸਦੇ ਗੁਣਾਤਮਕ ਟੀਚੇ ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਦਰਸਾਉਂਦਾ ਹੈ:

"ਇਹ ਸਵਾਲ ਬਹੁਤ ਚੁਣੌਤੀਪੂਰਨ ਹਨ... ਮੈਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਉਹ ਘੱਟੋ-ਘੱਟ ਅਗਲੇ ਕੁਝ ਸਾਲਾਂ ਲਈ ਏਆਈ ਨੂੰ ਹੱਥ ਮਿਲਾਉਣ ਲਈ ਮਜ਼ਬੂਰ ਕਰਨਗੇ।" - ਟੈਰੇਂਸ ਟਾਓ, 2006 ਫੀਲਡਜ਼ ਮੈਡਲ ਜੇਤੂ।

"ਮੈਂ ਜੋ ਸਵਾਲ ਦੇਖਦਾ ਹਾਂ ਉਹ ਮੇਰੇ ਖੋਜ ਖੇਤਰ ਨਾਲ ਸਬੰਧਤ ਨਹੀਂ ਹਨ, ਅਤੇ ਉਹ ਪੂਰੀ ਤਰ੍ਹਾਂ ਮੇਰੇ ਲਈ ਹੱਲ ਕਰਨ ਵਿੱਚ ਅਸਮਰੱਥ ਲੱਗਦੇ ਹਨ... ਉਹ IMO (ਅੰਤਰਰਾਸ਼ਟਰੀ ਗਣਿਤ ਓਲੰਪਿਕ) ਦੇ ਸਵਾਲਾਂ ਨਾਲੋਂ ਇੱਕ ਪੱਧਰ ਉੱਚੇ ਲੱਗਦੇ ਹਨ।" - ਟਿਮੋਥੀ ਗੋਵਰਜ਼, 2006 ਫੀਲਡਜ਼ ਮੈਡਲ ਜੇਤੂ।

ਇਹ ਬੈਂਚਮਾਰਕ 7 ਨਵੰਬਰ ਨੂੰ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਸੀ ਅਤੇ ਏਆਈ ਸਮਰੱਥਾ ਵਿੱਚ ਕੁਝ ਅਜਿਹੇ ਖੁੱਲ੍ਹੇ ਮੋਰਚਿਆਂ ਵਿੱਚੋਂ ਇੱਕ ਵਜੋਂ ਸੂਚੀਬੱਧ ਕੀਤਾ ਗਿਆ ਹੈ ਜਿਨ੍ਹਾਂ 'ਤੇ ਅਜੇ ਤੱਕ ਕਾਬੂ ਨਹੀਂ ਪਾਇਆ ਗਿਆ ਹੈ। ਇਸ ਰਿਲੀਜ਼ ਨੇ ਓਪਨਏਆਈ ਦੇ ਓ3 ਨੂੰ ਦੋਹਰੇ ਅੰਕ ਪ੍ਰਾਪਤ ਕਰਨ ਵਾਲੇ ਇੱਕੋ ਇੱਕ ਮਾਡਲ ਵਜੋਂ ਸਥਾਪਿਤ ਕੀਤਾ ਹੈ, ਅਤੇ ਇਹ ਸਿੱਧਾ 25% ਤੱਕ ਵਧ ਗਿਆ ਹੈ।

ਦੂਜਾ ਪ੍ਰਮੁੱਖ ਨਤੀਜਾ ਪ੍ਰੋਗਰਾਮਿੰਗ ਦੇ ਖੇਤਰ ਵਿੱਚ ਆਇਆ। ਲਾਈਵਸਟ੍ਰੀਮ ਵਿੱਚ, ਓਪਨਏਆਈ ਨੇ SWE-Bench Verified ਦਾ 71.7% ਸਕੋਰ ਦਿਖਾਇਆ (ਇਹ ਸਕੋਰ ਕੁਝ ਹੱਦ ਤੱਕ ਮੌਜੂਦਾ ਅਤਿ ਆਧੁਨਿਕ ਪੱਧਰ ਹੈ), ਅਤੇ Codeforces (ਇੱਕ ਪ੍ਰੋਗਰਾਮਿੰਗ ਮੁਕਾਬਲੇ ਦੀ ਵੈੱਬਸਾਈਟ) 'ਤੇ ਵਿਆਪਕ ਨਤੀਜੇ ਦਿਖਾਏ।

ਓ3 ਨੇ ਇੱਕ ਅਣਦੱਸੇ N ਮੁੱਲ 'ਤੇ ਸਹਿਮਤੀ ਵੋਟਿੰਗ ਦੁਆਰਾ 2727 ਦਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਇੱਕ ਅੰਤਰਰਾਸ਼ਟਰੀ ਗ੍ਰੈਂਡ ਮਾਸਟਰ ਪੱਧਰ 'ਤੇ ਪਹੁੰਚ ਗਿਆ, ਦੁਨੀਆ ਭਰ ਦੇ ਮਨੁੱਖੀ ਮੁਕਾਬਲੇ ਪ੍ਰੋਗਰਾਮਰਾਂ ਵਿੱਚੋਂ ਲਗਭਗ ਚੋਟੀ ਦੇ 200 ਵਿੱਚ ਹੈ। ਓ3-ਮਿਨੀ ਨੇ ਓ1 ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਜਦੋਂ ਕਿ ਲਾਗਤ ਵਿੱਚ ਕਾਫ਼ੀ ਕਮੀ ਆਈ ਹੈ। 2024 ਵਿੱਚ ਦੇਖੇ ਗਏ ਰੁਝਾਨਾਂ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, ਇਹ ਇੱਕ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਮਾਡਲ ਬਣ ਸਕਦਾ ਹੈ ਜੋ ਇੱਕ ਵਿਆਪਕ ਉਪਭੋਗਤਾ ਅਧਾਰ ਦੁਆਰਾ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਇਸ ਨਾਲ ਓ3 ਲਾਈਵਸਟ੍ਰੀਮ ਵਿੱਚ ਅੰਤਿਮ ਸਫਲਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ ਗਈ - ਏਆਰਸੀ ਏਜੀਆਈ ਚੁਣੌਤੀ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਹੱਲ ਕਰਨਾ।

ਏਆਰਸੀ ਮੁਲਾਂਕਣ ਦਾ ਜਵਾਬ ਦੇਣਾ

ਐਬਸਟਰੈਕਸ਼ਨ ਅਤੇ ਰੀਜ਼ਨਿੰਗ ਕਾਰਪਸ (ARC) ਇੱਕ ਨਕਲੀ ਬੁੱਧੀ ਮੁਲਾਂਕਣ ਵਿਧੀ ਹੈ ਜੋ ਫ੍ਰਾਂਸੋਇਸ ਚੋਲੇਟ ਦੁਆਰਾ ਆਪਣੇ 2019 ਦੇ ਪੇਪਰ "ਆਨ ਦਾ ਮੈਜ਼ਰਮੈਂਟ ਆਫ਼ ਇੰਟੈਲੀਜੈਂਸ" ਵਿੱਚ ਪ੍ਰਸਤਾਵਿਤ ਕੀਤੀ ਗਈ ਹੈ। ਏਆਰਸੀ ਮੁਲਾਂਕਣ ਨੂੰ ਮਨੁੱਖੀ ਬੁੱਧੀ ਦੇ ਮੁਲਾਂਕਣ ਦੇ ਨੇੜੇ ਹੋਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ:

ਅਸੀਂ ਐਲਗੋਰਿਦਮਿਕ ਜਾਣਕਾਰੀ ਸਿਧਾਂਤ 'ਤੇ ਆਧਾਰਿਤ ਬੁੱਧੀ ਦੀ ਇੱਕ ਨਵੀਂ ਰਸਮੀ ਪਰਿਭਾਸ਼ਾ ਪ੍ਰਸਤਾਵਿਤ ਕੀਤੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਬੁੱਧੀ ਨੂੰ ਹੁਨਰ ਪ੍ਰਾਪਤੀ ਕੁਸ਼ਲਤਾ ਵਜੋਂ ਦਰਸਾਇਆ ਗਿਆ ਹੈ, ਅਤੇ ਦਾਇਰੇ, ਸਧਾਰਨਕਰਨ ਮੁਸ਼ਕਲ, ਪੂਰਵ ਗਿਆਨ ਅਤੇ ਅਨੁਭਵ ਦੀਆਂ ਧਾਰਨਾਵਾਂ 'ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ ਗਿਆ ਹੈ। ਇਸ ਪਰਿਭਾਸ਼ਾ ਦੇ ਆਧਾਰ 'ਤੇ, ਅਸੀਂ ਆਮ ਨਕਲੀ ਬੁੱਧੀ ਬੈਂਚਮਾਰਕ ਦੇ ਡਿਜ਼ਾਈਨ ਲਈ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ ਦਾ ਇੱਕ ਸੈੱਟ ਪ੍ਰਸਤਾਵਿਤ ਕੀਤਾ ਹੈ। ਅੰਤ ਵਿੱਚ, ਅਸੀਂ ਇੱਕ ਬੈਂਚਮਾਰਕ ਦਿਖਾਉਂਦੇ ਹਾਂ ਜੋ ਇਹਨਾਂ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਸਖਤੀ ਨਾਲ ਪਾਲਣਾ ਕਰਦਾ ਹੈ - ਐਬਸਟਰੈਕਸ਼ਨ ਅਤੇ ਰੀਜ਼ਨਿੰਗ ਕਾਰਪਸ (ARC), ਜੋ ਕਿ ਪੂਰਵ ਗਿਆਨ ਦੇ ਇੱਕ ਸਪਸ਼ਟ ਸਮੂਹ 'ਤੇ ਬਣਾਇਆ ਗਿਆ ਹੈ, ਜੋ ਕਿ ਮਨੁੱਖਾਂ ਦੇ ਜਮਾਂਦਰੂ ਪੂਰਵ ਗਿਆਨ ਦੇ ਜਿੰਨਾ ਸੰਭਵ ਹੋ ਸਕੇ ਨੇੜੇ ਹੈ। ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਏਆਰਸੀ ਦੀ ਵਰਤੋਂ ਮਨੁੱਖ ਵਰਗੀ ਆਮ ਤਰਲ ਬੁੱਧੀ ਨੂੰ ਮਾਪਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਅਤੇ ਨਕਲੀ ਬੁੱਧੀ ਪ੍ਰਣਾਲੀਆਂ ਅਤੇ ਮਨੁੱਖਾਂ ਵਿਚਕਾਰ ਆਮ ਬੁੱਧੀ ਦੀ ਨਿਰਪੱਖ ਤੁਲਨਾ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।

ਏਆਰਸੀ ਏਜੀਆਈ ਪੁਰਸਕਾਰ ਜੂਨ 2024 ਵਿੱਚ ਸ਼ੁਰੂ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਿਸ ਵਿੱਚ ਇੱਕ ਮਿਲੀਅਨ ਡਾਲਰ ਦਾ ਇਨਾਮ ਪਹਿਲੇ ਹੱਲ ਲਈ ਰੱਖਿਆ ਗਿਆ ਸੀ ਜੋ ਇੱਕ ਖਾਸ ਮਾਪਦੰਡ ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੈ ਅਤੇ ਪ੍ਰਾਈਵੇਟ ਏਆਰਸੀ ਕੰਮਾਂ ਦੇ ਇੱਕ ਸਮੂਹ ਨੂੰ ਹੱਲ ਕਰਦਾ ਹੈ। ਇਸ ਕੰਮ ਨੂੰ "ਹੱਲ" ਕਰਨ ਦੀ ਹੱਦ 85% ਸ਼ੁੱਧਤਾ ਤੱਕ ਪਹੁੰਚਣਾ ਹੈ। ਅੱਜ, ਓਪਨਏਆਈ ਅਤੇ ਏਆਰਸੀ ਪੁਰਸਕਾਰ ਨੇ ਹੇਠਾਂ ਦਿੱਤੇ ਨਤੀਜੇ ਸਾਂਝੇ ਕੀਤੇ ਹਨ:

ਕੀਮਤ ਦੇ x-ਧੁਰੇ 'ਤੇ ਧਿਆਨ ਨਾਲ ਦੇਖੋ, ਅਸੀਂ ਇਸ ਵਿਸ਼ੇ 'ਤੇ ਬਾਅਦ ਵਿੱਚ ਵਾਪਸ ਆਵਾਂਗੇ।

ਓ1 ਵਰਗੇ ਮਾਡਲਾਂ ਤੋਂ ਪਹਿਲਾਂ, ਓਪਨਏਆਈ ਦੇ ਸਰਵੋਤਮ ਮਾਡਲ ਜੀਪੀਟੀ-4ਓ ਨੇ ਸਿਰਫ਼ 5% ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ ਸੀ। ਓਪਨਏਆਈ ਦੁਆਰਾ ਆਪਣੇ ਨਵੇਂ ਤਰਕ ਮਾਡਲ 'ਤੇ ਕੀਤੀ ਗਈ ਤੇਜ਼ ਤਰੱਕੀ ਨੂੰ ਏਆਰਸੀ ਪੁਰਸਕਾਰ ਦੇ ਸਹਿ-ਸੰਸਥਾਪਕ ਮਾਈਕ ਕਨੂਪ ਦੁਆਰਾ ਹੇਠਾਂ ਦਿੱਤੇ ਅਨੁਸਾਰ ਸੰਖੇਪ ਰੂਪ ਵਿੱਚ ਦੱਸਿਆ ਗਿਆ ਹੈ:

  • ਜੀਪੀਟੀ-2 (2019): 0%
  • ਜੀਪੀਟੀ-3 (2020): 0%
  • ਜੀਪੀਟੀ-4 (2023): 2%
  • ਜੀਪੀਟੀ-4ਓ (2024): 5%
  • ਓ1-ਪ੍ਰੀਵਿਊ (2024): 21%
  • ਓ1 ਉੱਚ (2024): 32%
  • ਓ1 ਪ੍ਰੋ (2024): ਲਗਭਗ 50%
  • ਓ3 ਟਿਊਨਡ ਘੱਟ (2024): 76%
  • ਓ3 ਟਿਊਨਡ ਉੱਚ (2024): 87%

ਇਸ ਸਾਲ ਜੂਨ ਵਿੱਚ, ਇਹ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਮੰਨਿਆ ਜਾਂਦਾ ਸੀ ਕਿ ਏਆਰਸੀ-ਏਜੀਆਈ ਨੂੰ ਹੱਲ ਕਰਨਾ ਬਹੁਤ ਮੁਸ਼ਕਲ ਹੋਵੇਗਾ। ਹਾਲਾਂਕਿ, ਸਿਰਫ ਕੁਝ ਮਹੀਨਿਆਂ ਬਾਅਦ, ਇਹ ਧਾਰਨਾ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਾਲ ਉਲਟ ਗਈ। ਇੱਥੋਂ ਤੱਕ ਕਿ ਜਿਨ੍ਹਾਂ ਲੋਕਾਂ ਨੇ ਕਿਊ* ਅਤੇ ਹੋਰ ਤਰਕ ਢੰਗਾਂ ਬਾਰੇ ਆਸ਼ਾਵਾਦੀ ਸੋਚ ਰੱਖੀ ਸੀ, ਉਨ੍ਹਾਂ ਨੇ ਵੀ ਇੰਨੀ ਸਫਲਤਾ ਦੀ ਉਮੀਦ ਨਹੀਂ ਕੀਤੀ ਸੀ।

ਚੋਲੇਟ ਨੇ ਏਆਰਸੀ ਪੁਰਸਕਾਰ ਦੀ ਅਧਿਕਾਰਤ ਵੈੱਬਸਾਈਟ 'ਤੇ ਹੋਰ ਵੇਰਵੇ ਸਾਂਝੇ ਕੀਤੇ:

ਅਸੀਂ ਦੋ ਏਆਰਸੀ-ਏਜੀਆਈ ਡੇਟਾ ਸੈੱਟਾਂ ਨਾਲ ਓ3 ਦੀ ਜਾਂਚ ਕੀਤੀ ਹੈ:

  • ਅਰਧ-ਨਿੱਜੀ ਮੁਲਾਂਕਣ: ਓਵਰਫਿਟਿੰਗ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ 100 ਨਿੱਜੀ ਕੰਮ।
  • ਜਨਤਕ ਮੁਲਾਂਕਣ: ਓਪਨਏਆਈ ਦੀ ਅਗਵਾਈ ਹੇਠ, ਅਸੀਂ ਦੋ ਗਣਨਾ ਪੱਧਰਾਂ 'ਤੇ ਟੈਸਟ ਕੀਤੇ, ਵੱਖ-ਵੱਖ ਨਮੂਨੇ ਦੇ ਆਕਾਰਾਂ ਨਾਲ: 6 (ਕੁਸ਼ਲ ਮੋਡ) ਅਤੇ 1024 (ਘੱਟ ਕੁਸ਼ਲ ਮੋਡ, ਪਹਿਲੇ ਦੇ ਮੁਕਾਬਲੇ 172 ਗੁਣਾ ਵੱਧ ਗਣਨਾ)।

ਹੇਠਾਂ ਟੈਸਟ ਦੇ ਨਤੀਜੇ ਹਨ:

ਨੋਟ: ਓ3 ਉੱਚ ਗਣਨਾ ਲਾਗਤ ਲਈ ਖਾਸ ਡੇਟਾ ਅਜੇ ਜਾਰੀ ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਹੈ, ਕਿਉਂਕਿ ਕੀਮਤ ਅਤੇ ਵਿਸ਼ੇਸ਼ਤਾ ਉਪਲਬਧਤਾ ਅਜੇ ਨਿਰਧਾਰਤ ਕੀਤੀ ਜਾਣੀ ਬਾਕੀ ਹੈ। ਗਣਨਾ ਘੱਟ ਗਣਨਾ ਸੰਰਚਨਾ ਨਾਲੋਂ ਲਗਭਗ 172 ਗੁਣਾ ਵੱਧ ਹੈ।

ਉਦਾਹਰਨ ਲਈ, ਹੇਠਾਂ ਇੱਕ ਅਣਸੁਲਝਿਆ ਸਵਾਲ ਹੈ:

ਬਹੁਤ ਸਾਰੇ ਸਵਾਲ ਮਨੁੱਖਾਂ ਲਈ ਬਹੁਤ ਸਹਿਜ ਹਨ। ਇਹਨਾਂ ਸਵਾਲਾਂ ਨੂੰ ਮਾਡਲ ਵਿੱਚ ਇਨਪੁਟ ਕਰਨ ਲਈ, ਰੰਗਾਂ ਨੂੰ ਸੰਖਿਆਵਾਂ ਵਿੱਚ ਏਨਕੋਡ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਇੱਕ ਗਰਿੱਡ ਦੇ ਰੂਪ ਵਿੱਚ ਪ੍ਰਸੰਗ ਵਜੋਂ ਇਨਪੁਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਗ੍ਰੇਗ ਕਾਮਰਾਡਟ ਦੁਆਰਾ ਉਜਾਗਰ ਕੀਤਾ ਗਿਆ ਹੈ:

ਤਕਨੀਕੀ ਤੌਰ 'ਤੇ, ਇਨਾਮ ਅਜੇ ਤੱਕ ਇਕੱਠਾ ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਹੈ ਕਿਉਂਕਿ ਹੱਲ ਦੀ ਲਾਗਤ ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੋਂ ਵੱਧ ਹੈ ਅਤੇ ਓਪਨ ਸੋਰਸ ਨਹੀਂ ਹੈ। ਮੁਕਾਬਲਾ ਅਜੇ ਜਾਰੀ ਹੈ। ਕੁਝ ਸਾਲਾਂ ਵਿੱਚ, ਇਸ ਕਿਸਮ ਦੀ ਬੁੱਧੀ ਲਗਭਗ ਮੁਫਤ ਹੋ ਜਾਵੇਗੀ। ਮੁਫਤ ਦਾ ਮਤਲਬ ਹੈ, ਤਰਕ ਨੂੰ ਚਲਾਉਣ ਦੀ ਲਾਗਤ ਉਪਭੋਗਤਾ ਵਿਗਿਆਪਨ ਡੇਟਾ ਦੇ ਮੁਦਰਾ ਮੁੱਲ ਤੋਂ ਘੱਟ ਹੋਵੇਗੀ।

ਵਰਤਮਾਨ ਵਿੱਚ, ਏਆਰਸੀ ਪੁਰਸਕਾਰ ਬਲੌਗ ਵਿੱਚ ਹਵਾਲਾ ਦਿੱਤੀ ਗਈ ਓ3 ਦੀ ਕੀਮਤ (ਓਪਨਏਆਈ ਨਾਲ ਗੱਲਬਾਤ ਵਿੱਚ ਓ1 ਦੇ ਮੁਕਾਬਲੇ ਇੱਕ ਅਨੁਸਾਰੀ ਕੀਮਤ ਵਿੱਚ ਬਦਲ ਗਈ ਹੈ) ਓ3 ਤਕਨਾਲੋਜੀ ਦੇ ਕੰਮਕਾਜ ਬਾਰੇ ਬਹੁਤ ਸਾਰੇ ਵੇਰਵੇ ਦਰਸਾਉਂਦੀ ਹੈ।

ਓ3 ਦਾ ਢਾਂਚਾ, ਲਾਗਤ ਅਤੇ ਸਿਖਲਾਈ ਦਾ ਤਰੀਕਾ

ਏਆਰਸੀ ਏਜੀਆਈ ਟੀਮ ਨੇ ਓਪਨਏਆਈ ਨਾਲ ਸਿੱਧਾ ਕੰਮ ਕੀਤਾ ਹੈ ਤਾਂ ਜੋ ਇਸਦੇ ਮਾਡਲ ਲਈ ਕੀਮਤ ਅਨੁਮਾਨ ਪ੍ਰਾਪਤ ਕੀਤੇ ਜਾ ਸਕਣ। ਓ3 ਦੇ ਏਪੀਆਈ ਵਿੱਚ ਅਧਿਕਾਰਤ ਤੌਰ 'ਤੇ ਲਾਈਵ ਹੋਣ ਤੋਂ ਬਾਅਦ ਅੰਤਿਮ ਕੀਮਤ ਵੱਖਰੀ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ। ਤਰਕ ਵਿਸਥਾਰ ਦੇ ਨਿਯਮ ਦੀ ਮਹੱਤਤਾ ਦੇ ਆਧਾਰ 'ਤੇ, ਏਆਰਸੀ-ਏਜੀਆਈ ਟੀਮ ਨੇ ਹੱਲ ਜਮ੍ਹਾਂ ਕਰਾਉਣ ਲਈ ਇੱਕ ਵਾਧੂ ਲੋੜ ਜੋੜੀ ਹੈ। ਉਨ੍ਹਾਂ ਦੇ ਬਲੌਗ ਪੋਸਟ ਵਿੱਚ, ਟੀਮ ਨੇ ਕੁੱਲ ਲਾਗਤ ਅਤੇ ਪ੍ਰਤੀ ਕੰਮ ਦੀ ਲਾਗਤ ਨੂੰ FLOPs ਦੇ ਅਨੁਮਾਨਿਤ ਸੂਚਕ ਜਾਂ ਗਣਨਾ ਸਰੋਤਾਂ ਦੀ ਵਰਤੋਂ ਦੀ ਸਿੱਧੀ ਗਣਨਾ ਵਜੋਂ ਰਿਕਾਰਡ ਕੀਤਾ ਹੈ।

ਇਹ ਏਆਰਸੀ ਪੁਰਸਕਾਰ ਘੋਸ਼ਣਾ ਵਿੱਚ ਜਨਤਕ ਲੀਡਰਬੋਰਡ ਬਾਰੇ ਇੱਕ ਨਿਯਮ ਦੇ ਅਨੁਸਾਰ ਹੈ (ਜੋ ਕਿ $1 ਮਿਲੀਅਨ ਦੇ ਪੁਰਸਕਾਰ ਨਾਲ ਸਬੰਧਤ ਨਹੀਂ ਹੈ):

$10,000 USD 500 ਕੰਮਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਖਰਚ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ (ਜਿਸ ਵਿੱਚ ਜਨਤਕ ਮੁਲਾਂਕਣ ਸੈੱਟ ਵਿੱਚ 400 ਕੰਮ ਅਤੇ ਇੱਕ ਨਵੇਂ ਅਰਧ-ਨਿੱਜੀ ਮੁਲਾਂਕਣ ਸੈੱਟ ਵਿੱਚ 100 ਕੰਮ ਸ਼ਾਮਲ ਹਨ), ਜਿਸ ਵਿੱਚ ਵਪਾਰਕ APIs ਨੂੰ ਕਾਲ ਕਰਨ ਦੀ ਲਾਗਤ ਵੀ ਸ਼ਾਮਲ ਹੈ।

ਜਨਤਕ ਜਾਂ ਅਰਧ-ਜਨਤਕ ਮੁਲਾਂਕਣ ਸੈੱਟ ਵਿੱਚ 500 ਕੰਮਾਂ ਵਿੱਚੋਂ, ਓ3 ਦੀ ਲਾਗਤ ਇਸ ਸੀਮਾ ਤੋਂ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ। ਏਆਰਸੀ ਪੁਰਸਕਾਰ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਓ3 ਦੀ ਪ੍ਰਤੀ ਪੁੱਛਗਿੱਛ ਦੀ ਲਾਗਤ $1,000 ਤੋਂ ਵੱਧ ਹੈ। ਉਨ੍ਹਾਂ ਨੇ ਮਾਡਲ ਦੇ ਸੁਭਾਅ ਬਾਰੇ ਵੀ ਅਨੁਮਾਨ ਲਗਾਇਆ ਹੈ। ਹੇਠਾਂ ਦਿੱਤੀ ਸਮੱਗਰੀ ਦਾ ਉਦੇਸ਼ ਇਸ ਅਟਕਲਾਂ ਨੂੰ ਸ਼ਾਂਤ ਕਰਨਾ ਹੈ ਕਿ ਕੀ ਓ3 ਨੇ ਓ1 ਨਾਲੋਂ ਵੱਖਰੀ ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਹੈ। ਖਾਸ ਤੌਰ 'ਤੇ, ਚੋਲੇਟ ਨੇ ਸਪੱਸ਼ਟ ਤੌਰ 'ਤੇ ਕਿਹਾ ਕਿ ਉਹ ਅਟਕਲਾਂ ਲਗਾ ਰਿਹਾ ਹੈ:

ਵਰਤਮਾਨ ਵਿੱਚ, ਅਸੀਂ ਸਿਰਫ਼ ਓ3 ਦੇ ਖਾਸ ਕੰਮਕਾਜ ਬਾਰੇ ਅਨੁਮਾਨ ਲਗਾ ਸਕਦੇ ਹਾਂ। ਪਰ ਓ3 ਦਾ ਮੁੱਖ ਢੰਗ ਟੋਕਨ ਸਪੇਸ ਵਿੱਚ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਗਰਾਮਾਂ ਦੀ ਖੋਜ ਅਤੇ ਲਾਗੂ ਕਰਨਾ ਜਾਪਦਾ ਹੈ - ਟੈਸਟਿੰਗ ਦੇ ਦੌਰਾਨ, ਮਾਡਲ ਸੰਭਾਵੀ ਵਿਚਾਰਾਂ ਦੀ ਲੜੀ (CoTs) ਸਪੇਸ ਦੀ ਖੋਜ ਕਰਦਾ ਹੈ, ਜੋ ਕੰਮ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਲੋੜੀਂਦੇ ਕਦਮਾਂ ਦਾ ਵਰਣਨ ਕਰਦੇ ਹਨ, ਇਸ ਤਰੀਕੇ ਨਾਲ ਜੋ ਅਲਫ਼ਾਜ਼ੀਰੋ ਸ਼ੈਲੀ ਦੀ ਮੋਂਟੇ ਕਾਰਲੋ ਟ੍ਰੀ ਖੋਜ ਦੇ ਸਮਾਨ ਹੋ ਸਕਦਾ ਹੈ। ਓ3 ਦੇ ਮਾਮਲੇ ਵਿੱਚ, ਖੋਜ ਇੱਕ ਕਿਸਮ ਦੇ ਮੁਲਾਂਕਣ ਮਾਡਲ ਦੁਆਰਾ ਨਿਰਦੇਸ਼ਿਤ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।

ਇੱਕ ਵਾਰ ਫਿਰ, MCTS (ਮੋਂਟੇ ਕਾਰਲੋ ਟ੍ਰੀ ਖੋਜ) ਦਾ ਹਵਾਲਾ ਅਤੇ ਅਨੁਮਾਨ ਗੁੰਮਰਾਹਕੁੰਨ ਹਨ, ਪਰ ਸਮਝਣ ਯੋਗ ਹਨ, ਕਿਉਂਕਿ ਬਹੁਤ ਸਾਰੇ ਸਮਝਦਾਰ ਲੋਕ ਓ1 ਅਤੇ ਓ3 ਦੀ ਸਿਰਫ਼ ਇੱਕ ਸਿੰਗਲ ਭਾਸ਼ਾ ਮਾਡਲ ਦੇ ਅੱਗੇ ਜਾਣ ਨਾਲ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਤੋਂ ਹੈਰਾਨ ਹਨ।

ਮੇਰੇ ਹਾਲ ਹੀ ਦੇ ਇੱਕ ਲੇਖ ਵਿੱਚ ਦੱਸਿਆ ਗਿਆ ਹੈ ਕਿ ਇਹ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਮਜ਼ਬੂਤ ਸਿਖਲਾਈ ਦੁਆਰਾ ਕਿਵੇਂ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਇਹ ਦੱਸਦਾ ਹੈ ਕਿ ਓਪਨਏਆਈ ਦੇ ਕੁਝ ਗ੍ਰਾਫ ਤਰਕ ਪੜਾਅ ਵਿੱਚ ਗਣਨਾ ਲਾਗਤ ਦੇ ਹਿਸਾਬ ਨਾਲ ਗੁੰਮਰਾਹਕੁੰਨ ਕਿਉਂ ਹਨ। ਓਪਨਏਆਈ ਦੇ ਕਰਮਚਾਰੀਆਂ ਨੇ ਇਹ ਵੀ ਜ਼ੋਰ ਦਿੱਤਾ ਕਿ ਓ3 "ਸਿਰਫ਼ ਇੱਕ ਮਾਡਲ ਹੈ ਜੋ ਮਜ਼ਬੂਤ ਸਿਖਲਾਈ ਦੁਆਰਾ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਹੈ।"

ਇਸਦੇ ਬਾਵਜੂਦ, ਅਸੀਂ ਏਆਰਸੀ ਟੀਮ ਦੁਆਰਾ ਰਿਕਾਰਡ ਕੀਤੀ ਲਾਗਤ 'ਤੇ ਅਧਾਰਤ ਇੱਕ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਦੇ ਹਾਂ, ਓਪਨਏਆਈ ਦੁਆਰਾ ਓ1 ਦੀ ਕੀਮਤ (60.00/ਮਿਲੀਅਨਆਉਟਪੁੱਟਟੋਕਨ)ਨੂੰਜੋੜਦੇਹੋਏ।ਏਆਰਸੀਪੁਰਸਕਾਰਦੇਨਤੀਜੇਗ੍ਰਾਫਦੇਅਨੁਸਾਰ,ਪੂਰੇਓ3ਦੀਪ੍ਰਤੀਪੁੱਛਗਿੱਛਦੀਲਾਗਤਲਗਭਗ60.00/ਮਿਲੀਅਨ ਆਉਟਪੁੱਟ ਟੋਕਨ) ਨੂੰ ਜੋੜਦੇ ਹੋਏ। ਏਆਰਸੀ ਪੁਰਸਕਾਰ ਦੇ ਨਤੀਜੇ ਗ੍ਰਾਫ ਦੇ ਅਨੁਸਾਰ, ਪੂਰੇ ਓ3 ਦੀ ਪ੍ਰਤੀ ਪੁੱਛਗਿੱਛ ਦੀ ਲਾਗਤ ਲਗਭਗ 5000 ਹੈ। ਕੁੱਲ ਲਾਗਤ ਨੂੰ ਪ੍ਰਤੀ ਟੋਕਨ ਦੀ ਕੀਮਤ ਨਾਲ ਵੰਡਣ ਨਾਲ, ਨਤੀਜਾ ਇਹ ਨਿਕਲਦਾ ਹੈ ਕਿ ਮਾਡਲ ਹਰ ਜਵਾਬ ਵਿੱਚ 80 ਮਿਲੀਅਨ ਟੋਕਨ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਲੰਬੇ ਪ੍ਰਸੰਗ ਮਾਡਲਾਂ ਵਿੱਚ ਬਹੁਤ ਵੱਡੇ ਸੁਧਾਰ ਤੋਂ ਬਿਨਾਂ ਅਸੰਭਵ ਹੈ। ਇਸ ਲਈ, ਵੱਖ-ਵੱਖ ਖੋਜ ਆਰਕੀਟੈਕਚਰ ਬਾਰੇ ਅਟਕਲਾਂ ਪੈਦਾ ਹੁੰਦੀਆਂ ਹਨ।

ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਏਆਰਸੀ ਪੁਰਸਕਾਰ ਬਲੌਗ ਪੋਸਟ ਦੇ ਕੁਝ ਵੇਰਵੇ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਇਹ ਜ਼ਿਕਰ ਕੀਤਾ ਗਿਆ ਹੈ:

ਓਪਨਏਆਈ ਦੀ ਅਗਵਾਈ ਹੇਠ, ਅਸੀਂ ਦੋ ਗਣਨਾ ਪੱਧਰਾਂ 'ਤੇ ਟੈਸਟ ਕੀਤੇ, ਵੱਖ-ਵੱਖ ਨਮੂਨੇ ਦੇ ਆਕਾਰਾਂ ਨਾਲ: 6 (ਕੁਸ਼ਲ ਮੋਡ) ਅਤੇ 1024 (ਘੱਟ ਕੁਸ਼ਲ ਮੋਡ, ਪਹਿਲੇ ਦੇ ਮੁਕਾਬਲੇ 172 ਗੁਣਾ ਵੱਧ ਗਣਨਾ)।

ਸੈਮੀਐਨਾਲਿਸਿਸ ਦੇ ਅਨੁਸਾਰ, ਓ1 ਪ੍ਰੋ ਸਵੈ-ਸਥਿਰਤਾ ਵਿਧੀ ਜਾਂ ਸਧਾਰਨ ਸਹਿਮਤੀ@N ਜਾਂਚਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਇੱਕੋ ਪੁੱਛਗਿੱਛ ਦੇ ਕਈ ਸਮਾਨਾਂਤਰ ਜਵਾਬਾਂ ਵਿੱਚੋਂ ਸਭ ਤੋਂ ਆਮ ਜਵਾਬ ਚੁਣ ਕੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ। ਇੱਥੇ, ਨਮੂਨੇ ਦਾ ਆਕਾਰ N ਸਹਿਮਤੀ@N ਦੇ ਮੁੱਲ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੋ ਸਕਦਾ ਹੈ, ਇਹ ਸੁਝਾਉਂਦਾ ਹੈ ਕਿ ਓ3 ਦਾ ਮੁਲਾਂਕਣ ਸੰਰਚਨਾ ਉਹਨਾਂ ਸੰਰਚਨਾਵਾਂ ਦੇ ਨੇੜੇ ਹੈ ਜੋ ਗਾਹਕ ਓ1 ਪ੍ਰੋ ਸੰਰਚਨਾ ਨਾਲ ਵਰਤ ਸਕਦੇ ਹਨ, ਜੋ ਕਿ 6 ਗੁਣਾ ਗਣਨਾ ਹੈ, ਅਤੇ ਪ੍ਰਤੀ ਸਵਾਲ 1024 ਗੁਣਾ ਗਣਨਾ ਦੀ ਇੱਕ ਬਹੁਤ ਉੱਚ ਸੰਰਚਨਾ ਹੈ।

ਇਹ ਤਰਕ ਦਾ ਪੈਮਾਨਾ ਲੰਬੇ ਸਮੇਂ ਤੱਕ ਆਮ ਭੁਗਤਾਨ ਕਰਨ ਵਾਲੇ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਉਪਲਬਧ ਨਹੀਂ ਹੋਵੇਗਾ। ਜ਼ਿਆਦਾਤਰ ਉਪਭੋਗਤਾ ਸਿਰਫ਼ ਇੱਕ ਵਾਰ ਇੱਕ ਸਹਿਮਤੀ@10 ਨਤੀਜੇ ਤੱਕ ਪਹੁੰਚ ਕਰਨਗੇ, ਜੋ ਕਿ ਓ1 ਮਾਡਲ ਦੇ "ਪ੍ਰੋਫੈਸ਼ਨਲ" ਸੰਸਕਰਣ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ।

ਇਹ ਮੰਨ ਕੇ ਕਿ ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਆਉਟਪੁੱਟ ਟੋਕਨ ਦੀ ਕੀਮਤ $60 ਰਹਿੰਦੀ ਹੈ, ਇਸਨੂੰ 1024 ਸਟ੍ਰੀਮਾਂ ਨਾਲ ਵੰਡਣ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਪ੍ਰਤੀ ਜਵਾਬ ਲਗਭਗ 78,000 ਟੋਕਨ ਤਿਆਰ ਕਰਦਾ ਹੈ। ਅਸਲ ਵਿੱਚ, ਓ3 ਵੀ ਇੱਕ ਵੱਡੇ ਬੇਸ ਮਾਡਲ ਤੋਂ ਲਾਭ ਪ੍ਰਾਪਤ ਕਰਦਾ ਜਾਪਦਾ ਹੈ, ਕਿਉਂਕਿ ਓਪਨਏਆਈ ਦੁਆਰਾ ਲਾਈਵਸਟ੍ਰੀਮ ਵਿੱਚ ਦਿਖਾਏ ਗਏ ਸਾਰੇ ਲਘੂਗਣਕ ਗਣਨਾ ਵਾਲੇ x-ਧੁਰੇ ਤੋਂ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਓ1 ਦੀ ਗਣਨਾ ਲਾਗਤ ਵਿੱਚ ਕਾਫ਼ੀ ਵਾਧਾ ਹੋਇਆ ਹੈ। ਵੱਡੇ ਬੇਸ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਇਹ ਅੰਕੜੇ ਪੂਰੀ ਤਰ੍ਹਾਂ ਵਾਜਬ ਹਨ ਅਤੇ ਕਿਸੇ ਵਾਧੂ "ਖੋਜ" ਤੱਤ ਨੂੰ ਜੋੜਨ ਦਾ ਸੰਕੇਤ ਨਹੀਂ ਦਿੰਦੇ ਹਨ।

ਹਾਲ ਹੀ ਦੇ ਸਾਲਾਂ ਵਿੱਚ ਡੂੰਘੀ ਸਿਖਲਾਈ ਦੀ ਤਰੱਕੀ ਨੂੰ ਚਲਾਉਣ ਵਾਲੀ ਮੁੱਖ ਕਹਾਣੀ ਇੱਕ ਸੰਭਾਵੀ ਤੌਰ 'ਤੇ ਅਮੀਰ ਖੇਤਰ ਨੂੰ ਲੱਭਣਾ ਅਤੇ ਇਸ 'ਤੇ ਲਗਾਤਾਰ ਚੜ੍ਹਨਾ ਹੈ। ਪਹਿਲੀ ਲਹਿਰ ਇੰਟਰਨੈੱਟ-ਪੈਮਾਨੇ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਤੋਂ ਆਈ ਹੈ। ਹੁਣ, ਓਪਨਏਆਈ ਨੇ ਮਜ਼ਬੂਤ ਸਿਖਲਾਈ ਸਿਖਲਾਈ ਅਤੇ ਲੰਬੇ ਪ੍ਰਸੰਗ ਤਰਕ ਨੂੰ ਵਧਾ ਕੇ ਚੜ੍ਹਨ ਲਈ ਇੱਕ ਨਵਾਂ ਦਿਸ਼ਾ ਲੱਭਿਆ ਹੈ। ਇਹ ਦੇਖਦੇ ਹੋਏ ਕਿ ਓ3 ਓਪਨਏਆਈ ਦੁਆਰਾ ਓ1 ਜਾਰੀ ਕਰਨ ਤੋਂ