Published on

ਸਟੈਨਫੋਰਡ-ਸਟੱਡੀ-ਚੈਟਜੀਪੀਟੀ-ਪ੍ਰਦਰਸ਼ਨ-ਤਜਰਬਾ-ਘਟਿਆ

ਲੇਖਕ
  • avatar
    ਨਾਮ
    Ajax
    Twitter

ਸਟੈਨਫੋਰਡ ਅਤੇ ਯੂਸੀ ਬਰਕਲੇ ਦੁਆਰਾ ChatGPT ਪ੍ਰਦਰਸ਼ਨ 'ਤੇ ਅਧਿਐਨ

ਹਾਰਵਰਡ ਡਾਟਾ ਸਾਇੰਸ ਰਿਵਿਊ ਵਿੱਚ ਪ੍ਰਕਾਸ਼ਿਤ ਇੱਕ ਤਾਜ਼ਾ ਪੇਪਰ, ਜਿਸਦਾ ਸਿਰਲੇਖ ਹੈ 'ChatGPT Behavior Over Time', ਸਟੈਨਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਅਤੇ ਕੈਲੀਫੋਰਨੀਆ ਯੂਨੀਵਰਸਿਟੀ, ਬਰਕਲੇ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਦੁਆਰਾ, ਨੇ ਤਿੰਨ ਮਹੀਨਿਆਂ ਦੀ ਮਿਆਦ ਵਿੱਚ GPT-3.5 ਅਤੇ GPT-4 ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਵਿਵਹਾਰ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਉਤਰਾਅ-ਚੜ੍ਹਾਅ ਦਾ ਖੁਲਾਸਾ ਕੀਤਾ ਹੈ। ਅਧਿਐਨ ਨੇ ਇਹਨਾਂ ਮਾਡਲਾਂ ਦੀ ਸੱਤ ਕਾਰਜਾਂ ਵਿੱਚ ਜਾਂਚ ਕੀਤੀ, ਜਿਸ ਵਿੱਚ ਗਣਿਤਿਕ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨਾ, ਕੋਡ ਜਨਰੇਸ਼ਨ, ਮਲਟੀ-ਹੌਪ ਗਿਆਨ-ਅਧਾਰਿਤ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣਾ, ਯੂਐਸ ਮੈਡੀਕਲ ਲਾਇਸੈਂਸਿੰਗ ਪ੍ਰੀਖਿਆ, ਅਤੇ ਮਲਟੀ-ਹੌਪ ਗਿਆਨ-ਅਧਾਰਿਤ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣਾ ਸ਼ਾਮਲ ਹੈ।

ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਉਤਰਾਅ-ਚੜ੍ਹਾਅ

ਖੋਜ ਨੇ ਤਿੰਨ ਮਹੀਨਿਆਂ ਦੇ ਅੰਦਰ GPT-3.5 ਅਤੇ GPT-4 ਦੋਵਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਧਿਆਨ ਦੇਣ ਯੋਗ ਪਰਿਵਰਤਨ ਦਰਸਾਏ। ਖਾਸ ਤੌਰ 'ਤੇ, ਪ੍ਰਾਇਮ ਬਨਾਮ ਸੰਯੁਕਤ ਸੰਖਿਆਵਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ GPT-4 ਦੀ ਸ਼ੁੱਧਤਾ ਮਾਰਚ ਵਿੱਚ 84% ਤੋਂ ਘਟ ਕੇ ਜੂਨ ਵਿੱਚ 51% ਹੋ ਗਈ। ਇਹ ਗਿਰਾਵਟ ਅੰਸ਼ਕ ਤੌਰ 'ਤੇ "ਚੇਨ ਆਫ ਥਾਟ" ਪ੍ਰੋਂਪਟਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ਵਿੱਚ ਕਮਜ਼ੋਰੀ ਕਾਰਨ ਸੀ। ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ, GPT-3.5 ਨੇ ਇਸ ਖਾਸ ਕੰਮ ਵਿੱਚ ਇਸੇ ਮਿਆਦ ਦੌਰਾਨ ਸੁਧਾਰ ਦਿਖਾਇਆ।

ਹੋਰ ਧਿਆਨ ਦੇਣ ਯੋਗ ਬਦਲਾਵਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ਜੂਨ ਵਿੱਚ GPT-4 ਦੀ ਸੰਵੇਦਨਸ਼ੀਲ ਸਵਾਲਾਂ ਅਤੇ ਰਾਏ ਸਰਵੇਖਣਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਦੀ ਇੱਛਾ ਵਿੱਚ ਕਮੀ।
  • GPT-4 ਦੀ ਬਹੁ-ਪੜਾਵੀ ਤਰਕ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਸੁਧਾਰ, ਜਦੋਂ ਕਿ GPT-3.5 ਨੇ ਅਜਿਹੇ ਕੰਮਾਂ ਵਿੱਚ ਗਿਰਾਵਟ ਦਰਸਾਈ।
  • ਦੋਵਾਂ ਮਾਡਲਾਂ ਲਈ ਕੋਡ ਜਨਰੇਸ਼ਨ ਵਿੱਚ ਫਾਰਮੈਟਿੰਗ ਦੀਆਂ ਗਲਤੀਆਂ ਵਿੱਚ ਵਾਧਾ।
  • GPT-4 ਦੀ ਉਪਭੋਗਤਾ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਗਿਰਾਵਟ।

ਮੁਲਾਂਕਣ ਵਿਧੀ

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਵਿਭਿੰਨਤਾ ਅਤੇ ਪ੍ਰਤੀਨਿਧਤਾ ਦੇ ਸਿਧਾਂਤਾਂ ਦੇ ਆਧਾਰ 'ਤੇ GPT-3.5 ਅਤੇ GPT-4 ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ। ਟੈਸਟ ਸੱਤ ਮੁੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਕਰਵਾਏ ਗਏ:

  • ਗਣਿਤਿਕ ਸਮੱਸਿਆਵਾਂ
  • ਸੰਵੇਦਨਸ਼ੀਲ/ਖਤਰਨਾਕ ਮੁੱਦੇ
  • ਰਾਏ ਸਰਵੇਖਣ
  • ਮਲਟੀ-ਹੌਪ ਗਿਆਨ-ਅਧਾਰਿਤ ਸਵਾਲ
  • ਕੋਡ ਜਨਰੇਸ਼ਨ
  • ਯੂਐਸ ਮੈਡੀਕਲ ਲਾਇਸੈਂਸਿੰਗ ਪ੍ਰੀਖਿਆ
  • ਵਿਜ਼ੂਅਲ ਤਰਕ

ਵਿਵਹਾਰ ਸੰਬੰਧੀ ਤਬਦੀਲੀਆਂ ਨੂੰ ਬਿਹਤਰ ਢੰਗ ਨਾਲ ਸਮਝਣ ਲਈ, ਟੀਮ ਨੇ ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ ਤਿਆਰ ਕੀਤਾ ਜੋ ਕਾਰਜ-ਸੁਤੰਤਰ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ 'ਤੇ ਕੇਂਦ੍ਰਿਤ ਸੀ। ਇਸ ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਚਾਰ ਕਿਸਮਾਂ ਦੇ ਆਮ ਨਿਰਦੇਸ਼ ਸ਼ਾਮਲ ਸਨ: ਜਵਾਬ ਕੱਢਣਾ, ਮੁਆਫੀ ਮੰਗਣਾ ਬੰਦ ਕਰਨਾ, ਖਾਸ ਸ਼ਬਦਾਂ ਤੋਂ ਬਚਣਾ, ਅਤੇ ਸਮੱਗਰੀ ਫਿਲਟਰਿੰਗ।

ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ

ਇਹਨਾਂ ਟੈਸਟਾਂ ਦੀ ਲੜੀ ਨੂੰ ਖਾਸ ਹੁਨਰਾਂ ਜਾਂ ਗਿਆਨ ਤੋਂ ਸੁਤੰਤਰ ਤੌਰ 'ਤੇ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਮਾਡਲਾਂ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ। ਮਾਰਚ ਵਿੱਚ, GPT-4 ਜ਼ਿਆਦਾਤਰ ਵਿਅਕਤੀਗਤ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਪਾਲਣਾ ਕਰਨ ਦੇ ਯੋਗ ਸੀ, ਪਰ ਜੂਨ ਤੱਕ ਇਸਨੇ ਉਹਨਾਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤਾ। ਉਦਾਹਰਣ ਵਜੋਂ, ਜਵਾਬ ਕੱਢਣ ਦੇ ਨਿਰਦੇਸ਼ਾਂ ਲਈ ਪਾਲਣਾ ਦਰ 99.5% ਤੋਂ ਘਟ ਕੇ ਲਗਭਗ ਜ਼ੀਰੋ ਹੋ ਗਈ। ਸਮੱਗਰੀ ਫਿਲਟਰਿੰਗ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਵਫ਼ਾਦਾਰੀ ਵੀ 74.0% ਤੋਂ ਘਟ ਕੇ 19.0% ਹੋ ਗਈ।

ਕਾਰਗੁਜ਼ਾਰੀ ਮੈਟ੍ਰਿਕਸ

ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਹਾਸਲ ਕਰਨ ਲਈ, ਟੀਮ ਨੇ ਹਰੇਕ ਕਾਰਜ ਲਈ ਪ੍ਰਾਇਮਰੀ ਅਤੇ ਪੂਰਕ ਪ੍ਰਦਰਸ਼ਨ ਮੈਟ੍ਰਿਕਸ ਸਥਾਪਿਤ ਕੀਤੇ। ਉਦਾਹਰਣ ਲਈ:

  • ਗਣਿਤ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਅਤੇ USMLE ਲਈ ਸ਼ੁੱਧਤਾ ਨੂੰ ਪ੍ਰਾਇਮਰੀ ਮੈਟ੍ਰਿਕ ਵਜੋਂ ਵਰਤਿਆ ਗਿਆ ਸੀ।
  • ਕੋਡ ਜਨਰੇਸ਼ਨ ਲਈ ਐਗਜ਼ੀਕਿਊਟੇਬਲ ਆਉਟਪੁੱਟ ਕੋਡ ਦਾ ਅਨੁਪਾਤ ਪ੍ਰਾਇਮਰੀ ਮੈਟ੍ਰਿਕ ਸੀ।

ਚਾਰ ਨਿਰਦੇਸ਼ ਕਿਸਮਾਂ ਵਿੱਚ ChatGPT ਦਾ ਪ੍ਰਦਰਸ਼ਨ

ਜਵਾਬ ਕੱਢਣਾ

ਇਸ ਨਿਰਦੇਸ਼ ਲਈ ਮਾਡਲ ਨੂੰ ਦਿੱਤੇ ਗਏ ਟੈਕਸਟ ਜਾਂ ਸਵਾਲ ਦੇ ਅੰਦਰ ਜਵਾਬ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਲੱਭਣ ਅਤੇ ਸਪਸ਼ਟ ਰੂਪ ਵਿੱਚ ਪਛਾਣਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। GPT-4 ਨੇ ਮਾਰਚ ਵਿੱਚ ਇਸ ਕਿਸਮ ਦੇ ਨਿਰਦੇਸ਼ ਦੀ ਉੱਚ ਪਾਲਣਾ ਦਿਖਾਈ, ਜਿਸ ਵਿੱਚ ਲਗਭਗ 99.5% ਪੁੱਛਗਿੱਛਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਫਾਰਮੈਟ ਕੀਤੇ ਜਵਾਬ ਪ੍ਰਾਪਤ ਹੋਏ। ਹਾਲਾਂਕਿ, ਜੂਨ ਤੱਕ, ਇਹ ਦਰ ਘਟ ਗਈ, ਜੋ ਕਿ ਸਪਸ਼ਟ ਨਿਰਦੇਸ਼ ਫਾਰਮੈਟਾਂ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਮਾਡਲ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਗਿਰਾਵਟ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ।

ਮੁਆਫੀ ਮੰਗਣੀ ਬੰਦ ਕਰੋ

ਇਹ ਨਿਰਦੇਸ਼ ਮਾਡਲ ਦੀ ਮੁਆਫੀ ਦੀ ਵਰਤੋਂ ਕਰਨ ਜਾਂ ਆਪਣੇ ਆਪ ਨੂੰ ਇੱਕ AI ਵਜੋਂ ਪਛਾਣਨ ਤੋਂ ਬਚਣ ਦੀ ਯੋਗਤਾ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ ਜਦੋਂ ਖਾਸ ਤੌਰ 'ਤੇ ਅਜਿਹਾ ਨਾ ਕਰਨ ਲਈ ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਮਾਰਚ ਵਿੱਚ, GPT-4 ਨੇ ਆਮ ਤੌਰ 'ਤੇ ਇਸ ਨਿਰਦੇਸ਼ ਦੀ ਪਾਲਣਾ ਕੀਤੀ, ਪਰ ਜੂਨ ਤੱਕ, ਇਸਨੇ ਅਕਸਰ ਇਸਦੀ ਉਲੰਘਣਾ ਕੀਤੀ, ਭਾਵੇਂ ਖਾਸ ਤੌਰ 'ਤੇ ਨਿਰਦੇਸ਼ ਦਿੱਤੇ ਗਏ ਸਨ।

ਖਾਸ ਸ਼ਬਦਾਂ ਤੋਂ ਬਚੋ

ਇਹ ਨਿਰਦੇਸ਼ ਮਾਡਲ ਦੀ ਲਚਕਤਾ ਅਤੇ ਵੇਰਵਿਆਂ ਵੱਲ ਧਿਆਨ ਦੇਣ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਖਾਸ ਰੁਕਾਵਟਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਵਿੱਚ। ਮਾਰਚ ਤੋਂ ਜੂਨ ਤੱਕ ਗਿਰਾਵਟ GPT-4 ਦੀ ਗੁੰਝਲਦਾਰ ਨਿਰਦੇਸ਼ਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਕਮੀ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ।

ਸਮੱਗਰੀ ਫਿਲਟਰਿੰਗ

ਇਸ ਨਿਰਦੇਸ਼ ਲਈ ਮਾਡਲ ਨੂੰ ਖਾਸ ਵਿਸ਼ਿਆਂ ਜਾਂ ਸੰਵੇਦਨਸ਼ੀਲ ਜਾਣਕਾਰੀ ਨੂੰ ਬਾਹਰ ਕੱਢਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਮਾਰਚ ਵਿੱਚ, GPT-4 ਨੇ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਇਹਨਾਂ ਫਿਲਟਰਿੰਗ ਲੋੜਾਂ ਦੀ ਪਾਲਣਾ ਕੀਤੀ, ਪਰ ਜੂਨ ਤੱਕ, ਇਸਦੀ ਫਿਲਟਰਿੰਗ ਸਮਰੱਥਾ ਵਿੱਚ ਕਾਫ਼ੀ ਕਮੀ ਆਈ, ਸਿਰਫ 19% ਸੰਵੇਦਨਸ਼ੀਲ ਮੁੱਦਿਆਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਸੰਭਾਲਿਆ ਗਿਆ।

ਖੋਜ ਦੇ ਪ੍ਰਭਾਵ

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ ਕਿਉਂਕਿ GPT-3.5 ਅਤੇ GPT-4 ਬੰਦ-ਸਰੋਤ ਮਾਡਲ ਹਨ, OpenAI ਆਪਣੇ ਸਿਖਲਾਈ ਡੇਟਾ ਅਤੇ ਪ੍ਰਕਿਰਿਆਵਾਂ ਦਾ ਖੁਲਾਸਾ ਨਹੀਂ ਕਰਦਾ ਹੈ। ਪਾਰਦਰਸ਼ਤਾ ਦੀ ਇਸ ਘਾਟ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਅਕਸਰ ਹਰੇਕ ਵੱਡੇ ਅਪਡੇਟ ਨਾਲ ਹੋਣ ਵਾਲੇ ਬਦਲਾਵਾਂ ਬਾਰੇ ਜਾਣਕਾਰੀ ਨਹੀਂ ਹੁੰਦੀ। ਇਹ ਅਧਿਐਨ ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ChatGPT ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਵਿਵਹਾਰ ਸੰਬੰਧੀ ਗਤੀਸ਼ੀਲਤਾ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ, ਜੋ ਕਿ ਮਾਡਲ ਦੀ ਸੁਰੱਖਿਆ ਅਤੇ ਸਮੱਗਰੀ ਦੀ ਪ੍ਰਮਾਣਿਕਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਇਹ ਅਧਿਐਨ ਖਾਸ ਤੌਰ 'ਤੇ ਤੇਜ਼ੀ ਨਾਲ ਵਿਕਾਸਸ਼ੀਲ ਵਾਤਾਵਰਣਾਂ ਵਿੱਚ ਇਹਨਾਂ ਮਾਡਲਾਂ ਦੀ ਇਕਸਾਰਤਾ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਦੀਆਂ ਚੁਣੌਤੀਆਂ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ।