- Published on
ਓਪਨਏਆਈ ਮਾਡਲ ਪੈਰਾਮੀਟਰ ਲੀਕ: ਮਾਈਕ੍ਰੋਸਾਫਟ ਪੇਪਰ ਨੇ GPT4o ਦਾ ਆਕਾਰ ਪ੍ਰਗਟ ਕੀਤਾ
ਓਪਨਏਆਈ ਮਾਡਲ ਪੈਰਾਮੀਟਰ ਲੀਕ: ਮਾਈਕ੍ਰੋਸਾਫਟ ਪੇਪਰ ਨੇ GPT4o ਦਾ ਆਕਾਰ ਪ੍ਰਗਟ ਕੀਤਾ
ਤਕਨਾਲੋਜੀ ਦੀ ਦੁਨੀਆ ਵਿੱਚ, ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ (LLMs) ਦੇ ਪੈਰਾਮੀਟਰ ਆਕਾਰ ਬਾਰੇ ਜਾਣਕਾਰੀ ਨੂੰ ਗੁਪਤ ਰੱਖਿਆ ਜਾਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਮਾਈਕ੍ਰੋਸਾਫਟ ਅਤੇ ਵਾਸ਼ਿੰਗਟਨ ਯੂਨੀਵਰਸਿਟੀ ਦੀ ਟੀਮ ਦੁਆਰਾ ਸਾਂਝੇ ਤੌਰ 'ਤੇ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤੇ ਗਏ ਇੱਕ ਮੈਡੀਕਲ ਖੋਜ ਪੱਤਰ ਨੇ ਅਚਾਨਕ ਓਪਨਏਆਈ ਦੇ ਕਈ ਮਾਡਲਾਂ ਦੇ ਪੈਰਾਮੀਟਰਾਂ ਬਾਰੇ ਜਾਣਕਾਰੀ ਪ੍ਰਗਟ ਕੀਤੀ ਹੈ, ਜਿਸ ਨੇ ਵਿਆਪਕ ਧਿਆਨ ਖਿੱਚਿਆ ਹੈ।
ਪੈਰਾਮੀਟਰਾਂ ਦਾ ਖੁਲਾਸਾ
ਇਸ ਖੋਜ ਪੱਤਰ ਵਿੱਚ ਪ੍ਰਗਟ ਕੀਤੀ ਗਈ ਮੁੱਖ ਜਾਣਕਾਰੀ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- GPT-4: ਲਗਭਗ 1.76 ਟ੍ਰਿਲੀਅਨ ਪੈਰਾਮੀਟਰ
- GPT-4o: ਲਗਭਗ 200 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ
- GPT-4o mini: ਲਗਭਗ 8 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ
- o1-preview: ਲਗਭਗ 300 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ
- o1-mini: ਲਗਭਗ 100 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ
- Claude 3.5 Sonnet: ਲਗਭਗ 175 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ
ਇਹ ਧਿਆਨ ਦੇਣ ਯੋਗ ਹੈ ਕਿ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਦੱਸਿਆ ਹੈ ਕਿ ਇਹ ਸਾਰੇ ਪੈਰਾਮੀਟਰ ਅਨੁਮਾਨਿਤ ਹਨ।
GPT-4o ਲੜੀ ਦੇ ਪੈਰਾਮੀਟਰਾਂ ਬਾਰੇ ਬਹਿਸ
ਇਹ ਹੈਰਾਨੀ ਵਾਲੀ ਗੱਲ ਹੈ ਕਿ GPT-4o ਲੜੀ ਦੇ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਗਿਣਤੀ ਉਮੀਦ ਨਾਲੋਂ ਬਹੁਤ ਘੱਟ ਹੈ, ਖਾਸ ਕਰਕੇ ਮਿਨੀ ਸੰਸਕਰਣ ਵਿੱਚ ਸਿਰਫ 8 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਹਨ। ਕਈ ਇੰਟਰਨੈਟ ਉਪਭੋਗਤਾਵਾਂ ਨੇ ਅੰਦਾਜ਼ਾ ਲਗਾਇਆ ਹੈ ਕਿ GPT-4o ਮਿਨੀ ਇੱਕ ਮਿਕਸਡ ਐਕਸਪਰਟ ਮਾਡਲ (MoE) ਆਰਕੀਟੈਕਚਰ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਅਸਲ ਕਿਰਿਆਸ਼ੀਲ ਪੈਰਾਮੀਟਰ 8 ਬਿਲੀਅਨ ਹਨ, ਪਰ ਮਾਡਲ ਦੇ ਸਮੁੱਚੇ ਪੈਰਾਮੀਟਰ 400 ਬਿਲੀਅਨ ਤੱਕ ਪਹੁੰਚ ਸਕਦੇ ਹਨ। ਇਹ ਆਰਕੀਟੈਕਚਰ ਇੱਕ ਛੋਟੇ ਮਾਡਲ ਨੂੰ ਵਧੇਰੇ ਜਾਣਕਾਰੀ ਸਿੱਖਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਚੱਲਣ ਦੀ ਗਤੀ ਨੂੰ ਵੀ ਬਰਕਰਾਰ ਰੱਖਦਾ ਹੈ।
Claude 3.5 Sonnet ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਤੁਲਨਾ
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਕੁਝ ਟਿੱਪਣੀਆਂ ਵਿੱਚ ਇਹ ਕਿਹਾ ਗਿਆ ਹੈ ਕਿ Claude 3.5 Sonnet ਦੇ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਗਿਣਤੀ GPT-3 davinci ਦੇ ਬਰਾਬਰ ਹੈ, ਜਿਸ ਨੇ ਵੱਖ-ਵੱਖ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਅਤੇ ਆਕਾਰ ਦੇ ਵਿਚਕਾਰ ਸਬੰਧਾਂ ਬਾਰੇ ਹੋਰ ਵਿਚਾਰ ਪੈਦਾ ਕੀਤੇ ਹਨ।
MEDEC ਬੈਂਚਮਾਰਕ: ਮੈਡੀਕਲ ਗਲਤੀ ਖੋਜ ਦਾ ਨਵਾਂ ਮਾਪਦੰਡ
ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਪ੍ਰਗਟ ਕਰਨ ਵਾਲਾ ਇਹ ਖੋਜ ਪੱਤਰ ਅਸਲ ਵਿੱਚ MEDEC1 ਨਾਮਕ ਇੱਕ ਮੁਲਾਂਕਣ ਮਾਪਦੰਡ ਬਾਰੇ ਹੈ, ਜਿਸਦਾ ਉਦੇਸ਼ ਮੈਡੀਕਲ ਗਲਤੀ ਖੋਜ ਅਤੇ ਸੁਧਾਰ ਕਾਰਜਾਂ ਵਿੱਚ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਹੈ। ਇਹ ਮਾਪਦੰਡ ਕਲੀਨਿਕਲ ਨੋਟਸ ਵਿੱਚ ਗਲਤੀਆਂ 'ਤੇ ਕੇਂਦ੍ਰਤ ਹੈ, ਜਿਸ ਵਿੱਚ ਨਿਦਾਨ, ਪ੍ਰਬੰਧਨ, ਇਲਾਜ, ਦਵਾਈ ਥੈਰੇਪੀ ਅਤੇ ਕਾਰਕ ਏਜੰਟ ਵਰਗੇ ਪੰਜ ਖੇਤਰ ਸ਼ਾਮਲ ਹਨ।
ਡਾਟਾ ਸਰੋਤ ਅਤੇ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ
MEDEC ਡੇਟਾਸੈਟ ਵਿੱਚ ਤਿੰਨ ਅਮਰੀਕੀ ਹਸਪਤਾਲ ਪ੍ਰਣਾਲੀਆਂ ਤੋਂ 488 ਕਲੀਨਿਕਲ ਨੋਟਸ ਸ਼ਾਮਲ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਕੁੱਲ 3848 ਕਲੀਨਿਕਲ ਟੈਕਸਟ ਹਨ। ਇਹ ਡਾਟਾ ਪਹਿਲਾਂ ਕਿਸੇ ਵੀ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ ਦੁਆਰਾ ਐਕਸੈਸ ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਹੈ, ਜਿਸ ਨਾਲ ਮੁਲਾਂਕਣ ਦੀ ਅਸਲੀਅਤ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਯਕੀਨੀ ਹੁੰਦੀ ਹੈ। ਵਰਤਮਾਨ ਵਿੱਚ, ਇਸ ਡੇਟਾਸੈਟ ਦੀ ਵਰਤੋਂ 17 ਭਾਗੀਦਾਰ ਪ੍ਰਣਾਲੀਆਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ MEDIQA-CORR ਸਾਂਝੇ ਕਾਰਜ ਵਿੱਚ ਕੀਤੀ ਗਈ ਹੈ।
ਟੈਸਟ ਅਤੇ ਨਤੀਜੇ
ਖੋਜ ਟੀਮ ਨੇ MEDEC ਡੇਟਾਸੈਟ ਦੀ ਵਰਤੋਂ ਕਈ ਉੱਨਤ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਕੀਤੀ, ਜਿਸ ਵਿੱਚ o1-preview, GPT-4, Claude 3.5 Sonnet, ਅਤੇ Gemini 2.0 Flash ਸ਼ਾਮਲ ਹਨ। ਇਸ ਦੇ ਨਾਲ ਹੀ, ਉਨ੍ਹਾਂ ਨੇ ਦੋ ਪੇਸ਼ੇਵਰ ਡਾਕਟਰਾਂ ਨੂੰ ਵੀ ਗਲਤੀ ਖੋਜ ਦੇ ਕਾਰਜ ਵਿੱਚ ਹਿੱਸਾ ਲੈਣ ਲਈ ਸੱਦਾ ਦਿੱਤਾ, ਤਾਂ ਜੋ ਮਨੁੱਖੀ ਅਤੇ ਮਸ਼ੀਨੀ ਤੁਲਨਾ ਕੀਤੀ ਜਾ ਸਕੇ।
ਨਤੀਜਿਆਂ ਤੋਂ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲ ਮੈਡੀਕਲ ਗਲਤੀ ਖੋਜ ਅਤੇ ਸੁਧਾਰ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ, ਪਰ ਉਹ ਮਨੁੱਖੀ ਡਾਕਟਰਾਂ ਨਾਲੋਂ ਘੱਟ ਹਨ। ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ MEDEC ਇੱਕ ਚੁਣੌਤੀਪੂਰਨ ਮੁਲਾਂਕਣ ਮਾਪਦੰਡ ਹੈ।
ਖੋਜ ਪੱਤਰ ਦਾ ਮੁੱਖ ਹਿੱਸਾ: ਮੈਡੀਕਲ ਖੇਤਰ ਵਿੱਚ LLM ਦੀ ਵਰਤੋਂ ਅਤੇ ਚੁਣੌਤੀਆਂ
ਖੋਜ ਪੱਤਰ ਵਿੱਚ ਦੱਸਿਆ ਗਿਆ ਹੈ ਕਿ ਅਮਰੀਕੀ ਮੈਡੀਕਲ ਸੰਸਥਾਵਾਂ ਦੇ ਸਰਵੇਖਣਾਂ ਤੋਂ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਹਰ ਪੰਜ ਮਰੀਜ਼ਾਂ ਵਿੱਚੋਂ ਇੱਕ ਜਿਹੜਾ ਕਲੀਨਿਕਲ ਨੋਟਸ ਪੜ੍ਹਦਾ ਹੈ, ਗਲਤੀਆਂ ਦੀ ਰਿਪੋਰਟ ਕਰਦਾ ਹੈ। ਇਹਨਾਂ ਗਲਤੀਆਂ ਵਿੱਚੋਂ 40% ਨੂੰ ਗੰਭੀਰ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਸਭ ਤੋਂ ਆਮ ਗਲਤੀਆਂ ਨਿਦਾਨ ਨਾਲ ਸਬੰਧਤ ਹਨ।
ਮੈਡੀਕਲ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚ LLM ਦੀ ਵਰਤੋਂ ਅਤੇ ਜੋਖਮ
ਜਿਵੇਂ ਕਿ ਵੱਧ ਤੋਂ ਵੱਧ ਮੈਡੀਕਲ ਦਸਤਾਵੇਜ਼ ਕਾਰਜ (ਜਿਵੇਂ ਕਿ ਕਲੀਨਿਕਲ ਨੋਟਸ ਤਿਆਰ ਕਰਨਾ) ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਦੁਆਰਾ ਕੀਤੇ ਜਾ ਰਹੇ ਹਨ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ ਕਿ LLM ਦੁਆਰਾ ਆਉਟਪੁੱਟ ਜਾਣਕਾਰੀ ਸਹੀ ਅਤੇ ਸੁਰੱਖਿਅਤ ਹੋਵੇ। LLM ਗਲਤ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ ਅਤੇ ਗਲਤ ਜਾਂ ਕਾਲਪਨਿਕ ਸਮੱਗਰੀ ਆਉਟਪੁੱਟ ਕਰ ਸਕਦੇ ਹਨ, ਜਿਸਦਾ ਕਲੀਨਿਕਲ ਫੈਸਲਿਆਂ 'ਤੇ ਗੰਭੀਰ ਪ੍ਰਭਾਵ ਪੈ ਸਕਦਾ ਹੈ।
MEDEC ਬੈਂਚਮਾਰਕ ਦੀ ਮਹੱਤਤਾ
ਇਹਨਾਂ ਮੁੱਦਿਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਅਤੇ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ LLM ਮੈਡੀਕਲ ਸਮੱਗਰੀ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਸੁਰੱਖਿਅਤ ਹਨ, ਸਖ਼ਤ ਤਸਦੀਕ ਵਿਧੀਆਂ ਜ਼ਰੂਰੀ ਹਨ। MEDEC ਬੈਂਚਮਾਰਕ ਦੀ ਸ਼ੁਰੂਆਤ ਦਾ ਉਦੇਸ਼ ਕਲੀਨਿਕਲ ਟੈਕਸਟ ਵਿੱਚ ਮੈਡੀਕਲ ਗਲਤੀਆਂ ਨੂੰ ਖੋਜਣ ਅਤੇ ਸੁਧਾਰਨ ਵਿੱਚ ਮਾਡਲਾਂ ਦੀ ਸਮਰੱਥਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਹੈ।
MEDEC ਡੇਟਾਸੈਟ ਦਾ ਨਿਰਮਾਣ
MEDEC ਡੇਟਾਸੈਟ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਮੈਡੀਕਲ ਖੇਤਰਾਂ ਤੋਂ 3848 ਕਲੀਨਿਕਲ ਟੈਕਸਟ ਸ਼ਾਮਲ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ 8 ਮੈਡੀਕਲ ਐਨੋਟੇਟਰਾਂ ਦੁਆਰਾ ਐਨੋਟੇਟ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸ ਡੇਟਾਸੈਟ ਵਿੱਚ ਪੰਜ ਕਿਸਮਾਂ ਦੀਆਂ ਗਲਤੀਆਂ ਸ਼ਾਮਲ ਹਨ:
- ਨਿਦਾਨ (Diagnosis): ਪ੍ਰਦਾਨ ਕੀਤਾ ਗਿਆ ਨਿਦਾਨ ਗਲਤ ਹੈ।
- ਪ੍ਰਬੰਧਨ (Management): ਪ੍ਰਦਾਨ ਕੀਤੇ ਗਏ ਪ੍ਰਬੰਧਨ ਦੇ ਅਗਲੇ ਕਦਮ ਗਲਤ ਹਨ।
- ਦਵਾਈ ਥੈਰੇਪੀ (Pharmacotherapy): ਸਿਫਾਰਸ਼ ਕੀਤੀ ਗਈ ਦਵਾਈ ਥੈਰੇਪੀ ਗਲਤ ਹੈ।
- ਇਲਾਜ (Treatment): ਸਿਫਾਰਸ਼ ਕੀਤਾ ਗਿਆ ਇਲਾਜ ਯੋਜਨਾ ਗਲਤ ਹੈ।
- ਕਾਰਕ ਏਜੰਟ (Causal Organism): ਦੱਸਿਆ ਗਿਆ ਕਾਰਕ ਜੀਵ ਜਾਂ ਕਾਰਕ ਰੋਗਾਣੂ ਗਲਤ ਹੈ।
ਇਹਨਾਂ ਗਲਤੀਆਂ ਦੀਆਂ ਕਿਸਮਾਂ ਦੀ ਚੋਣ ਮੈਡੀਕਲ ਬੋਰਡ ਦੀਆਂ ਪ੍ਰੀਖਿਆਵਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਆਮ ਤੌਰ 'ਤੇ ਪੁੱਛੇ ਜਾਂਦੇ ਸਵਾਲਾਂ 'ਤੇ ਅਧਾਰਤ ਹੈ।
ਡਾਟਾ ਬਣਾਉਣ ਦੇ ਢੰਗ
ਡੇਟਾਸੈਟ ਨੂੰ ਬਣਾਉਣ ਲਈ ਦੋ ਤਰੀਕਿਆਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ ਸੀ:
- ਢੰਗ #1 (MS): MedQA ਸੰਗ੍ਰਹਿ ਵਿੱਚੋਂ ਮੈਡੀਕਲ ਬੋਰਡ ਦੇ ਪ੍ਰੀਖਿਆ ਸਵਾਲਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ, ਜਿੱਥੇ ਮੈਡੀਕਲ ਪਿਛੋਕੜ ਵਾਲੇ ਐਨੋਟੇਟਰਾਂ ਨੇ ਦ੍ਰਿਸ਼ ਟੈਕਸਟ ਵਿੱਚ ਗਲਤ ਜਵਾਬ ਪਾਏ।
- ਢੰਗ #2 (UW): ਵਾਸ਼ਿੰਗਟਨ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਤਿੰਨ ਹਸਪਤਾਲ ਪ੍ਰਣਾਲੀਆਂ ਦੇ ਅਸਲ ਕਲੀਨਿਕਲ ਨੋਟਸ ਡੇਟਾਬੇਸ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ, ਜਿੱਥੇ ਮੈਡੀਕਲ ਵਿਦਿਆਰਥੀ ਟੀਮਾਂ ਨੇ ਦਸਤੀ ਰਿਕਾਰਡਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਪਾਈਆਂ।
ਦੋਵੇਂ ਤਰੀਕਿਆਂ ਵਿੱਚ ਸਖ਼ਤ ਗੁਣਵੱਤਾ ਨਿਯੰਤਰਣ ਕੀਤਾ ਗਿਆ, ਜਿਸ ਨਾਲ ਡਾਟੇ ਦੀ ਸ਼ੁੱਧਤਾ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਯਕੀਨੀ ਹੋਈ।
ਮੈਡੀਕਲ ਗਲਤੀ ਖੋਜ ਅਤੇ ਸੁਧਾਰ ਵਿਧੀਆਂ
ਮੈਡੀਕਲ ਗਲਤੀ ਖੋਜ ਅਤੇ ਸੁਧਾਰ ਕਾਰਜਾਂ ਵਿੱਚ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਤਿੰਨ ਉਪ-ਕਾਰਜਾਂ ਵਿੱਚ ਵੰਡਿਆ ਹੈ:
- ਉਪ-ਕਾਰਜ A: ਗਲਤੀ ਦੇ ਨਿਸ਼ਾਨ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨਾ (0: ਕੋਈ ਗਲਤੀ ਨਹੀਂ; 1: ਗਲਤੀ ਹੈ)।
- ਉਪ-ਕਾਰਜ B: ਗਲਤੀ ਵਾਲੇ ਵਾਕਾਂ ਨੂੰ ਕੱਢਣਾ।
- ਉਪ-ਕਾਰਜ C: ਗਲਤੀ ਵਾਲੇ ਵਾਕਾਂ ਲਈ ਸੋਧਿਆ ਹੋਇਆ ਸਮੱਗਰੀ ਤਿਆਰ ਕਰਨਾ।
ਖੋਜ ਟੀਮ ਨੇ LLM 'ਤੇ ਆਧਾਰਿਤ ਹੱਲ ਬਣਾਏ ਅਤੇ ਲੋੜੀਂਦੇ ਆਉਟਪੁੱਟ ਤਿਆਰ ਕਰਨ ਲਈ ਦੋ ਵੱਖ-ਵੱਖ ਪ੍ਰੋਂਪਟ ਦੀ ਵਰਤੋਂ ਕੀਤੀ।
ਪ੍ਰਯੋਗ ਅਤੇ ਨਤੀਜੇ
ਭਾਸ਼ਾ ਮਾਡਲ
ਖੋਜਕਰਤਾਵਾਂ ਨੇ Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini ਅਤੇ o1-preview ਸਮੇਤ ਕਈ ਭਾਸ਼ਾ ਮਾਡਲਾਂ 'ਤੇ ਪ੍ਰਯੋਗ ਕੀਤੇ।
ਪ੍ਰਯੋਗ ਦੇ ਨਤੀਜਿਆਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ
ਪ੍ਰਯੋਗ ਦੇ ਨਤੀਜਿਆਂ ਤੋਂ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ Claude 3.5 Sonnet ਨੇ ਗਲਤੀ ਦੇ ਨਿਸ਼ਾਨ ਦੀ ਖੋਜ ਅਤੇ ਗਲਤੀ ਵਾਲੇ ਵਾਕਾਂ ਦੀ ਖੋਜ ਵਿੱਚ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। o1-preview ਨੇ ਗਲਤੀ ਸੁਧਾਰ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਹਾਲਾਂਕਿ, ਸਾਰੇ ਮਾਡਲ ਮੈਡੀਕਲ ਗਲਤੀ ਖੋਜ ਅਤੇ ਸੁਧਾਰ ਵਿੱਚ ਮਨੁੱਖੀ ਡਾਕਟਰਾਂ ਤੋਂ ਘੱਟ ਸਨ।
ਨਤੀਜਿਆਂ ਨੇ ਇਹ ਵੀ ਦਰਸਾਇਆ ਕਿ ਮਾਡਲਾਂ ਨੂੰ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਸਮੱਸਿਆਵਾਂ ਸਨ ਅਤੇ ਕਈ ਮਾਮਲਿਆਂ ਵਿੱਚ ਗਲਤੀਆਂ ਦੇ ਮੌਜੂਦ ਹੋਣ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਇਆ ਗਿਆ (ਭਾਵ, ਗਲਤ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕਰਦੇ ਹਨ)। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਵਰਗੀਕਰਨ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਗਲਤੀ ਸੁਧਾਰ ਉਤਪਾਦਨ ਪ੍ਰਦਰਸ਼ਨ ਵਿਚਕਾਰ ਦਰਜਾਬੰਦੀ ਵਿੱਚ ਅੰਤਰ ਸਨ।
ਗਲਤੀ ਦੀ ਕਿਸਮ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ
ਵੱਖ-ਵੱਖ ਕਿਸਮਾਂ ਦੀਆਂ ਗਲਤੀਆਂ ਦੀ ਖੋਜ ਅਤੇ ਸੁਧਾਰ ਦੇ ਮਾਮਲੇ ਵਿੱਚ, o1-preview ਨੇ ਗਲਤੀ ਦੇ ਨਿਸ਼ਾਨ ਅਤੇ ਵਾਕਾਂ ਦੀ ਖੋਜ ਵਿੱਚ ਉੱਚ ਰਿਕਾਲ ਦਰ ਦਿਖਾਈ, ਪਰ ਡਾਕਟਰਾਂ ਨੇ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ।
ਅਗਲੇਰੀ ਖੋਜ ਦਿਸ਼ਾ
ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਦੱਸਿਆ ਕਿ ਅਗਲੀ ਖੋਜ ਦਿਸ਼ਾ ਵਿੱਚ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਹੋਰ ਉਦਾਹਰਣਾਂ ਨੂੰ ਪੇਸ਼ ਕਰਨਾ ਅਤੇ ਮੈਡੀਕਲ ਗਲਤੀ ਖੋਜ ਅਤੇ ਸੁਧਾਰ ਵਿੱਚ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਹੋਰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਉਨ੍ਹਾਂ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ।