- Published on
ਗੂਗਲ ਦਾ ਟਾਈਟਨ ਆਰਕੀਟੈਕਚਰ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮੈਮੋਰੀ ਦੀ ਰੁਕਾਵਟ ਨੂੰ ਤੋੜਦਾ ਹੈ
ਟਾਈਟਨ: ਗੂਗਲ ਤੋਂ ਇੱਕ ਨਵਾਂ ਆਰਕੀਟੈਕਚਰ
ਟੈਕ ਜਗਤ ਵਿੱਚ ਗੂਗਲ ਦੁਆਰਾ ਇੱਕ ਨਵੇਂ ਆਰਕੀਟੈਕਚਰ, ਟਾਈਟਨ ਬਾਰੇ ਚਰਚਾ ਹੋ ਰਹੀ ਹੈ। ਇਹ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਚੁਣੌਤੀ ਦੇਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਖਾਸ ਕਰਕੇ ਉਹਨਾਂ ਦੀ ਮੈਮੋਰੀ ਨੂੰ ਸੰਭਾਲਣ ਦੇ ਤਰੀਕੇ ਵਿੱਚ। ਇਹ ਨਵਾਂ ਆਰਕੀਟੈਕਚਰ, ਗੂਗਲ ਦੇ ਅੰਦਰ ਇੱਕ ਟੀਮ ਦੁਆਰਾ ਵਿਕਸਿਤ ਕੀਤੇ ਜਾਣ ਕਾਰਨ, ਟ੍ਰਾਂਸਫਾਰਮਰ ਦੇ ਸੰਭਾਵੀ ਉੱਤਰਾਧਿਕਾਰੀ ਵਜੋਂ ਮਹੱਤਵਪੂਰਨ ਧਿਆਨ ਖਿੱਚ ਰਿਹਾ ਹੈ।
ਮੌਜੂਦਾ ਮਾਡਲਾਂ ਵਿੱਚ ਮੈਮੋਰੀ ਦੀ ਚੁਣੌਤੀ
ਐਲਐਸਟੀਐਮ ਅਤੇ ਟ੍ਰਾਂਸਫਾਰਮਰ ਵਰਗੇ ਰਵਾਇਤੀ ਮਾਡਲ, ਨਵੀਨਤਾਕਾਰੀ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਮਨੁੱਖੀ-ਵਰਗੀ ਮੈਮੋਰੀ ਦੀ ਨਕਲ ਕਰਨ ਵਿੱਚ ਚੁਣੌਤੀਆਂ ਦਾ ਸਾਹਮਣਾ ਕਰਦੇ ਹਨ। ਇਹਨਾਂ ਚੁਣੌਤੀਆਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- ਸੀਮਤ ਸਮਰੱਥਾ: ਡਾਟਾ ਅਕਸਰ ਇੱਕ ਨਿਸ਼ਚਿਤ-ਆਕਾਰ ਦੀ ਲੁਕਵੀਂ ਸਥਿਤੀ ਵਿੱਚ ਸੰਕੁਚਿਤ ਹੁੰਦਾ ਹੈ, ਜੋ ਕਿ ਜਾਣਕਾਰੀ ਦੀ ਮਾਤਰਾ ਨੂੰ ਸੀਮਤ ਕਰਦਾ ਹੈ ਜੋ ਬਰਕਰਾਰ ਰੱਖੀ ਜਾ ਸਕਦੀ ਹੈ।
- ਗਣਨਾਤਮਕ ਓਵਰਹੈੱਡ: ਲੰਬੀ-ਦੂਰੀ ਦੀ ਨਿਰਭਰਤਾ ਨੂੰ ਹਾਸਲ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਗਣਨਾਤਮਕ ਲਾਗਤ ਕ੍ਰਮ ਲੰਬਾਈ ਦੇ ਨਾਲ ਵਰਗਾਕਾਰ ਰੂਪ ਵਿੱਚ ਵੱਧਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਬਹੁਤ ਲੰਬੇ ਕ੍ਰਮਾਂ ਲਈ ਅਯੋਗ ਹੋ ਜਾਂਦੀ ਹੈ।
- ਸਿਖਲਾਈ ਡਾਟਾ 'ਤੇ ਜ਼ਿਆਦਾ ਨਿਰਭਰਤਾ: ਸਿਰਫ ਸਿਖਲਾਈ ਡਾਟਾ ਨੂੰ ਯਾਦ ਕਰਨਾ ਹਮੇਸ਼ਾ ਅਸਲ-ਸੰਸਾਰ ਐਪਲੀਕੇਸ਼ਨ ਵਿੱਚ ਮਦਦ ਨਹੀਂ ਕਰਦਾ ਹੈ, ਜਿੱਥੇ ਟੈਸਟ ਡਾਟਾ ਸਿਖਲਾਈ ਵੰਡ ਤੋਂ ਬਾਹਰ ਹੋ ਸਕਦਾ ਹੈ।
ਟਾਈਟਨ ਦਾ ਪਹੁੰਚ: ਇੱਕ ਨਿਊਰੋ-ਪ੍ਰੇਰਿਤ ਮੈਮੋਰੀ ਮੋਡੀਊਲ
ਟਾਈਟਨ ਟੀਮ ਨੇ ਇੱਕ ਵੱਖਰਾ ਪਹੁੰਚ ਅਪਣਾਇਆ ਹੈ, ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਦੇ ਮਾਪਦੰਡਾਂ ਵਿੱਚ ਜਾਣਕਾਰੀ ਨੂੰ ਏਨਕੋਡ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੀ ਹੈ। ਉਹਨਾਂ ਨੇ ਇੱਕ ਔਨਲਾਈਨ ਮੈਟਾ-ਮਾਡਲ ਵਿਕਸਿਤ ਕੀਤਾ ਹੈ ਜੋ ਟੈਸਟਿੰਗ ਦੌਰਾਨ ਖਾਸ ਡਾਟਾ ਨੂੰ ਯਾਦ ਰੱਖਣ ਅਤੇ ਭੁੱਲਣ ਦਾ ਤਰੀਕਾ ਸਿੱਖਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਹ ਮਾਡਲ ਨਿਊਰੋ-ਸਾਈਕੋਲੋਜੀਕਲ ਸਿਧਾਂਤਾਂ ਤੋਂ ਪ੍ਰੇਰਿਤ ਹੈ, ਜਿਸ ਵਿੱਚ ਹੇਠ ਲਿਖੇ ਮੁੱਖ ਤੱਤ ਸ਼ਾਮਲ ਹਨ:
- ਹੈਰਾਨੀ ਇੱਕ ਟਰਿੱਗਰ ਵਜੋਂ: ਅਚਾਨਕ ਘਟਨਾਵਾਂ ਨੂੰ ਆਸਾਨੀ ਨਾਲ ਯਾਦ ਰੱਖਿਆ ਜਾਂਦਾ ਹੈ। "ਹੈਰਾਨੀ" ਨੂੰ ਮੈਮੋਰੀ ਮੋਡੀਊਲ ਵਿੱਚ ਇਨਪੁਟ ਦੇ ਗਰੇਡੀਐਂਟ ਦੁਆਰਾ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ। ਗਰੇਡੀਐਂਟ ਜਿੰਨਾ ਵੱਡਾ ਹੋਵੇਗਾ, ਇਨਪੁਟ ਓਨੀ ਹੀ ਅਚਾਨਕ ਹੋਵੇਗੀ।
- ਮੋਮੈਂਟਮ ਅਤੇ ਭੁੱਲਣ ਦੇ ਤਰੀਕੇ: ਇੱਕ ਮੋਮੈਂਟਮ ਵਿਧੀ ਥੋੜ੍ਹੇ ਸਮੇਂ ਦੀਆਂ ਹੈਰਾਨੀਆਂ ਨੂੰ ਲੰਬੇ ਸਮੇਂ ਦੀ ਮੈਮੋਰੀ ਵਿੱਚ ਇਕੱਠਾ ਕਰਦੀ ਹੈ, ਜਦੋਂ ਕਿ ਇੱਕ ਭੁੱਲਣ ਦੀ ਵਿਧੀ ਪੁਰਾਣੀਆਂ ਯਾਦਾਂ ਨੂੰ ਮਿਟਾ ਦਿੰਦੀ ਹੈ, ਮੈਮੋਰੀ ਓਵਰਫਲੋ ਨੂੰ ਰੋਕਦੀ ਹੈ।
- ਮਲਟੀ-ਲੇਅਰ ਪਰਸੈਪਟ੍ਰੋਨ (MLP) ਅਧਾਰਤ ਮੈਮੋਰੀ: ਮੈਮੋਰੀ ਮੋਡੀਊਲ ਕਈ MLP ਲੇਅਰਾਂ ਤੋਂ ਬਣਿਆ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਡਾਟਾ ਦੇ ਡੂੰਘੇ ਅਬਸਟਰੈਕਸ਼ਨਾਂ ਨੂੰ ਸਟੋਰ ਕਰ ਸਕਦਾ ਹੈ, ਇਸਨੂੰ ਰਵਾਇਤੀ ਮੈਟ੍ਰਿਕਸ-ਅਧਾਰਿਤ ਯਾਦਾਂ ਨਾਲੋਂ ਵਧੇਰੇ ਸ਼ਕਤੀਸ਼ਾਲੀ ਬਣਾਉਂਦਾ ਹੈ।
ਇਹ ਔਨਲਾਈਨ ਮੈਟਾ-ਲਰਨਿੰਗ ਪਹੁੰਚ ਮਾਡਲ ਨੂੰ ਸਿਰਫ ਸਿਖਲਾਈ ਡਾਟਾ ਨੂੰ ਯਾਦ ਕਰਨ ਦੀ ਬਜਾਏ, ਨਵੇਂ ਡਾਟਾ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣਾ ਸਿੱਖਣ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ। ਮੋਡੀਊਲ ਨੂੰ ਸਮਾਨਾਂਤਰ ਗਣਨਾ ਲਈ ਵੀ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਜਿਸ ਨਾਲ ਇਸਦੀ ਕੁਸ਼ਲਤਾ ਵਧਦੀ ਹੈ।
ਡੀਪ ਲਰਨਿੰਗ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਮੈਮੋਰੀ ਮੋਡੀਊਲ ਨੂੰ ਜੋੜਨਾ
ਟਾਈਟਨਜ਼ ਰਿਸਰਚ ਟੀਮ ਨੇ ਡੀਪ ਲਰਨਿੰਗ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਆਪਣੇ ਮੈਮੋਰੀ ਮੋਡੀਊਲ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਲਈ ਤਿੰਨ ਰੂਪਾਂ ਦਾ ਪ੍ਰਸਤਾਵ ਦਿੱਤਾ ਹੈ:
- MAC (ਮੈਮੋਰੀ ਇੱਕ ਸੰਦਰਭ ਵਜੋਂ): ਇਹ ਵਿਧੀ ਲੰਬੇ ਸਮੇਂ ਦੀ ਅਤੇ ਸਥਾਈ ਮੈਮੋਰੀ (ਜੋ ਕਿ ਟਾਸਕ ਗਿਆਨ ਨੂੰ ਏਨਕੋਡ ਕਰਦੀ ਹੈ) ਨੂੰ ਸੰਦਰਭ ਵਜੋਂ ਜੋੜਦੀ ਹੈ ਜੋ ਕਿ ਧਿਆਨ ਵਿਧੀ ਵਿੱਚ ਇਨਪੁਟ ਹੁੰਦੀ ਹੈ।
- MAG (ਮੈਮੋਰੀ ਇੱਕ ਗੇਟ ਵਜੋਂ): ਇਹ ਪਹੁੰਚ ਦੋ ਸ਼ਾਖਾਵਾਂ ਵਿੱਚ ਇੱਕ ਸਲਾਈਡਿੰਗ ਵਿੰਡੋ ਧਿਆਨ ਵਿਧੀ ਦੇ ਨਾਲ ਮੈਮੋਰੀ ਮੋਡੀਊਲ ਦੇ ਗੇਟਡ ਫਿਊਜ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ।
- MAL (ਮੈਮੋਰੀ ਇੱਕ ਲੇਅਰ ਵਜੋਂ): ਇੱਥੇ, ਮੈਮੋਰੀ ਮੋਡੀਊਲ ਨੂੰ ਇੱਕ ਸੁਤੰਤਰ ਲੇਅਰ ਦੇ ਰੂਪ ਵਿੱਚ ਲਾਗੂ ਕੀਤਾ ਗਿਆ ਹੈ ਜੋ ਧਿਆਨ ਵਿਧੀ ਨੂੰ ਫੀਡ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਇਤਿਹਾਸਕ ਜਾਣਕਾਰੀ ਨੂੰ ਸੰਕੁਚਿਤ ਕਰਦਾ ਹੈ।
ਟੀਮ ਨੇ ਪਾਇਆ ਕਿ ਹਰੇਕ ਰੂਪ ਦੀਆਂ ਆਪਣੀਆਂ ਸ਼ਕਤੀਆਂ ਅਤੇ ਕਮਜ਼ੋਰੀਆਂ ਹਨ।
ਟਾਈਟਨਜ਼ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਅਤੇ ਫਾਇਦੇ
ਟਾਈਟਨਜ਼ ਨੇ ਭਾਸ਼ਾ ਮਾਡਲਿੰਗ, ਆਮ-ਸਮਝ ਤਰਕ, ਅਤੇ ਸਮਾਂ-ਸੀਰੀਜ਼ ਭਵਿੱਖਬਾਣੀ ਸਮੇਤ ਕਈ ਕੰਮਾਂ ਵਿੱਚ ਉੱਤਮ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ। ਇਸਨੇ ਟ੍ਰਾਂਸਫਾਰਮਰ ਅਤੇ ਮਾਂਬਾ ਵਰਗੇ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ ਹੈ। ਖਾਸ ਤੌਰ 'ਤੇ, ਲੰਬੇ ਸਮੇਂ ਦੀ ਮੈਮੋਰੀ ਮੋਡੀਊਲ (LMM) ਨੇ ਕਈ ਕੰਮਾਂ ਵਿੱਚ ਬੇਸਲਾਈਨ ਮਾਡਲਾਂ ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ, ਜੋ ਕਿ ਥੋੜ੍ਹੇ ਸਮੇਂ ਦੀ ਮੈਮੋਰੀ (ਧਿਆਨ) ਤੋਂ ਬਿਨਾਂ ਇਸਦੀ ਸੁਤੰਤਰ ਸਿਖਲਾਈ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।
ਇੱਕ "ਘਾਹ ਦੇ ਢੇਰ ਵਿੱਚ ਸੂਈ" ਟੈਸਟ ਵਿੱਚ, ਜਿਸਨੂੰ ਲੰਬੇ ਟੈਕਸਟਾਂ ਵਿੱਚ ਵਧੀਆ-ਦਾਣੇ ਵਾਲੇ ਸੁਰਾਗ ਲੱਭਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਟਾਈਟਨਜ਼ ਨੇ ਲਗਭਗ 90% ਸ਼ੁੱਧਤਾ ਬਣਾਈ ਰੱਖੀ, ਭਾਵੇਂ ਕਿ ਕ੍ਰਮ ਦੀ ਲੰਬਾਈ 2k ਤੋਂ 16k ਤੱਕ ਵਧ ਗਈ। ਟੀਮ ਦੱਸਦੀ ਹੈ ਕਿ ਸਟੈਂਡਰਡ ਟੈਸਟ ਲੰਬੇ ਟੈਕਸਟਾਂ ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਟਾਈਟਨਜ਼ ਦੇ ਫਾਇਦਿਆਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਾਲ ਨਹੀਂ ਦਰਸਾਉਂਦੇ ਹਨ। ਟਾਈਟਨਜ਼ ਨੇ GPT4, Mamba, ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ RAG ਦੇ ਨਾਲ Llama3.1 ਵਰਗੇ ਮਾਡਲਾਂ ਨੂੰ ਇੱਕ ਕੰਮ ਵਿੱਚ ਪਛਾੜ ਦਿੱਤਾ ਜਿਸ ਵਿੱਚ ਬਹੁਤ ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚ ਫੈਲੇ ਤੱਥਾਂ ਤੋਂ ਸਿੱਟਾ ਕੱਢਣ ਦੀ ਲੋੜ ਸੀ।
ਟਾਈਟਨਜ਼ ਨੇ ਸਮਾਂ-ਸੀਰੀਜ਼ ਭਵਿੱਖਬਾਣੀ ਅਤੇ ਡੀਐਨਏ ਕ੍ਰਮ ਮਾਡਲਿੰਗ ਵਰਗੇ ਖਾਸ ਖੇਤਰਾਂ ਵਿੱਚ ਵੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਇਆ ਹੈ।
ਟਾਈਟਨਜ਼ ਦੇ ਪਿੱਛੇ ਟੀਮ
ਇਹ ਖੋਜ ਗੂਗਲ ਰਿਸਰਚ NYC ਐਲਗੋਰਿਦਮ ਅਤੇ ਓਪਟੀਮਾਈਜ਼ੇਸ਼ਨ ਸਮੂਹ ਦੀ ਇੱਕ ਟੀਮ ਦੁਆਰਾ ਕੀਤੀ ਗਈ ਸੀ, ਜੋ ਵਰਤਮਾਨ ਵਿੱਚ ਗੂਗਲ ਡੀਪਮਾਈਂਡ ਦਾ ਹਿੱਸਾ ਨਹੀਂ ਹੈ।
ਅਲੀ ਬੇਹਰੂਜ਼, ਇੱਕ ਕਾਰਨੇਲ ਯੂਨੀਵਰਸਿਟੀ ਇੰਟਰਨ, ਪੇਪਰ ਦਾ ਪਹਿਲਾ ਲੇਖਕ ਹੈ।
ਜ਼ੋਂਗ ਪੇਲਿਨ, ਇੱਕ ਤਸਿੰਗਹੁਆ ਯੂਨੀਵਰਸਿਟੀ ਦਾ ਸਾਬਕਾ ਵਿਦਿਆਰਥੀ ਅਤੇ ਕੋਲੰਬੀਆ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਪੀਐਚਡੀ ਗ੍ਰੈਜੂਏਟ, 2021 ਤੋਂ ਗੂਗਲ ਵਿੱਚ ਇੱਕ ਖੋਜ ਵਿਗਿਆਨੀ ਹੈ। ਉਹ ਇੱਕ ਅੰਡਰਗ੍ਰੈਜੂਏਟ ਵਿਦਿਆਰਥੀ ਵਜੋਂ STOC 2016 ਵਿੱਚ ਇੱਕ ਪਹਿਲੇ ਲੇਖਕ ਪੇਪਰ ਪ੍ਰਕਾਸ਼ਿਤ ਕਰਨ ਲਈ ਮਸ਼ਹੂਰ ਹੈ।
ਵਹਾਬ ਮਿਰਰੋਕਨੀ, ਇੱਕ ਗੂਗਲ ਫੈਲੋ ਅਤੇ ਵੀਪੀ, ਟੀਮ ਦੀ ਅਗਵਾਈ ਕਰਦੇ ਹਨ।
ਟੀਮ ਨੇ ਪਾਈਟੋਰਚ ਅਤੇ ਜੈਕਸ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਟਾਈਟਨਜ਼ ਵਿਕਸਿਤ ਕੀਤੇ ਹਨ ਅਤੇ ਜਲਦੀ ਹੀ ਸਿਖਲਾਈ ਅਤੇ ਮੁਲਾਂਕਣ ਲਈ ਕੋਡ ਜਾਰੀ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਹੇ ਹਨ।