- Published on
గూగుల్ టైటాన్ ఆర్కిటెక్చర్ ట్రాన్స్ఫార్మర్ మెమరీ అడ్డంకిని ఛేదిస్తుంది
టైటాన్ను పరిచయం చేస్తున్నాం: గూగుల్ నుండి కొత్త ఆర్కిటెక్చర్
టెక్ ప్రపంచం గూగుల్ నుండి వస్తున్న టైటాన్ అనే వినూత్నమైన ఆర్కిటెక్చర్ గురించి ఆసక్తిగా ఉంది. ఇది ప్రత్యేకించి ట్రాన్స్ఫార్మర్ మోడల్స్ మెమరీని ఎలా నిర్వహిస్తాయనే విషయంలో వాటి పరిమితులను సవాలు చేయడానికి రూపొందించబడింది. ఈ కొత్త ఆర్కిటెక్చర్ ట్రాన్స్ఫార్మర్కు సంభావ్య వారసుడిగా గణనీయమైన దృష్టిని ఆకర్షిస్తోంది, ముఖ్యంగా గూగుల్లోని ఒక బృందం దీనిని అభివృద్ధి చేసింది.
ప్రస్తుత మోడల్స్లో మెమరీ సవాలు
LSTM మరియు ట్రాన్స్ఫార్మర్ వంటి సాంప్రదాయ నమూనాలు వినూత్నమైనవి అయినప్పటికీ, మానవుల వంటి జ్ఞాపకశక్తిని అనుకరించడంలో సవాళ్లను ఎదుర్కొంటున్నాయి. ఈ సవాళ్లలో ఇవి ఉన్నాయి:
- పరిమిత సామర్థ్యం: డేటా తరచుగా స్థిర-పరిమాణ దాచిన స్థితిలోకి కుదించబడుతుంది, ఇది నిలుపుకోగల సమాచారం మొత్తాన్ని పరిమితం చేస్తుంది.
- కంప్యూటేషనల్ ఓవర్హెడ్: సుదూర ఆధారాలను సంగ్రహించగల సామర్థ్యం కలిగి ఉన్నప్పటికీ, సీక్వెన్స్ పొడవుతో కంప్యూటేషనల్ ఖర్చు చతురస్రాకారంగా పెరుగుతుంది, ఇది చాలా పొడవైన సీక్వెన్స్లకు అసమర్థంగా మారుతుంది.
- శిక్షణ డేటాపై అధిక ఆధారపడటం: శిక్షణ డేటాను కేవలం గుర్తుంచుకోవడం వల్ల వాస్తవ-ప్రపంచ అనువర్తనానికి ఎల్లప్పుడూ సహాయపడదు, ఇక్కడ పరీక్ష డేటా శిక్షణ పంపిణీ వెలుపల పడిపోతుంది.
టైటాన్ విధానం: న్యూరో-ఇన్స్పైర్డ్ మెమరీ మాడ్యూల్
టైటాన్ బృందం ఒక విభిన్న విధానాన్ని తీసుకుంది, న్యూరల్ నెట్వర్క్ యొక్క పారామితులలో సమాచారాన్ని ఎన్కోడ్ చేయడానికి ప్రయత్నిస్తోంది. పరీక్ష సమయంలో నిర్దిష్ట డేటాను ఎలా గుర్తుంచుకోవాలో మరియు మరచిపోవాలో తెలుసుకోవడానికి రూపొందించబడిన ఆన్లైన్ మెటా-మోడల్ను వారు అభివృద్ధి చేశారు. ఈ నమూనా న్యూరో-సైకలాజికల్ సూత్రాలచే ప్రేరణ పొందింది, కింది కీలక అంశాలను కలిగి ఉంది:
- ఆశ్చర్యం ఒక ట్రిగ్గర్గా: ఊహించని సంఘటనలు సులభంగా గుర్తుండిపోతాయి. "ఆశ్చర్యం" మెమరీ మాడ్యూల్కు ఇన్పుట్ యొక్క గ్రేడియంట్ ద్వారా కొలుస్తారు. గ్రేడియంట్ ఎంత పెద్దదైతే, ఇన్పుట్ అంత ఎక్కువగా ఊహించనిది.
- మొమెంటం మరియు మరచిపోయే విధానాలు: ఒక మొమెంటం విధానం స్వల్పకాలిక ఆశ్చర్యాలను దీర్ఘకాలిక జ్ఞాపకశక్తిలోకి పేరుకుపోతుంది, అయితే మరచిపోయే విధానం పాత జ్ఞాపకాలను తొలగిస్తుంది, మెమరీ ఓవర్ఫ్లోను నివారిస్తుంది.
- మల్టీ-లేయర్ పెర్సెప్ట్రాన్ (MLP) ఆధారిత మెమరీ: మెమరీ మాడ్యూల్ బహుళ MLP లేయర్లతో కూడి ఉంటుంది, ఇది డేటా యొక్క లోతైన సంగ్రహాలను నిల్వ చేయడానికి అనుమతిస్తుంది, ఇది సాంప్రదాయ మాతృక-ఆధారిత జ్ఞాపకాల కంటే శక్తివంతమైనదిగా చేస్తుంది.
ఈ ఆన్లైన్ మెటా-లెర్నింగ్ విధానం శిక్షణ డేటాను కేవలం గుర్తుంచుకోవడం కంటే, కొత్త డేటాకు ఎలా అనుగుణంగా ఉండాలో నేర్చుకోవడంపై దృష్టి పెట్టడానికి మోడల్కు సహాయపడుతుంది. మాడ్యూల్ సమాంతర గణన కోసం కూడా రూపొందించబడింది, ఇది దాని సామర్థ్యాన్ని పెంచుతుంది.
డీప్ లెర్నింగ్ ఆర్కిటెక్చర్స్లో మెమరీ మాడ్యూల్ను ఏకీకృతం చేయడం
టైటాన్స్ పరిశోధన బృందం డీప్ లెర్నింగ్ ఆర్కిటెక్చర్స్లో వారి మెమరీ మాడ్యూల్ను చేర్చడానికి మూడు వైవిధ్యాలను ప్రతిపాదించింది:
- MAC (మెమరీ యాజ్ కాంటెక్స్ట్): ఈ పద్ధతి దీర్ఘకాలిక మరియు నిరంతర మెమరీని (ఇది టాస్క్ నాలెడ్జ్ను ఎన్కోడ్ చేస్తుంది) శ్రద్ధా విధానానికి ఇన్పుట్గా ఉన్న సందర్భంగా మిళితం చేస్తుంది.
- MAG (మెమరీ యాజ్ గేట్): ఈ విధానం రెండు శాఖలలో స్లైడింగ్ విండో అటెన్షన్ మెకానిజంతో మెమరీ మాడ్యూల్ యొక్క గేటెడ్ ఫ్యూషన్ను ఉపయోగిస్తుంది.
- MAL (మెమరీ యాజ్ లేయర్): ఇక్కడ, మెమరీ మాడ్యూల్ ఒక స్వతంత్ర లేయర్గా అమలు చేయబడుతుంది, ఇది శ్రద్ధా విధానానికి అందించే ముందు చారిత్రక సమాచారాన్ని కుదిస్తుంది.
ప్రతి వైవిధ్యానికి దాని బలాలు మరియు బలహీనతలు ఉన్నాయని బృందం కనుగొంది.
టైటాన్స్ పనితీరు మరియు ప్రయోజనాలు
టైటాన్స్ భాషా నమూనా, సాధారణ జ్ఞానం, మరియు సమయ శ్రేణి అంచనాతో సహా వివిధ పనులలో అత్యుత్తమ పనితీరును కనబరిచింది. ఇది ట్రాన్స్ఫార్మర్ మరియు మాంబా వంటి అత్యాధునిక నమూనాలను అధిగమించింది. ముఖ్యంగా, దీర్ఘకాలిక మెమరీ మాడ్యూల్ (LMM) మాత్రమే స్వల్పకాలిక మెమరీ (శ్రద్ధ) లేకుండా అనేక పనులలో బేస్లైన్ నమూనాల కంటే మెరుగైన పనితీరును కనబరిచింది, దాని స్వతంత్ర అభ్యాస సామర్థ్యాలను ప్రదర్శిస్తుంది.
పొడవైన పాఠాలలో చక్కటి ఆధారాలను కనుగొనడానికి రూపొందించబడిన "గడ్డి కుప్పలో సూది" పరీక్షలో, సీక్వెన్స్ పొడవులు 2k నుండి 16kకి పెరిగినప్పటికీ టైటాన్స్ దాదాపు 90% ఖచ్చితత్వాన్ని కొనసాగించింది. ప్రామాణిక పరీక్షలు పొడవైన పాఠాలను నిర్వహించడంలో టైటాన్స్ యొక్క ప్రయోజనాలను పూర్తిగా ప్రదర్శించలేవని బృందం సూచిస్తుంది. చాలా పొడవైన పత్రాలలో వ్యాపించి ఉన్న వాస్తవాల నుండి అనుమానాన్ని కోరే పనిలో టైటాన్స్ GPT4, మాంబా మరియు RAGతో Llama3.1 వంటి మోడళ్లను కూడా అధిగమించింది.
టైటాన్స్ సమయ శ్రేణి అంచనా మరియు DNA సీక్వెన్స్ మోడలింగ్ వంటి నిర్దిష్ట రంగాలలో కూడా ఆకట్టుకునే పనితీరును కనబరిచింది.
టైటాన్స్ వెనుక ఉన్న బృందం
ఈ పరిశోధనను గూగుల్ రీసెర్చ్ NYC అల్గారిథమ్లు మరియు ఆప్టిమైజేషన్ గ్రూప్ బృందం నిర్వహించింది, ప్రస్తుతం ఇది గూగుల్ డీప్మైండ్లో భాగం కాదు. కార్నెల్ విశ్వవిద్యాలయ ఇంటర్న్ అలీ బెహ్రూజ్ ఈ పత్రానికి మొదటి రచయిత. సింగ్హువా విశ్వవిద్యాలయ పూర్వ విద్యార్థి మరియు కొలంబియా విశ్వవిద్యాలయం నుండి Ph.D పట్టభద్రుడు అయిన జోంగ్ పెయిలిన్ 2021 నుండి గూగుల్లో రీసెర్చ్ సైంటిస్ట్. అతను అండర్ గ్రాడ్యుయేట్ విద్యార్థిగా STOC 2016లో మొదటి-రచయిత పత్రాన్ని ప్రచురించినందుకు ప్రసిద్ధి చెందాడు. గూగుల్ ఫెలో మరియు VP అయిన వహాబ్ మిర్రోక్ని ఈ బృందానికి నాయకత్వం వహిస్తున్నారు.
ఈ బృందం పైటోర్చ్ మరియు జాక్స్ ఉపయోగించి టైటాన్లను అభివృద్ధి చేసింది మరియు శిక్షణ మరియు మూల్యాంకనం కోసం కోడ్ను త్వరలో విడుదల చేయాలని యోచిస్తోంది.