Published on

గూగుల్ టైటాన్ ఆర్కిటెక్చర్ ట్రాన్స్‌ఫార్మర్ మెమరీ అడ్డంకిని ఛేదిస్తుంది

రచయితలు
  • avatar
    పేరు
    Ajax
    Twitter

టైటాన్‌ను పరిచయం చేస్తున్నాం: గూగుల్ నుండి కొత్త ఆర్కిటెక్చర్

టెక్ ప్రపంచం గూగుల్ నుండి వస్తున్న టైటాన్ అనే వినూత్నమైన ఆర్కిటెక్చర్ గురించి ఆసక్తిగా ఉంది. ఇది ప్రత్యేకించి ట్రాన్స్‌ఫార్మర్ మోడల్స్ మెమరీని ఎలా నిర్వహిస్తాయనే విషయంలో వాటి పరిమితులను సవాలు చేయడానికి రూపొందించబడింది. ఈ కొత్త ఆర్కిటెక్చర్ ట్రాన్స్‌ఫార్మర్‌కు సంభావ్య వారసుడిగా గణనీయమైన దృష్టిని ఆకర్షిస్తోంది, ముఖ్యంగా గూగుల్‌లోని ఒక బృందం దీనిని అభివృద్ధి చేసింది.

ప్రస్తుత మోడల్స్‌లో మెమరీ సవాలు

LSTM మరియు ట్రాన్స్‌ఫార్మర్ వంటి సాంప్రదాయ నమూనాలు వినూత్నమైనవి అయినప్పటికీ, మానవుల వంటి జ్ఞాపకశక్తిని అనుకరించడంలో సవాళ్లను ఎదుర్కొంటున్నాయి. ఈ సవాళ్లలో ఇవి ఉన్నాయి:

  • పరిమిత సామర్థ్యం: డేటా తరచుగా స్థిర-పరిమాణ దాచిన స్థితిలోకి కుదించబడుతుంది, ఇది నిలుపుకోగల సమాచారం మొత్తాన్ని పరిమితం చేస్తుంది.
  • కంప్యూటేషనల్ ఓవర్‌హెడ్: సుదూర ఆధారాలను సంగ్రహించగల సామర్థ్యం కలిగి ఉన్నప్పటికీ, సీక్వెన్స్ పొడవుతో కంప్యూటేషనల్ ఖర్చు చతురస్రాకారంగా పెరుగుతుంది, ఇది చాలా పొడవైన సీక్వెన్స్‌లకు అసమర్థంగా మారుతుంది.
  • శిక్షణ డేటాపై అధిక ఆధారపడటం: శిక్షణ డేటాను కేవలం గుర్తుంచుకోవడం వల్ల వాస్తవ-ప్రపంచ అనువర్తనానికి ఎల్లప్పుడూ సహాయపడదు, ఇక్కడ పరీక్ష డేటా శిక్షణ పంపిణీ వెలుపల పడిపోతుంది.

టైటాన్ విధానం: న్యూరో-ఇన్‌స్పైర్డ్ మెమరీ మాడ్యూల్

టైటాన్ బృందం ఒక విభిన్న విధానాన్ని తీసుకుంది, న్యూరల్ నెట్‌వర్క్ యొక్క పారామితులలో సమాచారాన్ని ఎన్కోడ్ చేయడానికి ప్రయత్నిస్తోంది. పరీక్ష సమయంలో నిర్దిష్ట డేటాను ఎలా గుర్తుంచుకోవాలో మరియు మరచిపోవాలో తెలుసుకోవడానికి రూపొందించబడిన ఆన్‌లైన్ మెటా-మోడల్‌ను వారు అభివృద్ధి చేశారు. ఈ నమూనా న్యూరో-సైకలాజికల్ సూత్రాలచే ప్రేరణ పొందింది, కింది కీలక అంశాలను కలిగి ఉంది:

  • ఆశ్చర్యం ఒక ట్రిగ్గర్‌గా: ఊహించని సంఘటనలు సులభంగా గుర్తుండిపోతాయి. "ఆశ్చర్యం" మెమరీ మాడ్యూల్‌కు ఇన్‌పుట్ యొక్క గ్రేడియంట్ ద్వారా కొలుస్తారు. గ్రేడియంట్ ఎంత పెద్దదైతే, ఇన్‌పుట్ అంత ఎక్కువగా ఊహించనిది.
  • మొమెంటం మరియు మరచిపోయే విధానాలు: ఒక మొమెంటం విధానం స్వల్పకాలిక ఆశ్చర్యాలను దీర్ఘకాలిక జ్ఞాపకశక్తిలోకి పేరుకుపోతుంది, అయితే మరచిపోయే విధానం పాత జ్ఞాపకాలను తొలగిస్తుంది, మెమరీ ఓవర్‌ఫ్లోను నివారిస్తుంది.
  • మల్టీ-లేయర్ పెర్సెప్ట్రాన్ (MLP) ఆధారిత మెమరీ: మెమరీ మాడ్యూల్ బహుళ MLP లేయర్‌లతో కూడి ఉంటుంది, ఇది డేటా యొక్క లోతైన సంగ్రహాలను నిల్వ చేయడానికి అనుమతిస్తుంది, ఇది సాంప్రదాయ మాతృక-ఆధారిత జ్ఞాపకాల కంటే శక్తివంతమైనదిగా చేస్తుంది.

ఈ ఆన్‌లైన్ మెటా-లెర్నింగ్ విధానం శిక్షణ డేటాను కేవలం గుర్తుంచుకోవడం కంటే, కొత్త డేటాకు ఎలా అనుగుణంగా ఉండాలో నేర్చుకోవడంపై దృష్టి పెట్టడానికి మోడల్‌కు సహాయపడుతుంది. మాడ్యూల్ సమాంతర గణన కోసం కూడా రూపొందించబడింది, ఇది దాని సామర్థ్యాన్ని పెంచుతుంది.

డీప్ లెర్నింగ్ ఆర్కిటెక్చర్స్‌లో మెమరీ మాడ్యూల్‌ను ఏకీకృతం చేయడం

టైటాన్స్ పరిశోధన బృందం డీప్ లెర్నింగ్ ఆర్కిటెక్చర్స్‌లో వారి మెమరీ మాడ్యూల్‌ను చేర్చడానికి మూడు వైవిధ్యాలను ప్రతిపాదించింది:

  1. MAC (మెమరీ యాజ్ కాంటెక్స్ట్): ఈ పద్ధతి దీర్ఘకాలిక మరియు నిరంతర మెమరీని (ఇది టాస్క్ నాలెడ్జ్‌ను ఎన్కోడ్ చేస్తుంది) శ్రద్ధా విధానానికి ఇన్‌పుట్‌గా ఉన్న సందర్భంగా మిళితం చేస్తుంది.
  2. MAG (మెమరీ యాజ్ గేట్): ఈ విధానం రెండు శాఖలలో స్లైడింగ్ విండో అటెన్షన్ మెకానిజంతో మెమరీ మాడ్యూల్ యొక్క గేటెడ్ ఫ్యూషన్‌ను ఉపయోగిస్తుంది.
  3. MAL (మెమరీ యాజ్ లేయర్): ఇక్కడ, మెమరీ మాడ్యూల్ ఒక స్వతంత్ర లేయర్‌గా అమలు చేయబడుతుంది, ఇది శ్రద్ధా విధానానికి అందించే ముందు చారిత్రక సమాచారాన్ని కుదిస్తుంది.

ప్రతి వైవిధ్యానికి దాని బలాలు మరియు బలహీనతలు ఉన్నాయని బృందం కనుగొంది.

టైటాన్స్ పనితీరు మరియు ప్రయోజనాలు

టైటాన్స్ భాషా నమూనా, సాధారణ జ్ఞానం, మరియు సమయ శ్రేణి అంచనాతో సహా వివిధ పనులలో అత్యుత్తమ పనితీరును కనబరిచింది. ఇది ట్రాన్స్‌ఫార్మర్ మరియు మాంబా వంటి అత్యాధునిక నమూనాలను అధిగమించింది. ముఖ్యంగా, దీర్ఘకాలిక మెమరీ మాడ్యూల్ (LMM) మాత్రమే స్వల్పకాలిక మెమరీ (శ్రద్ధ) లేకుండా అనేక పనులలో బేస్‌లైన్ నమూనాల కంటే మెరుగైన పనితీరును కనబరిచింది, దాని స్వతంత్ర అభ్యాస సామర్థ్యాలను ప్రదర్శిస్తుంది.

పొడవైన పాఠాలలో చక్కటి ఆధారాలను కనుగొనడానికి రూపొందించబడిన "గడ్డి కుప్పలో సూది" పరీక్షలో, సీక్వెన్స్ పొడవులు 2k నుండి 16kకి పెరిగినప్పటికీ టైటాన్స్ దాదాపు 90% ఖచ్చితత్వాన్ని కొనసాగించింది. ప్రామాణిక పరీక్షలు పొడవైన పాఠాలను నిర్వహించడంలో టైటాన్స్ యొక్క ప్రయోజనాలను పూర్తిగా ప్రదర్శించలేవని బృందం సూచిస్తుంది. చాలా పొడవైన పత్రాలలో వ్యాపించి ఉన్న వాస్తవాల నుండి అనుమానాన్ని కోరే పనిలో టైటాన్స్ GPT4, మాంబా మరియు RAGతో Llama3.1 వంటి మోడళ్లను కూడా అధిగమించింది.

టైటాన్స్ సమయ శ్రేణి అంచనా మరియు DNA సీక్వెన్స్ మోడలింగ్ వంటి నిర్దిష్ట రంగాలలో కూడా ఆకట్టుకునే పనితీరును కనబరిచింది.

టైటాన్స్ వెనుక ఉన్న బృందం

ఈ పరిశోధనను గూగుల్ రీసెర్చ్ NYC అల్గారిథమ్‌లు మరియు ఆప్టిమైజేషన్ గ్రూప్ బృందం నిర్వహించింది, ప్రస్తుతం ఇది గూగుల్ డీప్‌మైండ్‌లో భాగం కాదు. కార్నెల్ విశ్వవిద్యాలయ ఇంటర్న్ అలీ బెహ్రూజ్ ఈ పత్రానికి మొదటి రచయిత. సింగ్‌హువా విశ్వవిద్యాలయ పూర్వ విద్యార్థి మరియు కొలంబియా విశ్వవిద్యాలయం నుండి Ph.D పట్టభద్రుడు అయిన జోంగ్ పెయిలిన్ 2021 నుండి గూగుల్‌లో రీసెర్చ్ సైంటిస్ట్. అతను అండర్ గ్రాడ్యుయేట్ విద్యార్థిగా STOC 2016లో మొదటి-రచయిత పత్రాన్ని ప్రచురించినందుకు ప్రసిద్ధి చెందాడు. గూగుల్ ఫెలో మరియు VP అయిన వహాబ్ మిర్రోక్ని ఈ బృందానికి నాయకత్వం వహిస్తున్నారు.

ఈ బృందం పైటోర్చ్ మరియు జాక్స్ ఉపయోగించి టైటాన్‌లను అభివృద్ధి చేసింది మరియు శిక్షణ మరియు మూల్యాంకనం కోసం కోడ్‌ను త్వరలో విడుదల చేయాలని యోచిస్తోంది.