Published on

మెటా యొక్క BLT ఆర్కిటెక్చర్ టోకనైజేషన్‌ను తొలగిస్తుంది

రచయితలు
  • avatar
    పేరు
    Ajax
    Twitter

మెటా యొక్క BLT ఆర్కిటెక్చర్ టోకనైజేషన్‌ను తొలగిస్తుంది

మెటా, చికాగో విశ్వవిద్యాలయం మరియు ఇతర సంస్థల సహకారంతో, ఇటీవల "బైట్ లాటెంట్ ట్రాన్స్‌ఫార్మర్: ప్యాచ్‌లు టోకెన్‌ల కంటే బాగా స్కేల్ అవుతాయి" అనే పేరుతో ఒక సంచలనాత్మక పత్రాన్ని ప్రచురించింది. ఈ పరిశోధన ముఖ్యంగా హ్యాకర్ న్యూస్ వంటి వేదికలపై చాలా చర్చను రేకెత్తించింది. సాంప్రదాయ టోకనైజేషన్ ప్రక్రియను భర్తీ చేయగల భాషా నమూనాలకు ఒక కొత్త విధానం చుట్టూ ప్రధాన భావన తిరుగుతుంది. టోకనైజర్‌లకు మించి వెళ్లడానికి కొంతమంది పరిశోధకులు ఆసక్తిని వ్యక్తం చేయడంతో ఉత్సాహం స్పష్టంగా ఉంది. అయితే, టోకనైజేషన్ అనేక ఇప్పటికే ఉన్న నమూనాలకు పునాదిగా ఏర్పడినందున, ఈ కొత్త సాంకేతికతను ఏకీకృతం చేయడం సాధ్యమేనా అనే ఆందోళన కూడా ఉంది.

టోకనైజేషన్‌తో సమస్య

సాంప్రదాయ భాషా నమూనాలు డేటాను ముందస్తుగా ప్రాసెస్ చేయడానికి టోకనైజేషన్‌పై ఆధారపడతాయి. అయితే, ఈ పద్ధతికి అనేక పరిమితులు ఉన్నాయి. వాటిలో:

  • స్థిర పదజాలం పరిమాణం, ఇది అన్ని భాషలకు లేదా సందర్భాలకు సరిపోకపోవచ్చు.
  • బహుభాషా లేదా శబ్ద డేటాను ప్రాసెస్ చేయడంలో అసమర్థత.
  • కుదింపు హ్యూరిస్టిక్స్ కారణంగా పక్షపాతాలను ప్రవేశపెట్టడం.

బైట్ లాటెంట్ ట్రాన్స్‌ఫార్మర్ (BLT)

సాంప్రదాయ టోకనైజేషన్ విధానాన్ని సవాలు చేసే పరిష్కారంగా పరిశోధన బైట్ లాటెంట్ ట్రాన్స్‌ఫార్మర్ (BLT) ను పరిచయం చేస్తుంది. టోకెన్‌లతో పనిచేయడానికి బదులుగా, BLT నేరుగా ముడి బైట్ స్ట్రీమ్‌లను మోడల్ చేస్తుంది. ఇది కంప్యూటేషనల్ సామర్థ్యాన్ని ఆప్టిమైజ్ చేస్తూ, వాటి ఎంట్రోపీ ఆధారంగా ఈ బైట్‌లను డైనమిక్‌గా ప్యాచ్‌లుగా సమూహపరుస్తుంది. అంటే, BLT స్థిర పదజాలంపై ఆధారపడకుండా అసలు బైట్ డేటా నుండి నేరుగా నేర్చుకోగలదు. BLT మరింత సమర్థవంతంగా విభిన్నమైన మరియు శబ్ద ఇన్‌పుట్‌లను నిర్వహించడానికి రూపొందించబడింది.

BLT యొక్క ముఖ్య లక్షణాలు:

  • ఎంట్రోపీ-బేస్డ్ ప్యాచింగ్: BLT సమాచార సంక్లిష్టత ఆధారంగా బైట్‌లను ప్యాచ్‌లుగా డైనమిక్‌గా సమూహపరుస్తుంది. ఈ విధానం అధిక-ఎంట్రోపీ (సంక్లిష్టమైన) ప్రాంతాలకు ఎక్కువ కంప్యూటేషనల్ వనరులను కేటాయిస్తుంది మరియు తక్కువ-ఎంట్రోపీ ప్రాంతాలలో వనరులను ఆదా చేస్తుంది.
  • సమర్థవంతమైన స్కేలింగ్: BLT ప్యాచ్ పరిమాణాలను ఆప్టిమైజ్ చేస్తుంది మరియు LLaMA వంటి టోకెన్-బేస్డ్ మోడల్‌లతో పోల్చదగిన లేదా మెరుగైన పనితీరును సాధిస్తూ తేలికపాటి స్థానిక నమూనాలను ఉపయోగిస్తుంది. ఇది అనుమితి సమయంలో కంప్యూటేషనల్ ఖర్చులను 50% వరకు తగ్గిస్తుంది.
  • దృఢత్వం మరియు వశ్యత: BLT అక్షర-స్థాయి అవగాహన, శబ్ద ఇన్‌పుట్‌లను నిర్వహించడం లేదా లాంగ్-టెయిల్ డేటాకు సాధారణీకరించడం అవసరమయ్యే పనులలో అసాధారణమైన పనితీరును ప్రదర్శిస్తుంది, అనేక బెంచ్‌మార్క్‌లలో టోకెన్-బేస్డ్ ఆర్కిటెక్చర్‌లను అధిగమిస్తుంది.

BLT ఆర్కిటెక్చర్

BLT ఆర్కిటెక్చర్ వీటిని కలిగి ఉంటుంది:

  1. ప్యాచ్ ప్రాతినిధ్యాలపై పనిచేసే ఒక పెద్ద గ్లోబల్ ఆటోరెగ్రెసివ్ లాంగ్వేజ్ మోడల్.
  2. బైట్ సీక్వెన్స్‌లను ప్యాచ్‌లుగా ఎన్‌కోడ్ చేసే మరియు ప్యాచ్ ప్రాతినిధ్యాలను తిరిగి బైట్‌లుగా డీకోడ్ చేసే రెండు చిన్న స్థానిక నమూనాలు.

గ్లోబల్ లాటెంట్ ట్రాన్స్‌ఫార్మర్ మోడల్

గ్లోబల్ లాటెంట్ ట్రాన్స్‌ఫార్మర్ అనేది ఇన్‌పుట్ ప్యాచ్ ప్రాతినిధ్యాలను అవుట్‌పుట్ ప్యాచ్ ప్రాతినిధ్యాలకు మ్యాప్ చేసే ఆటోరెగ్రెసివ్ మోడల్. ఇది బ్లాక్ కాసల్ అటెన్షన్ మాస్క్‌ను ఉపయోగిస్తుంది.

స్థానిక ఎన్‌కోడర్

స్థానిక ఎన్‌కోడర్ మోడల్ అనేది తేలికపాటి ట్రాన్స్‌ఫార్మర్-బేస్డ్ మోడల్, ఇది ఇన్‌పుట్ బైట్ సీక్వెన్స్‌లను వ్యక్తీకరణ ప్యాచ్ ప్రాతినిధ్యాలకు సమర్థవంతంగా మ్యాప్ చేస్తుంది. ఇది ప్రతి ట్రాన్స్‌ఫార్మర్ లేయర్ తర్వాత క్రాస్-అటెన్షన్ లేయర్‌లను కలిగి ఉంది, బైట్ ప్రాతినిధ్యాలను ప్యాచ్ ప్రాతినిధ్యాలుగా పూల్ చేస్తుంది.

  • బైట్ ఎంబెడింగ్: ఇన్‌పుట్ బైట్ సీక్వెన్స్‌లు మ్యాట్రిక్స్‌ను ఉపయోగించి పొందుపరచబడతాయి.
  • ట్రాన్స్‌ఫార్మర్ లేయర్‌లు: ప్రత్యామ్నాయ ట్రాన్స్‌ఫార్మర్ మరియు క్రాస్-అటెన్షన్ లేయర్‌ల శ్రేణి ఎంబెడింగ్‌లను ప్యాచ్ ప్రాతినిధ్యాలుగా మారుస్తుంది. ఇందులో స్థానిక బ్లాక్ కాసల్ అటెన్షన్ మాస్క్ ఉంటుంది.

స్థానిక డీకోడర్

స్థానిక డీకోడర్ అనేది మరొక తేలికపాటి ట్రాన్స్‌ఫార్మర్-బేస్డ్ మోడల్. ఇది గ్లోబల్ ప్యాచ్ ప్రాతినిధ్యాలను అసలు బైట్‌లుగా డీకోడ్ చేస్తుంది. ఇది క్రాస్-అటెన్షన్ మరియు ట్రాన్స్‌ఫార్మర్ లేయర్‌ల శ్రేణిని ఉపయోగిస్తుంది. ఇది ఇంతకుముందు డీకోడ్ చేయబడిన బైట్‌ల ఆధారంగా అసలు బైట్ సీక్వెన్స్‌లను అంచనా వేయడానికి అనుమతిస్తుంది.

స్కేలింగ్ ట్రెండ్‌లు

పరిశోధన మరింత BLT మోడల్ అభివృద్ధికి తెలియజేయడానికి బైట్-స్థాయి నమూనాల స్కేలింగ్ ట్రెండ్‌లను అన్వేషిస్తుంది. ఇందులో ఇవి ఉన్నాయి:

  • కంప్యూటేషనల్‌గా సరైన శిక్షణ పథకాలలో పోకడలను పోల్చడం.
  • పెద్ద డేటాసెట్‌లపై 8B పారామీటర్ మోడల్‌లకు శిక్షణ ఇవ్వడం మరియు డౌన్‌స్ట్రీమ్ పనులపై పనితీరును అంచనా వేయడం.
  • అనుమితి ఖర్చు-నియంత్రిత సెట్టింగ్‌లలో స్కేలింగ్ ట్రెండ్‌లను కొలవడం.

పారామీటర్-మ్యాచ్డ్ కంప్యూటేషనల్‌గా సరైన స్కేలింగ్ ట్రెండ్‌లు

Llama 2 డేటాసెట్‌ను ఉపయోగించి, పరిశోధకులు కంప్యూటేషనల్‌గా సరైన సెట్టింగ్‌లతో వివిధ పరిమాణాల (1B నుండి 8B పారామీటర్‌ల వరకు) BPE మరియు BLT నమూనాలకు శిక్షణ ఇచ్చారు. శిక్షణ ఫ్లాప్‌లను భాషా మోడలింగ్ పనితీరుకు వ్యతిరేకంగా ప్లాట్ చేశారు. BLT నమూనాలు BPE నమూనాలకు సరిపోయాయి లేదా వాటిని అధిగమించాయి మరియు మోడల్ పరిమాణాలు మరియు ఫ్లాప్‌లు పెరిగేకొద్దీ ఈ ధోరణి కొనసాగింది.

BLT-1T డేటాసెట్

8B పారామీటర్ BLT మోడల్‌కు BLT-1T అనే పెద్ద అధిక-నాణ్యత డేటాసెట్‌పై శిక్షణ ఇచ్చారు. BLT-ఎంట్రోపీ మోడల్ 7 పనులలో 4లో Llama 3 మోడల్‌ను అధిగమించిందని ఫలితాలు చూపించాయి. డైనమిక్ ప్యాచ్‌లను ఉపయోగించి శిక్షణ గణనను మరియు టోకెన్‌లకు బదులుగా బైట్-స్థాయి సమాచారాన్ని మోడలింగ్ చేయడం ద్వారా మెరుగైన ఉపయోగం ఈ మెరుగుదలకు కారణమని చెప్పవచ్చు.

ప్యాచ్ స్కేలింగ్

ప్యాచ్‌లు టోకెన్‌ల కంటే సులభంగా స్కేల్ అవుతాయని పరిశోధన హైలైట్ చేస్తుంది. ప్యాచ్-బేస్డ్ BLT ఆర్కిటెక్చర్ ప్యాచ్ మరియు మోడల్ పరిమాణాలను రెండింటినీ పెంచడం ద్వారా మెరుగైన స్కేలింగ్ ట్రెండ్‌లను సాధించగలదని ప్యాచ్ లెంగ్త్ స్కేలింగ్‌పై అధ్యయనం చూపిస్తుంది.

బైట్ మోడలింగ్ ద్వారా దృఢత్వం

అక్షర-స్థాయి పనులు

BLT మోడల్ శబ్ద హెలస్‌వాగ్ పరీక్షలలో అద్భుతమైన దృఢత్వాన్ని ప్రదర్శిస్తుంది, టోకనైజర్-బేస్డ్ మోడల్‌లను సగటున 8 శాతం పాయింట్లు మించిపోయింది. ఇది పెద్ద డేటాసెట్‌లపై శిక్షణ పొందిన Llama 3.1 మోడల్‌లను కూడా అధిగమించింది.

తక్కువ-వనరుల భాషలు

BLT ప్రసిద్ధ భాషా జంటలలో Llama 3 కంటే పోల్చదగిన లేదా కొద్దిగా మెరుగైన పనితీరును కనబరుస్తుంది. అయితే, ఇది తక్కువ-వనరుల భాషా జంటలలో Llama 3ని గణనీయంగా అధిగమిస్తుంది, ఇది లాంగ్-టెయిల్ బైట్ సీక్వెన్స్‌లకు సాధారణీకరించడంలో బైట్ మోడలింగ్ యొక్క ప్రభావాన్ని ప్రదర్శిస్తుంది.

Llama 3 నుండి BLT వరకు

BLT మోడల్‌లు ప్రీట్రెయిన్డ్ టోకనైజర్-బేస్డ్ మోడల్‌లను ఉపయోగించగల వర్క్‌ఫ్లోను రచయితలు పరిశోధించారు. ప్రీట్రెయిన్డ్ Llama 3.1తో BLT యొక్క గ్లోబల్ టోకనైజర్ పారామీటర్‌లను ప్రారంభించడం ద్వారా ఇది జరిగింది. Llama 3.1తో ప్రారంభించబడిన BLT, Llama 3 మరియు అదే సంఖ్యలో ఫ్లాప్‌లతో శిక్షణ పొందిన బేస్‌లైన్ BLT మోడల్‌లు రెండింటినీ అధిగమించిందని ఫలితాలు చూపించాయి.