- Published on
మెటా యొక్క BLT ఆర్కిటెక్చర్ టోకనైజేషన్ను తొలగిస్తుంది
మెటా యొక్క BLT ఆర్కిటెక్చర్ టోకనైజేషన్ను తొలగిస్తుంది
మెటా, చికాగో విశ్వవిద్యాలయం మరియు ఇతర సంస్థల సహకారంతో, ఇటీవల "బైట్ లాటెంట్ ట్రాన్స్ఫార్మర్: ప్యాచ్లు టోకెన్ల కంటే బాగా స్కేల్ అవుతాయి" అనే పేరుతో ఒక సంచలనాత్మక పత్రాన్ని ప్రచురించింది. ఈ పరిశోధన ముఖ్యంగా హ్యాకర్ న్యూస్ వంటి వేదికలపై చాలా చర్చను రేకెత్తించింది. సాంప్రదాయ టోకనైజేషన్ ప్రక్రియను భర్తీ చేయగల భాషా నమూనాలకు ఒక కొత్త విధానం చుట్టూ ప్రధాన భావన తిరుగుతుంది. టోకనైజర్లకు మించి వెళ్లడానికి కొంతమంది పరిశోధకులు ఆసక్తిని వ్యక్తం చేయడంతో ఉత్సాహం స్పష్టంగా ఉంది. అయితే, టోకనైజేషన్ అనేక ఇప్పటికే ఉన్న నమూనాలకు పునాదిగా ఏర్పడినందున, ఈ కొత్త సాంకేతికతను ఏకీకృతం చేయడం సాధ్యమేనా అనే ఆందోళన కూడా ఉంది.
టోకనైజేషన్తో సమస్య
సాంప్రదాయ భాషా నమూనాలు డేటాను ముందస్తుగా ప్రాసెస్ చేయడానికి టోకనైజేషన్పై ఆధారపడతాయి. అయితే, ఈ పద్ధతికి అనేక పరిమితులు ఉన్నాయి. వాటిలో:
- స్థిర పదజాలం పరిమాణం, ఇది అన్ని భాషలకు లేదా సందర్భాలకు సరిపోకపోవచ్చు.
- బహుభాషా లేదా శబ్ద డేటాను ప్రాసెస్ చేయడంలో అసమర్థత.
- కుదింపు హ్యూరిస్టిక్స్ కారణంగా పక్షపాతాలను ప్రవేశపెట్టడం.
బైట్ లాటెంట్ ట్రాన్స్ఫార్మర్ (BLT)
సాంప్రదాయ టోకనైజేషన్ విధానాన్ని సవాలు చేసే పరిష్కారంగా పరిశోధన బైట్ లాటెంట్ ట్రాన్స్ఫార్మర్ (BLT) ను పరిచయం చేస్తుంది. టోకెన్లతో పనిచేయడానికి బదులుగా, BLT నేరుగా ముడి బైట్ స్ట్రీమ్లను మోడల్ చేస్తుంది. ఇది కంప్యూటేషనల్ సామర్థ్యాన్ని ఆప్టిమైజ్ చేస్తూ, వాటి ఎంట్రోపీ ఆధారంగా ఈ బైట్లను డైనమిక్గా ప్యాచ్లుగా సమూహపరుస్తుంది. అంటే, BLT స్థిర పదజాలంపై ఆధారపడకుండా అసలు బైట్ డేటా నుండి నేరుగా నేర్చుకోగలదు. BLT మరింత సమర్థవంతంగా విభిన్నమైన మరియు శబ్ద ఇన్పుట్లను నిర్వహించడానికి రూపొందించబడింది.
BLT యొక్క ముఖ్య లక్షణాలు:
- ఎంట్రోపీ-బేస్డ్ ప్యాచింగ్: BLT సమాచార సంక్లిష్టత ఆధారంగా బైట్లను ప్యాచ్లుగా డైనమిక్గా సమూహపరుస్తుంది. ఈ విధానం అధిక-ఎంట్రోపీ (సంక్లిష్టమైన) ప్రాంతాలకు ఎక్కువ కంప్యూటేషనల్ వనరులను కేటాయిస్తుంది మరియు తక్కువ-ఎంట్రోపీ ప్రాంతాలలో వనరులను ఆదా చేస్తుంది.
- సమర్థవంతమైన స్కేలింగ్: BLT ప్యాచ్ పరిమాణాలను ఆప్టిమైజ్ చేస్తుంది మరియు LLaMA వంటి టోకెన్-బేస్డ్ మోడల్లతో పోల్చదగిన లేదా మెరుగైన పనితీరును సాధిస్తూ తేలికపాటి స్థానిక నమూనాలను ఉపయోగిస్తుంది. ఇది అనుమితి సమయంలో కంప్యూటేషనల్ ఖర్చులను 50% వరకు తగ్గిస్తుంది.
- దృఢత్వం మరియు వశ్యత: BLT అక్షర-స్థాయి అవగాహన, శబ్ద ఇన్పుట్లను నిర్వహించడం లేదా లాంగ్-టెయిల్ డేటాకు సాధారణీకరించడం అవసరమయ్యే పనులలో అసాధారణమైన పనితీరును ప్రదర్శిస్తుంది, అనేక బెంచ్మార్క్లలో టోకెన్-బేస్డ్ ఆర్కిటెక్చర్లను అధిగమిస్తుంది.
BLT ఆర్కిటెక్చర్
BLT ఆర్కిటెక్చర్ వీటిని కలిగి ఉంటుంది:
- ప్యాచ్ ప్రాతినిధ్యాలపై పనిచేసే ఒక పెద్ద గ్లోబల్ ఆటోరెగ్రెసివ్ లాంగ్వేజ్ మోడల్.
- బైట్ సీక్వెన్స్లను ప్యాచ్లుగా ఎన్కోడ్ చేసే మరియు ప్యాచ్ ప్రాతినిధ్యాలను తిరిగి బైట్లుగా డీకోడ్ చేసే రెండు చిన్న స్థానిక నమూనాలు.
గ్లోబల్ లాటెంట్ ట్రాన్స్ఫార్మర్ మోడల్
గ్లోబల్ లాటెంట్ ట్రాన్స్ఫార్మర్ అనేది ఇన్పుట్ ప్యాచ్ ప్రాతినిధ్యాలను అవుట్పుట్ ప్యాచ్ ప్రాతినిధ్యాలకు మ్యాప్ చేసే ఆటోరెగ్రెసివ్ మోడల్. ఇది బ్లాక్ కాసల్ అటెన్షన్ మాస్క్ను ఉపయోగిస్తుంది.
స్థానిక ఎన్కోడర్
స్థానిక ఎన్కోడర్ మోడల్ అనేది తేలికపాటి ట్రాన్స్ఫార్మర్-బేస్డ్ మోడల్, ఇది ఇన్పుట్ బైట్ సీక్వెన్స్లను వ్యక్తీకరణ ప్యాచ్ ప్రాతినిధ్యాలకు సమర్థవంతంగా మ్యాప్ చేస్తుంది. ఇది ప్రతి ట్రాన్స్ఫార్మర్ లేయర్ తర్వాత క్రాస్-అటెన్షన్ లేయర్లను కలిగి ఉంది, బైట్ ప్రాతినిధ్యాలను ప్యాచ్ ప్రాతినిధ్యాలుగా పూల్ చేస్తుంది.
- బైట్ ఎంబెడింగ్: ఇన్పుట్ బైట్ సీక్వెన్స్లు మ్యాట్రిక్స్ను ఉపయోగించి పొందుపరచబడతాయి.
- ట్రాన్స్ఫార్మర్ లేయర్లు: ప్రత్యామ్నాయ ట్రాన్స్ఫార్మర్ మరియు క్రాస్-అటెన్షన్ లేయర్ల శ్రేణి ఎంబెడింగ్లను ప్యాచ్ ప్రాతినిధ్యాలుగా మారుస్తుంది. ఇందులో స్థానిక బ్లాక్ కాసల్ అటెన్షన్ మాస్క్ ఉంటుంది.
స్థానిక డీకోడర్
స్థానిక డీకోడర్ అనేది మరొక తేలికపాటి ట్రాన్స్ఫార్మర్-బేస్డ్ మోడల్. ఇది గ్లోబల్ ప్యాచ్ ప్రాతినిధ్యాలను అసలు బైట్లుగా డీకోడ్ చేస్తుంది. ఇది క్రాస్-అటెన్షన్ మరియు ట్రాన్స్ఫార్మర్ లేయర్ల శ్రేణిని ఉపయోగిస్తుంది. ఇది ఇంతకుముందు డీకోడ్ చేయబడిన బైట్ల ఆధారంగా అసలు బైట్ సీక్వెన్స్లను అంచనా వేయడానికి అనుమతిస్తుంది.
స్కేలింగ్ ట్రెండ్లు
పరిశోధన మరింత BLT మోడల్ అభివృద్ధికి తెలియజేయడానికి బైట్-స్థాయి నమూనాల స్కేలింగ్ ట్రెండ్లను అన్వేషిస్తుంది. ఇందులో ఇవి ఉన్నాయి:
- కంప్యూటేషనల్గా సరైన శిక్షణ పథకాలలో పోకడలను పోల్చడం.
- పెద్ద డేటాసెట్లపై 8B పారామీటర్ మోడల్లకు శిక్షణ ఇవ్వడం మరియు డౌన్స్ట్రీమ్ పనులపై పనితీరును అంచనా వేయడం.
- అనుమితి ఖర్చు-నియంత్రిత సెట్టింగ్లలో స్కేలింగ్ ట్రెండ్లను కొలవడం.
పారామీటర్-మ్యాచ్డ్ కంప్యూటేషనల్గా సరైన స్కేలింగ్ ట్రెండ్లు
Llama 2 డేటాసెట్ను ఉపయోగించి, పరిశోధకులు కంప్యూటేషనల్గా సరైన సెట్టింగ్లతో వివిధ పరిమాణాల (1B నుండి 8B పారామీటర్ల వరకు) BPE మరియు BLT నమూనాలకు శిక్షణ ఇచ్చారు. శిక్షణ ఫ్లాప్లను భాషా మోడలింగ్ పనితీరుకు వ్యతిరేకంగా ప్లాట్ చేశారు. BLT నమూనాలు BPE నమూనాలకు సరిపోయాయి లేదా వాటిని అధిగమించాయి మరియు మోడల్ పరిమాణాలు మరియు ఫ్లాప్లు పెరిగేకొద్దీ ఈ ధోరణి కొనసాగింది.
BLT-1T డేటాసెట్
8B పారామీటర్ BLT మోడల్కు BLT-1T అనే పెద్ద అధిక-నాణ్యత డేటాసెట్పై శిక్షణ ఇచ్చారు. BLT-ఎంట్రోపీ మోడల్ 7 పనులలో 4లో Llama 3 మోడల్ను అధిగమించిందని ఫలితాలు చూపించాయి. డైనమిక్ ప్యాచ్లను ఉపయోగించి శిక్షణ గణనను మరియు టోకెన్లకు బదులుగా బైట్-స్థాయి సమాచారాన్ని మోడలింగ్ చేయడం ద్వారా మెరుగైన ఉపయోగం ఈ మెరుగుదలకు కారణమని చెప్పవచ్చు.
ప్యాచ్ స్కేలింగ్
ప్యాచ్లు టోకెన్ల కంటే సులభంగా స్కేల్ అవుతాయని పరిశోధన హైలైట్ చేస్తుంది. ప్యాచ్-బేస్డ్ BLT ఆర్కిటెక్చర్ ప్యాచ్ మరియు మోడల్ పరిమాణాలను రెండింటినీ పెంచడం ద్వారా మెరుగైన స్కేలింగ్ ట్రెండ్లను సాధించగలదని ప్యాచ్ లెంగ్త్ స్కేలింగ్పై అధ్యయనం చూపిస్తుంది.
బైట్ మోడలింగ్ ద్వారా దృఢత్వం
అక్షర-స్థాయి పనులు
BLT మోడల్ శబ్ద హెలస్వాగ్ పరీక్షలలో అద్భుతమైన దృఢత్వాన్ని ప్రదర్శిస్తుంది, టోకనైజర్-బేస్డ్ మోడల్లను సగటున 8 శాతం పాయింట్లు మించిపోయింది. ఇది పెద్ద డేటాసెట్లపై శిక్షణ పొందిన Llama 3.1 మోడల్లను కూడా అధిగమించింది.
తక్కువ-వనరుల భాషలు
BLT ప్రసిద్ధ భాషా జంటలలో Llama 3 కంటే పోల్చదగిన లేదా కొద్దిగా మెరుగైన పనితీరును కనబరుస్తుంది. అయితే, ఇది తక్కువ-వనరుల భాషా జంటలలో Llama 3ని గణనీయంగా అధిగమిస్తుంది, ఇది లాంగ్-టెయిల్ బైట్ సీక్వెన్స్లకు సాధారణీకరించడంలో బైట్ మోడలింగ్ యొక్క ప్రభావాన్ని ప్రదర్శిస్తుంది.
Llama 3 నుండి BLT వరకు
BLT మోడల్లు ప్రీట్రెయిన్డ్ టోకనైజర్-బేస్డ్ మోడల్లను ఉపయోగించగల వర్క్ఫ్లోను రచయితలు పరిశోధించారు. ప్రీట్రెయిన్డ్ Llama 3.1తో BLT యొక్క గ్లోబల్ టోకనైజర్ పారామీటర్లను ప్రారంభించడం ద్వారా ఇది జరిగింది. Llama 3.1తో ప్రారంభించబడిన BLT, Llama 3 మరియు అదే సంఖ్యలో ఫ్లాప్లతో శిక్షణ పొందిన బేస్లైన్ BLT మోడల్లు రెండింటినీ అధిగమించిందని ఫలితాలు చూపించాయి.