పెద్ద మోడళ్ల సాంద్రత నియమం స్కేలింగ్ చట్టాలకు మించిన కొత్త దృక్కోణం

పెద్ద నమూనాల "సాంద్రత నియమం": స్కేలింగ్ చట్టాలకు మించిన కొత్త దృక్కోణం

చింగ్హువా విశ్వవిద్యాలయం ప్రొఫెసర్ లియు జియువాన్ నేతృత్వంలోని బృందం పెద్ద నమూనాలకు "సాంద్రత నియమం" ప్రతిపాదించింది. ఇది మోడల్ సామర్థ్య సాంద్రత దాదాపు ప్రతి 100 రోజులకు రెట్టింపు అవుతుందని చెబుతుంది. ఈ నియమం చిప్ పరిశ్రమలోని మూర్స్ లాకు సమానమైనది, ఇది కేవలం స్కేల్ కంటే మోడల్ పారామితుల సామర్థ్యంపై దృష్టి పెడుతుంది.

నేపథ్యం మరియు ప్రేరణ

సాంప్రదాయ స్కేలింగ్ చట్టాలు మోడల్ పరిమాణం (పారామితులు) మరియు శిక్షణ డేటా పెరిగే కొద్దీ మోడల్ పనితీరు ఎలా మెరుగుపడుతుందో వివరిస్తాయి. కొత్త "సాంద్రత నియమం" భిన్నమైన దృక్కోణాన్ని పరిచయం చేస్తుంది, ఇది పారామితుల సమర్థవంతమైన వినియోగం మరియు కాలక్రమేణా మోడల్ సామర్థ్యంలో వేగవంతమైన అభివృద్ధిని నొక్కి చెబుతుంది. పరిశోధన బృందం "సామర్థ్య సాంద్రత" అనే భావనను పరిచయం చేసింది, ఇది సమర్థవంతమైన పారామితుల నిష్పత్తిని వాస్తవ పారామితులకు కొలుస్తుంది.

ముఖ్య భావనలు

సామర్థ్య సాంద్రత: మోడల్‌లోని "సమర్థవంతమైన పారామితులు" మరియు వాస్తవ పారామితుల సంఖ్య మధ్య నిష్పత్తిగా నిర్వచించబడింది.
సమర్థవంతమైన పారామితులు: లక్షిత మోడల్ వలె అదే పనితీరును సాధించడానికి ఒక సూచన మోడల్‌కు అవసరమైన కనీస పారామితుల సంఖ్య.
సూచన మోడల్: ఇతర మోడళ్ల సమర్థవంతమైన పారామితి గణనను గుర్తించడానికి ఒక ప్రమాణంగా ఉపయోగించే మోడల్.
నష్ట అంచనా: సూచన నమూనాల శ్రేణిని ఉపయోగించి మోడల్ పారామితులు మరియు నష్టం మధ్య సంబంధాన్ని సరిపోయే ప్రక్రియ.
పనితీరు అంచనా: నష్టానికి మరియు పనితీరుకు మధ్య పూర్తి మ్యాపింగ్‌ను ఏర్పాటు చేసే ప్రక్రియ, మోడళ్లలో కొత్త సామర్థ్యాల ఆవిర్భావాన్ని పరిగణనలోకి తీసుకుంటుంది.

సాంద్రత నియమం

పెద్ద భాషా నమూనాల గరిష్ట సామర్థ్య సాంద్రత కాలక్రమేణా ఘాతాంకపరంగా పెరుగుతుంది. ఈ పెరుగుదల కోసం సూత్రాన్ని ln(ρmax) = At + B గా వ్యక్తీకరించారు, ఇక్కడ ρmax అనేది సమయం t వద్ద గరిష్ట సామర్థ్య సాంద్రత. ఈ నియమం ప్రకారం, అత్యాధునిక మోడళ్ల పనితీరును ప్రతి 3.3 నెలలకు (సుమారు 100 రోజులు) సగం పారామితులతో సాధించవచ్చని సూచిస్తుంది.

సాంద్రత నియమం యొక్క చిక్కులు

తగ్గిన అనుమితి ఖర్చులు: మోడల్ అనుమితి ఖర్చులు కాలక్రమేణా ఘాతాంకపరంగా తగ్గుతున్నాయి. ఉదాహరణకు, మిలియన్ టోకెన్‌కు అయ్యే ఖర్చు GPT-3.5 నుండి జెమిని-1.5-ఫ్లాష్‌కు గణనీయంగా తగ్గింది.
వేగవంతమైన సామర్థ్య సాంద్రత వృద్ధి: ChatGPT విడుదలైనప్పటి నుండి, సామర్థ్య సాంద్రత పెరుగుదల రేటు వేగవంతమైంది.
మూర్స్ లా మరియు సాంద్రత నియమం యొక్క సంగమం: పెరుగుతున్న చిప్ సాంద్రత (మూర్స్ లా) మరియు మోడల్ సామర్థ్య సాంద్రత (సాంద్రత నియమం) యొక్క కూడలి శక్తివంతమైన ఆన్-డివైస్ AIకి సంభావ్యతను సూచిస్తుంది.
మోడల్ కుదింపు యొక్క పరిమితులు: మోడల్ కుదింపు సాంకేతికతలు మాత్రమే సామర్థ్య సాంద్రతను పెంచకపోవచ్చు. వాస్తవానికి, చాలా కుదించబడిన మోడల్స్ వాటి అసలు వాటి కంటే తక్కువ సాంద్రతను కలిగి ఉన్నాయి.
తగ్గిన మోడల్ జీవిత చక్రాలు: సామర్థ్య సాంద్రతలో వేగవంతమైన పెరుగుదల అంటే అధిక-పనితీరు గల మోడళ్ల సమర్థవంతమైన జీవితకాలం తక్కువగా మారుతోంది, ఇది లాభదాయకత కోసం ఒక చిన్న విండోకు దారితీస్తుంది.

విస్తృత సందర్భం

సాంద్రత నియమం AI యుగం యొక్క ప్రధాన ఇంజిన్‌లు - విద్యుత్, కంప్యూటింగ్ శక్తి మరియు మేధస్సు - అన్నీ వేగవంతమైన సాంద్రత వృద్ధిని అనుభవిస్తున్న ఒక పెద్ద ధోరణిలో భాగం.

గత 20 సంవత్సరాలలో బ్యాటరీ శక్తి సాంద్రత నాలుగు రెట్లు పెరిగింది.
చిప్ ట్రాన్సిస్టర్ సాంద్రత ప్రతి 18 నెలలకు రెట్టింపు అవుతుంది (మూర్స్ లా).
AI మోడల్ సామర్థ్య సాంద్రత ప్రతి 100 రోజులకు రెట్టింపు అవుతుంది.

ఈ ధోరణి మరింత సమర్థవంతమైన AI వైపు మారుతున్నట్లు సూచిస్తుంది, ఇది శక్తి మరియు కంప్యూటింగ్ వనరులకు డిమాండ్‌ను తగ్గిస్తుంది. ఎడ్జ్ కంప్యూటింగ్ మరియు స్థానిక AI మోడళ్ల పెరుగుదల ఊహించబడింది, ఇది AI సర్వత్రా ఉండే భవిష్యత్తుకు దారితీస్తుంది.

అదనపు అంశాలు

పరిశోధన బృందం సామర్థ్య సాంద్రత యొక్క ధోరణిని విశ్లేషించడానికి విస్తృతంగా ఉపయోగించే 29 ఓపెన్-సోర్స్ పెద్ద మోడళ్లను ఉపయోగించింది.
మోడల్ సామర్థ్య సాంద్రతను పెంచడానికి మోడల్ కుదింపు అల్గారిథమ్‌లపై మాత్రమే ఆధారపడటం సరిపోదని ఈ అధ్యయనం హైలైట్ చేస్తుంది.
పరిశోధన పత్రం ఇక్కడ అందుబాటులో ఉంది: Densing Law of LLMs