- Published on
பெரிய மாதிரிகளின் அடர்த்தி விதி அளவிடுதல் சட்டங்களுக்கு அப்பால் ஒரு புதிய கண்ணோட்டம்
பெரிய மாதிரிகளின் "அடர்த்தி விதி": அளவிடுதல் சட்டங்களுக்கு அப்பால் ஒரு புதிய கண்ணோட்டம்
சிங்குவா பல்கலைக்கழகத்தின் பேராசிரியர் லியு ஜி யுவான் தலைமையிலான குழு, பெரிய மாதிரிகளுக்கான "அடர்த்தி விதியை" முன்மொழிந்துள்ளது. இந்த விதி, மாதிரி திறன் அடர்த்தி சுமார் 100 நாட்களுக்கு ஒருமுறை இரட்டிப்பாகிறது என்று கூறுகிறது. இது சிப் தொழில்துறையில் மூர்ஸ் விதியை ஒத்திருக்கிறது, மேலும் இது மாதிரி அளவுருக்களின் செயல்திறனில் கவனம் செலுத்துகிறது, அளவு அடிப்படையில் அல்ல.
பின்னணி மற்றும் உந்துதல்
பாரம்பரிய அளவிடுதல் விதிகள், மாதிரி அளவு (அளவுருக்கள்) மற்றும் பயிற்சி தரவு அதிகரிக்கும்போது, மாதிரி செயல்திறன் எவ்வாறு மேம்படுகிறது என்பதை விவரிக்கின்றன. புதிய "அடர்த்தி விதி" வேறுபட்ட கண்ணோட்டத்தை அறிமுகப்படுத்துகிறது, அளவுருக்களின் பயனுள்ள பயன்பாடு மற்றும் காலப்போக்கில் மாதிரி செயல்திறனில் ஏற்படும் விரைவான முன்னேற்றத்தை வலியுறுத்துகிறது.
ஆராய்ச்சிக் குழு "திறன் அடர்த்தி" என்ற கருத்தை அறிமுகப்படுத்துகிறது, இது பயனுள்ள அளவுருக்களின் விகிதத்தை உண்மையான அளவுருக்களுடன் அளவிடுகிறது.
முக்கிய கருத்துக்கள்
- திறன் அடர்த்தி: ஒரு மாதிரியில் உள்ள "பயனுள்ள அளவுருக்களின்" விகிதத்தை, உண்மையான அளவுருக்களின் எண்ணிக்கையுடன் வகுப்பதன் மூலம் வரையறுக்கப்படுகிறது.
- பயனுள்ள அளவுருக்கள்: ஒரு இலக்கு மாதிரிக்கு இணையான செயல்திறனை அடைய ஒரு குறிப்பு மாதிரிக்குத் தேவையான குறைந்தபட்ச அளவுருக்களின் எண்ணிக்கை.
- குறிப்பு மாதிரி: மற்ற மாதிரிகளின் பயனுள்ள அளவுரு எண்ணிக்கையைத் தீர்மானிக்க ஒரு அளவுகோலாகப் பயன்படுத்தப்படும் மாதிரி.
- இழப்பு மதிப்பீடு: குறிப்பு மாதிரிகளின் தொடர்ச்சியைப் பயன்படுத்தி, மாதிரி அளவுருக்கள் மற்றும் இழப்புக்கு இடையிலான உறவை பொருத்தும் செயல்முறை.
- செயல்திறன் மதிப்பீடு: மாதிரிகளில் புதிய திறன்களின் தோற்றத்தை கருத்தில் கொண்டு, இழப்பு மற்றும் செயல்திறன் இடையே ஒரு முழுமையான வரைபடத்தை நிறுவும் செயல்முறை.
அடர்த்தி விதி
பெரிய மொழி மாதிரிகளின் (LLM) அதிகபட்ச திறன் அடர்த்தி காலப்போக்கில் அதிவேகமாக அதிகரிக்கிறது. இந்த வளர்ச்சிக்கான சூத்திரம்: ln(ρmax) = At + B, இங்கு ρmax என்பது t நேரத்தில் அதிகபட்ச திறன் அடர்த்தி ஆகும். இந்த விதி, அதிநவீன மாதிரிகளின் செயல்திறனை ஒவ்வொரு 3.3 மாதங்களுக்கும் (தோராயமாக 100 நாட்கள்) பாதி அளவுருக்களுடன் அடைய முடியும் என்று கூறுகிறது.
அடர்த்தி விதியின் தாக்கங்கள்
- குறைக்கப்பட்ட அனுமானம் செலவுகள்: மாதிரி அனுமானம் செலவுகள் காலப்போக்கில் அதிவேகமாக குறைகின்றன. உதாரணமாக, ஒரு மில்லியன் டோக்கன்களுக்கான செலவு GPT-3.5 இலிருந்து ஜெமினி-1.5-ஃப்ளாஷ் வரை கணிசமாகக் குறைந்துள்ளது.
- அதிகரிக்கப்பட்ட திறன் அடர்த்தி வளர்ச்சி: ChatGPT வெளியானதிலிருந்து, திறன் அடர்த்தி அதிகரிப்பு விகிதம் துரிதப்படுத்தப்பட்டுள்ளது.
- மூர்ஸ் விதி மற்றும் அடர்த்தி விதியின் சங்கமம்: அதிகரிக்கும் சிப் அடர்த்தி (மூர்ஸ் விதி) மற்றும் மாதிரி திறன் அடர்த்தி (அடர்த்தி விதி) ஆகியவற்றின் குறுக்குவெட்டு, சாதனத்தில் சக்திவாய்ந்த AI க்கான சாத்தியத்தை குறிக்கிறது.
- மாதிரி சுருக்கத்தின் வரம்புகள்: மாதிரி சுருக்க நுட்பங்கள் மட்டும் திறன் அடர்த்தியை மேம்படுத்தாது. உண்மையில், பெரும்பாலான சுருக்கப்பட்ட மாதிரிகள் அவற்றின் அசல் மாதிரிகளை விட குறைந்த அடர்த்தியைக் கொண்டுள்ளன.
- குறுகிய மாதிரி வாழ்க்கை சுழற்சிகள்: திறன் அடர்த்தியின் விரைவான அதிகரிப்பு, அதிக செயல்திறன் கொண்ட மாதிரிகளின் பயனுள்ள ஆயுட்காலம் குறுகி வருவதைக் குறிக்கிறது, இது லாபத்திற்கான குறுகிய காலத்திற்கு வழிவகுக்கிறது.
பரந்த சூழல்
அடர்த்தி விதி, AI சகாப்தத்தின் முக்கிய இயந்திரங்களான மின்சாரம், கணினி சக்தி மற்றும் நுண்ணறிவு ஆகியவை அனைத்தும் விரைவான அடர்த்தி வளர்ச்சியை அனுபவிக்கும் ஒரு பெரிய போக்கின் ஒரு பகுதியாகும்.
- பேட்டரி ஆற்றல் அடர்த்தி கடந்த 20 ஆண்டுகளில் நான்கு மடங்கு அதிகரித்துள்ளது.
- சிப் டிரான்சிஸ்டர் அடர்த்தி ஒவ்வொரு 18 மாதங்களுக்கும் இரட்டிப்பாகிறது (மூர்ஸ் விதி).
- AI மாதிரி திறன் அடர்த்தி ஒவ்வொரு 100 நாட்களுக்கும் இரட்டிப்பாகிறது.
இந்த போக்கு, ஆற்றல் மற்றும் கணினி வளங்களுக்கான தேவையை குறைத்து, மிகவும் திறமையான AI நோக்கி ஒரு மாற்றத்தை குறிக்கிறது. விளிம்பு கணினி மற்றும் உள்ளூர் AI மாதிரிகளின் எழுச்சி எதிர்பார்க்கப்படுகிறது, இது AI எங்கும் நிறைந்த எதிர்காலத்திற்கு வழிவகுக்கும்.
கூடுதல் புள்ளிகள்
ஆராய்ச்சிக் குழு 29 பரவலாகப் பயன்படுத்தப்படும் திறந்த மூல பெரிய மாதிரிகளைப் பயன்படுத்தி திறன் அடர்த்தியின் போக்கை ஆய்வு செய்தது. மாதிரி சுருக்க அல்காரிதம்களை மட்டுமே நம்புவது மாதிரி திறன் அடர்த்தியை மேம்படுத்த போதுமானதாக இருக்காது என்று இந்த ஆய்வு எடுத்துக்காட்டுகிறது.
ஆராய்ச்சிக் கட்டுரை இங்கே கிடைக்கிறது: Densing Law of LLMs