Published on

माइक्रोसॉफ्ट ने शक्तिशाली Phi-4 मॉडल जारी किया, GPT-4o को भी पछाड़ा

लेखक
  • avatar
    नाम
    Ajax
    Twitter

माइक्रोसॉफ्ट अनुसंधान ने हाल ही में अपना नवीनतम छोटे पैरामीटर मॉडल, Phi-4, खोला है। इस मॉडल ने अपने उत्कृष्ट प्रदर्शन से व्यापक ध्यान आकर्षित किया है। Phi-4 में केवल 14 बिलियन पैरामीटर हैं, लेकिन कई बेंचमार्क परीक्षणों में इसका प्रदर्शन आश्चर्यजनक रहा है, यहां तक कि OpenAI के GPT-4o और Qwen 2.5-14B और Llama-3.3-70B जैसे अन्य शीर्ष-स्तरीय ओपन-सोर्स मॉडल को भी पीछे छोड़ दिया है।

अधिक विशिष्ट परीक्षणों में, Phi-4 ने अमेरिकी गणित प्रतियोगिता AMC में 91.8 का उत्कृष्ट स्कोर प्राप्त किया, जो Gemini Pro 1.5, Claude 3.5 Sonnet सहित कई प्रसिद्ध ओपन और क्लोज्ड-सोर्स मॉडल से बेहतर था। इसका समग्र प्रदर्शन 405 बिलियन मापदंडों वाले Llama-3.1 के समान भी है।

इस कदम ने समुदाय से मजबूत प्रतिक्रिया को प्रेरित किया है। पहले, उपयोगकर्ताओं ने Hugging Face पर Phi-4 वेट के पायरेटेड संस्करण अपलोड किए थे। अब, माइक्रोसॉफ्ट ने आखिरकार आधिकारिक तौर पर Phi-4 को ओपन-सोर्स कर दिया है, और MIT लाइसेंस अपनाया है, जो व्यावसायिक उपयोग की अनुमति देता है। ओपन सोर्स पता: phi-4

Hugging Face ने भी Phi-4 के ओपन सोर्स होने पर बधाई दी है, जो इसके प्रभाव को दर्शाता है।

Phi-4 की मुख्य ताकत: सिंथेटिक डेटा और परिष्कृत प्रशिक्षण

Phi-4 इतने कम मापदंडों के साथ इतने उत्कृष्ट परिणाम प्राप्त करने में सक्षम है, क्योंकि उच्च गुणवत्ता वाले सिंथेटिक डेटा ने महत्वपूर्ण भूमिका निभाई है। पारंपरिक वेब स्क्रैपिंग डेटा की तुलना में, सिंथेटिक डेटा अधिक संरचित और क्रमिक शिक्षण सामग्री प्रदान कर सकता है, जो मॉडल को भाषा तर्क और तर्क प्रक्रिया को अधिक कुशलता से सीखने में मदद करता है।

  • संरचित सीखना: सिंथेटिक डेटा को समस्या समाधान चरणों के अनुसार क्रमिक रूप से प्रस्तुत किया जा सकता है, जैसे कि गणितीय समस्या समाधान में। यह मॉडल को समस्या की संरचना और समाधान के विचारों को बेहतर ढंग से समझने में मदद करता है।

  • संदर्भ संरेखण: सिंथेटिक डेटा मॉडल के तर्क संदर्भ के साथ बेहतर ढंग से संरेखित हो सकता है, वास्तविक अनुप्रयोगों में मॉडल द्वारा उत्पन्न होने वाले आउटपुट प्रारूप के करीब। यह मॉडल को प्रीट्रेनिंग चरण के दौरान वास्तविक अनुप्रयोग परिदृश्यों की आवश्यकताओं के अनुकूल बनाता है। उदाहरण के लिए, वेब फ़ोरम में तथ्यों को बड़े मॉडल इंटरैक्शन जैसी शैली में फिर से लिखना, ताकि मॉडल द्वारा उत्पन्न संवादों में यह जानकारी अधिक प्राकृतिक और उचित हो।

Phi-4 का सिंथेटिक डेटा उत्पादन निम्नलिखित सिद्धांतों का पालन करता है:

  1. विविधता
  2. बारीकी और जटिलता
  3. सटीकता
  4. तर्क श्रृंखला

ये सिद्धांत सिंथेटिक डेटा की गुणवत्ता सुनिश्चित करते हैं और 50 से अधिक विभिन्न प्रकार के सिंथेटिक डेटासेट को कवर करते हैं। माइक्रोसॉफ्ट ने बहु-चरणीय प्रॉम्प्टिंग प्रक्रियाओं, सीड क्यूरेशन, पुनर्लेखन और संवर्धन, और स्व-संशोधन जैसे विभिन्न तरीकों के माध्यम से लगभग 400 बिलियन गैर-भारित टोकन उत्पन्न किए हैं।

सिंथेटिक डेटा के अलावा, Phi-4 ने जैविक डेटा का भी सख्ती से चयन और फ़िल्टर किया है। इसने वेब सामग्री, लाइसेंस प्राप्त पुस्तकों और कोड रिपॉजिटरी जैसे कई चैनलों से डेटा एकत्र किया, और दो-चरणीय फ़िल्टरिंग प्रक्रिया के माध्यम से उच्च शैक्षिक मूल्य और तर्क की गहराई वाले सीड डेटा को निकाला। यह सीड डेटा सिंथेटिक डेटा के उत्पादन के लिए आधार प्रदान करता है, और इसका उपयोग प्रीट्रेनिंग के लिए भी किया जाता है, जो मॉडल के ज्ञान भंडार को और समृद्ध करता है।

फ़िल्टरिंग प्रक्रिया में, माइक्रोसॉफ्ट ने छोटे क्लासिफायर पर आधारित एक फ़िल्टरिंग विधि को अपनाया है, जो बड़े पैमाने पर वेब डेटा से उच्च-गुणवत्ता वाले दस्तावेज़ों का चयन करती है, और बहुभाषी डेटा के लिए विशेष प्रसंस्करण करती है, यह सुनिश्चित करती है कि मॉडल जर्मन, स्पेनिश, फ्रेंच, पुर्तगाली, इतालवी, हिंदी और जापानी सहित कई भाषाओं को संसाधित कर सकता है।

Phi-4 की प्रशिक्षण प्रक्रिया

Phi-4 का प्रीट्रेनिंग मुख्य रूप से सिंथेटिक डेटा का उपयोग करता है, साथ ही थोड़ी मात्रा में उच्च-गुणवत्ता वाला जैविक डेटा भी। यह डेटा मिश्रण रणनीति मॉडल को तर्क और समस्या-समाधान क्षमताओं को सीखने के साथ-साथ समृद्ध ज्ञान सामग्री को अवशोषित करने में सक्षम बनाती है।

मध्य-अवधि के प्रशिक्षण चरण में, Phi-4 ने लंबी टेक्स्ट को संभालने की मॉडल की क्षमता में सुधार करने के लिए संदर्भ लंबाई को 4096 से बढ़ाकर 16384 कर दिया। इसमें उच्च गुणवत्ता वाले गैर-सिंथेटिक डेटासेट से फ़िल्टर किए गए 8K से अधिक संदर्भ वाले नमूने, साथ ही नए बनाए गए सिंथेटिक डेटासेट शामिल हैं जो 4K अनुक्रम आवश्यकताओं को पूरा करते हैं।

पोस्ट-ट्रेनिंग चरण Phi-4 के अनुकूलन की कुंजी है। माइक्रोसॉफ्ट ने पर्यवेक्षित फाइन-ट्यूनिंग (SFT) और प्रत्यक्ष वरीयता अनुकूलन (DPO) तकनीकों को अपनाया।

  • SFT चरण: विभिन्न क्षेत्रों से उच्च-गुणवत्ता वाले डेटा द्वारा उत्पन्न लगभग 8 बिलियन टोकन का उपयोग प्रीट्रेन मॉडल को फाइन-ट्यून करने के लिए किया जाता है, जिसमें 10-6 की सीखने की दर होती है। 40 भाषाओं के बहुभाषी डेटा को भी जोड़ा जाता है, सभी डेटा चैटएमएल प्रारूप का उपयोग करते हैं।

  • DPO तकनीक: वरीयता डेटा उत्पन्न करके मॉडल के आउटपुट को समायोजित करती है, जिससे यह मानव वरीयताओं के अनुरूप हो। माइक्रोसॉफ्ट ने DPO जोड़े बनाने के लिए महत्वपूर्ण टोकन खोज (PTS) तकनीक भी पेश की। यह तकनीक उन महत्वपूर्ण टोकन की पहचान कर सकती है जो मॉडल की प्रतिक्रिया सटीकता पर महत्वपूर्ण प्रभाव डालते हैं, और इन टोकन के लिए वरीयता डेटा बनाती है, जिससे तर्क कार्यों में मॉडल का प्रदर्शन बेहतर होता है।

Phi-4 का प्रदर्शन मूल्यांकन

Phi-4 के प्रदर्शन का मूल्यांकन करने के लिए, माइक्रोसॉफ्ट ने कई बेंचमार्क परीक्षण किए। शैक्षणिक बेंचमार्क परीक्षणों, जैसे MMLU, GPQA, MATH, HumanEval आदि में, Phi-4 ने उत्कृष्ट प्रदर्शन किया।

MMLU परीक्षण में, Phi-4 ने 84.8 का उच्च स्कोर प्राप्त किया। GPQA और MATH परीक्षणों में, इसने GPT-4o को भी पीछे छोड़ दिया, गणित प्रतियोगिता से संबंधित कार्यों में मजबूत तर्क क्षमता का प्रदर्शन किया। अन्य समान आकार और बड़े आकार के मॉडलों की तुलना में, Phi-4 ने 12 बेंचमार्क परीक्षणों में से 9 में समान ओपन-सोर्स मॉडल Qwen-2.5-14B-Instruct को बेहतर प्रदर्शन किया।