भारतीय कंपनियों द्वारा लार्ज लैंग्वेज मॉडल (LLMs) का प्रशिक्षण

पाठ्यक्रम: GS3/ विज्ञान और प्रौद्योगिकी

संदर्भ

  • बेंगलुरु-स्थित स्टार्टअप सर्वम AI ने दो स्वदेशी विशाल भाषा मॉडल (LLMs) प्रस्तुत किए, जो वैश्विक प्रतिस्पर्धा के बीच भारत के सार्वभौमिक, बहुभाषी और संगणनात्मक रूप से दक्ष कृत्रिम बुद्धिमत्ता (AI) की दिशा में प्रयासों को रेखांकित करते हैं।

विशाल भाषा मॉडल (LLMs)  

  • एक विशाल भाषा मॉडल (LLM) कृत्रिम बुद्धिमत्ता (AI) का ऐसा एल्गोरिद्म है जो गहन शिक्षण तकनीकों और अत्यधिक बड़े डाटा सेट का उपयोग करके सामग्री को समझने, संक्षेपित करने, उत्पन्न करने एवं नई सामग्री का पूर्वानुमान लगाने में सक्षम होता है।
  • गहन शिक्षण असंरचित डाटा का प्रायिक विश्लेषण करता है, जिससे मॉडल बिना मानवीय हस्तक्षेप के विभिन्न प्रकार की सामग्री के बीच अंतर पहचानने में सक्षम होता है।
  • यह समझने में सहायता करता है कि अक्षर, शब्द और वाक्य एक साथ कैसे कार्य करते हैं।

भारत में स्वदेशी LLM पारिस्थितिकी तंत्र

  • सर्वम  AI मॉडल: दक्षता, सटीकता और भारतीय भाषाओं की क्षमता पर केंद्रित। इन्हें मुक्त-स्रोत बनाने का उद्देश्य है, यद्यपि व्यापक सार्वजनिक परीक्षण जारी है।
  • भारतजेन: IIT बॉम्बे में विकसित, जिसने शिक्षा और स्वास्थ्य जैसे क्षेत्रों के लिए बहुभाषी 17-बिलियन-पैरामीटर मॉडल प्रशिक्षित किया।
  • ज्ञानी.ai(Gnani.ai): संक्षिप्त भाषण और पाठ-से-भाषण मॉडल प्रस्तुत किए।

LLMs का प्रशिक्षण कैसे होता है?

  • GPU क्लस्टर: LLM प्रशिक्षण के लिए अत्यधिक संगणनात्मक शक्ति की आवश्यकता होती है, जिसमें ग्राफिक्स प्रोसेसिंग यूनिट्स (GPUs) के क्लस्टर का उपयोग किया जाता है। हज़ारों GPUs सप्ताहों या महीनों तक एक साथ कार्य करते हैं।
  • डाटा मुख्य इनपुट के रूप में: प्रशिक्षण विशाल डाटा सेट पर आधारित होता है, जो प्रायः इंटरनेट से संकलित किए जाते हैं।
  • मॉडल पैरामीटर: पैरामीटर आंतरिक भार को दर्शाते हैं जिनके माध्यम से मॉडल पैटर्न सीखते हैं। सर्वम AI ने 35 बिलियन और 105 बिलियन पैरामीटर वाले मॉडल प्रशिक्षित किए।
    • अधिक पैरामीटर क्षमता को बढ़ाते हैं, किंतु अधिक संगणनात्मक शक्ति की आवश्यकता होती है।

प्रमुख प्रशिक्षण पद्धतियाँ

  • डाटा संकलन: भारतीय भाषाओं में उच्च-गुणवत्ता वाले डाटा सेट एकत्रित करना।
    • इसमें सरकारी दस्तावेज़, साहित्य, मीडिया और कृत्रिम डाटा निर्माण शामिल है। 
    • यह अंग्रेज़ी-केंद्रित AI प्रणालियों से आगे प्रदर्शन सुधारने के लिए महत्वपूर्ण है।
  • पूर्व-प्रशिक्षण (Pre-Training): मॉडल बड़े असंरचित डाटा सेट में आगामी टोकन की भविष्यवाणी करके सामान्य भाषा पैटर्न सीखते हैं।
    • यह चरण तर्क और व्याकरण की आधारभूत क्षमता विकसित करता है।
  • सूक्ष्म-प्रशिक्षण (Fine-Tuning): मॉडल को विशिष्ट कार्यों के लिए संकलित डाटा सेट का उपयोग करके अनुकूलित किया जाता है।
    • हगिंग फेस(Hugging Face) और लैंगचेन(LangChain) जैसे उपकरण निर्देश-प्रशिक्षण, वर्गीकरण और क्षेत्रीय अनुकूलन में सहायक होते हैं।
  • संरेखण/RLHF (मानवीय प्रतिक्रिया से सुदृढीकरण शिक्षण): मानव मूल्यांकनकर्ता मॉडल के आउटपुट को रैंक करते हैं ताकि यह अधिक सुरक्षित, सटीक और मानवीय उद्देश्य के अनुरूप बने, तथा हानिकारक या पक्षपाती प्रतिक्रियाओं को हतोत्साहित किया जा सके।

भारत में LLM प्रशिक्षण की चुनौतियाँ

  • भारतीय भाषाओं में सीमित डाटा: उच्च-गुणवत्ता वाले डाटा सेट की कमी मॉडल के प्रदर्शन को घटाती है।
    • कई प्रणालियाँ पहले अंग्रेज़ी में अनुवाद पर निर्भर करती हैं, जिससे टोकन उपयोग और विलंबता बढ़ती है। मूल भाषाओं में कमज़ोर प्रदर्शन गैर-अंग्रेज़ी उपयोगकर्ताओं के बीच अपनाने को प्रभावित करता है।
  • उच्च पूंजीगत आवश्यकताएँ: अग्रणी मॉडल का प्रशिक्षण भारी वित्तीय निवेश मांगता है। स्टार्टअप्स के पास प्रायः तत्काल व्यावसायिक लाभ नहीं होते जो ऐसे व्यय को उचित ठहरा सकें।
  • बुनियादी ढाँचे की सीमाएँ: उच्च-स्तरीय संगणनात्मक सुविधाओं तक पहुँच सरकार के समर्थन के बिना सीमित रहती है।

इंडियाएआई  मिशन  

  • इंडियाएआई मिशन  भारत के लिए एक व्यापक, स्वदेशी AI पारिस्थितिकी तंत्र बनाने की प्रमुख पहल है।
  • यह उच्च-प्रदर्शन संगणनात्मक बुनियादी ढाँचे, स्वदेशी आधारभूत मॉडल और सुरक्षित, नैतिक AI के विकास पर केंद्रित है, “भारत में AI बनाना एवं भारत के लिए AI को कार्यशील बनाना” की दृष्टि के अंतर्गत।
  • भारत ने 38,000 GPUs प्राप्त किए हैं, जो विश्व-स्तरीय AI संसाधनों तक सुलभ और किफ़ायती पहुँच प्रदान करते हैं।
    • GPU या ग्राफिक्स प्रोसेसिंग यूनिट एक शक्तिशाली कंप्यूटर चिप है जो मशीनों को तीव्रता से सोचने, चित्रों को संसाधित करने, AI प्रोग्राम चलाने और जटिल कार्यों को सामान्य प्रोसेसर की तुलना में अधिक दक्षता से संभालने में सक्षम बनाता है।
इंडियाएआई  मिशन  

स्रोत: TH

 

Other News of the Day

पाठ्यक्रम: GS1/भूगोल संदर्भ हाल ही के एक अध्ययन से पता चलता है कि वर्ष 2022 में पृथ्वी के ऊर्जा असंतुलन में वृद्धि मुख्यतः “ट्रिपल-डिप” ला नीना से गर्म एल नीनो की ओर संक्रमण तथा दीर्घकालिक जलवायु परिवर्तन के कारण हुई। पृथ्वी का ऊर्जा असंतुलन अध्ययन   पृथ्वी का ऊर्जा असंतुलन (EEI) उस अंतर को संदर्भित करता...
Read More

पाठ्यक्रम: GS3/विज्ञान एवं प्रौद्योगिकी संदर्भ ब्लॉकचेन इंडिया चैलेंज, जिसे इलेक्ट्रॉनिक्स एवं सूचना प्रौद्योगिकी मंत्रालय (MeitY) द्वारा प्रारंभ किया गया है, एक राष्ट्रीय पहल है जिसका उद्देश्य दूरदर्शी भारतीय स्टार्टअप्स को प्रोत्साहित करना है ताकि वे ब्लॉकचेन आधारित डिजिटल शासन समाधान प्रस्तुत कर सकें और उनका परीक्षण कर सकें। ब्लॉकचेन क्या है? ब्लॉकचेन एक वितरित, पारदर्शी,...
Read More

पाठ्यक्रम: GS3/पर्यावरण  समाचारों में हाल ही में यह देखा गया है कि कार्बन कैप्चर एवं उपयोग (CCU) प्रौद्योगिकियाँ भारत के नेट-ज़ीरो उत्सर्जन लक्ष्यों को प्राप्त करने के लिए अत्यावश्यक हैं, विशेषकर सीमेंट जैसे कठिन-से-नियंत्रित क्षेत्रों में। कार्बन कैप्चर एवं उपयोग (CCU) यह उन प्रौद्योगिकियों का समूह है जो औद्योगिक स्रोतों या सीधे वायुमंडल से कार्बन...
Read More

RAMP कार्यक्रम पाठ्यक्रम: GS2/शासन संदर्भ   पाँचवीं राष्ट्रीय MSME परिषद ने विश्व बैंक समर्थित RAMP कार्यक्रम की प्रगति की समीक्षा की है। रेजिंग एंड एक्सेलरेटिंग एमएसएमई परफॉर्मेंस (RAMP)   RAMP एक विश्व बैंक समर्थित केंद्रीय क्षेत्र योजना है जिसका उद्देश्य MSMEs की बाज़ार, वित्त और प्रौद्योगिकी उन्नयन तक पहुँच को बेहतर बनाना है, तथा वर्तमान MoMSME योजनाओं...
Read More
scroll to top