AI
एआई मॉडल कैसे स्मार्ट होते जा रहे हैं – news247online
ये सभी चीजें कृत्रिम-बुद्धिमत्ता (एआई) मॉडल द्वारा संचालित हैं। अधिकांश तंत्रिका नेटवर्क पर भरोसा करते हैं, जो बड़ी मात्रा में जानकारी – पाठ, चित्र और इसी तरह – पर प्रशिक्षित होते हैं, जो इस बात से संबंधित है कि इसका उपयोग कैसे किया जाएगा। बहुत परीक्षण और त्रुटि के माध्यम से इन डेटा के आधार पर सिम्युलेटेड न्यूरॉन्स के बीच कनेक्शन के वजन को ट्यून किया जाता है, जो किसी दिए गए इनपुट के लिए आउटपुट संतोषजनक होने तक अरबों डायल को समायोजित करने के समान है।
न्यूरॉन्स को नेटवर्क में जोड़ने और स्तरित करने के कई तरीके हैं। इन आर्किटेक्चर में प्रगति की एक श्रृंखला ने शोधकर्ताओं को तंत्रिका नेटवर्क बनाने में मदद की है जो अधिक कुशलता से सीख सकते हैं और जो मौजूदा डेटासेट से अधिक उपयोगी निष्कर्ष निकाल सकते हैं, जिससे एआई में हालिया प्रगति हुई है।
वर्तमान का अधिकांश उत्साह मॉडल के दो परिवारों पर केंद्रित है: पाठ के लिए बड़े भाषा मॉडल (एलएलएम), और छवियों के लिए प्रसार मॉडल। ये पहले की तुलना में अधिक गहरे हैं (अर्थात, इनमें न्यूरॉन्स की अधिक परतें हैं) और इस तरह से व्यवस्थित हैं कि वे डेटा के दायरे के माध्यम से तेजी से मंथन कर सकते हैं।
एलएलएम – जैसे जीपीटी, जेमिनी, क्लाउड और लामा – सभी तथाकथित ट्रांसफॉर्मर आर्किटेक्चर पर बनाए गए हैं। 2017 में Google Brain में आशीष वासवानी और उनकी टीम द्वारा पेश किया गया, ट्रांसफार्मर का मुख्य सिद्धांत “ध्यान” है। एक ध्यान परत एक मॉडल को यह जानने की अनुमति देती है कि इनपुट के कई पहलू कैसे होते हैं – जैसे कि एक दूसरे से कुछ दूरी पर शब्द पाठ-एक-दूसरे से संबंधित हैं, और इसे ध्यान में रखते हुए यह अपना आउटपुट तैयार करता है। एक पंक्ति में कई ध्यान परतें एक मॉडल को शब्दों, वाक्यांशों या यहां तक कि पैराग्राफ के बीच ग्रैन्युलैरिटी के विभिन्न स्तरों पर जुड़ाव सीखने की अनुमति देती हैं ग्राफिक्स-प्रोसेसिंग यूनिट (जीपीयू) चिप्स पर कार्यान्वयन के लिए उपयुक्त है, जिसने इन मॉडलों को बड़े पैमाने पर बढ़ने की अनुमति दी है और बदले में, दुनिया के अग्रणी जीपीयू-निर्माता एनवीडिया के बाजार पूंजीकरण में वृद्धि हुई है।
ट्रांसफार्मर-आधारित मॉडल छवियों के साथ-साथ पाठ भी उत्पन्न कर सकते हैं। 2021 में OpenAI द्वारा जारी DALL-E का पहला संस्करण एक ट्रांसफार्मर था जो किसी पाठ में शब्दों के बजाय एक छवि में पिक्सेल के समूहों के बीच संबंध सीखता था। दोनों ही मामलों में तंत्रिका नेटवर्क जो देखता है उसे संख्याओं में अनुवाद कर रहा है और उन पर गणित (विशेष रूप से, मैट्रिक्स संचालन) कर रहा है। लेकिन ट्रांसफार्मर की अपनी सीमाएं हैं। वे लगातार विश्व-मॉडल सीखने के लिए संघर्ष करते हैं। उदाहरण के लिए, जब किसी मानव के प्रश्नों को फ़ील्ड करते हैं वे एक उत्तर से दूसरे उत्तर में स्वयं का खंडन करेंगे, बिना किसी “समझ” के कि पहला उत्तर दूसरे को निरर्थक बना देता है (या इसके विपरीत), क्योंकि वे वास्तव में किसी भी उत्तर को “नहीं” जानते हैं – बस शब्दों की कुछ श्रृंखलाओं के संबंध हैं जो दिखते हैं उत्तर की तरह.
और जैसा कि अब बहुत से लोग जानते हैं, ट्रांसफॉर्मर-आधारित मॉडल तथाकथित “मतिभ्रम” से ग्रस्त होते हैं, जहां वे प्रशंसनीय दिखने वाले लेकिन गलत उत्तर और उनके समर्थन में उद्धरण देते हैं। इसी तरह, प्रारंभिक ट्रांसफॉर्मर-आधारित मॉडल द्वारा उत्पादित छवियां अक्सर तोड़ देती हैं भौतिकी के नियम और अन्य तरीकों से अविश्वसनीय थे (जो कुछ उपयोगकर्ताओं के लिए एक विशेषता हो सकती है, लेकिन उन डिजाइनरों के लिए एक बग थी जो फोटो-यथार्थवादी छवियों का उत्पादन करना चाहते थे) एक अलग प्रकार के मॉडल की आवश्यकता थी।
चाय की मेरी कप नहीं
प्रसार मॉडल दर्ज करें, जो कहीं अधिक यथार्थवादी छवियां उत्पन्न करने में सक्षम हैं। उनके लिए मुख्य विचार प्रसार की भौतिक प्रक्रिया से प्रेरित था। यदि आप एक कप गर्म पानी में टी बैग डालते हैं, तो चाय की पत्तियां डूबने लगती हैं और चाय का रंग रिसकर साफ पानी में धुंधला हो जाता है। इसे कुछ मिनटों के लिए छोड़ दें और कप में तरल एक समान रंग का हो जाएगा। भौतिकी के नियम प्रसार की इस प्रक्रिया को निर्धारित करते हैं। आप भौतिकी के नियमों का उपयोग यह अनुमान लगाने के लिए कर सकते हैं कि चाय कैसे फैलेगी, आप इस प्रक्रिया को रिवर्स-इंजीनियर भी कर सकते हैं – यह पुनर्निर्माण करने के लिए कि चाय की थैली को सबसे पहले कहाँ और कैसे डुबोया गया होगा। वास्तविक जीवन में थर्मोडायनामिक्स का दूसरा नियम इसे बनाता है एक तरफ़ा सड़क; किसी को कप से असली टी बैग वापस नहीं मिल सकता। लेकिन उस एन्ट्रापी-रिवर्सिंग रिटर्न ट्रिप का अनुकरण करना सीखना यथार्थवादी छवि-निर्माण को संभव बनाता है।
प्रशिक्षण इस तरह काम करता है. आप एक छवि लेते हैं और उत्तरोत्तर अधिक धुंधलापन और शोर लागू करते हैं, जब तक कि यह पूरी तरह से यादृच्छिक न दिखने लगे। फिर कठिन हिस्सा आता है: मूल छवि को फिर से बनाने के लिए इस प्रक्रिया को उलटना, जैसे चाय से टी बैग निकालना। यह “स्व-पर्यवेक्षित शिक्षण” का उपयोग करके किया जाता है, उसी तरह जैसे एलएलएम को पाठ पर प्रशिक्षित किया जाता है: एक वाक्य में शब्दों को कवर करना और परीक्षण और त्रुटि के माध्यम से लापता शब्दों की भविष्यवाणी करना सीखना। छवियों के मामले में, नेटवर्क सीखता है कि कैसे हटाया जाए मूल छवि को पुन: पेश करने के लिए शोर की बढ़ती मात्रा। चूंकि यह अरबों छवियों के माध्यम से काम करता है, विकृतियों को दूर करने के लिए आवश्यक पैटर्न सीखता है, नेटवर्क यादृच्छिक शोर से अधिक कुछ नहीं से पूरी तरह से नई छवियां बनाने की क्षमता हासिल करता है।
अधिकांश अत्याधुनिक छवि-पीढ़ी प्रणालियां एक प्रसार मॉडल का उपयोग करती हैं, हालांकि वे “डी-नॉइज़िंग” या विकृतियों को उलटने के तरीके में भिन्न होते हैं। स्टेबल डिफ्यूजन (स्टेबिलिटी एआई से) और इमेजन, दोनों को 2022 में जारी किया गया था, इसका उपयोग किया गया एक आर्किटेक्चर की विविधताएं जिसे कन्वेन्शनल न्यूरल नेटवर्क (सीएनएन) कहा जाता है, जो ग्रिड जैसे डेटा जैसे कि सीएनएन की पंक्तियों और स्तंभों का विश्लेषण करने में अच्छा है, वास्तव में, विशिष्ट कलाकृतियों की तलाश में छोटी स्लाइडिंग विंडो को उनके इनपुट में ऊपर और नीचे ले जाता है। जैसे कि पैटर्न और कोने। लेकिन हालांकि सीएनएन पिक्सल के साथ अच्छी तरह से काम करते हैं, कुछ नवीनतम छवि-जनरेटर तथाकथित प्रसार ट्रांसफार्मर का उपयोग करते हैं, जिसमें स्टेबिलिटी एआई का नवीनतम मॉडल, स्टेबल डिफ्यूजन 3 भी शामिल है। एक बार प्रसार पर प्रशिक्षित होने के बाद, ट्रांसफार्मर बहुत बेहतर ढंग से समझने में सक्षम होते हैं। किसी छवि या वीडियो के फ़्रेम के विभिन्न टुकड़े एक-दूसरे से कैसे संबंधित हैं, और वे कितनी मजबूती से या कमज़ोर तरीके से ऐसा करते हैं, जिसके परिणामस्वरूप अधिक यथार्थवादी आउटपुट मिलते हैं (हालांकि वे अभी भी गलतियाँ करते हैं)।
सिफ़ारिश प्रणालियाँ मछली की एक और केतली हैं। किसी के अंदरूनी हिस्सों की झलक पाना दुर्लभ है, क्योंकि जो कंपनियां अनुशंसा एल्गोरिदम का निर्माण और उपयोग करती हैं, वे उनके बारे में अत्यधिक गोपनीय होती हैं। लेकिन 2019 में मेटा, फिर फेसबुक, ने अपने डीप-लर्निंग अनुशंसा मॉडल (डीएलआरएम) के बारे में विवरण जारी किया। मॉडल के तीन मुख्य भाग हैं. सबसे पहले, यह इनपुट (जैसे उपयोगकर्ता की उम्र या प्लेटफ़ॉर्म पर “पसंद”, या उनके द्वारा उपभोग की गई सामग्री) को “एम्बेडिंग” में परिवर्तित करता है। यह इस तरह से सीखता है कि समान चीजें (जैसे टेनिस और पिंग पोंग) इस एम्बेडिंग स्पेस में एक-दूसरे के करीब हैं।
फिर DLRM मैट्रिक्स फ़ैक्टराइज़ेशन नामक कुछ करने के लिए एक तंत्रिका नेटवर्क का उपयोग करता है। एक स्प्रेडशीट की कल्पना करें जहां कॉलम वीडियो हैं और पंक्तियाँ अलग-अलग उपयोगकर्ता हैं। प्रत्येक सेल बताता है कि प्रत्येक उपयोगकर्ता को प्रत्येक वीडियो कितना पसंद है। लेकिन ग्रिड में अधिकांश सेल खाली हैं। अनुशंसा का लक्ष्य सभी रिक्त कक्षों के लिए पूर्वानुमान लगाना है। डीएलआरएम ऐसा करने का एक तरीका ग्रिड को विभाजित करना है (गणितीय शब्दों में, मैट्रिक्स को फैक्टराइज करें) दो ग्रिड में: एक जिसमें उपयोगकर्ताओं के बारे में डेटा होता है, और एक जिसमें वीडियो के बारे में डेटा होता है। इन ग्रिडों को पुनः संयोजित करके (या मैट्रिक्स को गुणा करके) और अधिक संख्या-क्रंचिंग के लिए परिणामों को दूसरे तंत्रिका नेटवर्क में फीड करके, ग्रिड कोशिकाओं को भरना संभव है जो खाली हुआ करते थे – यानी, भविष्यवाणी करें कि प्रत्येक उपयोगकर्ता प्रत्येक वीडियो को कितना पसंद करेगा .
यही दृष्टिकोण विज्ञापनों, स्ट्रीमिंग सेवा पर गानों, ई-कॉमर्स प्लेटफॉर्म पर उत्पादों आदि पर भी लागू किया जा सकता है। तकनीकी कंपनियाँ उन मॉडलों में सबसे अधिक रुचि रखती हैं जो इस तरह के व्यावसायिक रूप से उपयोगी कार्यों में उत्कृष्टता प्राप्त करते हैं। लेकिन इन मॉडलों को बड़े पैमाने पर चलाने के लिए बेहद गहरी जेब, बड़ी मात्रा में डेटा और भारी मात्रा में प्रसंस्करण शक्ति की आवश्यकता होती है।
अगले वर्ष का मॉडल देखने तक प्रतीक्षा करें
शैक्षणिक संदर्भों में, जहां डेटासेट छोटे होते हैं और बजट सीमित होते हैं, अन्य प्रकार के मॉडल अधिक व्यावहारिक होते हैं। इनमें आवर्ती तंत्रिका नेटवर्क (डेटा के अनुक्रमों का विश्लेषण करने के लिए), परिवर्तनीय ऑटोएनकोडर (डेटा में पैटर्न का पता लगाने के लिए), जेनरेटिव प्रतिकूल नेटवर्क (जहां एक मॉडल दूसरे मॉडल को बार-बार मूर्ख बनाने की कोशिश करके एक कार्य करना सीखता है) और ग्राफ न्यूरल नेटवर्क (भविष्यवाणी करने के लिए) शामिल हैं। जटिल अंतःक्रियाओं के परिणाम)।
जिस तरह गहरे तंत्रिका नेटवर्क, ट्रांसफार्मर और प्रसार मॉडल सभी ने अनुसंधान जिज्ञासाओं से व्यापक तैनाती तक छलांग लगाई, इन अन्य मॉडलों से सुविधाओं और सिद्धांतों को जब्त कर लिया जाएगा और भविष्य के एआई मॉडल में शामिल किया जाएगा। ट्रांसफार्मर अत्यधिक कुशल होते हैं, लेकिन यह स्पष्ट नहीं है कि उन्हें बढ़ाने से मतिभ्रम करने और तर्क करते समय तार्किक त्रुटियां करने की उनकी प्रवृत्ति हल हो सकती है। “राज्य-अंतरिक्ष मॉडल” से लेकर “न्यूरो-प्रतीकात्मक” एआई तक “पोस्ट-ट्रांसफॉर्मर” आर्किटेक्चर की खोज पहले से ही चल रही है, जो ऐसी कमजोरियों को दूर कर सकती है और अगली छलांग को सक्षम कर सकती है। आदर्श रूप से ऐसा आर्किटेक्चर अधिक से अधिक ध्यान आकर्षित करेगा तर्क करने में निपुणता। फिलहाल कोई भी इंसान यह नहीं जानता कि उस तरह का मॉडल कैसे बनाया जाए। शायद किसी दिन कोई एआई मॉडल यह काम करेगा।
© 2024, द इकोनॉमिस्ट न्यूजपेपर लिमिटेड। सर्वाधिकार सुरक्षित। द इकोनॉमिस्ट से, लाइसेंस के तहत प्रकाशित। मूल सामग्री www.economist.com पर पाई जा सकती है
(टैग्सटूट्रांसलेट) एआई मॉडल (टी) डीप न्यूरल नेटवर्क (टी) डिफ्यूजन (टी) बड़े भाषा मॉडल (टी) डिफ्यूजन मॉडल (टी) एआई (टी) आर्टिफिशियल इंटेलिजेंस (टी) जीपीटी (टी) क्लाउड (टी) लामा (टी) चैटजीपीटी(टी)जीपीयू(टी)एनवीडिया(टी)डीएल ई(टी)ओपनाई(टी)एआई मॉडल का प्रशिक्षण(टी)एआई में प्रगति