AI
एआई का संक्षिप्त इतिहास – news247online
डार्टमाउथ मीटिंग ने उन मशीनों के बारे में वैज्ञानिक जांच की शुरुआत नहीं की जो लोगों की तरह सोच सकती हैं। एलन ट्यूरिंग, जिनके नाम पर ट्यूरिंग पुरस्कार का नाम रखा गया है, ने इस पर आश्चर्य व्यक्त किया; मैकार्थी के प्रेरणास्रोत जॉन वॉन न्यूमैन ने भी ऐसा ही किया। 1956 तक इस मुद्दे पर पहले से ही कई दृष्टिकोण थे; इतिहासकारों का मानना है कि मैकार्थी ने अपने प्रोजेक्ट के लिए आर्टिफिशियल इंटेलिजेंस, जिसे बाद में AI कहा गया, शब्द गढ़ने का एक कारण यह था कि यह उन सभी को शामिल करने के लिए पर्याप्त व्यापक था, जिससे यह सवाल खुला रह गया कि कौन सा सबसे अच्छा हो सकता है। कुछ शोधकर्ताओं ने दुनिया के तथ्यों को ज्यामिति और प्रतीकात्मक तर्क जैसे स्वयंसिद्धों के साथ संयोजित करने पर आधारित प्रणालियों का समर्थन किया ताकि उचित प्रतिक्रियाओं का अनुमान लगाया जा सके; अन्य लोग ऐसी प्रणालियों का निर्माण करना पसंद करते थे जिसमें एक चीज की संभावना कई अन्य चीजों की लगातार अद्यतन संभावनाओं पर निर्भर करती थी।
अगले दशकों में इस विषय पर बहुत बौद्धिक उथल-पुथल और बहस हुई, लेकिन 1980 के दशक तक आगे बढ़ने के तरीके पर व्यापक सहमति थी: “विशेषज्ञ प्रणाली” जो मानव ज्ञान के सर्वश्रेष्ठ को पकड़ने और लागू करने के लिए प्रतीकात्मक तर्क का उपयोग करती है। जापानी सरकार ने, विशेष रूप से, इस तरह की प्रणालियों और उनके लिए आवश्यक हार्डवेयर के विचार के पीछे अपना वजन डाला। लेकिन अधिकांश भाग के लिए ऐसी प्रणालियाँ वास्तविक दुनिया की गड़बड़ियों से निपटने के लिए बहुत लचीली साबित हुईं। 1980 के दशक के अंत तक AI बदनाम हो गया था, जो अति-वादा और कम-प्रदान का पर्याय बन गया था। क्षेत्र में अभी भी जो शोधकर्ता थे, उन्होंने इस शब्द से परहेज करना शुरू कर दिया।
यह दृढ़ता के उन झरोखों में से एक था, जहाँ से आज की उछाल का जन्म हुआ। 1940 के दशक में जब मस्तिष्क कोशिकाओं – एक प्रकार के न्यूरॉन – के काम करने के तरीके की मूल बातें जोड़ी गईं, तो कंप्यूटर वैज्ञानिकों ने सोचना शुरू कर दिया कि क्या मशीनों को भी उसी तरह से जोड़ा जा सकता है। जैविक मस्तिष्क में न्यूरॉन्स के बीच कनेक्शन होते हैं जो एक में गतिविधि को दूसरे में गतिविधि को ट्रिगर या दबाने की अनुमति देते हैं; एक न्यूरॉन क्या करता है यह इस बात पर निर्भर करता है कि उससे जुड़े अन्य न्यूरॉन्स क्या कर रहे हैं। प्रयोगशाला में इसे मॉडल करने का पहला प्रयास (मार्विन मिंस्की, एक डार्टमाउथ सहभागी द्वारा) न्यूरॉन्स के नेटवर्क को मॉडल करने के लिए हार्डवेयर का उपयोग किया गया था। तब से, सॉफ्टवेयर में परस्पर जुड़े न्यूरॉन्स की परतों का अनुकरण किया गया है।
इन कृत्रिम तंत्रिका नेटवर्क को स्पष्ट नियमों का उपयोग करके प्रोग्राम नहीं किया जाता है; इसके बजाय, वे बहुत सारे उदाहरणों के संपर्क में आने से “सीखते” हैं। इस प्रशिक्षण के दौरान न्यूरॉन्स (जिन्हें “वेट” के रूप में जाना जाता है) के बीच कनेक्शन की ताकत को बार-बार समायोजित किया जाता है ताकि अंततः, एक दिया गया इनपुट एक उपयुक्त आउटपुट उत्पन्न करे। मिंस्की ने खुद इस विचार को त्याग दिया, लेकिन दूसरों ने इसे आगे बढ़ाया। 1990 के दशक की शुरुआत में तंत्रिका नेटवर्क को हस्तलिखित संख्याओं को पहचानकर पोस्ट को छाँटने में मदद करने जैसे काम करने के लिए प्रशिक्षित किया गया था। शोधकर्ताओं ने सोचा कि न्यूरॉन्स की अधिक परतें जोड़ने से अधिक परिष्कृत उपलब्धियाँ मिल सकती हैं। लेकिन इससे सिस्टम बहुत धीमी गति से चलते हैं।
एक नए तरह के कंप्यूटर हार्डवेयर ने इस समस्या से निपटने का एक तरीका प्रदान किया। इसकी क्षमता का नाटकीय रूप से 2009 में प्रदर्शन किया गया था, जब स्टैनफोर्ड विश्वविद्यालय के शोधकर्ताओं ने अपने छात्रावास के कमरे में गेमिंग पीसी का उपयोग करके न्यूरल नेट को चलाने की गति को 70 गुना बढ़ा दिया था। यह इसलिए संभव हुआ क्योंकि सभी पीसी में पाए जाने वाले “सेंट्रल प्रोसेसिंग यूनिट” (सीपीयू) के साथ-साथ इस पीसी में स्क्रीन पर गेम की दुनिया बनाने के लिए एक “ग्राफिक्स प्रोसेसिंग यूनिट” (जीपीयू) भी था। और जीपीयू को न्यूरल-नेटवर्क कोड चलाने के लिए उपयुक्त तरीके से डिज़ाइन किया गया था।
हार्डवेयर की गति को अधिक कुशल प्रशिक्षण एल्गोरिदम के साथ जोड़ने का मतलब था कि लाखों कनेक्शन वाले नेटवर्क को उचित समय में प्रशिक्षित किया जा सकता था; न्यूरल नेटवर्क बड़े इनपुट को संभाल सकते थे और, महत्वपूर्ण रूप से, उन्हें अधिक परतें दी जा सकती थीं। ये “गहरे” नेटवर्क कहीं अधिक सक्षम निकले।
इस नए दृष्टिकोण की शक्ति, जिसे “डीप लर्निंग” के रूप में जाना जाता है, 2012 की इमेजनेट चुनौती में स्पष्ट हो गई। चुनौती में प्रतिस्पर्धा करने वाली छवि-पहचान प्रणालियों को दस लाख से अधिक लेबल वाली छवि फ़ाइलों का डेटाबेस प्रदान किया गया था। किसी भी दिए गए शब्द, जैसे “कुत्ता” या “बिल्ली” के लिए, डेटाबेस में कई सौ तस्वीरें थीं। इन उदाहरणों का उपयोग करके, छवि-पहचान प्रणालियों को छवियों के रूप में इनपुट को एक-शब्द विवरण के रूप में आउटपुट पर “मैप” करने के लिए प्रशिक्षित किया जाएगा। फिर सिस्टम को पहले से न देखी गई परीक्षण छवियों को खिलाए जाने पर ऐसे विवरण बनाने की चुनौती दी गई। 2012 में टोरंटो विश्वविद्यालय में जियोफ हिंटन के नेतृत्व में एक टीम ने 85% की सटीकता हासिल करने के लिए डीप लर्निंग का उपयोग किया। इसे तुरंत एक सफलता के रूप में पहचाना गया।
2015 तक इमेज-पहचान क्षेत्र में लगभग हर कोई डीप लर्निंग का उपयोग कर रहा था, और इमेजनेट चैलेंज में जीत की सटीकता 96% तक पहुँच गई थी – जो औसत मानव स्कोर से बेहतर थी। डीप लर्निंग को कई अन्य “समस्याओं…जो मनुष्यों के लिए आरक्षित हैं” पर भी लागू किया जा रहा था, जिन्हें एक प्रकार की चीज़ को दूसरे प्रकार की चीज़ पर मैप करने तक सीमित किया जा सकता था: स्पीच रिकग्निशन (ध्वनि को टेक्स्ट में मैप करना), फेस-रिकग्निशन (चेहरे को नामों में मैप करना) और अनुवाद।
इन सभी अनुप्रयोगों में इंटरनेट के माध्यम से प्राप्त की जा सकने वाली बड़ी मात्रा में डेटा सफलता के लिए महत्वपूर्ण था; इससे भी अधिक, इंटरनेट का उपयोग करने वाले लोगों की संख्या बड़े बाजारों की संभावना को दर्शाती थी। और जितने बड़े (यानी, गहरे) नेटवर्क बनाए गए, और जितना अधिक प्रशिक्षण डेटा उन्हें दिया गया, उतना ही उनका प्रदर्शन बेहतर हुआ।
डीप लर्निंग को जल्द ही सभी तरह के नए उत्पादों और सेवाओं में इस्तेमाल किया जाने लगा। अमेज़ॅन के एलेक्सा जैसे वॉयस-संचालित डिवाइस सामने आए। ऑनलाइन ट्रांसक्रिप्शन सेवाएँ उपयोगी हो गईं। वेब ब्राउज़र ने स्वचालित अनुवाद की सुविधा दी। यह कहना कि ऐसी चीज़ें AI द्वारा सक्षम हैं, शर्मनाक होने के बजाय अच्छा लगने लगा, हालाँकि यह थोड़ा बेमानी भी था; लगभग हर तकनीक जिसे तब और अब AI के रूप में संदर्भित किया जाता है, वास्तव में बोनट के नीचे डीप लर्निंग पर निर्भर करती है।
2017 में अधिक कंप्यूटिंग शक्ति और अधिक डेटा द्वारा प्रदान किए जा रहे मात्रात्मक लाभों में एक गुणात्मक परिवर्तन जोड़ा गया: न्यूरॉन्स के बीच कनेक्शन की व्यवस्था करने का एक नया तरीका जिसे ट्रांसफॉर्मर कहा जाता है। ट्रांसफॉर्मर न्यूरल नेटवर्क को उनके इनपुट में पैटर्न का ट्रैक रखने में सक्षम बनाता है, भले ही पैटर्न के तत्व बहुत दूर हों, एक तरह से जो उन्हें डेटा में विशेष विशेषताओं पर “ध्यान” देने की अनुमति देता है।
ट्रांसफॉर्मर्स ने नेटवर्क को संदर्भ की बेहतर समझ दी, जो उन्हें “स्व-पर्यवेक्षित शिक्षण” नामक तकनीक के अनुकूल बनाती है। संक्षेप में, प्रशिक्षण के दौरान कुछ शब्दों को बेतरतीब ढंग से खाली कर दिया जाता है, और मॉडल खुद को सबसे संभावित उम्मीदवार को भरने के लिए सिखाता है। क्योंकि प्रशिक्षण डेटा को पहले से लेबल नहीं किया जाना चाहिए, ऐसे मॉडल को इंटरनेट से लिए गए कच्चे पाठ के अरबों शब्दों का उपयोग करके प्रशिक्षित किया जा सकता है।
अपने भाषा मॉडल का ध्यान रखें
ट्रांसफॉर्मर-आधारित बड़े भाषा मॉडल (LLM) ने 2019 में व्यापक ध्यान आकर्षित करना शुरू किया, जब OpenAI नामक एक स्टार्टअप (GPT का मतलब है जनरेटिव प्री-ट्रेन्ड ट्रांसफॉर्मर) द्वारा GPT-2 नामक एक मॉडल जारी किया गया। ऐसे LLM “उभरते” व्यवहार में सक्षम निकले, जिसके लिए उन्हें स्पष्ट रूप से प्रशिक्षित नहीं किया गया था। बड़ी मात्रा में भाषा को आत्मसात करने से वे न केवल सारांश या अनुवाद जैसे भाषाई कार्यों में आश्चर्यजनक रूप से कुशल बन गए, बल्कि सरल अंकगणित और सॉफ़्टवेयर लेखन जैसी चीज़ों में भी कुशल बन गए, जो प्रशिक्षण डेटा में निहित थे। कम खुशी की बात यह है कि इसका मतलब यह भी था कि उन्हें दिए गए डेटा में उन्होंने पूर्वाग्रहों को फिर से पेश किया, जिसका मतलब था कि मानव समाज के कई प्रचलित पूर्वाग्रह उनके आउटपुट में उभर कर आए।
नवंबर 2022 में एक बड़ा OpenAI मॉडल, GPT-3.5, चैटबॉट के रूप में जनता के सामने पेश किया गया। वेब ब्राउज़र वाला कोई भी व्यक्ति प्रॉम्प्ट दर्ज कर सकता है और प्रतिक्रिया प्राप्त कर सकता है। कोई भी उपभोक्ता उत्पाद इतनी तेज़ी से कभी नहीं चला। कुछ ही हफ़्तों में ChatGPT कॉलेज निबंध से लेकर कंप्यूटर कोड तक सब कुछ बना रहा था। AI ने एक और बड़ी छलांग लगाई है।
जहाँ AI-संचालित उत्पादों का पहला समूह पहचान पर आधारित था, वहीं यह दूसरा समूह पीढ़ी पर आधारित है। स्टेबल डिफ्यूज़न और DALL-E जैसे डीप-लर्निंग मॉडल, जिन्होंने उसी समय के आसपास अपनी शुरुआत की, टेक्स्ट प्रॉम्प्ट को छवियों में बदलने के लिए डिफ्यूज़न नामक तकनीक का उपयोग करते हैं। अन्य मॉडल आश्चर्यजनक रूप से यथार्थवादी वीडियो, भाषण या संगीत का उत्पादन कर सकते हैं।
यह छलांग सिर्फ़ तकनीकी नहीं है। चीज़ों को बनाने से फ़र्क पड़ता है। ChatGPT और प्रतिद्वंद्वी जैसे कि Gemini (Google से) और Claude (Anthropic से, जिसकी स्थापना पहले OpenAI में शोधकर्ताओं द्वारा की गई थी) गणनाओं से आउटपुट तैयार करते हैं, ठीक वैसे ही जैसे अन्य डीप-लर्निंग सिस्टम करते हैं। लेकिन यह तथ्य कि वे अनुरोधों का जवाब नवीनता के साथ देते हैं, उन्हें ऐसे सॉफ़्टवेयर से बिल्कुल अलग महसूस कराता है जो चेहरों को पहचानता है, डिक्टेशन लेता है या मेनू का अनुवाद करता है। वे वास्तव में “भाषा का उपयोग” और “अमूर्तताएँ बनाते” दिखते हैं, जैसा कि मैकार्थी ने उम्मीद की थी।
संक्षिप्त विवरणों की यह श्रृंखला यह देखेगी कि ये मॉडल किस प्रकार कार्य करते हैं, उनकी शक्तियों को और कितना बढ़ाया जा सकता है, उनका क्या नया उपयोग किया जाएगा, तथा उनका उपयोग किस लिए नहीं किया जाएगा या नहीं किया जाना चाहिए।
© 2024, द इकोनॉमिस्ट न्यूज़पेपर लिमिटेड। सभी अधिकार सुरक्षित। द इकोनॉमिस्ट से, लाइसेंस के तहत प्रकाशित। मूल सामग्री www.economist.com पर देखी जा सकती है।