Connect with us

AI

जीपीटी, क्लाउड, लामा? कैसे बताएं कि कौन सा एआई मॉडल सबसे अच्छा है | पुदीना – news247online

Published

on

जब फेसबुक की मूल कंपनी मेटा ने 23 जुलाई को अपने नवीनतम ओपन-सोर्स लार्ज लैंग्वेज मॉडल (एलएलएम) की घोषणा की, तो उसने दावा किया कि लामा 3.1 के सबसे शक्तिशाली संस्करण में “अत्याधुनिक क्षमताएं हैं जो सबसे अच्छे बंद को टक्कर देती हैं।” -स्रोत मॉडल” जैसे GPT-4o और क्लाउड 3.5 सॉनेट। मेटा की घोषणा में एक तालिका शामिल है, जो एमएमएलयू, जीएसएम8के और जीपीक्यूए जैसे नामों के साथ लोकप्रिय बेंचमार्क की श्रृंखला पर इन और अन्य मॉडलों द्वारा प्राप्त अंकों को दर्शाती है।

उदाहरण के लिए, एमएमएलयू पर, लामा 3.1 के सबसे शक्तिशाली संस्करण ने 88.6% स्कोर किया, जबकि जीपीटी-4ओ के लिए 88.7% और क्लाउड 3.5 सॉनेट के लिए 88.3% स्कोर किया, जो क्रमशः ओपनएआई और एंथ्रोपिक, दो एआई स्टार्टअप द्वारा बनाए गए प्रतिद्वंद्वी मॉडल हैं। क्लाउड 3.5 सॉनेट का 20 जून को प्रभावशाली बेंचमार्क स्कोर की एक तालिका के साथ फिर से अनावरण किया गया था। और 24 जुलाई को, लामा 3.1 की शुरुआत के अगले दिन, मिस्ट्रल, एक फ्रांसीसी एआई स्टार्टअप, ने मिस्ट्रल लार्ज 2, अपने नवीनतम एलएलएम की घोषणा की, – आपने अनुमान लगाया है – बेंचमार्क की एक और तालिका के साथ। ऐसे नंबर कहां से आते हैं और क्या उन पर भरोसा किया जा सकता है?

Advertisement

एआई मॉडल के लिए सटीक, विश्वसनीय बेंचमार्क होना मायने रखता है, न कि केवल उन्हें बनाने वाली कंपनियों के डींगें हांकने के लिए। स्टैनफोर्ड यूनिवर्सिटी में इंस्टीट्यूट फॉर ह्यूमन-सेंटेड आर्टिफिशियल इंटेलिजेंस के पर्सी लियांग कहते हैं, बेंचमार्क “प्रगति को परिभाषित करते हैं और प्रगति को आगे बढ़ाते हैं”, मॉडल-निर्माताओं को बताते हैं कि वे कहां खड़े हैं और उन्हें सुधार करने के लिए प्रोत्साहित करते हैं। बेंचमार्क क्षेत्र की समग्र प्रगति को चार्ट करते हैं और दिखाते हैं कि एआई सिस्टम विशिष्ट कार्यों में मनुष्यों के साथ तुलना कैसे करते हैं। वे उपयोगकर्ताओं को यह तय करने में भी मदद कर सकते हैं कि किसी विशेष नौकरी के लिए किस मॉडल का उपयोग किया जाए और क्षेत्र में होनहार नए प्रवेशकों की पहचान की जाए, ऐसा एक स्टार्टअप हगिंग फेस में एलएलएम के मूल्यांकन में विशेषज्ञ क्लेमेंटाइन फूरियर कहते हैं, जो एआई डेवलपर्स के लिए उपकरण प्रदान करता है।

लेकिन, डॉ. फ़ोरियर कहते हैं, बेंचमार्क स्कोर को “एक चुटकी नमक के साथ लिया जाना चाहिए”। मॉडल-निर्माता, वास्तव में, अपने स्वयं के होमवर्क को चिह्नित कर रहे हैं – और फिर परिणामों का उपयोग अपने उत्पादों को प्रचारित करने और अपनी कंपनी के मूल्यांकन के बारे में बात करने के लिए कर रहे हैं। फिर भी अक्सर, वह कहती हैं, उनके भव्य दावे वास्तविक दुनिया के प्रदर्शन से मेल खाने में विफल रहते हैं, क्योंकि मौजूदा मानक, और उन्हें लागू करने के तरीके, विभिन्न तरीकों से त्रुटिपूर्ण हैं।

एमएमएलयू (विशाल बहु-कार्य भाषा समझ) जैसे बेंचमार्क के साथ एक समस्या यह है कि वे आज के मॉडलों के लिए बहुत आसान हैं। एमएमएलयू 2020 में बनाया गया था और इसमें गणित, अमेरिकी इतिहास, विज्ञान और कानून सहित 57 विषयों में 15,908 बहुविकल्पीय प्रश्न शामिल हैं, जिनमें से प्रत्येक में चार संभावित उत्तर हैं। उस समय, अधिकांश भाषा मॉडलों ने एमएमएलयू पर 25% से थोड़ा बेहतर स्कोर किया था, जो आपको यादृच्छिक रूप से उत्तर चुनने पर मिलेगा; OpenAI के GPT-3 ने 43.9% स्कोर के साथ सर्वश्रेष्ठ प्रदर्शन किया। लेकिन तब से, मॉडलों में सुधार हुआ है, सर्वश्रेष्ठ अब 88% और 90% के बीच स्कोर कर रहे हैं।

Advertisement

इसका मतलब यह है कि उनके अंकों से सार्थक अंतर निकालना मुश्किल है, एक समस्या जिसे “संतृप्ति” के रूप में जाना जाता है (चार्ट देखें)। डॉ. फ़ोरियर कहते हैं, “यह हाई-स्कूल के छात्रों को मिडिल-स्कूल परीक्षाओं में ग्रेडिंग देने जैसा है।” अधिक कठिन बेंचमार्क तैयार किए गए हैं – एमएमएलयू-प्रो में कठिन प्रश्न और चार के बजाय दस संभावित उत्तर हैं। चयनित विज्ञान विषयों पर जीपीक्यूए पीएचडी स्तर पर एमएमएलयू की तरह है; आज के सर्वोत्तम मॉडल इस पर 50% से 60% के बीच स्कोर करते हैं। एक अन्य बेंचमार्क, म्यूएसआर (मल्टी-स्टेप सॉफ्ट रीजनिंग), उदाहरण के लिए, हत्या-रहस्य परिदृश्यों का उपयोग करके तर्क क्षमता का परीक्षण करता है। जब कोई व्यक्ति ऐसी कहानी पढ़ता है और पता लगाता है कि हत्यारा कौन है, तो वह प्रेरणा की समझ को भाषा की समझ और तार्किक निष्कर्ष के साथ जोड़ रहा है। एआई मॉडल कई चरणों में इस तरह के “नरम तर्क” में इतने अच्छे नहीं हैं। अब तक, कुछ मॉडल म्यूएसआर पर रैंडम से बेहतर स्कोर करते हैं।

एमएमएलयू दो अन्य समस्याओं पर भी प्रकाश डालता है। एक तो यह कि ऐसे परीक्षणों में उत्तर कभी-कभी ग़लत होते हैं। जून में प्रकाशित एडिनबर्ग विश्वविद्यालय के आर्यो गेमा और सहकर्मियों द्वारा किए गए एक अध्ययन में पाया गया कि, उनके द्वारा चुने गए प्रश्नों में से, एमएमएलयू के 57% वायरोलॉजी प्रश्न और 26% तार्किक-भ्रम वाले प्रश्नों में त्रुटियां थीं। कुछ के पास कोई सही उत्तर नहीं था; दूसरों के पास एक से अधिक थे। (शोधकर्ताओं ने एक नया बेंचमार्क, एमएमएलयू-रेडक्स बनाने के लिए एमएमएलयू प्रश्नों को साफ़ किया।)

फिर एक गहरा मुद्दा है, जिसे “संदूषण” के रूप में जाना जाता है। एलएलएम को इंटरनेट से डेटा का उपयोग करके प्रशिक्षित किया जाता है, जिसमें एमएमएलयू और अन्य बेंचमार्क के लिए सटीक प्रश्न और उत्तर शामिल हो सकते हैं। जानबूझकर या नहीं, संक्षेप में, मॉडल धोखा दे सकते हैं, क्योंकि उन्होंने पहले ही परीक्षण देख लिए हैं। दरअसल, कुछ मॉडल-निर्माता किसी मॉडल का स्कोर बढ़ाने के लिए उसे जानबूझकर बेंचमार्क डेटा के साथ प्रशिक्षित कर सकते हैं। लेकिन तब स्कोर मॉडल की वास्तविक क्षमता को प्रतिबिंबित करने में विफल रहता है। इस समस्या से निजात पाने का एक तरीका “निजी” बेंचमार्क बनाना है, जिसके लिए प्रश्नों को गुप्त रखा जाता है, या केवल कसकर नियंत्रित तरीके से जारी किया जाता है, ताकि यह सुनिश्चित किया जा सके कि उनका उपयोग प्रशिक्षण के लिए नहीं किया जाता है (जीपीक्यूए ऐसा करता है)। लेकिन तब केवल पहुंच वाले लोग ही किसी मॉडल के स्कोर को स्वतंत्र रूप से सत्यापित कर सकते हैं।

Advertisement

मामले को और अधिक जटिल बनाने के लिए, यह पता चलता है कि मॉडलों से प्रश्न पूछे जाने के तरीके में छोटे-छोटे बदलाव उनके स्कोर को महत्वपूर्ण रूप से प्रभावित कर सकते हैं। बहुविकल्पीय परीक्षण में, एआई मॉडल से सीधे उत्तर बताने या सही उत्तर के अनुरूप अक्षर या संख्या के साथ उत्तर देने के लिए कहने से अलग-अलग परिणाम मिल सकते हैं। यह प्रतिलिपि प्रस्तुत करने योग्यता और तुलनीयता को प्रभावित करता है।

मानकीकृत तरीके से बेंचमार्क के विरुद्ध मॉडल का परीक्षण करने के लिए अब स्वचालित परीक्षण प्रणालियों का उपयोग किया जाता है। स्टैनफोर्ड में डॉ. लिआंग की टीम ने एक ऐसी प्रणाली बनाई है, जिसे एचईएलएम (भाषा मॉडल का समग्र मूल्यांकन) कहा जाता है, जो लीडरबोर्ड तैयार करता है जो दिखाता है कि मॉडल की एक श्रृंखला विभिन्न बेंचमार्क पर कैसा प्रदर्शन करती है। हगिंग फेस में डॉ. फ़ोरियर की टीम ओपन-सोर्स मॉडल के लिए लीडरबोर्ड तैयार करने के लिए एक अन्य ऐसी प्रणाली, एलुथेरएआई हार्नेस का उपयोग करती है। ये लीडरबोर्ड मॉडल-निर्माताओं द्वारा प्रदान की गई परिणामों की तालिकाओं की तुलना में अधिक भरोसेमंद हैं, क्योंकि बेंचमार्क स्कोर लगातार तरीके से तैयार किए गए हैं।

एआई द्वारा अब तक खींची गई सबसे बड़ी चाल

जैसे-जैसे मॉडल नए कौशल हासिल करते हैं, उनका मूल्यांकन करने के लिए नए मानक विकसित किए जा रहे हैं। उदाहरण के लिए, जीएआईए वास्तविक दुनिया की समस्या-समाधान पर एआई मॉडल का परीक्षण करता है। (संदूषण से बचने के लिए कुछ उत्तरों को गुप्त रखा गया है।) जून में घोषित नोचा (उपन्यास चुनौती) एक “लंबा संदर्भ” बेंचमार्क है जिसमें हाल ही में प्रकाशित अंग्रेजी भाषा के 67 उपन्यासों के बारे में 1,001 प्रश्न शामिल हैं। उत्तर पूरी पुस्तक को पढ़ने और समझने पर निर्भर करते हैं, जो परीक्षण के भाग के रूप में मॉडल को प्रदान की जाती है। हाल के उपन्यासों को इसलिए चुना गया क्योंकि उनका प्रशिक्षण डेटा के रूप में उपयोग किए जाने की संभावना नहीं है। अन्य बेंचमार्क जीव विज्ञान की समस्याओं को हल करने की मॉडल की क्षमता या मतिभ्रम की प्रवृत्ति का आकलन करते हैं।

Advertisement

लेकिन नए बेंचमार्क विकसित करना महंगा हो सकता है, क्योंकि उन्हें अक्सर प्रश्नों और उत्तरों का विस्तृत सेट बनाने के लिए मानव विशेषज्ञों की आवश्यकता होती है। एक उत्तर नए बेंचमार्क विकसित करने के लिए स्वयं एलएलएम का उपयोग करना है। डॉ. लियांग ऑटोबेंचर नामक एक परियोजना के साथ ऐसा कर रहे हैं, जो स्रोत दस्तावेजों से प्रश्न और उत्तर निकालता है और सबसे कठिन की पहचान करता है।

क्लाउड एलएलएम के पीछे के स्टार्टअप एंथ्रोपिक ने एआई सुरक्षा पर विशेष जोर देते हुए सीधे बेंचमार्क के निर्माण के लिए फंडिंग शुरू कर दी है। एंथ्रोपिक के एक शोधकर्ता लोगन ग्राहम कहते हैं, “सुरक्षा के मानकों पर हमारे पास बहुत कम आपूर्ति है।” “हम यह न जानने के अंधेरे जंगल में हैं कि मॉडल क्या करने में सक्षम हैं।” 1 जुलाई को कंपनी ने नए बेंचमार्क और उन्हें तैयार करने के लिए टूल के लिए प्रस्ताव आमंत्रित करना शुरू किया, जिसे वह सभी के लिए उपलब्ध कराने की दृष्टि से सह-वित्त करेगी। इसमें किसी मॉडल की साइबर-हमला उपकरण विकसित करने की क्षमता का आकलन करने के तरीके विकसित करना, मान लीजिए, या रासायनिक या जैविक हथियार बनाने पर सलाह देने की उसकी इच्छा शामिल हो सकती है। इन बेंचमार्क का उपयोग सार्वजनिक रिलीज़ से पहले किसी मॉडल की सुरक्षा का आकलन करने के लिए किया जा सकता है।

डॉ. ग्राहम कहते हैं, ऐतिहासिक रूप से, एआई बेंचमार्क शिक्षाविदों द्वारा तैयार किए गए हैं। लेकिन चूंकि एआई का व्यावसायीकरण हो रहा है और इसे कई क्षेत्रों में तैनात किया जा रहा है, इसलिए विश्वसनीय और विशिष्ट बेंचमार्क की आवश्यकता बढ़ रही है। उन्होंने कहा कि एआई बेंचमार्क प्रदान करने में विशेषज्ञता वाले स्टार्टअप सामने आने लगे हैं। उनका कहना है, “हमारा लक्ष्य बाजार को बढ़ावा देना है,” शोधकर्ताओं, नियामकों और शिक्षाविदों को अच्छे और बुरे एआई मॉडल की क्षमताओं का आकलन करने के लिए आवश्यक उपकरण देना है। एआई प्रयोगशालाओं द्वारा अपने स्वयं के होमवर्क को चिह्नित करने के दिन जल्द ही खत्म हो सकते हैं।

Advertisement

© 2024, द इकोनॉमिस्ट न्यूजपेपर लिमिटेड। सर्वाधिकार सुरक्षित। द इकोनॉमिस्ट से, लाइसेंस के तहत प्रकाशित। मूल सामग्री www.economist.com पर पाई जा सकती है

सभी को पकड़ो व्यापार समाचार, बाज़ार समाचार, आज की ताजा खबर घटनाएँ और ताजा खबर लाइव मिंट पर अपडेट। डाउनलोड करें मिंट न्यूज़ ऐप दैनिक बाजार अपडेट प्राप्त करने के लिए।

अधिककम

(टैग्सटूट्रांसलेट)जीपीटी(टी)क्लाउड(टी)लामा(टी)एआई मॉडल(टी)फेसबुक(टी)मेटा(टी)बड़े भाषा मॉडल(टी)ओपनएआई

Advertisement

आदित्य वर्मा एक प्रौद्योगिकी विशेषज्ञ और लेखक हैं। वे नवीनतम गैजेट्स, सॉफ्टवेयर, और तकनीकी विकास पर लेख लिखते हैं। उन्होंने 10 वर्षों से टेक्नोलॉजी के क्षेत्र में काम किया है और उनकी लेखन शैली सरल और प्रभावशाली है।

Continue Reading
Advertisement
Click to comment

Leave a Reply

Your email address will not be published. Required fields are marked *

Exit mobile version