Connect with us

    AI

    जीपीटी, क्लाउड, लामा? कैसे बताएं कि कौन सा एआई मॉडल सबसे अच्छा है | पुदीना – news247online

    Published

    on

    जब फेसबुक की मूल कंपनी मेटा ने 23 जुलाई को अपने नवीनतम ओपन-सोर्स लार्ज लैंग्वेज मॉडल (एलएलएम) की घोषणा की, तो उसने दावा किया कि लामा 3.1 के सबसे शक्तिशाली संस्करण में “अत्याधुनिक क्षमताएं हैं जो सबसे अच्छे बंद को टक्कर देती हैं।” -स्रोत मॉडल” जैसे GPT-4o और क्लाउड 3.5 सॉनेट। मेटा की घोषणा में एक तालिका शामिल है, जो एमएमएलयू, जीएसएम8के और जीपीक्यूए जैसे नामों के साथ लोकप्रिय बेंचमार्क की श्रृंखला पर इन और अन्य मॉडलों द्वारा प्राप्त अंकों को दर्शाती है।

    उदाहरण के लिए, एमएमएलयू पर, लामा 3.1 के सबसे शक्तिशाली संस्करण ने 88.6% स्कोर किया, जबकि जीपीटी-4ओ के लिए 88.7% और क्लाउड 3.5 सॉनेट के लिए 88.3% स्कोर किया, जो क्रमशः ओपनएआई और एंथ्रोपिक, दो एआई स्टार्टअप द्वारा बनाए गए प्रतिद्वंद्वी मॉडल हैं। क्लाउड 3.5 सॉनेट का 20 जून को प्रभावशाली बेंचमार्क स्कोर की एक तालिका के साथ फिर से अनावरण किया गया था। और 24 जुलाई को, लामा 3.1 की शुरुआत के अगले दिन, मिस्ट्रल, एक फ्रांसीसी एआई स्टार्टअप, ने मिस्ट्रल लार्ज 2, अपने नवीनतम एलएलएम की घोषणा की, – आपने अनुमान लगाया है – बेंचमार्क की एक और तालिका के साथ। ऐसे नंबर कहां से आते हैं और क्या उन पर भरोसा किया जा सकता है?

    Advertisement

    एआई मॉडल के लिए सटीक, विश्वसनीय बेंचमार्क होना मायने रखता है, न कि केवल उन्हें बनाने वाली कंपनियों के डींगें हांकने के लिए। स्टैनफोर्ड यूनिवर्सिटी में इंस्टीट्यूट फॉर ह्यूमन-सेंटेड आर्टिफिशियल इंटेलिजेंस के पर्सी लियांग कहते हैं, बेंचमार्क “प्रगति को परिभाषित करते हैं और प्रगति को आगे बढ़ाते हैं”, मॉडल-निर्माताओं को बताते हैं कि वे कहां खड़े हैं और उन्हें सुधार करने के लिए प्रोत्साहित करते हैं। बेंचमार्क क्षेत्र की समग्र प्रगति को चार्ट करते हैं और दिखाते हैं कि एआई सिस्टम विशिष्ट कार्यों में मनुष्यों के साथ तुलना कैसे करते हैं। वे उपयोगकर्ताओं को यह तय करने में भी मदद कर सकते हैं कि किसी विशेष नौकरी के लिए किस मॉडल का उपयोग किया जाए और क्षेत्र में होनहार नए प्रवेशकों की पहचान की जाए, ऐसा एक स्टार्टअप हगिंग फेस में एलएलएम के मूल्यांकन में विशेषज्ञ क्लेमेंटाइन फूरियर कहते हैं, जो एआई डेवलपर्स के लिए उपकरण प्रदान करता है।

    लेकिन, डॉ. फ़ोरियर कहते हैं, बेंचमार्क स्कोर को “एक चुटकी नमक के साथ लिया जाना चाहिए”। मॉडल-निर्माता, वास्तव में, अपने स्वयं के होमवर्क को चिह्नित कर रहे हैं – और फिर परिणामों का उपयोग अपने उत्पादों को प्रचारित करने और अपनी कंपनी के मूल्यांकन के बारे में बात करने के लिए कर रहे हैं। फिर भी अक्सर, वह कहती हैं, उनके भव्य दावे वास्तविक दुनिया के प्रदर्शन से मेल खाने में विफल रहते हैं, क्योंकि मौजूदा मानक, और उन्हें लागू करने के तरीके, विभिन्न तरीकों से त्रुटिपूर्ण हैं।

    यह भी पढ़ें  PwC इंडिया और मेटा उद्यमों और सार्वजनिक सेवाओं के लिए GenAI समाधान विकसित करने के लिए सहयोग करते हैं | पुदीना - news247online

    एमएमएलयू (विशाल बहु-कार्य भाषा समझ) जैसे बेंचमार्क के साथ एक समस्या यह है कि वे आज के मॉडलों के लिए बहुत आसान हैं। एमएमएलयू 2020 में बनाया गया था और इसमें गणित, अमेरिकी इतिहास, विज्ञान और कानून सहित 57 विषयों में 15,908 बहुविकल्पीय प्रश्न शामिल हैं, जिनमें से प्रत्येक में चार संभावित उत्तर हैं। उस समय, अधिकांश भाषा मॉडलों ने एमएमएलयू पर 25% से थोड़ा बेहतर स्कोर किया था, जो आपको यादृच्छिक रूप से उत्तर चुनने पर मिलेगा; OpenAI के GPT-3 ने 43.9% स्कोर के साथ सर्वश्रेष्ठ प्रदर्शन किया। लेकिन तब से, मॉडलों में सुधार हुआ है, सर्वश्रेष्ठ अब 88% और 90% के बीच स्कोर कर रहे हैं।

    Advertisement

    इसका मतलब यह है कि उनके अंकों से सार्थक अंतर निकालना मुश्किल है, एक समस्या जिसे “संतृप्ति” के रूप में जाना जाता है (चार्ट देखें)। डॉ. फ़ोरियर कहते हैं, “यह हाई-स्कूल के छात्रों को मिडिल-स्कूल परीक्षाओं में ग्रेडिंग देने जैसा है।” अधिक कठिन बेंचमार्क तैयार किए गए हैं – एमएमएलयू-प्रो में कठिन प्रश्न और चार के बजाय दस संभावित उत्तर हैं। चयनित विज्ञान विषयों पर जीपीक्यूए पीएचडी स्तर पर एमएमएलयू की तरह है; आज के सर्वोत्तम मॉडल इस पर 50% से 60% के बीच स्कोर करते हैं। एक अन्य बेंचमार्क, म्यूएसआर (मल्टी-स्टेप सॉफ्ट रीजनिंग), उदाहरण के लिए, हत्या-रहस्य परिदृश्यों का उपयोग करके तर्क क्षमता का परीक्षण करता है। जब कोई व्यक्ति ऐसी कहानी पढ़ता है और पता लगाता है कि हत्यारा कौन है, तो वह प्रेरणा की समझ को भाषा की समझ और तार्किक निष्कर्ष के साथ जोड़ रहा है। एआई मॉडल कई चरणों में इस तरह के “नरम तर्क” में इतने अच्छे नहीं हैं। अब तक, कुछ मॉडल म्यूएसआर पर रैंडम से बेहतर स्कोर करते हैं।

    एमएमएलयू दो अन्य समस्याओं पर भी प्रकाश डालता है। एक तो यह कि ऐसे परीक्षणों में उत्तर कभी-कभी ग़लत होते हैं। जून में प्रकाशित एडिनबर्ग विश्वविद्यालय के आर्यो गेमा और सहकर्मियों द्वारा किए गए एक अध्ययन में पाया गया कि, उनके द्वारा चुने गए प्रश्नों में से, एमएमएलयू के 57% वायरोलॉजी प्रश्न और 26% तार्किक-भ्रम वाले प्रश्नों में त्रुटियां थीं। कुछ के पास कोई सही उत्तर नहीं था; दूसरों के पास एक से अधिक थे। (शोधकर्ताओं ने एक नया बेंचमार्क, एमएमएलयू-रेडक्स बनाने के लिए एमएमएलयू प्रश्नों को साफ़ किया।)

    फिर एक गहरा मुद्दा है, जिसे “संदूषण” के रूप में जाना जाता है। एलएलएम को इंटरनेट से डेटा का उपयोग करके प्रशिक्षित किया जाता है, जिसमें एमएमएलयू और अन्य बेंचमार्क के लिए सटीक प्रश्न और उत्तर शामिल हो सकते हैं। जानबूझकर या नहीं, संक्षेप में, मॉडल धोखा दे सकते हैं, क्योंकि उन्होंने पहले ही परीक्षण देख लिए हैं। दरअसल, कुछ मॉडल-निर्माता किसी मॉडल का स्कोर बढ़ाने के लिए उसे जानबूझकर बेंचमार्क डेटा के साथ प्रशिक्षित कर सकते हैं। लेकिन तब स्कोर मॉडल की वास्तविक क्षमता को प्रतिबिंबित करने में विफल रहता है। इस समस्या से निजात पाने का एक तरीका “निजी” बेंचमार्क बनाना है, जिसके लिए प्रश्नों को गुप्त रखा जाता है, या केवल कसकर नियंत्रित तरीके से जारी किया जाता है, ताकि यह सुनिश्चित किया जा सके कि उनका उपयोग प्रशिक्षण के लिए नहीं किया जाता है (जीपीक्यूए ऐसा करता है)। लेकिन तब केवल पहुंच वाले लोग ही किसी मॉडल के स्कोर को स्वतंत्र रूप से सत्यापित कर सकते हैं।

    Advertisement
    यह भी पढ़ें  OpenAI ने विंडोज़ के लिए एक समर्पित ChatGPT ऐप पेश किया है। यहां बताया गया है कि आप इसे कैसे डाउनलोड और उपयोग कर सकते हैं | पुदीना - news247online

    मामले को और अधिक जटिल बनाने के लिए, यह पता चलता है कि मॉडलों से प्रश्न पूछे जाने के तरीके में छोटे-छोटे बदलाव उनके स्कोर को महत्वपूर्ण रूप से प्रभावित कर सकते हैं। बहुविकल्पीय परीक्षण में, एआई मॉडल से सीधे उत्तर बताने या सही उत्तर के अनुरूप अक्षर या संख्या के साथ उत्तर देने के लिए कहने से अलग-अलग परिणाम मिल सकते हैं। यह प्रतिलिपि प्रस्तुत करने योग्यता और तुलनीयता को प्रभावित करता है।

    मानकीकृत तरीके से बेंचमार्क के विरुद्ध मॉडल का परीक्षण करने के लिए अब स्वचालित परीक्षण प्रणालियों का उपयोग किया जाता है। स्टैनफोर्ड में डॉ. लिआंग की टीम ने एक ऐसी प्रणाली बनाई है, जिसे एचईएलएम (भाषा मॉडल का समग्र मूल्यांकन) कहा जाता है, जो लीडरबोर्ड तैयार करता है जो दिखाता है कि मॉडल की एक श्रृंखला विभिन्न बेंचमार्क पर कैसा प्रदर्शन करती है। हगिंग फेस में डॉ. फ़ोरियर की टीम ओपन-सोर्स मॉडल के लिए लीडरबोर्ड तैयार करने के लिए एक अन्य ऐसी प्रणाली, एलुथेरएआई हार्नेस का उपयोग करती है। ये लीडरबोर्ड मॉडल-निर्माताओं द्वारा प्रदान की गई परिणामों की तालिकाओं की तुलना में अधिक भरोसेमंद हैं, क्योंकि बेंचमार्क स्कोर लगातार तरीके से तैयार किए गए हैं।

    एआई द्वारा अब तक खींची गई सबसे बड़ी चाल

    जैसे-जैसे मॉडल नए कौशल हासिल करते हैं, उनका मूल्यांकन करने के लिए नए मानक विकसित किए जा रहे हैं। उदाहरण के लिए, जीएआईए वास्तविक दुनिया की समस्या-समाधान पर एआई मॉडल का परीक्षण करता है। (संदूषण से बचने के लिए कुछ उत्तरों को गुप्त रखा गया है।) जून में घोषित नोचा (उपन्यास चुनौती) एक “लंबा संदर्भ” बेंचमार्क है जिसमें हाल ही में प्रकाशित अंग्रेजी भाषा के 67 उपन्यासों के बारे में 1,001 प्रश्न शामिल हैं। उत्तर पूरी पुस्तक को पढ़ने और समझने पर निर्भर करते हैं, जो परीक्षण के भाग के रूप में मॉडल को प्रदान की जाती है। हाल के उपन्यासों को इसलिए चुना गया क्योंकि उनका प्रशिक्षण डेटा के रूप में उपयोग किए जाने की संभावना नहीं है। अन्य बेंचमार्क जीव विज्ञान की समस्याओं को हल करने की मॉडल की क्षमता या मतिभ्रम की प्रवृत्ति का आकलन करते हैं।

    Advertisement
    यह भी पढ़ें  एआई के लिए आवश्यक सफलता - news247online

    लेकिन नए बेंचमार्क विकसित करना महंगा हो सकता है, क्योंकि उन्हें अक्सर प्रश्नों और उत्तरों का विस्तृत सेट बनाने के लिए मानव विशेषज्ञों की आवश्यकता होती है। एक उत्तर नए बेंचमार्क विकसित करने के लिए स्वयं एलएलएम का उपयोग करना है। डॉ. लियांग ऑटोबेंचर नामक एक परियोजना के साथ ऐसा कर रहे हैं, जो स्रोत दस्तावेजों से प्रश्न और उत्तर निकालता है और सबसे कठिन की पहचान करता है।

    क्लाउड एलएलएम के पीछे के स्टार्टअप एंथ्रोपिक ने एआई सुरक्षा पर विशेष जोर देते हुए सीधे बेंचमार्क के निर्माण के लिए फंडिंग शुरू कर दी है। एंथ्रोपिक के एक शोधकर्ता लोगन ग्राहम कहते हैं, “सुरक्षा के मानकों पर हमारे पास बहुत कम आपूर्ति है।” “हम यह न जानने के अंधेरे जंगल में हैं कि मॉडल क्या करने में सक्षम हैं।” 1 जुलाई को कंपनी ने नए बेंचमार्क और उन्हें तैयार करने के लिए टूल के लिए प्रस्ताव आमंत्रित करना शुरू किया, जिसे वह सभी के लिए उपलब्ध कराने की दृष्टि से सह-वित्त करेगी। इसमें किसी मॉडल की साइबर-हमला उपकरण विकसित करने की क्षमता का आकलन करने के तरीके विकसित करना, मान लीजिए, या रासायनिक या जैविक हथियार बनाने पर सलाह देने की उसकी इच्छा शामिल हो सकती है। इन बेंचमार्क का उपयोग सार्वजनिक रिलीज़ से पहले किसी मॉडल की सुरक्षा का आकलन करने के लिए किया जा सकता है।

    डॉ. ग्राहम कहते हैं, ऐतिहासिक रूप से, एआई बेंचमार्क शिक्षाविदों द्वारा तैयार किए गए हैं। लेकिन चूंकि एआई का व्यावसायीकरण हो रहा है और इसे कई क्षेत्रों में तैनात किया जा रहा है, इसलिए विश्वसनीय और विशिष्ट बेंचमार्क की आवश्यकता बढ़ रही है। उन्होंने कहा कि एआई बेंचमार्क प्रदान करने में विशेषज्ञता वाले स्टार्टअप सामने आने लगे हैं। उनका कहना है, “हमारा लक्ष्य बाजार को बढ़ावा देना है,” शोधकर्ताओं, नियामकों और शिक्षाविदों को अच्छे और बुरे एआई मॉडल की क्षमताओं का आकलन करने के लिए आवश्यक उपकरण देना है। एआई प्रयोगशालाओं द्वारा अपने स्वयं के होमवर्क को चिह्नित करने के दिन जल्द ही खत्म हो सकते हैं।

    Advertisement

    © 2024, द इकोनॉमिस्ट न्यूजपेपर लिमिटेड। सर्वाधिकार सुरक्षित। द इकोनॉमिस्ट से, लाइसेंस के तहत प्रकाशित। मूल सामग्री www.economist.com पर पाई जा सकती है

    सभी को पकड़ो व्यापार समाचार, बाज़ार समाचार, आज की ताजा खबर घटनाएँ और ताजा खबर लाइव मिंट पर अपडेट। डाउनलोड करें मिंट न्यूज़ ऐप दैनिक बाजार अपडेट प्राप्त करने के लिए।

    अधिककम

    (टैग्सटूट्रांसलेट)जीपीटी(टी)क्लाउड(टी)लामा(टी)एआई मॉडल(टी)फेसबुक(टी)मेटा(टी)बड़े भाषा मॉडल(टी)ओपनएआई

    Advertisement

    आदित्य वर्मा एक प्रौद्योगिकी विशेषज्ञ और लेखक हैं। वे नवीनतम गैजेट्स, सॉफ्टवेयर, और तकनीकी विकास पर लेख लिखते हैं। उन्होंने 10 वर्षों से टेक्नोलॉजी के क्षेत्र में काम किया है और उनकी लेखन शैली सरल और प्रभावशाली है।

    Continue Reading
    Advertisement
    Click to comment

    Leave a Reply

    Your email address will not be published. Required fields are marked *

      Copyright © 2023 News247Online.