Connect with us

    AI

    कम से कम 10% शोध पहले से ही AI द्वारा सह-लिखित हो सकते हैं – news247online

    Published

    on

    यह एक ऐसा सवाल है जो वैज्ञानिक शोधपत्रों के पाठकों द्वारा लगातार पूछा जा रहा है। बड़े भाषा मॉडल (LLM) अब वैज्ञानिक शोधपत्र लिखने में मदद करने के लिए पर्याप्त से अधिक हैं। वे सघन वैज्ञानिक गद्य में जान डाल सकते हैं और प्रारूपण प्रक्रिया को गति दे सकते हैं, खासकर गैर-देशी अंग्रेजी बोलने वालों के लिए। इस तरह के उपयोग के साथ जोखिम भी जुड़े हैं: उदाहरण के लिए, LLM विशेष रूप से पूर्वाग्रहों को पुनरुत्पादित करने के लिए अतिसंवेदनशील होते हैं, और बड़ी मात्रा में प्रशंसनीय बकवास निकाल सकते हैं। हालाँकि, यह कितना व्यापक मुद्दा था, यह स्पष्ट नहीं है।

    हाल ही में arXiv पर पोस्ट किए गए प्रीप्रिंट में, जर्मनी में ट्यूबिंगन विश्वविद्यालय और अमेरिका में नॉर्थवेस्टर्न विश्वविद्यालय के शोधकर्ताओं ने कुछ स्पष्टता प्रदान की है। उनके शोध, जिसकी अभी तक सहकर्मी समीक्षा नहीं हुई है, से पता चलता है कि दस नए वैज्ञानिक पत्रों में से कम से कम एक में एलएलएम द्वारा तैयार की गई सामग्री शामिल है। इसका मतलब है कि इस साल अकेले 100,000 से अधिक ऐसे पेपर प्रकाशित होंगे। और यह एक निचली सीमा है। कंप्यूटर विज्ञान जैसे कुछ क्षेत्रों में, 20% से अधिक शोध सार में एलएलएम द्वारा तैयार की गई सामग्री होने का अनुमान है। चीनी कंप्यूटर वैज्ञानिकों के पत्रों में, यह आंकड़ा तीन में से एक है।

    Advertisement

    एलएलएम द्वारा निर्मित पाठ को पहचानना आसान नहीं है। शोधकर्ता आमतौर पर दो तरीकों में से एक पर निर्भर रहे हैं: मानव गद्य की लय को पहचानने के लिए प्रशिक्षित डिटेक्शन एल्गोरिदम, और एलएलएम द्वारा असंगत रूप से पसंद किए जाने वाले संदिग्ध शब्दों की अधिक सीधी खोज, जैसे कि “पिवटल” या “रियल्म”। दोनों दृष्टिकोण “ग्राउंड ट्रुथ” डेटा पर निर्भर करते हैं: मनुष्यों द्वारा लिखे गए पाठों का एक ढेर और मशीनों द्वारा लिखा गया एक ढेर। इन्हें इकट्ठा करना आश्चर्यजनक रूप से कठिन है: मानव और मशीन द्वारा निर्मित पाठ दोनों समय के साथ बदलते हैं, क्योंकि भाषाएँ विकसित होती हैं और मॉडल अपडेट होते हैं। इसके अलावा, शोधकर्ता आमतौर पर इन मॉडलों को स्वयं प्रेरित करके एलएलएम पाठ एकत्र करते हैं, और जिस तरह से वे ऐसा करते हैं वह वैज्ञानिकों के व्यवहार से अलग हो सकता है।

    ...

    संपूर्ण छवि देखें


    ट्यूबिंगन विश्वविद्यालय के दिमित्री कोबाक और उनके सहयोगियों द्वारा किया गया नवीनतम शोध, जमीनी सच्चाई के आंकड़ों की आवश्यकता को पूरी तरह से दरकिनार करते हुए एक तीसरा तरीका दिखाता है। टीम का तरीका अतिरिक्त मौतों पर जनसांख्यिकीय कार्य से प्रेरित है, जो किसी घटना से जुड़ी मृत्यु दर को अपेक्षित और देखी गई मृत्यु संख्या के बीच अंतर को देखकर पता लगाने की अनुमति देता है। जिस तरह अतिरिक्त-मृत्यु विधि असामान्य मृत्यु दरों की तलाश करती है, उसी तरह उनकी अतिरिक्त-शब्दावली विधि असामान्य शब्द उपयोग की तलाश करती है। विशेष रूप से, शोधकर्ता ऐसे शब्दों की तलाश कर रहे थे जो मौजूदा साहित्य में अनुमानित की तुलना में काफी अधिक आवृत्ति के साथ वैज्ञानिक सार में दिखाई देते हैं (चार्ट 1 देखें)। जिस कॉर्पस का उन्होंने विश्लेषण करने के लिए चयन किया, उसमें जनवरी 2010 और मार्च 2024 के बीच प्रकाशित बायोमेडिकल रिसर्च के लिए एक सर्च इंजन PubMed पर उपलब्ध लगभग सभी अंग्रेजी-भाषा के पेपर के सार शामिल थे

    Advertisement

    शोधकर्ताओं ने पाया कि अधिकांश वर्षों में, शब्द का उपयोग अपेक्षाकृत स्थिर था: 2013-19 के बीच किसी भी वर्ष में किसी शब्द की आवृत्ति में 1% से अधिक की अपेक्षा से अधिक वृद्धि नहीं हुई। 2020 में यह बदल गया, जब “SARS”, “कोरोनावायरस”, “महामारी”, “बीमारी”, “रोगी” और “गंभीर” सभी का उपयोग बढ़ गया। (कोविड से संबंधित शब्द 2022 तक असामान्य रूप से उच्च उपयोग के योग्य बने रहे।)

    ...

    संपूर्ण छवि देखें


    2024 की शुरुआत में, चैटजीपीटी जैसे एलएलएम के व्यापक रूप से उपलब्ध होने के लगभग एक साल बाद, शब्दों का एक अलग सेट लोकप्रिय हो गया। 2013 और 2024 के बीच जिन 774 शब्दों का उपयोग उल्लेखनीय रूप से बढ़ा है, उनमें से 329 2024 के पहले तीन महीनों में लोकप्रिय हो गए। इनमें से 280 शब्द विषय-वस्तु के बजाय शैली से संबंधित थे। उल्लेखनीय उदाहरणों में शामिल हैं: “विवेचना”, “संभावित”, “जटिल”, “सावधानीपूर्वक”, “महत्वपूर्ण”, “महत्वपूर्ण”, और “अंतर्दृष्टि” (चार्ट 2 देखें)।

    Advertisement

    शोधकर्ताओं का कहना है कि इस तरह की वृद्धि का सबसे संभावित कारण एलएलएम की मदद है। जब उन्होंने उन सार-संक्षेपों के हिस्से का अनुमान लगाया जिनमें कम से कम एक अतिरिक्त शब्द का इस्तेमाल किया गया था (वैसे भी व्यापक रूप से इस्तेमाल किए जाने वाले शब्दों को छोड़कर), तो उन्होंने पाया कि कम से कम 10% में संभवतः एलएलएम इनपुट था। चूंकि पबमेड सालाना लगभग 1.5 मिलियन पेपर को अनुक्रमित करता है, इसका मतलब यह होगा कि वर्तमान में प्रति वर्ष 150,000 से अधिक पेपर एलएलएम सहायता से लिखे जाते हैं।

    ...

    संपूर्ण छवि देखें


    ऐसा लगता है कि यह कुछ क्षेत्रों में दूसरों की तुलना में ज़्यादा व्यापक है। शोधकर्ताओं ने पाया कि कंप्यूटर विज्ञान में इसका सबसे ज़्यादा इस्तेमाल किया गया, जो 20% से ज़्यादा था, जबकि पारिस्थितिकी में इसका सबसे कम इस्तेमाल किया गया, जिसकी निचली सीमा 5% से कम थी। भूगोल के हिसाब से भी इसमें भिन्नता थी: ताइवान, दक्षिण कोरिया, इंडोनेशिया और चीन के वैज्ञानिक सबसे ज़्यादा बार इसका इस्तेमाल करते थे, और ब्रिटेन और न्यूज़ीलैंड के वैज्ञानिकों ने इसका सबसे कम इस्तेमाल किया (चार्ट 3 देखें)। (अन्य अंग्रेज़ी-भाषी देशों के शोधकर्ताओं ने भी LLM का इस्तेमाल कभी-कभार ही किया।) अलग-अलग पत्रिकाओं ने भी अलग-अलग नतीजे दिए। नेचर परिवार के साथ-साथ साइंस और सेल जैसे अन्य प्रतिष्ठित प्रकाशनों में LLM-सहायता दर कम (10% से कम) दिखाई देती है, जबकि सेंसर्स (एक पत्रिका जो बिना किसी कल्पना के सेंसर के बारे में है) 24% से ज़्यादा है।

    Advertisement

    अतिरिक्त शब्दावली विधि के परिणाम पुराने पहचान एल्गोरिदम के परिणामों के लगभग अनुरूप हैं, जो अधिक सीमित स्रोतों से छोटे नमूनों को देखते थे। उदाहरण के लिए, अप्रैल 2024 में जारी एक प्रीप्रिंट में, स्टैनफोर्ड की एक टीम ने पाया कि कंप्यूटर-विज्ञान सार में 17.5% वाक्य एलएलएम-जनरेटेड होने की संभावना थी। उन्होंने नेचर प्रकाशनों और गणित के शोधपत्रों में भी कम प्रचलन पाया (एलएलएम गणित में बहुत खराब हैं)। पहचानी गई अतिरिक्त शब्दावली भी संदिग्ध शब्दों की मौजूदा सूचियों के साथ फिट बैठती है।

    ऐसे परिणामों से बहुत ज़्यादा आश्चर्य नहीं होना चाहिए। शोधकर्ता नियमित रूप से शोध-पत्र लिखने के लिए एलएलएम के उपयोग को स्वीकार करते हैं। सितंबर 2023 में किए गए 1,600 शोधकर्ताओं के एक सर्वेक्षण में, 25% से ज़्यादा ने नेचर को बताया कि उन्होंने पांडुलिपियाँ लिखने के लिए एलएलएम का इस्तेमाल किया। साक्षात्कारकर्ताओं द्वारा पहचाना गया सबसे बड़ा लाभ, जिनमें से कई ने अपने काम में एआई का अध्ययन किया या उसका इस्तेमाल किया, उन लोगों के लिए संपादन और अनुवाद में मदद करना था जिनकी पहली भाषा अंग्रेज़ी नहीं थी। तेज़ और आसान कोडिंग संयुक्त रूप से दूसरे स्थान पर आई, साथ ही प्रशासनिक कार्यों का सरलीकरण; वैज्ञानिक साहित्य का सारांश या खोजबीन करना; और, ज़ाहिर है, शोध पांडुलिपियों के लेखन में तेज़ी लाना।

    इन सभी लाभों के बावजूद, पांडुलिपियाँ लिखने के लिए एलएलएम का उपयोग करना जोखिम रहित नहीं है। वैज्ञानिक शोधपत्र अनिश्चितता के सटीक संचार पर निर्भर करते हैं, उदाहरण के लिए, जो एक ऐसा क्षेत्र है जहाँ एलएलएम की क्षमताएँ अस्पष्ट बनी हुई हैं। मतिभ्रम – जिसके द्वारा एलएलएम आत्मविश्वास से कल्पनाओं का दावा करते हैं – आम बना हुआ है, साथ ही दूसरे लोगों के शब्दों को शब्दशः और बिना किसी श्रेय के दोहराने की प्रवृत्ति भी आम है।

    Advertisement

    अध्ययनों से यह भी संकेत मिलता है कि एलएलएम उन अन्य शोधपत्रों को प्राथमिकता देते हैं जो किसी क्षेत्र में अत्यधिक उद्धृत किए जाते हैं, जो संभावित रूप से मौजूदा पूर्वाग्रहों को मजबूत करते हैं और रचनात्मकता को सीमित करते हैं। एल्गोरिदम के रूप में, उन्हें किसी शोधपत्र पर लेखकों के रूप में सूचीबद्ध नहीं किया जा सकता है या उनके द्वारा की गई त्रुटियों के लिए उत्तरदायी नहीं ठहराया जा सकता है। शायद सबसे अधिक चिंता की बात यह है कि जिस गति से एलएलएम गद्य तैयार कर सकते हैं, उससे वैज्ञानिक दुनिया में निम्न-गुणवत्ता वाले प्रकाशनों की बाढ़ आने का जोखिम है।

    एलएलएम के उपयोग पर अकादमिक नीतियाँ परिवर्तनशील हैं। कुछ पत्रिकाएँ इसे पूरी तरह प्रतिबंधित करती हैं। दूसरों ने अपना विचार बदल दिया है। नवंबर 2023 तक, साइंस ने सभी एलएलएम पाठ को साहित्यिक चोरी के रूप में लेबल किया, यह कहते हुए: “आखिरकार उत्पाद हमारे दिमाग में मौजूद अद्भुत कंप्यूटरों से आना चाहिए और उनके द्वारा व्यक्त किया जाना चाहिए।” उन्होंने तब से अपनी नीति में संशोधन किया है: एलएलएम पाठ अब अनुमति दी जाती है यदि उनके उपयोग के तरीके के बारे में विस्तृत नोट्स शोधपत्रों के विधि अनुभाग में दिए गए हैं, साथ ही साथ कवर पत्रों में भी। नेचर और सेल भी इसके उपयोग की अनुमति देते हैं, जब तक कि इसे स्पष्ट रूप से स्वीकार किया जाता है।

    ऐसी नीतियाँ कितनी लागू होंगी, यह स्पष्ट नहीं है। अभी तक, एलएलएम गद्य को बाहर निकालने के लिए कोई विश्वसनीय तरीका मौजूद नहीं है। यहां तक ​​कि अतिरिक्त शब्दावली विधि, हालांकि बड़े पैमाने पर रुझानों को पहचानने में उपयोगी है, यह नहीं बता सकती कि किसी विशिष्ट सार में एलएलएम इनपुट था या नहीं। और शोधकर्ताओं को पूरी तरह से पता लगाने से बचने के लिए केवल कुछ शब्दों से बचने की जरूरत है। जैसा कि नए प्रीप्रिंट में कहा गया है, ये ऐसी चुनौतियाँ हैं जिनका सावधानीपूर्वक अध्ययन किया जाना चाहिए।

    Advertisement

    © 2024, द इकोनॉमिस्ट न्यूज़पेपर लिमिटेड। सभी अधिकार सुरक्षित। द इकोनॉमिस्ट से, लाइसेंस के तहत प्रकाशित। मूल सामग्री www.economist.com पर देखी जा सकती है।

    यह भी पढ़ें  OpenAI ने विंडोज़ के लिए एक समर्पित ChatGPT ऐप पेश किया है। यहां बताया गया है कि आप इसे कैसे डाउनलोड और उपयोग कर सकते हैं | पुदीना - news247online

    आदित्य वर्मा एक प्रौद्योगिकी विशेषज्ञ और लेखक हैं। वे नवीनतम गैजेट्स, सॉफ्टवेयर, और तकनीकी विकास पर लेख लिखते हैं। उन्होंने 10 वर्षों से टेक्नोलॉजी के क्षेत्र में काम किया है और उनकी लेखन शैली सरल और प्रभावशाली है।

    Continue Reading
    Advertisement
    Click to comment

    Leave a Reply

    Your email address will not be published. Required fields are marked *

      Copyright © 2023 News247Online.