कम से कम 10% शोध पहले से ही AI द्वारा सह-लिखित हो सकते हैं – news247online

आदित्य वर्मा

12 hours ago

यह एक ऐसा सवाल है जो वैज्ञानिक शोधपत्रों के पाठकों द्वारा लगातार पूछा जा रहा है। बड़े भाषा मॉडल (LLM) अब वैज्ञानिक शोधपत्र लिखने में मदद करने के लिए पर्याप्त से अधिक हैं। वे सघन वैज्ञानिक गद्य में जान डाल सकते हैं और प्रारूपण प्रक्रिया को गति दे सकते हैं, खासकर गैर-देशी अंग्रेजी बोलने वालों के लिए। इस तरह के उपयोग के साथ जोखिम भी जुड़े हैं: उदाहरण के लिए, LLM विशेष रूप से पूर्वाग्रहों को पुनरुत्पादित करने के लिए अतिसंवेदनशील होते हैं, और बड़ी मात्रा में प्रशंसनीय बकवास निकाल सकते हैं। हालाँकि, यह कितना व्यापक मुद्दा था, यह स्पष्ट नहीं है।

हाल ही में arXiv पर पोस्ट किए गए प्रीप्रिंट में, जर्मनी में ट्यूबिंगन विश्वविद्यालय और अमेरिका में नॉर्थवेस्टर्न विश्वविद्यालय के शोधकर्ताओं ने कुछ स्पष्टता प्रदान की है। उनके शोध, जिसकी अभी तक सहकर्मी समीक्षा नहीं हुई है, से पता चलता है कि दस नए वैज्ञानिक पत्रों में से कम से कम एक में एलएलएम द्वारा तैयार की गई सामग्री शामिल है। इसका मतलब है कि इस साल अकेले 100,000 से अधिक ऐसे पेपर प्रकाशित होंगे। और यह एक निचली सीमा है। कंप्यूटर विज्ञान जैसे कुछ क्षेत्रों में, 20% से अधिक शोध सार में एलएलएम द्वारा तैयार की गई सामग्री होने का अनुमान है। चीनी कंप्यूटर वैज्ञानिकों के पत्रों में, यह आंकड़ा तीन में से एक है।

एलएलएम द्वारा निर्मित पाठ को पहचानना आसान नहीं है। शोधकर्ता आमतौर पर दो तरीकों में से एक पर निर्भर रहे हैं: मानव गद्य की लय को पहचानने के लिए प्रशिक्षित डिटेक्शन एल्गोरिदम, और एलएलएम द्वारा असंगत रूप से पसंद किए जाने वाले संदिग्ध शब्दों की अधिक सीधी खोज, जैसे कि “पिवटल” या “रियल्म”। दोनों दृष्टिकोण “ग्राउंड ट्रुथ” डेटा पर निर्भर करते हैं: मनुष्यों द्वारा लिखे गए पाठों का एक ढेर और मशीनों द्वारा लिखा गया एक ढेर। इन्हें इकट्ठा करना आश्चर्यजनक रूप से कठिन है: मानव और मशीन द्वारा निर्मित पाठ दोनों समय के साथ बदलते हैं, क्योंकि भाषाएँ विकसित होती हैं और मॉडल अपडेट होते हैं। इसके अलावा, शोधकर्ता आमतौर पर इन मॉडलों को स्वयं प्रेरित करके एलएलएम पाठ एकत्र करते हैं, और जिस तरह से वे ऐसा करते हैं वह वैज्ञानिकों के व्यवहार से अलग हो सकता है।

ट्यूबिंगन विश्वविद्यालय के दिमित्री कोबाक और उनके सहयोगियों द्वारा किया गया नवीनतम शोध, जमीनी सच्चाई के आंकड़ों की आवश्यकता को पूरी तरह से दरकिनार करते हुए एक तीसरा तरीका दिखाता है। टीम का तरीका अतिरिक्त मौतों पर जनसांख्यिकीय कार्य से प्रेरित है, जो किसी घटना से जुड़ी मृत्यु दर को अपेक्षित और देखी गई मृत्यु संख्या के बीच अंतर को देखकर पता लगाने की अनुमति देता है। जिस तरह अतिरिक्त-मृत्यु विधि असामान्य मृत्यु दरों की तलाश करती है, उसी तरह उनकी अतिरिक्त-शब्दावली विधि असामान्य शब्द उपयोग की तलाश करती है। विशेष रूप से, शोधकर्ता ऐसे शब्दों की तलाश कर रहे थे जो मौजूदा साहित्य में अनुमानित की तुलना में काफी अधिक आवृत्ति के साथ वैज्ञानिक सार में दिखाई देते हैं (चार्ट 1 देखें)। जिस कॉर्पस का उन्होंने विश्लेषण करने के लिए चयन किया, उसमें जनवरी 2010 और मार्च 2024 के बीच प्रकाशित बायोमेडिकल रिसर्च के लिए एक सर्च इंजन PubMed पर उपलब्ध लगभग सभी अंग्रेजी-भाषा के पेपर के सार शामिल थे

यह भी पढ़ें शोधकर्ता यह पता लगा रहे हैं कि बड़े भाषा मॉडल कैसे काम करते हैं - news247online

शोधकर्ताओं ने पाया कि अधिकांश वर्षों में, शब्द का उपयोग अपेक्षाकृत स्थिर था: 2013-19 के बीच किसी भी वर्ष में किसी शब्द की आवृत्ति में 1% से अधिक की अपेक्षा से अधिक वृद्धि नहीं हुई। 2020 में यह बदल गया, जब “SARS”, “कोरोनावायरस”, “महामारी”, “बीमारी”, “रोगी” और “गंभीर” सभी का उपयोग बढ़ गया। (कोविड से संबंधित शब्द 2022 तक असामान्य रूप से उच्च उपयोग के योग्य बने रहे।)

2024 की शुरुआत में, चैटजीपीटी जैसे एलएलएम के व्यापक रूप से उपलब्ध होने के लगभग एक साल बाद, शब्दों का एक अलग सेट लोकप्रिय हो गया। 2013 और 2024 के बीच जिन 774 शब्दों का उपयोग उल्लेखनीय रूप से बढ़ा है, उनमें से 329 2024 के पहले तीन महीनों में लोकप्रिय हो गए। इनमें से 280 शब्द विषय-वस्तु के बजाय शैली से संबंधित थे। उल्लेखनीय उदाहरणों में शामिल हैं: “विवेचना”, “संभावित”, “जटिल”, “सावधानीपूर्वक”, “महत्वपूर्ण”, “महत्वपूर्ण”, और “अंतर्दृष्टि” (चार्ट 2 देखें)।

शोधकर्ताओं का कहना है कि इस तरह की वृद्धि का सबसे संभावित कारण एलएलएम की मदद है। जब उन्होंने उन सार-संक्षेपों के हिस्से का अनुमान लगाया जिनमें कम से कम एक अतिरिक्त शब्द का इस्तेमाल किया गया था (वैसे भी व्यापक रूप से इस्तेमाल किए जाने वाले शब्दों को छोड़कर), तो उन्होंने पाया कि कम से कम 10% में संभवतः एलएलएम इनपुट था। चूंकि पबमेड सालाना लगभग 1.5 मिलियन पेपर को अनुक्रमित करता है, इसका मतलब यह होगा कि वर्तमान में प्रति वर्ष 150,000 से अधिक पेपर एलएलएम सहायता से लिखे जाते हैं।

ऐसा लगता है कि यह कुछ क्षेत्रों में दूसरों की तुलना में ज़्यादा व्यापक है। शोधकर्ताओं ने पाया कि कंप्यूटर विज्ञान में इसका सबसे ज़्यादा इस्तेमाल किया गया, जो 20% से ज़्यादा था, जबकि पारिस्थितिकी में इसका सबसे कम इस्तेमाल किया गया, जिसकी निचली सीमा 5% से कम थी। भूगोल के हिसाब से भी इसमें भिन्नता थी: ताइवान, दक्षिण कोरिया, इंडोनेशिया और चीन के वैज्ञानिक सबसे ज़्यादा बार इसका इस्तेमाल करते थे, और ब्रिटेन और न्यूज़ीलैंड के वैज्ञानिकों ने इसका सबसे कम इस्तेमाल किया (चार्ट 3 देखें)। (अन्य अंग्रेज़ी-भाषी देशों के शोधकर्ताओं ने भी LLM का इस्तेमाल कभी-कभार ही किया।) अलग-अलग पत्रिकाओं ने भी अलग-अलग नतीजे दिए। नेचर परिवार के साथ-साथ साइंस और सेल जैसे अन्य प्रतिष्ठित प्रकाशनों में LLM-सहायता दर कम (10% से कम) दिखाई देती है, जबकि सेंसर्स (एक पत्रिका जो बिना किसी कल्पना के सेंसर के बारे में है) 24% से ज़्यादा है।

यह भी पढ़ें अर्जुन कानूनगो का चौंकाने वाला वजन घटाने वाला परिवर्तन: जानिए कैसे उन्होंने 'अपने संगीत करियर को बचाने' के लिए 18 महीनों में 27 किलो वजन कम किया - news247online

अतिरिक्त शब्दावली विधि के परिणाम पुराने पहचान एल्गोरिदम के परिणामों के लगभग अनुरूप हैं, जो अधिक सीमित स्रोतों से छोटे नमूनों को देखते थे। उदाहरण के लिए, अप्रैल 2024 में जारी एक प्रीप्रिंट में, स्टैनफोर्ड की एक टीम ने पाया कि कंप्यूटर-विज्ञान सार में 17.5% वाक्य एलएलएम-जनरेटेड होने की संभावना थी। उन्होंने नेचर प्रकाशनों और गणित के शोधपत्रों में भी कम प्रचलन पाया (एलएलएम गणित में बहुत खराब हैं)। पहचानी गई अतिरिक्त शब्दावली भी संदिग्ध शब्दों की मौजूदा सूचियों के साथ फिट बैठती है।

ऐसे परिणामों से बहुत ज़्यादा आश्चर्य नहीं होना चाहिए। शोधकर्ता नियमित रूप से शोध-पत्र लिखने के लिए एलएलएम के उपयोग को स्वीकार करते हैं। सितंबर 2023 में किए गए 1,600 शोधकर्ताओं के एक सर्वेक्षण में, 25% से ज़्यादा ने नेचर को बताया कि उन्होंने पांडुलिपियाँ लिखने के लिए एलएलएम का इस्तेमाल किया। साक्षात्कारकर्ताओं द्वारा पहचाना गया सबसे बड़ा लाभ, जिनमें से कई ने अपने काम में एआई का अध्ययन किया या उसका इस्तेमाल किया, उन लोगों के लिए संपादन और अनुवाद में मदद करना था जिनकी पहली भाषा अंग्रेज़ी नहीं थी। तेज़ और आसान कोडिंग संयुक्त रूप से दूसरे स्थान पर आई, साथ ही प्रशासनिक कार्यों का सरलीकरण; वैज्ञानिक साहित्य का सारांश या खोजबीन करना; और, ज़ाहिर है, शोध पांडुलिपियों के लेखन में तेज़ी लाना।

इन सभी लाभों के बावजूद, पांडुलिपियाँ लिखने के लिए एलएलएम का उपयोग करना जोखिम रहित नहीं है। वैज्ञानिक शोधपत्र अनिश्चितता के सटीक संचार पर निर्भर करते हैं, उदाहरण के लिए, जो एक ऐसा क्षेत्र है जहाँ एलएलएम की क्षमताएँ अस्पष्ट बनी हुई हैं। मतिभ्रम – जिसके द्वारा एलएलएम आत्मविश्वास से कल्पनाओं का दावा करते हैं – आम बना हुआ है, साथ ही दूसरे लोगों के शब्दों को शब्दशः और बिना किसी श्रेय के दोहराने की प्रवृत्ति भी आम है।

यह भी पढ़ें एआई इन एक्शन: स्टार्टअप्स सेल्सफोर्स प्लेटफॉर्म पर कैसे नवाचार कर रहे हैं | मिंट - news247online

अध्ययनों से यह भी संकेत मिलता है कि एलएलएम उन अन्य शोधपत्रों को प्राथमिकता देते हैं जो किसी क्षेत्र में अत्यधिक उद्धृत किए जाते हैं, जो संभावित रूप से मौजूदा पूर्वाग्रहों को मजबूत करते हैं और रचनात्मकता को सीमित करते हैं। एल्गोरिदम के रूप में, उन्हें किसी शोधपत्र पर लेखकों के रूप में सूचीबद्ध नहीं किया जा सकता है या उनके द्वारा की गई त्रुटियों के लिए उत्तरदायी नहीं ठहराया जा सकता है। शायद सबसे अधिक चिंता की बात यह है कि जिस गति से एलएलएम गद्य तैयार कर सकते हैं, उससे वैज्ञानिक दुनिया में निम्न-गुणवत्ता वाले प्रकाशनों की बाढ़ आने का जोखिम है।

एलएलएम के उपयोग पर अकादमिक नीतियाँ परिवर्तनशील हैं। कुछ पत्रिकाएँ इसे पूरी तरह प्रतिबंधित करती हैं। दूसरों ने अपना विचार बदल दिया है। नवंबर 2023 तक, साइंस ने सभी एलएलएम पाठ को साहित्यिक चोरी के रूप में लेबल किया, यह कहते हुए: “आखिरकार उत्पाद हमारे दिमाग में मौजूद अद्भुत कंप्यूटरों से आना चाहिए और उनके द्वारा व्यक्त किया जाना चाहिए।” उन्होंने तब से अपनी नीति में संशोधन किया है: एलएलएम पाठ अब अनुमति दी जाती है यदि उनके उपयोग के तरीके के बारे में विस्तृत नोट्स शोधपत्रों के विधि अनुभाग में दिए गए हैं, साथ ही साथ कवर पत्रों में भी। नेचर और सेल भी इसके उपयोग की अनुमति देते हैं, जब तक कि इसे स्पष्ट रूप से स्वीकार किया जाता है।

ऐसी नीतियाँ कितनी लागू होंगी, यह स्पष्ट नहीं है। अभी तक, एलएलएम गद्य को बाहर निकालने के लिए कोई विश्वसनीय तरीका मौजूद नहीं है। यहां तक कि अतिरिक्त शब्दावली विधि, हालांकि बड़े पैमाने पर रुझानों को पहचानने में उपयोगी है, यह नहीं बता सकती कि किसी विशिष्ट सार में एलएलएम इनपुट था या नहीं। और शोधकर्ताओं को पूरी तरह से पता लगाने से बचने के लिए केवल कुछ शब्दों से बचने की जरूरत है। जैसा कि नए प्रीप्रिंट में कहा गया है, ये ऐसी चुनौतियाँ हैं जिनका सावधानीपूर्वक अध्ययन किया जाना चाहिए।