महाराष्ट्र

maharashtra

ChatGPT Plagiarize : ChatGPT डेटा 'कॉपी-पेस्ट' करण्यापलीकडे आणखी काय काय करते?, संशोधन

By

Published : Feb 20, 2023, 8:07 PM IST

मूळ स्त्रोताचा उल्लेख न करता चॅटजीपीटी, पॅराफ्रेज आणि प्रशिक्षण डेटामधील संकल्पनांचा पुनर्वापर यासह भाषा मॉडेल, तेव्हा डेटा चोरीबद्दल चिंता व्यक्त केली जाते आहे.

ChatGPT Plagiarize
ChatGPT डेटा 'कॉपी-पेस्ट

पेनसिल्व्हेनिया [यूएस]: मूळ स्त्रोताचा उल्लेख न करता चॅटजीपीटी, पॅराफ्रेज आणि प्रशिक्षण डेटामधील संकल्पनांचा पुनर्वापर यासह भाषा मॉडेल, तेव्हा डेटा चोरीबद्दल चिंता व्यक्त केली जाते. पेन युनिव्हर्सिटीच्या नेतृत्वाखालील एका संशोधन पथकाच्या मते, ज्याने या विषयावर विशेषतः पाहण्यासाठी पहिला अभ्यास केला होता, वापरकर्त्याच्या प्रॉम्प्टच्या प्रतिसादात मजकूर तयार करणारी भाषा एकापेक्षा अधिक मार्गांनी डेटा चोरी करतात. पेन स्टेट येथील माहिती विज्ञान आणि तंत्रज्ञानाचे प्राध्यापक डोंगवॉन ली म्हणाले, ' कुठल्याही साहित्याची (डेटा) चोरी वेगवेगळ्या मार्गांनी केल्या जाते. भाषा मॉडेल केवळ कॉपी आणि पेस्ट होत नाहीत तर ते लक्षात न घेता साहित्यिक चोरीच्या अधिक अत्याधुनिक प्रकारांचा अवलंब केल्या जातो.'

शब्दशः किंवा थेट सामग्री कॉपी आणि पेस्ट करणे; मूळ स्त्रोताचा उल्लेख न करता पॅराफ्रेसिंग, किंवा पुनर्शब्द आणि पुनर्रचना सामग्री; आणि कल्पना, किंवा योग्य विशेषताशिवाय मजकूरातील मुख्य कल्पना वापरणे. त्यांनी स्वयंचलित साहित्यिक चोरी शोधण्यासाठी एक पाइपलाइन तयार केली आणि OpenAI च्या GPT-2 विरुद्ध चाचणी केली. कारण भाषा मॉडेलचा प्रशिक्षण डेटा ऑनलाइन उपलब्ध आहे, ज्यामुळे संशोधकांना GPT-2 प्री-ट्रेन करण्यासाठी वापरल्या जाणार्‍या 8 दशलक्ष दस्तऐवजांशी समानता साधणाऱ्या मजकुराची तुलना करता आली.

शास्त्रज्ञांनी 210,000 समानता साधणाऱ्या मजकूरांचा वापर पूर्व-प्रशिक्षित भाषा मॉडेल्स आणि उत्कृष्ट-ट्यून केलेल्या भाषेच्या मॉडेल्समध्ये साहित्यिक चोरीची चाचणी करण्यासाठी किंवा विशिष्ट विषय क्षेत्रांवर लक्ष केंद्रित करण्यासाठी पुढे प्रशिक्षित केलेल्या मॉडेल्ससाठी केला. या प्रकरणात, वैज्ञानिक दस्तऐवज, COVID-19 शी संबंधित विद्वत्तापूर्ण लेख आणि पेटंट दाव्यांवर लक्ष केंद्रित करण्यासाठी टीमने तीन भाषा मॉडेल्सवर लक्ष केंद्रित केले. प्रत्येक व्युत्पन्न केलेल्या मजकुराशी सारखीच शीर्ष 10 प्रशिक्षण दस्तऐवज पुनर्प्राप्त करण्यासाठी त्यांनी मुक्त-स्रोत शोध इंजिनचा वापर केला आणि शब्दशः, शब्दलेखन आणि कल्पना साहित्यिक चोरीची उदाहरणे चांगल्या प्रकारे शोधण्यासाठी विद्यमान मजकूर संरेखन अल्गोरिदम सुधारित केले.

टीमला असे आढळले की, भाषा मॉडेलने सर्व तीन प्रकारची चोरी केली आणि मॉडेलला प्रशिक्षण देण्यासाठी वापरलेले डेटासेट आणि पॅरामीटर्स जितके मोठे असतील तितकेच साहित्यिक चोरीचे प्रकार घडतात. त्यांनी हे देखील नमूद केले की उत्कृष्ट-ट्यून केलेल्या भाषेच्या मॉडेल्सने शब्दशः साहित्यिक चोरी कमी केली. परंतु पॅराफ्रेजिंग आणि कल्पना साहित्यिक चोरीच्या घटनांमध्ये वाढ झाली. याव्यतिरिक्त, त्यांनी भाषा मॉडेलच्या सर्व तीन प्रकारच्या चोरीच्या माध्यमातून व्यक्तींची खाजगी माहिती उघड करण्याची उदाहरणे ओळखली. ऑस्टिन, टेक्सास येथे 30 एप्रिल ते 4 मे दरम्यान होणाऱ्या 2023 ACM वेब कॉन्फरन्समध्ये संशोधक त्यांचे निष्कर्ष सादर करतील.

अभ्यासाचे परिणाम केवळ GPT-2 वर लागू असले तरी, संशोधकांनी स्थापित केलेली स्वयंचलित साहित्य चोरी शोधण्याची प्रक्रिया ChatGPT सारख्या नवीन भाषेच्या मॉडेल्सवर लागू केली जाऊ शकते, हे मॉडेल प्रशिक्षण सामग्रीची चोरी करतात की नाही आणि किती वेळा करतात हे माहिती पडते. साहित्यिक चोरीची चाचणी, तथापि, प्रशिक्षण डेटा सार्वजनिकपणे प्रवेश करण्यायोग्य बनविणाऱ्या विकासकांवर अवलंबून असते, असे संशोधकांनी सांगितले. शास्त्रज्ञांच्या म्हणण्यानुसार, वर्तमान अभ्यास AI संशोधकांना भविष्यात अधिक मजबूत, विश्वासार्ह आणि जबाबदार भाषा मॉडेल तयार करण्यात मदत करू शकतो. आत्तासाठी, ते लोकांना मजकूर जनरेटर वापरताना सावधगिरी बाळगण्याचे आवाहन करतात.

हेही वाचा : Mobile speed in India : जागतिक स्तरावर भारताच्या मोबाइलचा सरासरी वेग वाढला; रँकिंगमध्येही सुधारणा

ABOUT THE AUTHOR

...view details