ChatGPT Plagiarize : ChatGPT डेटा 'कॉपी-पेस्ट' करण्यापलीकडे आणखी काय काय करते?, संशोधन - चॅटजीपीटी

मूळ स्त्रोताचा उल्लेख न करता चॅटजीपीटी, पॅराफ्रेज आणि प्रशिक्षण डेटामधील संकल्पनांचा पुनर्वापर यासह भाषा मॉडेल, तेव्हा डेटा चोरीबद्दल चिंता व्यक्त केली जाते आहे.

ChatGPT डेटा 'कॉपी-पेस्ट

Published : Feb 20, 2023, 8:07 PM IST

पेनसिल्व्हेनिया [यूएस]: मूळ स्त्रोताचा उल्लेख न करता चॅटजीपीटी, पॅराफ्रेज आणि प्रशिक्षण डेटामधील संकल्पनांचा पुनर्वापर यासह भाषा मॉडेल, तेव्हा डेटा चोरीबद्दल चिंता व्यक्त केली जाते. पेन युनिव्हर्सिटीच्या नेतृत्वाखालील एका संशोधन पथकाच्या मते, ज्याने या विषयावर विशेषतः पाहण्यासाठी पहिला अभ्यास केला होता, वापरकर्त्याच्या प्रॉम्प्टच्या प्रतिसादात मजकूर तयार करणारी भाषा एकापेक्षा अधिक मार्गांनी डेटा चोरी करतात. पेन स्टेट येथील माहिती विज्ञान आणि तंत्रज्ञानाचे प्राध्यापक डोंगवॉन ली म्हणाले, ' कुठल्याही साहित्याची (डेटा) चोरी वेगवेगळ्या मार्गांनी केल्या जाते. भाषा मॉडेल केवळ कॉपी आणि पेस्ट होत नाहीत तर ते लक्षात न घेता साहित्यिक चोरीच्या अधिक अत्याधुनिक प्रकारांचा अवलंब केल्या जातो.'

शब्दशः किंवा थेट सामग्री कॉपी आणि पेस्ट करणे; मूळ स्त्रोताचा उल्लेख न करता पॅराफ्रेसिंग, किंवा पुनर्शब्द आणि पुनर्रचना सामग्री; आणि कल्पना, किंवा योग्य विशेषताशिवाय मजकूरातील मुख्य कल्पना वापरणे. त्यांनी स्वयंचलित साहित्यिक चोरी शोधण्यासाठी एक पाइपलाइन तयार केली आणि OpenAI च्या GPT-2 विरुद्ध चाचणी केली. कारण भाषा मॉडेलचा प्रशिक्षण डेटा ऑनलाइन उपलब्ध आहे, ज्यामुळे संशोधकांना GPT-2 प्री-ट्रेन करण्यासाठी वापरल्या जाणार्‍या 8 दशलक्ष दस्तऐवजांशी समानता साधणाऱ्या मजकुराची तुलना करता आली.

शास्त्रज्ञांनी 210,000 समानता साधणाऱ्या मजकूरांचा वापर पूर्व-प्रशिक्षित भाषा मॉडेल्स आणि उत्कृष्ट-ट्यून केलेल्या भाषेच्या मॉडेल्समध्ये साहित्यिक चोरीची चाचणी करण्यासाठी किंवा विशिष्ट विषय क्षेत्रांवर लक्ष केंद्रित करण्यासाठी पुढे प्रशिक्षित केलेल्या मॉडेल्ससाठी केला. या प्रकरणात, वैज्ञानिक दस्तऐवज, COVID-19 शी संबंधित विद्वत्तापूर्ण लेख आणि पेटंट दाव्यांवर लक्ष केंद्रित करण्यासाठी टीमने तीन भाषा मॉडेल्सवर लक्ष केंद्रित केले. प्रत्येक व्युत्पन्न केलेल्या मजकुराशी सारखीच शीर्ष 10 प्रशिक्षण दस्तऐवज पुनर्प्राप्त करण्यासाठी त्यांनी मुक्त-स्रोत शोध इंजिनचा वापर केला आणि शब्दशः, शब्दलेखन आणि कल्पना साहित्यिक चोरीची उदाहरणे चांगल्या प्रकारे शोधण्यासाठी विद्यमान मजकूर संरेखन अल्गोरिदम सुधारित केले.

टीमला असे आढळले की, भाषा मॉडेलने सर्व तीन प्रकारची चोरी केली आणि मॉडेलला प्रशिक्षण देण्यासाठी वापरलेले डेटासेट आणि पॅरामीटर्स जितके मोठे असतील तितकेच साहित्यिक चोरीचे प्रकार घडतात. त्यांनी हे देखील नमूद केले की उत्कृष्ट-ट्यून केलेल्या भाषेच्या मॉडेल्सने शब्दशः साहित्यिक चोरी कमी केली. परंतु पॅराफ्रेजिंग आणि कल्पना साहित्यिक चोरीच्या घटनांमध्ये वाढ झाली. याव्यतिरिक्त, त्यांनी भाषा मॉडेलच्या सर्व तीन प्रकारच्या चोरीच्या माध्यमातून व्यक्तींची खाजगी माहिती उघड करण्याची उदाहरणे ओळखली. ऑस्टिन, टेक्सास येथे 30 एप्रिल ते 4 मे दरम्यान होणाऱ्या 2023 ACM वेब कॉन्फरन्समध्ये संशोधक त्यांचे निष्कर्ष सादर करतील.

अभ्यासाचे परिणाम केवळ GPT-2 वर लागू असले तरी, संशोधकांनी स्थापित केलेली स्वयंचलित साहित्य चोरी शोधण्याची प्रक्रिया ChatGPT सारख्या नवीन भाषेच्या मॉडेल्सवर लागू केली जाऊ शकते, हे मॉडेल प्रशिक्षण सामग्रीची चोरी करतात की नाही आणि किती वेळा करतात हे माहिती पडते. साहित्यिक चोरीची चाचणी, तथापि, प्रशिक्षण डेटा सार्वजनिकपणे प्रवेश करण्यायोग्य बनविणाऱ्या विकासकांवर अवलंबून असते, असे संशोधकांनी सांगितले. शास्त्रज्ञांच्या म्हणण्यानुसार, वर्तमान अभ्यास AI संशोधकांना भविष्यात अधिक मजबूत, विश्वासार्ह आणि जबाबदार भाषा मॉडेल तयार करण्यात मदत करू शकतो. आत्तासाठी, ते लोकांना मजकूर जनरेटर वापरताना सावधगिरी बाळगण्याचे आवाहन करतात.

हेही वाचा : Mobile speed in India : जागतिक स्तरावर भारताच्या मोबाइलचा सरासरी वेग वाढला; रँकिंगमध्येही सुधारणा