ETV Bharat / international

ChatGPT Plagiarize : ChatGPT डेटा 'कॉपी-पेस्ट' करण्यापलीकडे आणखी काय काय करते?, संशोधन

मूळ स्त्रोताचा उल्लेख न करता चॅटजीपीटी, पॅराफ्रेज आणि प्रशिक्षण डेटामधील संकल्पनांचा पुनर्वापर यासह भाषा मॉडेल, तेव्हा डेटा चोरीबद्दल चिंता व्यक्त केली जाते आहे.

ChatGPT Plagiarize
ChatGPT डेटा 'कॉपी-पेस्ट
author img

By

Published : Feb 20, 2023, 8:07 PM IST

पेनसिल्व्हेनिया [यूएस]: मूळ स्त्रोताचा उल्लेख न करता चॅटजीपीटी, पॅराफ्रेज आणि प्रशिक्षण डेटामधील संकल्पनांचा पुनर्वापर यासह भाषा मॉडेल, तेव्हा डेटा चोरीबद्दल चिंता व्यक्त केली जाते. पेन युनिव्हर्सिटीच्या नेतृत्वाखालील एका संशोधन पथकाच्या मते, ज्याने या विषयावर विशेषतः पाहण्यासाठी पहिला अभ्यास केला होता, वापरकर्त्याच्या प्रॉम्प्टच्या प्रतिसादात मजकूर तयार करणारी भाषा एकापेक्षा अधिक मार्गांनी डेटा चोरी करतात. पेन स्टेट येथील माहिती विज्ञान आणि तंत्रज्ञानाचे प्राध्यापक डोंगवॉन ली म्हणाले, ' कुठल्याही साहित्याची (डेटा) चोरी वेगवेगळ्या मार्गांनी केल्या जाते. भाषा मॉडेल केवळ कॉपी आणि पेस्ट होत नाहीत तर ते लक्षात न घेता साहित्यिक चोरीच्या अधिक अत्याधुनिक प्रकारांचा अवलंब केल्या जातो.'

शब्दशः किंवा थेट सामग्री कॉपी आणि पेस्ट करणे; मूळ स्त्रोताचा उल्लेख न करता पॅराफ्रेसिंग, किंवा पुनर्शब्द आणि पुनर्रचना सामग्री; आणि कल्पना, किंवा योग्य विशेषताशिवाय मजकूरातील मुख्य कल्पना वापरणे. त्यांनी स्वयंचलित साहित्यिक चोरी शोधण्यासाठी एक पाइपलाइन तयार केली आणि OpenAI च्या GPT-2 विरुद्ध चाचणी केली. कारण भाषा मॉडेलचा प्रशिक्षण डेटा ऑनलाइन उपलब्ध आहे, ज्यामुळे संशोधकांना GPT-2 प्री-ट्रेन करण्यासाठी वापरल्या जाणार्‍या 8 दशलक्ष दस्तऐवजांशी समानता साधणाऱ्या मजकुराची तुलना करता आली.

शास्त्रज्ञांनी 210,000 समानता साधणाऱ्या मजकूरांचा वापर पूर्व-प्रशिक्षित भाषा मॉडेल्स आणि उत्कृष्ट-ट्यून केलेल्या भाषेच्या मॉडेल्समध्ये साहित्यिक चोरीची चाचणी करण्यासाठी किंवा विशिष्ट विषय क्षेत्रांवर लक्ष केंद्रित करण्यासाठी पुढे प्रशिक्षित केलेल्या मॉडेल्ससाठी केला. या प्रकरणात, वैज्ञानिक दस्तऐवज, COVID-19 शी संबंधित विद्वत्तापूर्ण लेख आणि पेटंट दाव्यांवर लक्ष केंद्रित करण्यासाठी टीमने तीन भाषा मॉडेल्सवर लक्ष केंद्रित केले. प्रत्येक व्युत्पन्न केलेल्या मजकुराशी सारखीच शीर्ष 10 प्रशिक्षण दस्तऐवज पुनर्प्राप्त करण्यासाठी त्यांनी मुक्त-स्रोत शोध इंजिनचा वापर केला आणि शब्दशः, शब्दलेखन आणि कल्पना साहित्यिक चोरीची उदाहरणे चांगल्या प्रकारे शोधण्यासाठी विद्यमान मजकूर संरेखन अल्गोरिदम सुधारित केले.

टीमला असे आढळले की, भाषा मॉडेलने सर्व तीन प्रकारची चोरी केली आणि मॉडेलला प्रशिक्षण देण्यासाठी वापरलेले डेटासेट आणि पॅरामीटर्स जितके मोठे असतील तितकेच साहित्यिक चोरीचे प्रकार घडतात. त्यांनी हे देखील नमूद केले की उत्कृष्ट-ट्यून केलेल्या भाषेच्या मॉडेल्सने शब्दशः साहित्यिक चोरी कमी केली. परंतु पॅराफ्रेजिंग आणि कल्पना साहित्यिक चोरीच्या घटनांमध्ये वाढ झाली. याव्यतिरिक्त, त्यांनी भाषा मॉडेलच्या सर्व तीन प्रकारच्या चोरीच्या माध्यमातून व्यक्तींची खाजगी माहिती उघड करण्याची उदाहरणे ओळखली. ऑस्टिन, टेक्सास येथे 30 एप्रिल ते 4 मे दरम्यान होणाऱ्या 2023 ACM वेब कॉन्फरन्समध्ये संशोधक त्यांचे निष्कर्ष सादर करतील.

अभ्यासाचे परिणाम केवळ GPT-2 वर लागू असले तरी, संशोधकांनी स्थापित केलेली स्वयंचलित साहित्य चोरी शोधण्याची प्रक्रिया ChatGPT सारख्या नवीन भाषेच्या मॉडेल्सवर लागू केली जाऊ शकते, हे मॉडेल प्रशिक्षण सामग्रीची चोरी करतात की नाही आणि किती वेळा करतात हे माहिती पडते. साहित्यिक चोरीची चाचणी, तथापि, प्रशिक्षण डेटा सार्वजनिकपणे प्रवेश करण्यायोग्य बनविणाऱ्या विकासकांवर अवलंबून असते, असे संशोधकांनी सांगितले. शास्त्रज्ञांच्या म्हणण्यानुसार, वर्तमान अभ्यास AI संशोधकांना भविष्यात अधिक मजबूत, विश्वासार्ह आणि जबाबदार भाषा मॉडेल तयार करण्यात मदत करू शकतो. आत्तासाठी, ते लोकांना मजकूर जनरेटर वापरताना सावधगिरी बाळगण्याचे आवाहन करतात.

हेही वाचा : Mobile speed in India : जागतिक स्तरावर भारताच्या मोबाइलचा सरासरी वेग वाढला; रँकिंगमध्येही सुधारणा

पेनसिल्व्हेनिया [यूएस]: मूळ स्त्रोताचा उल्लेख न करता चॅटजीपीटी, पॅराफ्रेज आणि प्रशिक्षण डेटामधील संकल्पनांचा पुनर्वापर यासह भाषा मॉडेल, तेव्हा डेटा चोरीबद्दल चिंता व्यक्त केली जाते. पेन युनिव्हर्सिटीच्या नेतृत्वाखालील एका संशोधन पथकाच्या मते, ज्याने या विषयावर विशेषतः पाहण्यासाठी पहिला अभ्यास केला होता, वापरकर्त्याच्या प्रॉम्प्टच्या प्रतिसादात मजकूर तयार करणारी भाषा एकापेक्षा अधिक मार्गांनी डेटा चोरी करतात. पेन स्टेट येथील माहिती विज्ञान आणि तंत्रज्ञानाचे प्राध्यापक डोंगवॉन ली म्हणाले, ' कुठल्याही साहित्याची (डेटा) चोरी वेगवेगळ्या मार्गांनी केल्या जाते. भाषा मॉडेल केवळ कॉपी आणि पेस्ट होत नाहीत तर ते लक्षात न घेता साहित्यिक चोरीच्या अधिक अत्याधुनिक प्रकारांचा अवलंब केल्या जातो.'

शब्दशः किंवा थेट सामग्री कॉपी आणि पेस्ट करणे; मूळ स्त्रोताचा उल्लेख न करता पॅराफ्रेसिंग, किंवा पुनर्शब्द आणि पुनर्रचना सामग्री; आणि कल्पना, किंवा योग्य विशेषताशिवाय मजकूरातील मुख्य कल्पना वापरणे. त्यांनी स्वयंचलित साहित्यिक चोरी शोधण्यासाठी एक पाइपलाइन तयार केली आणि OpenAI च्या GPT-2 विरुद्ध चाचणी केली. कारण भाषा मॉडेलचा प्रशिक्षण डेटा ऑनलाइन उपलब्ध आहे, ज्यामुळे संशोधकांना GPT-2 प्री-ट्रेन करण्यासाठी वापरल्या जाणार्‍या 8 दशलक्ष दस्तऐवजांशी समानता साधणाऱ्या मजकुराची तुलना करता आली.

शास्त्रज्ञांनी 210,000 समानता साधणाऱ्या मजकूरांचा वापर पूर्व-प्रशिक्षित भाषा मॉडेल्स आणि उत्कृष्ट-ट्यून केलेल्या भाषेच्या मॉडेल्समध्ये साहित्यिक चोरीची चाचणी करण्यासाठी किंवा विशिष्ट विषय क्षेत्रांवर लक्ष केंद्रित करण्यासाठी पुढे प्रशिक्षित केलेल्या मॉडेल्ससाठी केला. या प्रकरणात, वैज्ञानिक दस्तऐवज, COVID-19 शी संबंधित विद्वत्तापूर्ण लेख आणि पेटंट दाव्यांवर लक्ष केंद्रित करण्यासाठी टीमने तीन भाषा मॉडेल्सवर लक्ष केंद्रित केले. प्रत्येक व्युत्पन्न केलेल्या मजकुराशी सारखीच शीर्ष 10 प्रशिक्षण दस्तऐवज पुनर्प्राप्त करण्यासाठी त्यांनी मुक्त-स्रोत शोध इंजिनचा वापर केला आणि शब्दशः, शब्दलेखन आणि कल्पना साहित्यिक चोरीची उदाहरणे चांगल्या प्रकारे शोधण्यासाठी विद्यमान मजकूर संरेखन अल्गोरिदम सुधारित केले.

टीमला असे आढळले की, भाषा मॉडेलने सर्व तीन प्रकारची चोरी केली आणि मॉडेलला प्रशिक्षण देण्यासाठी वापरलेले डेटासेट आणि पॅरामीटर्स जितके मोठे असतील तितकेच साहित्यिक चोरीचे प्रकार घडतात. त्यांनी हे देखील नमूद केले की उत्कृष्ट-ट्यून केलेल्या भाषेच्या मॉडेल्सने शब्दशः साहित्यिक चोरी कमी केली. परंतु पॅराफ्रेजिंग आणि कल्पना साहित्यिक चोरीच्या घटनांमध्ये वाढ झाली. याव्यतिरिक्त, त्यांनी भाषा मॉडेलच्या सर्व तीन प्रकारच्या चोरीच्या माध्यमातून व्यक्तींची खाजगी माहिती उघड करण्याची उदाहरणे ओळखली. ऑस्टिन, टेक्सास येथे 30 एप्रिल ते 4 मे दरम्यान होणाऱ्या 2023 ACM वेब कॉन्फरन्समध्ये संशोधक त्यांचे निष्कर्ष सादर करतील.

अभ्यासाचे परिणाम केवळ GPT-2 वर लागू असले तरी, संशोधकांनी स्थापित केलेली स्वयंचलित साहित्य चोरी शोधण्याची प्रक्रिया ChatGPT सारख्या नवीन भाषेच्या मॉडेल्सवर लागू केली जाऊ शकते, हे मॉडेल प्रशिक्षण सामग्रीची चोरी करतात की नाही आणि किती वेळा करतात हे माहिती पडते. साहित्यिक चोरीची चाचणी, तथापि, प्रशिक्षण डेटा सार्वजनिकपणे प्रवेश करण्यायोग्य बनविणाऱ्या विकासकांवर अवलंबून असते, असे संशोधकांनी सांगितले. शास्त्रज्ञांच्या म्हणण्यानुसार, वर्तमान अभ्यास AI संशोधकांना भविष्यात अधिक मजबूत, विश्वासार्ह आणि जबाबदार भाषा मॉडेल तयार करण्यात मदत करू शकतो. आत्तासाठी, ते लोकांना मजकूर जनरेटर वापरताना सावधगिरी बाळगण्याचे आवाहन करतात.

हेही वाचा : Mobile speed in India : जागतिक स्तरावर भारताच्या मोबाइलचा सरासरी वेग वाढला; रँकिंगमध्येही सुधारणा

ETV Bharat Logo

Copyright © 2024 Ushodaya Enterprises Pvt. Ltd., All Rights Reserved.