पेनसिल्व्हेनिया [यूएस]: मूळ स्त्रोताचा उल्लेख न करता चॅटजीपीटी, पॅराफ्रेज आणि प्रशिक्षण डेटामधील संकल्पनांचा पुनर्वापर यासह भाषा मॉडेल, तेव्हा डेटा चोरीबद्दल चिंता व्यक्त केली जाते. पेन युनिव्हर्सिटीच्या नेतृत्वाखालील एका संशोधन पथकाच्या मते, ज्याने या विषयावर विशेषतः पाहण्यासाठी पहिला अभ्यास केला होता, वापरकर्त्याच्या प्रॉम्प्टच्या प्रतिसादात मजकूर तयार करणारी भाषा एकापेक्षा अधिक मार्गांनी डेटा चोरी करतात. पेन स्टेट येथील माहिती विज्ञान आणि तंत्रज्ञानाचे प्राध्यापक डोंगवॉन ली म्हणाले, ' कुठल्याही साहित्याची (डेटा) चोरी वेगवेगळ्या मार्गांनी केल्या जाते. भाषा मॉडेल केवळ कॉपी आणि पेस्ट होत नाहीत तर ते लक्षात न घेता साहित्यिक चोरीच्या अधिक अत्याधुनिक प्रकारांचा अवलंब केल्या जातो.'
शब्दशः किंवा थेट सामग्री कॉपी आणि पेस्ट करणे; मूळ स्त्रोताचा उल्लेख न करता पॅराफ्रेसिंग, किंवा पुनर्शब्द आणि पुनर्रचना सामग्री; आणि कल्पना, किंवा योग्य विशेषताशिवाय मजकूरातील मुख्य कल्पना वापरणे. त्यांनी स्वयंचलित साहित्यिक चोरी शोधण्यासाठी एक पाइपलाइन तयार केली आणि OpenAI च्या GPT-2 विरुद्ध चाचणी केली. कारण भाषा मॉडेलचा प्रशिक्षण डेटा ऑनलाइन उपलब्ध आहे, ज्यामुळे संशोधकांना GPT-2 प्री-ट्रेन करण्यासाठी वापरल्या जाणार्या 8 दशलक्ष दस्तऐवजांशी समानता साधणाऱ्या मजकुराची तुलना करता आली.
शास्त्रज्ञांनी 210,000 समानता साधणाऱ्या मजकूरांचा वापर पूर्व-प्रशिक्षित भाषा मॉडेल्स आणि उत्कृष्ट-ट्यून केलेल्या भाषेच्या मॉडेल्समध्ये साहित्यिक चोरीची चाचणी करण्यासाठी किंवा विशिष्ट विषय क्षेत्रांवर लक्ष केंद्रित करण्यासाठी पुढे प्रशिक्षित केलेल्या मॉडेल्ससाठी केला. या प्रकरणात, वैज्ञानिक दस्तऐवज, COVID-19 शी संबंधित विद्वत्तापूर्ण लेख आणि पेटंट दाव्यांवर लक्ष केंद्रित करण्यासाठी टीमने तीन भाषा मॉडेल्सवर लक्ष केंद्रित केले. प्रत्येक व्युत्पन्न केलेल्या मजकुराशी सारखीच शीर्ष 10 प्रशिक्षण दस्तऐवज पुनर्प्राप्त करण्यासाठी त्यांनी मुक्त-स्रोत शोध इंजिनचा वापर केला आणि शब्दशः, शब्दलेखन आणि कल्पना साहित्यिक चोरीची उदाहरणे चांगल्या प्रकारे शोधण्यासाठी विद्यमान मजकूर संरेखन अल्गोरिदम सुधारित केले.
टीमला असे आढळले की, भाषा मॉडेलने सर्व तीन प्रकारची चोरी केली आणि मॉडेलला प्रशिक्षण देण्यासाठी वापरलेले डेटासेट आणि पॅरामीटर्स जितके मोठे असतील तितकेच साहित्यिक चोरीचे प्रकार घडतात. त्यांनी हे देखील नमूद केले की उत्कृष्ट-ट्यून केलेल्या भाषेच्या मॉडेल्सने शब्दशः साहित्यिक चोरी कमी केली. परंतु पॅराफ्रेजिंग आणि कल्पना साहित्यिक चोरीच्या घटनांमध्ये वाढ झाली. याव्यतिरिक्त, त्यांनी भाषा मॉडेलच्या सर्व तीन प्रकारच्या चोरीच्या माध्यमातून व्यक्तींची खाजगी माहिती उघड करण्याची उदाहरणे ओळखली. ऑस्टिन, टेक्सास येथे 30 एप्रिल ते 4 मे दरम्यान होणाऱ्या 2023 ACM वेब कॉन्फरन्समध्ये संशोधक त्यांचे निष्कर्ष सादर करतील.
अभ्यासाचे परिणाम केवळ GPT-2 वर लागू असले तरी, संशोधकांनी स्थापित केलेली स्वयंचलित साहित्य चोरी शोधण्याची प्रक्रिया ChatGPT सारख्या नवीन भाषेच्या मॉडेल्सवर लागू केली जाऊ शकते, हे मॉडेल प्रशिक्षण सामग्रीची चोरी करतात की नाही आणि किती वेळा करतात हे माहिती पडते. साहित्यिक चोरीची चाचणी, तथापि, प्रशिक्षण डेटा सार्वजनिकपणे प्रवेश करण्यायोग्य बनविणाऱ्या विकासकांवर अवलंबून असते, असे संशोधकांनी सांगितले. शास्त्रज्ञांच्या म्हणण्यानुसार, वर्तमान अभ्यास AI संशोधकांना भविष्यात अधिक मजबूत, विश्वासार्ह आणि जबाबदार भाषा मॉडेल तयार करण्यात मदत करू शकतो. आत्तासाठी, ते लोकांना मजकूर जनरेटर वापरताना सावधगिरी बाळगण्याचे आवाहन करतात.