पेनसिल्व्हेनिया [यूएस]: मूळ स्त्रोताचा उल्लेख न करता चॅटजीपीटी, पॅराफ्रेज आणि प्रशिक्षण डेटामधील संकल्पनांचा पुनर्वापर यासह भाषा मॉडेल, तेव्हा डेटा चोरीबद्दल चिंता व्यक्त केली जाते. पेन युनिव्हर्सिटीच्या नेतृत्वाखालील एका संशोधन पथकाच्या मते, ज्याने या विषयावर विशेषतः पाहण्यासाठी पहिला अभ्यास केला होता, वापरकर्त्याच्या प्रॉम्प्टच्या प्रतिसादात मजकूर तयार करणारी भाषा एकापेक्षा अधिक मार्गांनी डेटा चोरी करतात. पेन स्टेट येथील माहिती विज्ञान आणि तंत्रज्ञानाचे प्राध्यापक डोंगवॉन ली म्हणाले, ' कुठल्याही साहित्याची (डेटा) चोरी वेगवेगळ्या मार्गांनी केल्या जाते. भाषा मॉडेल केवळ कॉपी आणि पेस्ट होत नाहीत तर ते लक्षात न घेता साहित्यिक चोरीच्या अधिक अत्याधुनिक प्रकारांचा अवलंब केल्या जातो.'
शब्दशः किंवा थेट सामग्री कॉपी आणि पेस्ट करणे; मूळ स्त्रोताचा उल्लेख न करता पॅराफ्रेसिंग, किंवा पुनर्शब्द आणि पुनर्रचना सामग्री; आणि कल्पना, किंवा योग्य विशेषताशिवाय मजकूरातील मुख्य कल्पना वापरणे. त्यांनी स्वयंचलित साहित्यिक चोरी शोधण्यासाठी एक पाइपलाइन तयार केली आणि OpenAI च्या GPT-2 विरुद्ध चाचणी केली. कारण भाषा मॉडेलचा प्रशिक्षण डेटा ऑनलाइन उपलब्ध आहे, ज्यामुळे संशोधकांना GPT-2 प्री-ट्रेन करण्यासाठी वापरल्या जाणार्या 8 दशलक्ष दस्तऐवजांशी समानता साधणाऱ्या मजकुराची तुलना करता आली.
शास्त्रज्ञांनी 210,000 समानता साधणाऱ्या मजकूरांचा वापर पूर्व-प्रशिक्षित भाषा मॉडेल्स आणि उत्कृष्ट-ट्यून केलेल्या भाषेच्या मॉडेल्समध्ये साहित्यिक चोरीची चाचणी करण्यासाठी किंवा विशिष्ट विषय क्षेत्रांवर लक्ष केंद्रित करण्यासाठी पुढे प्रशिक्षित केलेल्या मॉडेल्ससाठी केला. या प्रकरणात, वैज्ञानिक दस्तऐवज, COVID-19 शी संबंधित विद्वत्तापूर्ण लेख आणि पेटंट दाव्यांवर लक्ष केंद्रित करण्यासाठी टीमने तीन भाषा मॉडेल्सवर लक्ष केंद्रित केले. प्रत्येक व्युत्पन्न केलेल्या मजकुराशी सारखीच शीर्ष 10 प्रशिक्षण दस्तऐवज पुनर्प्राप्त करण्यासाठी त्यांनी मुक्त-स्रोत शोध इंजिनचा वापर केला आणि शब्दशः, शब्दलेखन आणि कल्पना साहित्यिक चोरीची उदाहरणे चांगल्या प्रकारे शोधण्यासाठी विद्यमान मजकूर संरेखन अल्गोरिदम सुधारित केले.