ETV Bharat / technology

Nvidia ने बनाया ऐसा AI टूल, जो बनाएगा पहले कभी न सुने गए साउंड, म्यूजिक के लिए फायदेमंद - NVIDIA NEW AI TOOL FUGATTO

सेमीकंडक्टर दिग्गज Nvidia ने एक ऐसे AI टूल को विकसित किया है, जो ऐसी ध्वनियां उत्पन्न कर सकता है, जो पहले कभी सुनी नहीं गईं.

Symbolic picture
प्रतीकात्मक तस्वीर (फोटो - IANS)
author img

By ETV Bharat Tech Team

Published : Nov 27, 2024, 5:18 PM IST

हैदराबाद: Nvidia के शोधकर्ताओं ने एक ऐसे आर्टिफिशियल इंटेलिजेंस टूल को विकसित किया है, जिसको लेकर कंपनी का दावा है कि यह ऐसी ध्वनियां उत्पन्न कर सकता है, जो पहले कभी नहीं सुनी गई. कंपनी ने इस टूल को Fugatto नाम दिया है.

इसका पूरा नाम फाउंडेशनल जेनरेटिव ऑडियो ट्रांसफॉर्मर ओपस 1 (Fugatto) है, जिसे 'ध्वनि के लिए स्विस आर्मी चाकू' के रूप में बनाया गया था और यह यूजर्स को सरल टेक्स्ट प्रॉम्प्ट के साथ ऑडियो संपादित करने या उत्पन्न करने की अनुमति देता है. इसके बारे में Nvidia ने 25 नवंबर, 2024 को अपने एक ब्लॉग पोस्ट जानकारी दी थी.

इन संकेतों के उदाहरणों में किसी गाने से किसी विशेष वाद्य यंत्र को हटाना, किसी की आवाज़ का उच्चारण बदलना, इत्यादि शामिल हो सकते हैं. राफेल वैले NVIDIA में अनुप्रयुक्त ऑडियो अनुसंधान के प्रबंधक हैं और Fugatto के पीछे एक दर्जन से अधिक लोगों में से एक हैं, साथ ही एक ऑर्केस्ट्रा कंडक्टर और संगीतकार भी हैं. उन्होंने इसके बारे में कहा कि "हम एक ऐसा मॉडल बनाना चाहते थे जो मनुष्यों की तरह ध्वनि को समझे और उत्पन्न करे."

फुगाटो के विविध अनुप्रयोग हो सकते हैं. उदाहरण के लिए, एक विज्ञापन एजेंसी वॉयसओवर पर अलग-अलग लहजे और भावनाओं को लागू करके कई क्षेत्रों के लिए विज्ञापन बनाने के लिए इसका इस्तेमाल कर सकती है. इसके अलावा परिवार के सदस्य या दोस्त की आवाज़ से ऑनलाइन पाठ्यक्रम बनाए जा सकते हैं. यह AI टूल तुरही की आवाज निकालने या सैक्सोफोन की म्याऊं निकालने का भी काम कर सकता है.

खास बात यह है कि इसकी सीमाएं केवल यूजर्स की कल्पना पर निर्भर करती हैं. कंपनी के शोधकर्ताओं ने इसके इस्तेमाल में यह भी पाया कि यह ऐसे काम भी कर सकता है, जिनके लिए इसे कभी प्रशिक्षित नहीं किया गया था, जैसे कि टेक्स्ट प्रॉम्प्ट से उच्च-गुणवत्ता वाली गायन आवाज़ उत्पन्न करना.

यह मॉडल निर्देशों को संयोजित करने के लिए ComposableART नामक तकनीक का इस्तेमाल करता है. उदाहरण के लिए, संकेतों के संयोजन से फ्रेंच लहजे में दुख की भावना के साथ बोले गए टेक्स्ट के लिए कहा जा सकता है. यह समय के साथ बदलने वाली ध्वनियां भी उत्पन्न कर सकता है, जिसे टेम्पोरल इंटरपोलेशन कहा जाता है.

उदाहरण के लिए, यह एक क्षेत्र में चलने वाली बारिश की आवाज़ बना सकता है, जिसमें गड़गड़ाहट की आवाज़ें होती हैं जो धीरे-धीरे दूर तक फैल जाती हैं, साथ ही यूजर्स को ध्वनि परिदृश्य के विकास पर बारीक नियंत्रण भी देता है. यह AI टूल विश्व भर के विविध समूह के लोगों द्वारा बनाया गया है, जिनमें भारत, ब्राजील, चीन, जॉर्डन और दक्षिण कोरिया शामिल हैं.

हैदराबाद: Nvidia के शोधकर्ताओं ने एक ऐसे आर्टिफिशियल इंटेलिजेंस टूल को विकसित किया है, जिसको लेकर कंपनी का दावा है कि यह ऐसी ध्वनियां उत्पन्न कर सकता है, जो पहले कभी नहीं सुनी गई. कंपनी ने इस टूल को Fugatto नाम दिया है.

इसका पूरा नाम फाउंडेशनल जेनरेटिव ऑडियो ट्रांसफॉर्मर ओपस 1 (Fugatto) है, जिसे 'ध्वनि के लिए स्विस आर्मी चाकू' के रूप में बनाया गया था और यह यूजर्स को सरल टेक्स्ट प्रॉम्प्ट के साथ ऑडियो संपादित करने या उत्पन्न करने की अनुमति देता है. इसके बारे में Nvidia ने 25 नवंबर, 2024 को अपने एक ब्लॉग पोस्ट जानकारी दी थी.

इन संकेतों के उदाहरणों में किसी गाने से किसी विशेष वाद्य यंत्र को हटाना, किसी की आवाज़ का उच्चारण बदलना, इत्यादि शामिल हो सकते हैं. राफेल वैले NVIDIA में अनुप्रयुक्त ऑडियो अनुसंधान के प्रबंधक हैं और Fugatto के पीछे एक दर्जन से अधिक लोगों में से एक हैं, साथ ही एक ऑर्केस्ट्रा कंडक्टर और संगीतकार भी हैं. उन्होंने इसके बारे में कहा कि "हम एक ऐसा मॉडल बनाना चाहते थे जो मनुष्यों की तरह ध्वनि को समझे और उत्पन्न करे."

फुगाटो के विविध अनुप्रयोग हो सकते हैं. उदाहरण के लिए, एक विज्ञापन एजेंसी वॉयसओवर पर अलग-अलग लहजे और भावनाओं को लागू करके कई क्षेत्रों के लिए विज्ञापन बनाने के लिए इसका इस्तेमाल कर सकती है. इसके अलावा परिवार के सदस्य या दोस्त की आवाज़ से ऑनलाइन पाठ्यक्रम बनाए जा सकते हैं. यह AI टूल तुरही की आवाज निकालने या सैक्सोफोन की म्याऊं निकालने का भी काम कर सकता है.

खास बात यह है कि इसकी सीमाएं केवल यूजर्स की कल्पना पर निर्भर करती हैं. कंपनी के शोधकर्ताओं ने इसके इस्तेमाल में यह भी पाया कि यह ऐसे काम भी कर सकता है, जिनके लिए इसे कभी प्रशिक्षित नहीं किया गया था, जैसे कि टेक्स्ट प्रॉम्प्ट से उच्च-गुणवत्ता वाली गायन आवाज़ उत्पन्न करना.

यह मॉडल निर्देशों को संयोजित करने के लिए ComposableART नामक तकनीक का इस्तेमाल करता है. उदाहरण के लिए, संकेतों के संयोजन से फ्रेंच लहजे में दुख की भावना के साथ बोले गए टेक्स्ट के लिए कहा जा सकता है. यह समय के साथ बदलने वाली ध्वनियां भी उत्पन्न कर सकता है, जिसे टेम्पोरल इंटरपोलेशन कहा जाता है.

उदाहरण के लिए, यह एक क्षेत्र में चलने वाली बारिश की आवाज़ बना सकता है, जिसमें गड़गड़ाहट की आवाज़ें होती हैं जो धीरे-धीरे दूर तक फैल जाती हैं, साथ ही यूजर्स को ध्वनि परिदृश्य के विकास पर बारीक नियंत्रण भी देता है. यह AI टूल विश्व भर के विविध समूह के लोगों द्वारा बनाया गया है, जिनमें भारत, ब्राजील, चीन, जॉर्डन और दक्षिण कोरिया शामिल हैं.

ETV Bharat Logo

Copyright © 2025 Ushodaya Enterprises Pvt. Ltd., All Rights Reserved.