ETV Bharat / technology

ಕನ್ನಡ ಸೇರಿದಂತೆ 11 ಭಾಷೆಗಳ ಸರ್ವಂ-1 ಅನಾವರಣ: ಈಗ ಆ ಸಮಸ್ಯೆಗಳು ಬಗೆಹರಿದಂತೆ!

Sarvam AI New Language Model: ಬೆಂಗಳೂರು ಮೂಲದ ಸರ್ವಮ್ ಎಐ ಸರ್ವಂ 1 ಅನ್ನು ಪರಿಚಯಿಸಿದೆ, ಇದು 11 ಭಾಷೆಗಳಲ್ಲಿ ತರಬೇತಿ ಪಡೆದ 2 ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳೊಂದಿಗೆ ಓಪನ್ ಸೋರ್ಸ್ ಎಐ ಮಾದರಿಯಾಗಿದೆ.

SARVAM 1 FOR INDIC LANGUAGES  MULTILINGUAL AI MODEL SARVAM 1  SARVAM AI  SARVAM AI NEW LANGUAGE MODEL
ಕನ್ನಡ ಸೇರಿದಂತೆ 11 ಭಾಷೆಗಳ ಸರ್ವಂ-1 ಅನಾವರಣ (ETV Bharat)
author img

By ETV Bharat Tech Team

Published : 22 hours ago

Sarvam AI New Language Model: ಬೆಂಗಳೂರು ಮೂಲದ ಸರ್ವಂ ಎಐ ಹೊಸ ಎಲ್‌ಎಲ್‌ಎಂ (ದೊಡ್ಡ ಭಾಷೆಯ ಮಾದರಿ) ಸರ್ವಂ-1 ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ. ಸರ್ವಂ 1 ಎಂಬುದು 2-ಬಿಲಿಯನ್-ಪ್ಯಾರಾಮೀಟರ್ ಮಾದರಿಯಾಗಿದ್ದು, ಎನ್ವಿಡಿಯಾ H100 ಟೆನ್ಸರ್ ಕೋರ್ GPU ನಲ್ಲಿ ಕಸ್ಟಮ್ ಟೋಕನೈಜರ್‌ನೊಂದಿಗೆ 4 ಟ್ರಿಲಿಯನ್ ಟೋಕನ್‌ಗಳಲ್ಲಿ ತರಬೇತಿ ನೀಡಲಾಗಿದೆ.

ಈ ಮಾದರಿಯು ಭಾರತೀಯ ಭಾಷೆಗಳನ್ನು ಮಾತನಾಡುವ ಶತಕೋಟಿ ಜನರು ಎದುರಿಸುತ್ತಿರುವ ತಾಂತ್ರಿಕ ಅಂತರವನ್ನು ತೆರವುಗೊಳಿಸುತ್ತದೆ. ಇದು ಬೆಂಗಾಲಿ, ಇಂಗ್ಲಿಷ್‌, ಗುಜರಾತಿ, ಹಿಂದಿ, ಕನ್ನಡ, ಮರಾಠಿ, ಮಲಯಾಳಂ, ಒರಿಯಾ, ಪಂಜಾಬಿ, ತಮಿಳು, ತೆಲುಗು ಸೇರಿದಂತೆ 11 ಭಾಷೆಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ.

ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ತರಬೇತಿ ಪಡೆದ ಇತರ AI ಮಾದರಿಗಳಿಗಿಂತ ಇದು ನಾಲ್ಕು ಪಟ್ಟು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿದೆ ಎಂದು ಕಂಪನಿ ಹೇಳಿದೆ. ಟೋಕನ್ ಸಾಮರ್ಥ್ಯ ಮತ್ತು ಡೇಟಾ ಗುಣಮಟ್ಟಕ್ಕಾಗಿ ಸರ್ವಂ-1 ಅನ್ನು ತರಲಾಗಿದೆ.

ಇದು ಭಾರತೀಯ ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳ ಬಹುಭಾಷಾ ಮಾದರಿಗಳಿಗಾಗಿ ಗರಿಷ್ಠ ಸಂಖ್ಯೆಯ ಟೋಕನ್‌ಗಳನ್ನು (ಅಂದರೆ ಪದಕ್ಕೆ ಅಗತ್ಯವಿರುವ ಟೋಕನ್‌ಗಳ ಸಂಖ್ಯೆ) ಪ್ರದರ್ಶಿಸುತ್ತದೆ. 1.4 ಕ್ಕೆ ಹೋಲಿಸಿದರೆ ಇಂಗ್ಲಿಷ್‌ಗೆ ಪ್ರತಿ ಪದಕ್ಕೆ 4-8 ಟೋಕನ್‌ಗಳ ಅಗತ್ಯವಿದೆ. ಆದರೆ ಸರ್ವಂ-1 ಟೋಕನೈಸರ್.. ಎಲ್ಲಾ ಭಾಷೆಗಳಲ್ಲಿ ಟೋಕನ್ ಫೆರ್ಟಿಲಿಟಿ ರೇಟ್ಸ್​ ಕೇವಲ 1.4-2.1 ಮಾತ್ರ.

ಸಮರ್ಥ ಭಾಷಾ ಮಾದರಿಗೆ ತರಬೇತಿ ಕೊರತೆ: ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ಸಮರ್ಥ ಭಾಷಾ ಮಾದರಿಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಉತ್ತಮ ಗುಣಮಟ್ಟದ ತರಬೇತಿ ಡೇಟಾದ ಕೊರತೆಯಿದೆ. ಇದರೊಂದಿಗೆ, ಈ ಸ್ಟಾರ್ಟಪ್ ಕಂಪನಿಯ ತಂಡವು ಸರ್ವಂ-2ಟಿ ಅನ್ನು ರಚಿಸಿತು. ಇದು ಸುಮಾರು 2 ಟ್ರಿಲಿಯನ್ ಟೋಕನ್‌ಗಳನ್ನು ಹೊಂದಿರುತ್ತದೆ. ಸರ್ವಂ-2ಟಿ ತರಬೇತಿ ಕಾರ್ಪಸ್ ಹಿಂದಿ, ಇಂಗ್ಲಿಷ್ ಮತ್ತು ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆಗಳಲ್ಲಿ 20 ಪ್ರತಿಶತ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.

ಸುಧಾರಿತ ಸಿಂಥೆಟಿಕ್-ಡೇಟಾ-ಜನರೇಶನ್ ತಂತ್ರಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಕಂಪನಿಯು ಈ ಉನ್ನತ-ಗುಣಮಟ್ಟದ ಕಾರ್ಪಸ್ ಅನ್ನು ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ಪ್ರತ್ಯೇಕವಾಗಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಿದೆ. ಹಗ್ಗಿಂಗ್ ಫೇಸ್‌ನಲ್ಲಿ ಲಭ್ಯವಿರುವ ಸರ್ವಂ AI ಮೂಲ ಮಾದರಿಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಡೆವಲಪರ್‌ಗಳು ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ AI ಅಪ್ಲಿಕೇಶನ್‌ಗಳನ್ನು ರಚಿಸಬಹುದು.

ಡಿಸೆಂಬರ್ 2023 ರಲ್ಲಿ, ಸರ್ವಂ AI ದೇಶದ ಮೊದಲ ಹಿಂದಿ LLM-ಓಪನ್ ಹಾಥಿಯನ್ನು ಪ್ರಾರಂಭಿಸಿತು. ಇದನ್ನು ಮೆಟಾ ಎಐ ಲಾಮಾ ಮಾದರಿಯಲ್ಲಿ ನಿರ್ಮಿಸಲಾಗಿದೆ. ಆಗಸ್ಟ್ 2024 ರಲ್ಲಿ, ಸ್ಟಾರ್ಟ್ಅಪ್ ತನ್ನ ಮೊದಲ ಅಡಿಪಾಯ AI ಸರ್ವಂ 2B ಮಾದರಿಯನ್ನು ಪ್ರಾರಂಭಿಸಿತು.

ಬೆಂಗಳೂರಿನಲ್ಲಿ ಇತ್ತೀಚೆಗೆ ನಡೆದ 'ಬಿಲ್ಡ್ ವಿತ್ ಎಐ ಶೃಂಗಸಭೆ'ಯಲ್ಲಿ, ಮೆಟಾ ಸರ್ವಂ ಎಐ.. ಭಾರತೀಯ ಭಾಷೆಗಳು ಮತ್ತು ಹಿಂದಿ ಎಲ್‌ಎಲ್‌ಎಂಗೆ ಸೀಮಿತ ಸಂಪನ್ಮೂಲಗಳೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿರುವ ಸ್ಟಾರ್ಟಪ್ ಶ್ಲಾಘಿಸಿದೆ.

ಓದಿ: ಕನ್ನಡ ಸೇರಿ 10 ಭಾಷೆಗಳನ್ನು ಸಪೋರ್ಟ್​ ಮಾಡುವ ಸರ್ವಂ-1 AI ಬಗ್ಗೆ ನಿಮಗೆಷ್ಟು ಗೊತ್ತು?

Sarvam AI New Language Model: ಬೆಂಗಳೂರು ಮೂಲದ ಸರ್ವಂ ಎಐ ಹೊಸ ಎಲ್‌ಎಲ್‌ಎಂ (ದೊಡ್ಡ ಭಾಷೆಯ ಮಾದರಿ) ಸರ್ವಂ-1 ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ. ಸರ್ವಂ 1 ಎಂಬುದು 2-ಬಿಲಿಯನ್-ಪ್ಯಾರಾಮೀಟರ್ ಮಾದರಿಯಾಗಿದ್ದು, ಎನ್ವಿಡಿಯಾ H100 ಟೆನ್ಸರ್ ಕೋರ್ GPU ನಲ್ಲಿ ಕಸ್ಟಮ್ ಟೋಕನೈಜರ್‌ನೊಂದಿಗೆ 4 ಟ್ರಿಲಿಯನ್ ಟೋಕನ್‌ಗಳಲ್ಲಿ ತರಬೇತಿ ನೀಡಲಾಗಿದೆ.

ಈ ಮಾದರಿಯು ಭಾರತೀಯ ಭಾಷೆಗಳನ್ನು ಮಾತನಾಡುವ ಶತಕೋಟಿ ಜನರು ಎದುರಿಸುತ್ತಿರುವ ತಾಂತ್ರಿಕ ಅಂತರವನ್ನು ತೆರವುಗೊಳಿಸುತ್ತದೆ. ಇದು ಬೆಂಗಾಲಿ, ಇಂಗ್ಲಿಷ್‌, ಗುಜರಾತಿ, ಹಿಂದಿ, ಕನ್ನಡ, ಮರಾಠಿ, ಮಲಯಾಳಂ, ಒರಿಯಾ, ಪಂಜಾಬಿ, ತಮಿಳು, ತೆಲುಗು ಸೇರಿದಂತೆ 11 ಭಾಷೆಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ.

ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ತರಬೇತಿ ಪಡೆದ ಇತರ AI ಮಾದರಿಗಳಿಗಿಂತ ಇದು ನಾಲ್ಕು ಪಟ್ಟು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿದೆ ಎಂದು ಕಂಪನಿ ಹೇಳಿದೆ. ಟೋಕನ್ ಸಾಮರ್ಥ್ಯ ಮತ್ತು ಡೇಟಾ ಗುಣಮಟ್ಟಕ್ಕಾಗಿ ಸರ್ವಂ-1 ಅನ್ನು ತರಲಾಗಿದೆ.

ಇದು ಭಾರತೀಯ ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳ ಬಹುಭಾಷಾ ಮಾದರಿಗಳಿಗಾಗಿ ಗರಿಷ್ಠ ಸಂಖ್ಯೆಯ ಟೋಕನ್‌ಗಳನ್ನು (ಅಂದರೆ ಪದಕ್ಕೆ ಅಗತ್ಯವಿರುವ ಟೋಕನ್‌ಗಳ ಸಂಖ್ಯೆ) ಪ್ರದರ್ಶಿಸುತ್ತದೆ. 1.4 ಕ್ಕೆ ಹೋಲಿಸಿದರೆ ಇಂಗ್ಲಿಷ್‌ಗೆ ಪ್ರತಿ ಪದಕ್ಕೆ 4-8 ಟೋಕನ್‌ಗಳ ಅಗತ್ಯವಿದೆ. ಆದರೆ ಸರ್ವಂ-1 ಟೋಕನೈಸರ್.. ಎಲ್ಲಾ ಭಾಷೆಗಳಲ್ಲಿ ಟೋಕನ್ ಫೆರ್ಟಿಲಿಟಿ ರೇಟ್ಸ್​ ಕೇವಲ 1.4-2.1 ಮಾತ್ರ.

ಸಮರ್ಥ ಭಾಷಾ ಮಾದರಿಗೆ ತರಬೇತಿ ಕೊರತೆ: ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ಸಮರ್ಥ ಭಾಷಾ ಮಾದರಿಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಉತ್ತಮ ಗುಣಮಟ್ಟದ ತರಬೇತಿ ಡೇಟಾದ ಕೊರತೆಯಿದೆ. ಇದರೊಂದಿಗೆ, ಈ ಸ್ಟಾರ್ಟಪ್ ಕಂಪನಿಯ ತಂಡವು ಸರ್ವಂ-2ಟಿ ಅನ್ನು ರಚಿಸಿತು. ಇದು ಸುಮಾರು 2 ಟ್ರಿಲಿಯನ್ ಟೋಕನ್‌ಗಳನ್ನು ಹೊಂದಿರುತ್ತದೆ. ಸರ್ವಂ-2ಟಿ ತರಬೇತಿ ಕಾರ್ಪಸ್ ಹಿಂದಿ, ಇಂಗ್ಲಿಷ್ ಮತ್ತು ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆಗಳಲ್ಲಿ 20 ಪ್ರತಿಶತ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.

ಸುಧಾರಿತ ಸಿಂಥೆಟಿಕ್-ಡೇಟಾ-ಜನರೇಶನ್ ತಂತ್ರಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಕಂಪನಿಯು ಈ ಉನ್ನತ-ಗುಣಮಟ್ಟದ ಕಾರ್ಪಸ್ ಅನ್ನು ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ಪ್ರತ್ಯೇಕವಾಗಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಿದೆ. ಹಗ್ಗಿಂಗ್ ಫೇಸ್‌ನಲ್ಲಿ ಲಭ್ಯವಿರುವ ಸರ್ವಂ AI ಮೂಲ ಮಾದರಿಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಡೆವಲಪರ್‌ಗಳು ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ AI ಅಪ್ಲಿಕೇಶನ್‌ಗಳನ್ನು ರಚಿಸಬಹುದು.

ಡಿಸೆಂಬರ್ 2023 ರಲ್ಲಿ, ಸರ್ವಂ AI ದೇಶದ ಮೊದಲ ಹಿಂದಿ LLM-ಓಪನ್ ಹಾಥಿಯನ್ನು ಪ್ರಾರಂಭಿಸಿತು. ಇದನ್ನು ಮೆಟಾ ಎಐ ಲಾಮಾ ಮಾದರಿಯಲ್ಲಿ ನಿರ್ಮಿಸಲಾಗಿದೆ. ಆಗಸ್ಟ್ 2024 ರಲ್ಲಿ, ಸ್ಟಾರ್ಟ್ಅಪ್ ತನ್ನ ಮೊದಲ ಅಡಿಪಾಯ AI ಸರ್ವಂ 2B ಮಾದರಿಯನ್ನು ಪ್ರಾರಂಭಿಸಿತು.

ಬೆಂಗಳೂರಿನಲ್ಲಿ ಇತ್ತೀಚೆಗೆ ನಡೆದ 'ಬಿಲ್ಡ್ ವಿತ್ ಎಐ ಶೃಂಗಸಭೆ'ಯಲ್ಲಿ, ಮೆಟಾ ಸರ್ವಂ ಎಐ.. ಭಾರತೀಯ ಭಾಷೆಗಳು ಮತ್ತು ಹಿಂದಿ ಎಲ್‌ಎಲ್‌ಎಂಗೆ ಸೀಮಿತ ಸಂಪನ್ಮೂಲಗಳೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿರುವ ಸ್ಟಾರ್ಟಪ್ ಶ್ಲಾಘಿಸಿದೆ.

ಓದಿ: ಕನ್ನಡ ಸೇರಿ 10 ಭಾಷೆಗಳನ್ನು ಸಪೋರ್ಟ್​ ಮಾಡುವ ಸರ್ವಂ-1 AI ಬಗ್ಗೆ ನಿಮಗೆಷ್ಟು ಗೊತ್ತು?

ETV Bharat Logo

Copyright © 2024 Ushodaya Enterprises Pvt. Ltd., All Rights Reserved.