ಕರ್ನಾಟಕ

karnataka

ETV Bharat / technology

ಕನ್ನಡ ಸೇರಿ 10 ಭಾಷೆಗಳನ್ನು ಸಪೋರ್ಟ್​ ಮಾಡುವ ಸರ್ವಂ-1 AI ಬಗ್ಗೆ ನಿಮಗೆಷ್ಟು ಗೊತ್ತು?

Sarvam-1 AI: ಸರ್ವಂ AI ಯ ಇತ್ತೀಚಿನ ಭಾಷಾ ಮಾದರಿಯನ್ನು HGX H100 ಸಿಸ್ಟಮ್‌ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಯೊಟ್ಟಾ ಶಕ್ತಿ ಕ್ಲೌಡ್‌ನಲ್ಲಿ (Yotta Shakti Cloud) ಎನ್ವಿಡಿಯಾದ NeMo ಫ್ರೇಮ್‌ವರ್ಕ್‌ನೊಂದಿಗೆ ತರಬೇತಿ ನೀಡಲಾಗಿದೆ.

INDIAN LANGUAGES ​​INCLUDE KANNADA  ARTIFICIAL INTELLIGENCE  SARVAM 1 AI FEATURE
ಸರ್ವಂ-1 ಎಐ (Sarvam-1 AI)

By ETV Bharat Tech Team

Published : Oct 26, 2024, 9:21 AM IST

Sarvam-1 AI:ಸರ್ವಂ AI ಭಾರತದ ಜನರೇಟಿವ್ AI ಜಾಗದಲ್ಲಿ ಉದಯೋನ್ಮುಖ ವೈಶಿಷ್ಟ್ಯ ಎಂದು ಹೇಳಬಹುದು. ಈ ಹೊಸ ಎಐ ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ನಿರ್ದಿಷ್ಟವಾಗಿ ತರಬೇತಿ ಪಡೆದ ಹೊಸ ಭಾಷಾ ಮಾದರಿ ಆಗಿದೆ.

ಸರ್ವಂ - 1 ಎಂಬ ಹೊಸ AI ಮಾದರಿಯು ಓಪನ್ ಸೋರ್ಸ್ ಆಗಿದೆ ಮತ್ತು ಕನ್ನಡ ಜೊತೆಗೆ ಇಂಗ್ಲಿಷ್, ಬೆಂಗಾಲಿ, ಗುಜರಾತಿ, ಹಿಂದಿ, ಮಲಯಾಳಂ, ಮರಾಠಿ, ಒರಿಯಾ, ಪಂಜಾಬಿ, ತಮಿಳು ಮತ್ತು ತೆಲುಗು ಸೇರಿದಂತೆ ಹತ್ತು ಭಾರತೀಯ ಭಾಷೆಗಳನ್ನು ಸಪೋರ್ಟ್​ ಮಾಡುತ್ತದೆ.

ಬೆಂಗಳೂರು ಮೂಲದ ಕಂಪನಿಯು ಈ ವರ್ಷದ ಆಗಸ್ಟ್‌ನಲ್ಲಿ ಸರ್ವಂ 2B ಎಂಬ ತನ್ನ ಮೊದಲ ಅಡಿಪಾಯ AI ಮಾದರಿ ಬಿಡುಗಡೆ ಮಾಡಿತ್ತು. ಆದಾಗ್ಯೂ, ಇದು ಸರ್ವಂ-1 ಅನನ್ಯವಾಗಿದೆ ಎಂದು ಹೇಳುತ್ತದೆ. ಏಕೆಂದರೆ ಇದು ತರಬೇತಿ ದತ್ತಾಂಶವನ್ನು ಎಚ್ಚರಿಕೆಯಿಂದ ಸಂಗ್ರಹಿಸುವುದು ತುಲನಾತ್ಮಕವಾಗಿ ಸಾಧಾರಣವಾದ ಪ್ಯಾರಾಮೀಟರ್ ಎಣಿಕೆಯೊಂದಿಗೆ ಉತ್ತಮ ಕಾರ್ಯಕ್ಷಮತೆ ನೀಡುತ್ತದೆ ಎಂದು ತೋರಿಸುತ್ತದೆ.

ಸರ್ವಂ-1 ಬಗ್ಗೆ ನಿಮಗೆಷ್ಟು ಗೊತ್ತು?:ಹೊಸದಾಗಿ ಬಿಡುಗಡೆಯಾದ AI ಮಾದರಿಯನ್ನು 2 ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳೊಂದಿಗೆ ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ. AI ಮಾದರಿಯ ಸಂಕೀರ್ಣತೆಯನ್ನು ಸೂಚಿಸಲು ಮತ್ತು ಇನ್‌ಪುಟ್‌ಗಳನ್ನು ಔಟ್‌ಪುಟ್‌ಗಳಾಗಿ ಪರಿವರ್ತಿಸುವ AI ಮಾದರಿಯ ಸಾಮರ್ಥ್ಯ ನಿರ್ಧರಿಸಲು ಪ್ಯಾರಾಮೀಟರ್ ಎಣಿಕೆ ಹೆಚ್ಚಾಗಿ ಬಳಸಲಾಗುತ್ತದೆ. ಸಂದರ್ಭಕ್ಕಾಗಿ, ಮೈಕ್ರೋಸಾಫ್ಟ್​ನ ಫಿ-3 ಮಿನಿ 3.8 ಬಿಲಿಯನ್ ನಿಯತಾಂಕಗಳನ್ನು ಅಳೆಯುತ್ತದೆ.

Sarvam-1 ಮತ್ತು Phi-3 Mini ನಂತಹ AI ಮಾದರಿಗಳು ಸಣ್ಣ ಭಾಷಾ ಮಾದರಿಗಳ (SLMs) ವರ್ಗದ ಅಡಿ ಬರುತ್ತವೆ. ಇದು ಟ್ರಿಲಿಯನ್‌ಗಿಂತಲೂ ಹೆಚ್ಚಿನ ನಿಯತಾಂಕಗಳನ್ನು ಹೊಂದಿರುವ OpenAI ನ GPT - 4 ನಂತಹ ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳಿಗೆ (LLMs) ವಿರುದ್ಧವಾಗಿ ಹತ್ತು ಶತಕೋಟಿಗಿಂತ ಕಡಿಮೆ ನಿಯತಾಂಕಗಳನ್ನು ಹೊಂದಿದೆ.

ಸರ್ವಮ್ ಎಐ ತನ್ನ ಇತ್ತೀಚಿನ ಎಐ ಮಾದರಿಯು 1,024 ಗ್ರಾಫಿಕ್ಸ್ ಪ್ರೊಸೆಸಿಂಗ್ ಯೂನಿಟ್‌ಗಳಿಂದ (ಜಿಪಿಯು) ದತ್ತಾಂಶ ಮೂಲಸೌಕರ್ಯ ಕಂಪನಿ ಯೊಟ್ಟಾದಿಂದ ಸರಬರಾಜು ಮಾಡಲ್ಪಟ್ಟಿದೆ ಮತ್ತು ಎನ್‌ವಿಡಿಯಾದ ನೆಮೊ ಫ್ರೇಮ್‌ವರ್ಕ್‌ನೊಂದಿಗೆ ತರಬೇತಿ ಪಡೆದಿದೆ ಎಂದು ಕಂಪನಿ ಹೇಳಿದೆ.

ವಿಶಿಷ್ಟ ತರಬೇತಿ:ಸರ್ವಂ-1 ಕೂಡ ವಿಶಿಷ್ಟ ತರಬೇತಿ ಪಡೆದಿದೆ. ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ಪರಿಣಾಮಕಾರಿ ಭಾಷಾ ಮಾದರಿಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವಲ್ಲಿ ಪ್ರಮುಖ ಸವಾಲೆಂದರೆ ಉತ್ತಮ - ಗುಣಮಟ್ಟದ ತರಬೇತಿ ಡೇಟಾದ ಕೊರತೆಯಾಗಿದೆ. ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಡೇಟಾಸೆಟ್‌ಗಳು ವಿಶ್ವದರ್ಜೆಯ ಮಾದರಿಗಳಿಗೆ ತರಬೇತಿ ನೀಡಲು ಅಗತ್ಯವಿರುವ ಆಳ, ವೈವಿಧ್ಯತೆ ಮತ್ತು ಗುಣಮಟ್ಟವನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ ಎಂದು ಕಂಪನಿ ಹೇಳಿದೆ.

ಈ ಕಾರಣಕ್ಕಾಗಿ ಕಂಪನಿಯು ಸರ್ವಂ - 2T ಎಂಬ ತನ್ನದೇ ಆದ ತರಬೇತಿ ಕಾರ್ಪಸ್ ಅಭಿವೃದ್ಧಿಪಡಿಸಿದೆ. ಇದು ಅಂದಾಜು 2 ಟ್ರಿಲಿಯನ್ ಟೋಕನ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ ಮತ್ತು ಎಲ್ಲಾ ಹತ್ತು ಭಾಷೆಗಳಲ್ಲಿ ಭಾಷಾ ಡೇಟಾದ ಸಮಾನ ವಿತರಣೆಯನ್ನು ಒಳಗೊಂಡಿದೆ. ವೆಬ್‌ನಿಂದ ಸ್ಕ್ರ್ಯಾಪ್ ಮಾಡಿದ ಇಂಡಿಕ್ ಭಾಷೆಯ ಡೇಟಾದಲ್ಲಿನ ಆಳ ಮತ್ತು ಗುಣಮಟ್ಟದ ಸಮಸ್ಯೆಗಳನ್ನು ಬದಿಗೊತ್ತಲು ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ ಉತ್ಪಾದನೆಯ ತಂತ್ರಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಟ್ರೈನಿಂಗ್​ ಡೇಟಾಸೆಟ್ ನಿರ್ಮಿಸಲಾಗಿದೆ.

ಸರ್ವಂ-2T ಡೇಟಾಸೆಟ್‌ನ ಶೇಕಡಾ 20 ರಷ್ಟು ಹಿಂದಿಯಾಗಿದ್ದರೂ, ಅದರ ಗಣನೀಯ ಭಾಗವು ಇಂಗ್ಲಿಷ್ ಮತ್ತು ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. AI ಮಾದರಿಯು ಏಕಭಾಷಾ ಮತ್ತು ಬಹುಭಾಷಾ ಕಾರ್ಯಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ ಎಂದು ಕಂಪನಿ ತಿಳಿಸಿದೆ.

ಸರ್ವಂ-1 ಕಾರ್ಯ:ಪ್ರತಿ ಪದಕ್ಕೆ ಕನಿಷ್ಠ ಟೋಕನ್‌ಗಳನ್ನು ಬಳಸುವ ಮೂಲಕ ಹಿಂದಿನ ಎಲ್‌ಎಲ್‌ಎಂಗಳಿಗೆ ವಿರುದ್ಧವಾಗಿ ಇಂಡಿಕ್ ಭಾಷೆಯ ಲಿಪಿಗಳನ್ನು ನಿರ್ವಹಿಸುವಲ್ಲಿ ಸರ್ವಂ-1 ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿರುತ್ತದೆ ಎಂದು ಹೇಳಲಾಗುತ್ತದೆ. MMLU, ARC-ಚಾಲೆಂಜ್ ಮತ್ತು ಇಂಡಿಕ್‌ಜೆನ್‌ಬೆಂಚ್‌ನಂತಹ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಲ್ಲಿ ಮೆಟಾದ Llama-3 ಮತ್ತು ಗೂಗಲ್​ನ Gemma-2 ಮಾದರಿಯಂತಹ ದೊಡ್ಡ AI ಮಾದರಿಗಳನ್ನು ಸರ್ವಂ-1 ಮೀರಿಸಿದೆ ಎಂದು ಕಂಪನಿ ಹೇಳಿಕೊಂಡಿದೆ.

ಬಲವಾದ ಕಾರ್ಯಕ್ಷಮತೆ ಮತ್ತು ಉತ್ಕೃಷ್ಟವಾದ ನಿರ್ಣಯದ ದಕ್ಷತೆಯ ಈ ಸಂಯೋಜನೆಯು ಸರ್ವಂ-1 ಅನ್ನು ವಿಶೇಷವಾಗಿ ಅಂಚಿನ ಸಾಧನಗಳನ್ನು ಒಳಗೊಂಡಂತೆ ಪ್ರಾಯೋಗಿಕ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಿಗೆ ಸೂಕ್ತವಾಗಿರುತ್ತದೆ ಎಂದು ಕಂಪನಿ ಹೇಳಿದೆ.

ಓದಿ:ಸುವಿಧಾ-2 ಆ್ಯಪ್ ಬಿಡುಗಡೆ: ಚುನಾವಣೆ ಸಂಬಂಧಿತ ಎಲ್ಲ ಅನುಮತಿಗಳು ಈಗ ಒಂದೇ ಕಡೆ ಲಭ್ಯ

ABOUT THE AUTHOR

...view details