Sarvam AI New Language Model:ಬೆಂಗಳೂರು ಮೂಲದ ಸರ್ವಂ ಎಐ ಹೊಸ ಎಲ್ಎಲ್ಎಂ (ದೊಡ್ಡ ಭಾಷೆಯ ಮಾದರಿ) ಸರ್ವಂ-1 ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ. ಸರ್ವಂ 1 ಎಂಬುದು 2-ಬಿಲಿಯನ್-ಪ್ಯಾರಾಮೀಟರ್ ಮಾದರಿಯಾಗಿದ್ದು, ಎನ್ವಿಡಿಯಾ H100 ಟೆನ್ಸರ್ ಕೋರ್ GPU ನಲ್ಲಿ ಕಸ್ಟಮ್ ಟೋಕನೈಜರ್ನೊಂದಿಗೆ 4 ಟ್ರಿಲಿಯನ್ ಟೋಕನ್ಗಳಲ್ಲಿ ತರಬೇತಿ ನೀಡಲಾಗಿದೆ.
ಈ ಮಾದರಿಯು ಭಾರತೀಯ ಭಾಷೆಗಳನ್ನು ಮಾತನಾಡುವ ಶತಕೋಟಿ ಜನರು ಎದುರಿಸುತ್ತಿರುವ ತಾಂತ್ರಿಕ ಅಂತರವನ್ನು ತೆರವುಗೊಳಿಸುತ್ತದೆ. ಇದು ಬೆಂಗಾಲಿ, ಇಂಗ್ಲಿಷ್, ಗುಜರಾತಿ, ಹಿಂದಿ, ಕನ್ನಡ, ಮರಾಠಿ, ಮಲಯಾಳಂ, ಒರಿಯಾ, ಪಂಜಾಬಿ, ತಮಿಳು, ತೆಲುಗು ಸೇರಿದಂತೆ 11 ಭಾಷೆಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ.
ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ತರಬೇತಿ ಪಡೆದ ಇತರ AI ಮಾದರಿಗಳಿಗಿಂತ ಇದು ನಾಲ್ಕು ಪಟ್ಟು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿದೆ ಎಂದು ಕಂಪನಿ ಹೇಳಿದೆ. ಟೋಕನ್ ಸಾಮರ್ಥ್ಯ ಮತ್ತು ಡೇಟಾ ಗುಣಮಟ್ಟಕ್ಕಾಗಿ ಸರ್ವಂ-1 ಅನ್ನು ತರಲಾಗಿದೆ.
ಇದು ಭಾರತೀಯ ಸ್ಕ್ರಿಪ್ಟ್ಗಳ ಬಹುಭಾಷಾ ಮಾದರಿಗಳಿಗಾಗಿ ಗರಿಷ್ಠ ಸಂಖ್ಯೆಯ ಟೋಕನ್ಗಳನ್ನು (ಅಂದರೆ ಪದಕ್ಕೆ ಅಗತ್ಯವಿರುವ ಟೋಕನ್ಗಳ ಸಂಖ್ಯೆ) ಪ್ರದರ್ಶಿಸುತ್ತದೆ. 1.4 ಕ್ಕೆ ಹೋಲಿಸಿದರೆ ಇಂಗ್ಲಿಷ್ಗೆ ಪ್ರತಿ ಪದಕ್ಕೆ 4-8 ಟೋಕನ್ಗಳ ಅಗತ್ಯವಿದೆ. ಆದರೆ ಸರ್ವಂ-1 ಟೋಕನೈಸರ್.. ಎಲ್ಲಾ ಭಾಷೆಗಳಲ್ಲಿ ಟೋಕನ್ ಫೆರ್ಟಿಲಿಟಿ ರೇಟ್ಸ್ ಕೇವಲ 1.4-2.1 ಮಾತ್ರ.
ಸಮರ್ಥ ಭಾಷಾ ಮಾದರಿಗೆ ತರಬೇತಿ ಕೊರತೆ:ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ಸಮರ್ಥ ಭಾಷಾ ಮಾದರಿಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಉತ್ತಮ ಗುಣಮಟ್ಟದ ತರಬೇತಿ ಡೇಟಾದ ಕೊರತೆಯಿದೆ. ಇದರೊಂದಿಗೆ, ಈ ಸ್ಟಾರ್ಟಪ್ ಕಂಪನಿಯ ತಂಡವು ಸರ್ವಂ-2ಟಿ ಅನ್ನು ರಚಿಸಿತು. ಇದು ಸುಮಾರು 2 ಟ್ರಿಲಿಯನ್ ಟೋಕನ್ಗಳನ್ನು ಹೊಂದಿರುತ್ತದೆ. ಸರ್ವಂ-2ಟಿ ತರಬೇತಿ ಕಾರ್ಪಸ್ ಹಿಂದಿ, ಇಂಗ್ಲಿಷ್ ಮತ್ತು ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆಗಳಲ್ಲಿ 20 ಪ್ರತಿಶತ ಡೇಟಾಸೆಟ್ಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.
ಸುಧಾರಿತ ಸಿಂಥೆಟಿಕ್-ಡೇಟಾ-ಜನರೇಶನ್ ತಂತ್ರಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಕಂಪನಿಯು ಈ ಉನ್ನತ-ಗುಣಮಟ್ಟದ ಕಾರ್ಪಸ್ ಅನ್ನು ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ಪ್ರತ್ಯೇಕವಾಗಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಿದೆ. ಹಗ್ಗಿಂಗ್ ಫೇಸ್ನಲ್ಲಿ ಲಭ್ಯವಿರುವ ಸರ್ವಂ AI ಮೂಲ ಮಾದರಿಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಡೆವಲಪರ್ಗಳು ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ AI ಅಪ್ಲಿಕೇಶನ್ಗಳನ್ನು ರಚಿಸಬಹುದು.
ಡಿಸೆಂಬರ್ 2023 ರಲ್ಲಿ, ಸರ್ವಂ AI ದೇಶದ ಮೊದಲ ಹಿಂದಿ LLM-ಓಪನ್ ಹಾಥಿಯನ್ನು ಪ್ರಾರಂಭಿಸಿತು. ಇದನ್ನು ಮೆಟಾ ಎಐ ಲಾಮಾ ಮಾದರಿಯಲ್ಲಿ ನಿರ್ಮಿಸಲಾಗಿದೆ. ಆಗಸ್ಟ್ 2024 ರಲ್ಲಿ, ಸ್ಟಾರ್ಟ್ಅಪ್ ತನ್ನ ಮೊದಲ ಅಡಿಪಾಯ AI ಸರ್ವಂ 2B ಮಾದರಿಯನ್ನು ಪ್ರಾರಂಭಿಸಿತು.
ಬೆಂಗಳೂರಿನಲ್ಲಿ ಇತ್ತೀಚೆಗೆ ನಡೆದ 'ಬಿಲ್ಡ್ ವಿತ್ ಎಐ ಶೃಂಗಸಭೆ'ಯಲ್ಲಿ, ಮೆಟಾ ಸರ್ವಂ ಎಐ.. ಭಾರತೀಯ ಭಾಷೆಗಳು ಮತ್ತು ಹಿಂದಿ ಎಲ್ಎಲ್ಎಂಗೆ ಸೀಮಿತ ಸಂಪನ್ಮೂಲಗಳೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿರುವ ಸ್ಟಾರ್ಟಪ್ ಶ್ಲಾಘಿಸಿದೆ.
ಓದಿ:ಕನ್ನಡ ಸೇರಿ 10 ಭಾಷೆಗಳನ್ನು ಸಪೋರ್ಟ್ ಮಾಡುವ ಸರ್ವಂ-1 AI ಬಗ್ಗೆ ನಿಮಗೆಷ್ಟು ಗೊತ್ತು?