ETV Bharat / technology

ఇండియన్ లాంగ్వేజెస్ కోసం సర్వమ్​-1 లాంచ్- ఇకపై ఆ సమస్య తీరినట్లే..!

బహుభాషా AI మోడల్​ను తీసుకొచ్చిన సర్వమ్ ఏఐ- పాత మోడల్స్ కంటే 4 రెట్లు బెటర్​గా..!

Sarvam 1 for Indic Languages
Sarvam 1 for Indic Languages (ETV Bharat)
author img

By ETV Bharat Tech Team

Published : Oct 29, 2024, 5:38 PM IST

Updated : Oct 30, 2024, 11:25 AM IST

Sarvam AI New Language Model: బెంగళూరుకు చెందిన సర్వమ్ ఏఐ కొత్త LLM (లార్జ్ లాంగ్వేజ్ మోడల్) సర్వం-1ని రిలీజ్ చేసింది. సర్వం 1 అనేది Nvidia H100 టెన్సర్ కోర్ GPUలో కస్టమ్ టోకెనైజర్​తో 4 ట్రిలియన్ టోకెన్‌లపై శిక్షణ పొందిన 2-బిలియన్-పారామీటర్ మోడల్. ఈ మోడల్ భారతీయ భాషలను మాట్లాడే బిలియన్ల మంది ఎదుర్కొంటున్న టెక్నికల్ గ్యాప్​ను క్లియర్ చేస్తుంది. ఇది బెంగాలీ, ఇంగ్లీష్, గుజరాతీ, హిందీ, కన్నడ, మరాఠీ, మలయాళం, ఒరియా, పంజాబీ, తమిళం, తెలుగుతో సహా 11 భాషలకు సపోర్ట్ చేస్తుంది.

భారతీయ భాషలలో శిక్షణ పొందిన ఇతర AI మోడల్స్ కంటే ఇది నాలుగు రెట్లు ఎక్కువ సమర్థవంతంగా పనిచేస్తుందని కంపెనీ చెబుతోంది. టోకెన్ కెపాసిటీ, డేటా క్వాలిటీ కోసం సర్వమ్​-1 ను తీసుకొచ్చారు. ఇది ఇండియన్ స్క్రిప్ట్స్​ బహుభాషా మోడల్స్ కోసం ఎక్కువ టోకెన్స్​ను (అంటే ఒక పదానికి అవసరమైన టోకెన్‌ల సంఖ్య) ప్రదర్శిస్తుంది. ​ఇంగ్లీషులో 1.4తో పోలిస్తే ఒక్కో పదానికి 4-8 టోకెన్‌లు అవసరం. అయితే సర్వం-1 టోకెనైజర్.. అన్ని భాషల్లో టోకెన్ ఫెర్టిలిటీ రేట్స్​ కేవలం 1.4-2.1 మాత్రమే.

భారతీయ భాషల కోసం సమర్థవంతమైన లాంగ్వేజెస్ మోడల్స్​ను డెవలప్ చేసేందుకు హై- క్వాలిటీ ట్రైనింగ్ డేటా లేదు. దీంతో ఈ స్టార్టప్​ కంపెనీ టీమ్ సర్వం-2Tని రూపొందించింది. ఇది దాదాపు 2 ట్రిలియన్ టోకెన్‌లను కలిగి ఉంటుంది. సర్వం-2T శిక్షణ కార్పస్‌లో హిందీ, ఇంగ్లీష్, ప్రోగ్రామింగ్ భాషల్లో 20 శాతం డేటాసెట్‌లు ఉన్నాయి. అధునాత సింథటిక్-డేటా- జనరేషన్​ టెక్నిక్స్​ను ఉపయోగించి కంపెనీ ఇండియన్ లాంగ్వేజెస్ కోసం ప్రత్యేకంగా ఈ హై- క్వాలిటీ కార్పస్​ను అభివృద్ధి చేసింది. హగ్గింగ్ ఫేస్‌లో అందుబాటులో ఉన్న సర్వం ఏఐ బేస్ మోడల్స్​ను ఉపయోగించి డెవలపర్స్​ ఇండియన్ లాంగ్వేజెస్​లో ఏఐ అప్లికేషన్స్​ను క్రియేట్ చేయొచ్చు.

డిసెంబర్ 2023లో సర్వం ఏఐ.. దేశంలో మొట్టమొదటి హిందీ LLM-ఓపెన్ హాథీని ప్రారంభించింది. మెటా ఏఐ లామా మోడల్​లో దీన్ని బిల్డ్ చేశారు. ఆగష్టు 2024లో ఈ స్టార్టప్​ తన ఫస్ట్ ఫౌండేషనల్ ఏఐ సర్వమ్ 2B మోడల్​ను లాంచ్ చేసింది. ఇటీవల బెంగళూరులో జరిగిన 'బిల్డ్ విత్ ఏఐ సమ్మిట్'లో మెటా కూడా సర్వమ్ ఏఐ.. భారతీయ భాషలకు, హిందీ LLM కోసం లిమిటెడ్ రీసోర్సెస్​తో పనిచేస్తున్న స్టార్టప్​ అని ప్రశసించింది.

పవర్​ఫుల్ M4 చిప్​తో యాపిల్ iMac వచ్చేసింది- ధర ఎంతంటే?

రాయల్ ఎన్​ఫీల్డ్​ నుంచి మరో కొత్త బైక్- డిజైన్​ చూస్తే మతిపోతోందిగా..!

Sarvam AI New Language Model: బెంగళూరుకు చెందిన సర్వమ్ ఏఐ కొత్త LLM (లార్జ్ లాంగ్వేజ్ మోడల్) సర్వం-1ని రిలీజ్ చేసింది. సర్వం 1 అనేది Nvidia H100 టెన్సర్ కోర్ GPUలో కస్టమ్ టోకెనైజర్​తో 4 ట్రిలియన్ టోకెన్‌లపై శిక్షణ పొందిన 2-బిలియన్-పారామీటర్ మోడల్. ఈ మోడల్ భారతీయ భాషలను మాట్లాడే బిలియన్ల మంది ఎదుర్కొంటున్న టెక్నికల్ గ్యాప్​ను క్లియర్ చేస్తుంది. ఇది బెంగాలీ, ఇంగ్లీష్, గుజరాతీ, హిందీ, కన్నడ, మరాఠీ, మలయాళం, ఒరియా, పంజాబీ, తమిళం, తెలుగుతో సహా 11 భాషలకు సపోర్ట్ చేస్తుంది.

భారతీయ భాషలలో శిక్షణ పొందిన ఇతర AI మోడల్స్ కంటే ఇది నాలుగు రెట్లు ఎక్కువ సమర్థవంతంగా పనిచేస్తుందని కంపెనీ చెబుతోంది. టోకెన్ కెపాసిటీ, డేటా క్వాలిటీ కోసం సర్వమ్​-1 ను తీసుకొచ్చారు. ఇది ఇండియన్ స్క్రిప్ట్స్​ బహుభాషా మోడల్స్ కోసం ఎక్కువ టోకెన్స్​ను (అంటే ఒక పదానికి అవసరమైన టోకెన్‌ల సంఖ్య) ప్రదర్శిస్తుంది. ​ఇంగ్లీషులో 1.4తో పోలిస్తే ఒక్కో పదానికి 4-8 టోకెన్‌లు అవసరం. అయితే సర్వం-1 టోకెనైజర్.. అన్ని భాషల్లో టోకెన్ ఫెర్టిలిటీ రేట్స్​ కేవలం 1.4-2.1 మాత్రమే.

భారతీయ భాషల కోసం సమర్థవంతమైన లాంగ్వేజెస్ మోడల్స్​ను డెవలప్ చేసేందుకు హై- క్వాలిటీ ట్రైనింగ్ డేటా లేదు. దీంతో ఈ స్టార్టప్​ కంపెనీ టీమ్ సర్వం-2Tని రూపొందించింది. ఇది దాదాపు 2 ట్రిలియన్ టోకెన్‌లను కలిగి ఉంటుంది. సర్వం-2T శిక్షణ కార్పస్‌లో హిందీ, ఇంగ్లీష్, ప్రోగ్రామింగ్ భాషల్లో 20 శాతం డేటాసెట్‌లు ఉన్నాయి. అధునాత సింథటిక్-డేటా- జనరేషన్​ టెక్నిక్స్​ను ఉపయోగించి కంపెనీ ఇండియన్ లాంగ్వేజెస్ కోసం ప్రత్యేకంగా ఈ హై- క్వాలిటీ కార్పస్​ను అభివృద్ధి చేసింది. హగ్గింగ్ ఫేస్‌లో అందుబాటులో ఉన్న సర్వం ఏఐ బేస్ మోడల్స్​ను ఉపయోగించి డెవలపర్స్​ ఇండియన్ లాంగ్వేజెస్​లో ఏఐ అప్లికేషన్స్​ను క్రియేట్ చేయొచ్చు.

డిసెంబర్ 2023లో సర్వం ఏఐ.. దేశంలో మొట్టమొదటి హిందీ LLM-ఓపెన్ హాథీని ప్రారంభించింది. మెటా ఏఐ లామా మోడల్​లో దీన్ని బిల్డ్ చేశారు. ఆగష్టు 2024లో ఈ స్టార్టప్​ తన ఫస్ట్ ఫౌండేషనల్ ఏఐ సర్వమ్ 2B మోడల్​ను లాంచ్ చేసింది. ఇటీవల బెంగళూరులో జరిగిన 'బిల్డ్ విత్ ఏఐ సమ్మిట్'లో మెటా కూడా సర్వమ్ ఏఐ.. భారతీయ భాషలకు, హిందీ LLM కోసం లిమిటెడ్ రీసోర్సెస్​తో పనిచేస్తున్న స్టార్టప్​ అని ప్రశసించింది.

పవర్​ఫుల్ M4 చిప్​తో యాపిల్ iMac వచ్చేసింది- ధర ఎంతంటే?

రాయల్ ఎన్​ఫీల్డ్​ నుంచి మరో కొత్త బైక్- డిజైన్​ చూస్తే మతిపోతోందిగా..!

Last Updated : Oct 30, 2024, 11:25 AM IST
ETV Bharat Logo

Copyright © 2024 Ushodaya Enterprises Pvt. Ltd., All Rights Reserved.