Sarvam AI New Language Model: బెంగళూరుకు చెందిన సర్వమ్ ఏఐ కొత్త LLM (లార్జ్ లాంగ్వేజ్ మోడల్) సర్వం-1ని రిలీజ్ చేసింది. సర్వం 1 అనేది Nvidia H100 టెన్సర్ కోర్ GPUలో కస్టమ్ టోకెనైజర్తో 4 ట్రిలియన్ టోకెన్లపై శిక్షణ పొందిన 2-బిలియన్-పారామీటర్ మోడల్. ఈ మోడల్ భారతీయ భాషలను మాట్లాడే బిలియన్ల మంది ఎదుర్కొంటున్న టెక్నికల్ గ్యాప్ను క్లియర్ చేస్తుంది. ఇది బెంగాలీ, ఇంగ్లీష్, గుజరాతీ, హిందీ, కన్నడ, మరాఠీ, మలయాళం, ఒరియా, పంజాబీ, తమిళం, తెలుగుతో సహా 11 భాషలకు సపోర్ట్ చేస్తుంది.
భారతీయ భాషలలో శిక్షణ పొందిన ఇతరAI మోడల్స్ కంటే ఇది నాలుగు రెట్లు ఎక్కువ సమర్థవంతంగా పనిచేస్తుందని కంపెనీ చెబుతోంది. టోకెన్ కెపాసిటీ, డేటా క్వాలిటీ కోసం సర్వమ్-1 ను తీసుకొచ్చారు. ఇది ఇండియన్ స్క్రిప్ట్స్ బహుభాషా మోడల్స్ కోసం ఎక్కువ టోకెన్స్ను (అంటే ఒక పదానికి అవసరమైన టోకెన్ల సంఖ్య) ప్రదర్శిస్తుంది. ఇంగ్లీషులో 1.4తో పోలిస్తే ఒక్కో పదానికి 4-8 టోకెన్లు అవసరం. అయితే సర్వం-1 టోకెనైజర్.. అన్ని భాషల్లో టోకెన్ ఫెర్టిలిటీ రేట్స్ కేవలం 1.4-2.1 మాత్రమే.
భారతీయ భాషల కోసం సమర్థవంతమైన లాంగ్వేజెస్ మోడల్స్ను డెవలప్ చేసేందుకు హై- క్వాలిటీ ట్రైనింగ్ డేటా లేదు. దీంతో ఈ స్టార్టప్ కంపెనీ టీమ్ సర్వం-2Tని రూపొందించింది. ఇది దాదాపు 2 ట్రిలియన్ టోకెన్లను కలిగి ఉంటుంది. సర్వం-2T శిక్షణ కార్పస్లో హిందీ, ఇంగ్లీష్, ప్రోగ్రామింగ్ భాషల్లో 20 శాతం డేటాసెట్లు ఉన్నాయి. అధునాత సింథటిక్-డేటా- జనరేషన్ టెక్నిక్స్ను ఉపయోగించి కంపెనీ ఇండియన్ లాంగ్వేజెస్ కోసం ప్రత్యేకంగా ఈ హై- క్వాలిటీ కార్పస్ను అభివృద్ధి చేసింది. హగ్గింగ్ ఫేస్లో అందుబాటులో ఉన్న సర్వం ఏఐ బేస్ మోడల్స్ను ఉపయోగించి డెవలపర్స్ ఇండియన్ లాంగ్వేజెస్లో ఏఐ అప్లికేషన్స్ను క్రియేట్ చేయొచ్చు.