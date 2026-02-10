Sarvam AI affirme que ses outils d'IA surpassent Google Gemini et ChatGPT dans les tâches d'IA spécifiques à l'Inde pour l'OCR et d'autres tâches, mais le modèle d'IA se concentre sur les langues indiennes

On OmniDocBench v1.5 (English only subset), Sarvam Vision achieves 93.28% overall score, excelling in complex formulas and layout parsing and being within touching distance of the current state of the art. pic.twitter.com/7YDfbX1pCz — Pratyush Kumar (@pratykumar) February 5, 2026



Sarvam AI est une start-up indienne spécialisée dans l'intelligence artificielle (IA) qui se concentre sur la création de grands modèles de langage (LLM). Ces LLM sont adaptés aux langues et aux contextes indiens. L'entreprise se concentre sur la création de bots vocaux efficaces en langue indienne et d'outils de productivité pour les travailleurs du savoir. La mission de l'entreprise est de créer un système d'IA complet, conçu pour fonctionner à grande échelle et répondre aux besoins d'une population très diversifiée.Dans les pôles technologiques animés de Bengaluru, une révolution silencieuse se profile. Sarvam AI aurait pris d'assaut le monde de l'IA à l'échelle mondiale. Avec ses derniers modèles, Sarvam Vision et Bulbul V3, l'entreprise affirme avoir surpassé certains des plus grands noms de l'IA, notamment Google Gemini et ChatGPT d'OpenAI. Selon Pratyush Kumar, la vision de Sarvam AI a officiellement publié des informations sur X, annonçant un modèle de langage visuel basé sur l'espace d'état et comportant 3 milliards de paramètres, qui offre les meilleurs résultats en matière de numérisation en anglais et dans d'autres langues indiennes.Ce nouveau modèle d'IA étend le travail sur le texte et la voix à la visualisation des concepts. Son objectif principal est de résoudre les défis liés à l'intelligence documentaire, à partir de documents physiques, d'archives et de manuscrits, en se concentrant davantage sur les langues indiennes. Ce modèle a été entraîné sur des ensembles de données de haute qualité couvrant 22 langues officielles indiennes, notamment divers documents financiers, des ouvrages littéraires, des journaux, des textes historiques, etc.Pour l'instant, Sarvam AI semble se concentrer sur l'exécution plutôt que sur le battage médiatique. Grâce à un mélange de connaissances locales, d'IA de pointe et d'analyses comparatives mondiales, il pourrait bien être en train de remodeler discrètement l'approche de l'Inde en matière de technologie. Et pour tous ceux qui suivent la course à l'IA, cela vaut la peine d'y prêter attention.Avec une vision axée sur la précision, en particulier dans la compréhension des langues indiennes sur des benchmarks mondiaux, elle offre de nombreuses fonctionnalités, notamment :- Vision-langage multimodale : Cela permet de garantir la compréhension conjointe des images et des textes afin de faciliter l'interprétation des légendes d'images, des graphiques ou des tableaux.- Compréhension des documents (axée sur les langues indiennes) : Elle dispose d'un OCR et d'une extraction de connaissances de haute précision pour 22 langues indiennes, y compris les textes historiques et les documents numérisés.- Interprétation des graphiques et des données : Elle est capable de comprendre plus que des textes. Les graphiques, les données, les illustrations et l'analyse visuelle des documents.- Visuel multilingue : Comprend et interprète les éléments visuels dans plusieurs langues dans un même document.- Performances de pointe : Excelle dans les benchmarks mondiaux en anglais et introduit le Sarvam Indic OCR Bench pour les langues indiennes.- API accessible : Les API Document Intelligence sont prêtes à l'emploi et peuvent être utilisées gratuitement à des fins d'expérimentation en février 2026.Sarvam Vision, le modèle OCR de l'entreprise, aurait obtenu un taux de précision de 84,3 % sur olmOCR-Bench, surpassant Gemini 3 Pro et DeepSeek OCR v2. Sur OmniDocBench v1.5, il a atteint un taux encore plus élevé de 93,28 %. Selon le blog officiel de Sarvam, le modèle prend en charge divers types de contenu, des documents numérisés et des mises en page complexes. L'équipe s'est concentrée non seulement sur la technologie, mais aussi sur son adaptation au paysage multilingue de l'Inde.L'entreprise se qualifie elle-même d'IA « souveraine ». L'idée est simple : rendre l'IA accessible, fiable et contrôlée en Inde. Son site web fait état de son ambition de créer des composants fondamentaux d'IA adaptés aux besoins indiens. Le travail de Sarvam AI n'est pas passé inaperçu. La caractéristique la plus intrigante de ce modèle d'IA est qu'il se concentre sur les langues indiennes, en donnant la priorité à l'anglais et en traitant les autres langues comme secondaires.La force motrice derrière Sarvam AI est constituée de deux technologues accomplis, Pratyush Kumar et Vivek Raghavan, qui partagent la même vision : créer des modèles d'IA souverains, conçus en Inde pour l'Inde.Pratyush Kumar, PDG et cofondateur de Sarvam AI, est un chercheur et ingénieur titulaire d'un doctorat de l'ETH Zurich et d'une licence de l'IIT Bombay. Avant de fonder Sarvam AI, il a travaillé chez Microsoft Research et IBM Research, et a été professeur adjoint à l'IIT Madras. Kumar est également connu pour avoir mené des initiatives telles que AI4Bharat, qui se concentre sur les outils d'IA en langue indienne, et PadhAI, une plateforme visant à fournir des possibilités d'apprentissage en ligne abordables. Son travail a toujours comblé le fossé entre la recherche universitaire et les applications concrètes, en particulier dans le domaine des technologies linguistiques.Son cofondateur, Vivek Raghavan, apporte plus de deux décennies d'expérience dans le domaine de la conception électronique automatisée (EDA). Au cours de sa carrière, M. Raghavan a fondé et vendu avec succès deux entreprises d'EDA, en plus d'avoir occupé des postes de direction chez Magma Design Automation, Synopsys et Avant! Corporation. Au-delà de l'industrie, Raghavan a joué un rôle essentiel dans l'écosystème de la gouvernance numérique en Inde. Il a siégé au comité sur l'IA de la Cour suprême de l'Inde, où il a supervisé le déploiement du SUVAS (Supreme Court Vidhik Anuvaad Software), un outil de traduction basé sur l'IA utilisé pour convertir les jugements et les ordonnances de la Cour en langues indiennes.Il a également contribué au développement de modèles d'IA pour la détection des fraudes dans le GSTN, conseillé la National Payments Corporation of India (NPCI) et aidé à élaborer la Data Empowerment and Protection Architecture (DEPA), un cadre conçu pour donner aux utilisateurs un plus grand contrôle sur leurs données.Ensemble, Kumar et Raghavan représentent une fusion rare d'expertise technique approfondie, de connaissance des politiques et de vision nationale, qui sous-tendent la mission de Sarvam AI de créer des systèmes d'IA adaptés à la diversité linguistique et culturelle de l'Inde.Pensez-vous que cette annonce est crédible ou pertinente ?Quel est votre avis sur le sujet ?