
Mistral AI lance une API OCR, qui bat Azure OCR, Google Gemini et OpenAI GPT-4o, selon les benchmarks de la startup française. Mistral OCR permet d'extraire avec précision des textes structurés, des médias, des tableaux et des équations, et qui surpasse l'intelligence de la concurrence. L'API est accessible sur La Plateforme, la suite pour développeurs de Mistral AI, et sera bientôt disponible via le cloud, les partenaires d'inférence et le déploiement sur site.
Mistral AI est une startup française d'intelligence artificielle (IA), dont le siège est à Paris. Elle est spécialisée dans les grands modèles de langage (LLM) à poids ouvert. La société française Mistral AI a dévoilé Mistral OCR, une nouvelle API puissante pour la reconnaissance optique de caractères qui améliore l'analyse des documents. L'outil traite les images et les PDF, en extrayant avec précision le texte structuré, les médias, les tableaux et les équations.
"Environ 90 % des données organisationnelles mondiales sont stockées sous forme de documents, et pour exploiter ce potentiel, nous lançons Mistral OCR", a déclaré Mistral AI. L'API s'intègre aux systèmes RAG (Retrieval-Augmented Generation), ce qui lui permet de traiter des documents multimodaux tels que des diapositives et des PDF complexes.
L'OCR de Mistral est désormais le modèle par défaut pour la compréhension des documents sur Le Chat et est disponible via l'API "mistral-ocr-latest" à 1000 pages par dollar, avec une efficacité doublée pour l'inférence par lots. L'API est accessible sur la suite de développeurs de Mistral, La Plateforme, et sera bientôt disponible via le cloud, les partenaires d'inférence et le déploiement sur site.
Mistral OCR prend en charge les contenus multilingues et multimodaux, surpassant les principaux modèles d'OCR dans les tests de référence. Il a été testé contre Google Document AI, Azure OCR, les modèles Gemini et GPT-4o, et a obtenu un score global de 94,89, avec des performances élevées dans les expressions mathématiques, les documents numérisés et les tableaux.
Mistral OCR peut gérer une large gamme d'écritures, de polices et de langues. "Cette polyvalence est cruciale pour les organisations internationales qui traitent des documents provenant de milieux linguistiques différents, ainsi que pour les entreprises hyperlocales qui desservent des marchés de niche", a déclaré la société. L'API traite jusqu'à 2 000 pages par minute sur un seul nœud. Elle prend également en charge la fonctionnalité "doc-as-prompt", qui permet d'extraire des sorties structurées dans des formats tels que JSON. Cette fonctionnalité permet l'intégration avec des flux de travail en aval.
Les clients bêta pourront utiliser Mistral OCR pour la recherche scientifique, la préservation historique, le service clientèle et l'indexation de la littérature technique. Les institutions de recherche peuvent l'utiliser pour convertir des documents académiques dans des formats prêts pour l'IA, tandis que les organisations patrimoniales
pourront numériser des documents historiques. Les équipes de service à la clientèle peuvent transformer les manuels en bases de connaissances consultables.
Pour les entreprises qui traitent des données sensibles, Mistral AI propose une option de déploiement en mode auto-hébergé. "Les organisations ayant des exigences strictes en matière de confidentialité des données peuvent garder un contrôle total sur leur infrastructure", a déclaré Mistral AI. Mistral AI prévoit d'améliorer encore le modèle et d'étendre le déploiement sur site dans les semaines à venir.
Mistral AI a récemment fait plusieurs annonces de produits depuis sa dernière levée de fonds. Pour rappel, en juin 2024, Mistral AI a levé 640 millions de dollars dans le cadre d'un tour de table de série B mené par General Catalyst. L'investissement, composé de 503 millions de dollars de capitaux propres et de 142 millions de dollars de dettes, a propulsé la valorisation de l'entreprise à un niveau impressionnant de 6 milliards de dollars, un an seulement après sa création.
Voici un extrait de l'annonce de Mistral AI :
Tout au long de l'histoire, les progrès de l'abstraction et de la recherche d'informations ont été le moteur du progrès humain. Des hiéroglyphes aux papyrus, de la presse à imprimer à la numérisation, chaque avancée a rendu le savoir humain plus accessible et plus exploitable, alimentant ainsi l'innovation.
Aujourd'hui, nous sommes à l'aube du prochain grand bond en avant : libérer l'intelligence collective de toutes les informations numérisées. Environ 90 % des données organisationnelles mondiales sont stockées sous forme de documents, et pour exploiter ce potentiel, nous lançons Mistral OCR.
Mistral OCR est une API de reconnaissance optique de caractères qui établit une nouvelle norme en matière de compréhension des documents. Contrairement à d'autres modèles, Mistral OCR comprend chaque élément des documents - médias, textes, tableaux, équations - avec une précision et une connaissance sans précédent. Il prend des images et des PDF en entrée et extrait le contenu dans un entrelacement ordonné de textes et d'images.
Par conséquent, Mistral OCR est un modèle idéal à utiliser en combinaison avec un système RAG prenant des documents multimodaux (tels que des diapositives ou des PDF complexes) en entrée.
Nous avons fait de Mistral OCR le modèle par défaut pour la compréhension de documents parmi des millions d'utilisateurs sur Le Chat, et nous publions l'API mistral-ocr-latest à 1000 pages / $ (et environ le double de pages par dollar avec l'inférence par lots). L'API est disponible dès aujourd'hui sur notre suite de développeurs la Plateforme, et sera bientôt disponible pour nos partenaires cloud et d'inférence, ainsi que sur site.
Voici quelques exemples des particularités de Mistral OCR :
- Compréhension de pointe des documents complexes
Mistral OCR excellerait dans la compréhension des éléments de documents complexes, y compris les images entrelacées, les expressions mathématiques, les tableaux et les mises en page avancées telles que le formatage LaTeX. Le modèle permet une compréhension plus approfondie des documents riches tels que les articles scientifiques contenant des diagrammes, des graphiques, des équations et des figures. - Critères de référence de premier ordre
Selon Mistral AI, Mistral OCR a surpassé d'autres modèles OCR de premier plan lors de tests de référence. Sa précision dans de multiples aspects de l'analyse des documents est illustrée ci-dessous. Mistral OCT extrait les images incorporées dans les documents en même temps que le texte. Les autres LLM comparés ci-dessous n'ont pas cette capacité. Pour une comparaison équitable, Mistral AI les a évalués sur un ensemble de tests internes « texte seul » contenant divers documents de publication et des PDF provenant du web. - Nativement multilingue
Mistral OCR franchit une nouvelle étape en étant capable d'analyser, de comprendre et de transcrire des milliers d'écritures, de polices de caractères et de langues sur tous les continents. Cette polyvalence est cruciale pour les organisations internationales qui traitent des documents provenant de milieux linguistiques différents, ainsi que pour les entreprises hyperlocales qui desservent des marchés de niche. - Doc-as-prompt, sortie structurée
Mistral OCR introduit également l'utilisation de documents en tant qu'invites, ce qui permet d'obtenir des instructions plus puissantes et plus précises. Cette capacité permet aux utilisateurs d'extraire des informations spécifiques des documents et de les formater dans des sorties structurées, telles que JSON. Les utilisateurs peuvent enchaîner les sorties extraites dans des appels de fonction en aval et construire des agents.
Disponibilité : Les fonctionnalités Mistral OCR peuvent être essayées gratuitement sur le Chat. Pour essayer l'API, rendez-vous sur la Plateforme.
Source : Annonce Mistral OCR
Et vous ?


Voir aussi :



Vous avez lu gratuitement 0 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.