IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Mistral AI lance OCR 4, la dernière version de son outil de numérisation des textes imprimés, offrant une extraction de documents structurés multilingues et des performances améliorées

Le , par Alex

317PARTAGES

2  0 
Mistral AI lance OCR 4, la dernière version de son outil de numérisation des textes imprimés, offrant une extraction de documents structurés multilingues et des performances améliorées

Mistral AI a récemment lancé Mistral OCR 4, qui fait progresser la compréhension des documents grâce à la prise en charge des cadres de sélection, de la classification par blocs et des scores de confiance intégrés. Chaque bloc de contenu extrait est désormais localisé, classé par type et accompagné de mesures de confiance par page et par mot, en plus de la sortie textuelle. Le modèle élargit l’accessibilité en prenant en charge 170 langues réparties dans 10 groupes linguistiques. S’appuyant sur ces améliorations, Mistral OCR 4 accepte les formats de documents d’entreprise courants : PDF, DOC, PPT et OpenDocument, ce qui élargit son champ d’application aux flux de travail d’entreprise.

Mistral AI SAS est une entreprise française spécialisée dans l'intelligence artificielle (IA), dont le siège social est situé à Paris. Fondée en 2023, elle dispose de grands modèles de langage (LLM) à poids ouvert, comprenant à la fois des modèles d'IA open source et propriétaires. En 2025, la société était valorisée à plus de 14 milliards de dollars américains. La reconnaissance optique de caractères (OCR) ou lecture optique de caractères désigne la conversion électronique ou mécanique d’images de texte dactylographié, manuscrit ou imprimé en texte codé par une machine, qu’il s’agisse d’un document numérisé, d’une photo d’un document, d’une photo de scène ou de sous-titres superposés à une image.

Largement utilisé comme méthode de saisie de données à partir de documents papier imprimés, c’est une méthode courante de numérisation des textes imprimés afin de pouvoir les éditer électroniquement, les rechercher, les stocker de manière plus compacte, les afficher en ligne et les utiliser dans des processus automatisés tels que l’informatique cognitive, la traduction automatique, la synthèse vocale (à partir de texte extrait), l’extraction de données clés et l’exploration de textes. L’OCR est un domaine de recherche relevant de la reconnaissance de formes, de l’intelligence artificielle et de la vision par ordinateur.

Mistral AI a récemment lancé Mistral OCR 4, qui fait progresser la compréhension des documents grâce à la prise en charge des cadres de sélection, de la classification par blocs et des scores de confiance intégrés. Chaque bloc de contenu extrait est désormais localisé, classé par type et accompagné de mesures de confiance par page et par mot, en plus de la sortie textuelle. Le modèle élargit l’accessibilité en prenant en charge 170 langues réparties dans 10 groupes linguistiques, y compris des langues rares ou disposant de peu de ressources, comblant ainsi une lacune présente dans de nombreuses solutions existantes.

S’appuyant sur ces améliorations, Mistral OCR 4 accepte les formats de documents d’entreprise courants : PDF, DOC, PPT et OpenDocument, ce qui élargit son champ d’application aux flux de travail d’entreprise. En termes de déploiement, Mistral OCR 4 s’exécute sous la forme d’un conteneur unique et peut être entièrement auto-hébergé. Cette conception permet aux organisations de gérer des opérations sensibles en termes de coûts ou à haut volume tout en préservant une souveraineté stricte sur les données, grâce au traitement des documents au sein d’une infrastructure sur site.

Ces capacités permettent au modèle de servir non seulement d’extracteur de texte, mais aussi de composant d’ingestion pour la recherche d’entreprise, les systèmes de génération augmentée par la recherche (RAG) et les workflows de recherche spécifiques à un domaine. Mistral OCRv4 et la solution Document AI associée sont accessibles via des API sur Mistral Studio, Amazon SageMaker et Microsoft Foundry, l’intégration avec Snowflake Parse Document étant prévue prochainement.


Voici l'annonce de Mistral AI :

Présentation d'OCR 4

Nous lançons aujourd’hui Mistral OCR 4, qui intègre des cadres de sélection, la classification par blocs et des scores de confiance intégrés, en plus du texte extrait. Le modèle prend en charge 170 langues réparties dans 10 groupes linguistiques, s’exécute dans un seul conteneur pour des déploiements entièrement auto-hébergés et sert de composant d’ingestion pour la recherche d’entreprise, le RAG et les pipelines de recherche spécifiques à un domaine. OCR 4 est un modèle compact et spécialisé. Cet article présente ses nouveautés, ses performances sur des benchmarks publics et internes, les limites connues de ces benchmarks, ainsi que des conseils pour choisir entre l’API du modèle et Document AI.

Points forts

- Des performances exceptionnelles. Des annotateurs indépendants préfèrent OCR 4 à tous les principaux systèmes OCR et d’IA documentaire testés, avec des taux de réussite moyens de 72 %, ainsi que le meilleur score global sur OlmOCRBench (85,20). Voir la section « Tests de performance » ci-dessous pour la méthodologie et les limites connues en matière de notation.

- La segmentation, pas seulement le texte. Outre le texte extrait, OCR 4 fournit des cadres de sélection, une classification des blocs de texte (titres, tableaux, équations, signatures, etc.) et des scores de confiance intégrés. Les cadres de sélection, notre fonctionnalité la plus demandée, permettent de localiser le texte pour un surlignage contextuel et des pipelines de données fiables. Parallèlement, les types de blocs et les scores de confiance facilitent les citations fondées sur la source, les expurgations et la vérification par un intervenant humain.

- Intégré à Mistral Search Toolkit (aperçu public). OCR 4 est un composant d’ingestion de Search Toolkit, le framework de recherche open source et modulable de Mistral, annoncé lors du sommet AI Now. Sa sortie structurée fournit des données prêtes à être citées au workflow d’ingestion, de recherche et d’évaluation du toolkit pour la recherche RAG et la recherche d’entreprise.

- Couverture multilingue. Prise en charge de 170 langues réparties en 10 groupes linguistiques, avec des gains mesurables sur les langues spécialisées et les langues disposant de peu de ressources, là où plusieurs systèmes concurrents affichent des performances en baisse.

- Exécutez-le sur votre propre infrastructure. OCR 4 est suffisamment compact pour être déployé sur un seul conteneur, ce qui permet de conserver les données des documents dans votre environnement pour des raisons de résidence, de souveraineté et de conformité, tout en prenant en charge un traitement par lots économique et à haut débit. Un déploiement en autogestion est disponible pour les clients professionnels.

Présentation

Mistral OCR 4 extrait et structure le contenu d’un large éventail de documents. Alors que les générations précédentes se concentraient sur la conversion d’une page en texte et tableaux épurés, OCR 4 renvoie une représentation structurée du document. Chaque bloc est localisé à l’aide d’un cadre de sélection, classé par type, et des scores de confiance intégrés sont générés par page et par mot. Les systèmes en aval ont donc accès non seulement au contenu du document, mais aussi à l’emplacement de chaque élément, à son rôle et au niveau de confiance du modèle pour chaque zone.

Cette structure prend en charge plusieurs charges de travail en aval :

- Segmentation sémantique pour le RAG : les blocs propres et classés constituent de meilleures unités de recherche.

- Primitives structurelles pour les agents : les agents passent de la simple lecture des documents à l’action (remplissage de formulaires, traitement des factures, contrôles de conformité).

- Contenu structuré pour les connecteurs : sortie cohérente et typée pour les pipelines d’ingestion et d’indexation.

OCR 4 accepte les formats d’entreprise courants, notamment PDF, DOC, PPT et OpenDocument, et prend en charge 170 langues réparties en 10 groupes linguistiques, y compris des langues spécialisées et à faibles ressources que de nombreux systèmes gèrent mal. En tant que modèle compact déployable dans un seul conteneur, il convient aussi bien aux déploiements soucieux des coûts qu’aux déploiements à haut volume. Il peut fonctionner en mode entièrement auto-hébergé, ce qui permet aux organisations soumises à des exigences de souveraineté des données de conserver les données des documents au sein de leur propre infrastructure.

Les développeurs intègrent le modèle via une API, et les équipes peuvent utiliser Document AI dans Mistral Studio pour accéder au même moteur sans code, directement au niveau de l’application. Mistral OCR 4 via l’API est proposé au prix de 4 $ pour 1 000 pages, avec une remise de 50 % sur l’API par lots, ce qui ramène le coût à 2 $ pour 1 000 pages. Document AI est proposé au prix de 5 $ pour 1 000 pages.

Benchmarks

Aidan Donohue, ingénieur IA, Rogo : « Nous avons comparé Mistral OCR 4 aux principaux analyseurs de documents de type agentique sur un ensemble de données de questions-réponses financières riche en graphiques et en figures, et avons obtenu une précision équivalente à un coût environ 8 fois inférieur et avec une latence 17 fois plus faible. Pour les cas d’utilisation en production à grande échelle, cet écart s’amplifie rapidement. »

Pour évaluer OCR 4, nous l’avons comparé aux principaux modèles OCR natifs de l’IA, aux modèles généraux de pointe, aux services de gestion de documents d’entreprise et à notre propre Mistral OCR 3.

Évaluations par des humains

Les tests de performance automatisés comportent les artefacts de notation décrits ci-dessus ; nous les avons donc complétés par une évaluation humaine comparative sur des documents choisis pour refléter une utilisation réelle. Nous avons rassemblé plus de 600 documents dans plus de 12 langues, provenant de fournisseurs tiers afin de représenter des cas d’utilisation réels dans l’industrie, et avons demandé à des annotateurs indépendants de classer en aveugle les résultats de chaque concurrent par rapport à ceux d’OCR 4, document par document.

Les annotateurs ont privilégié OCR 4 dans la majorité des documents, tous systèmes testés confondus. Comme il s’agit d’évaluations humaines portant sur des documents réels, et non de comparaisons de chaînes de caractères par rapport à des références fixes, elles permettent d’éviter une grande partie du bruit lié à l’annotation et à la mise en forme qui affecte les scores automatisés.


Performances globales

Ivan Mihailov, ingénieur en IA, Anaqua : « Mistral OCR est environ quatre fois plus rapide par page que notre fournisseur actuel, un résultat impressionnant pour les flux de travail de gestion des dossiers à haut volume, où la rapidité est essentielle pour respecter les délais de nos clients en matière de propriété intellectuelle. »

En plus de se classer en tête dans nos préférences humaines, OCR 4 obtient le meilleur score global parmi les modèles que nous avons testés sur la plateforme publique OlmOCRBench (85,20) et arrive en tête de notre évaluation interne Crawl Multilingual (0,98), devançant à la fois les solutions natives d’IA et les solutions d’entreprise.


Sur OmniDocBench, OCR 4 obtient un score de 93,07. Nous communiquons ce chiffre avec une mise en garde : OlmOCRBench et OmniDocBench présentent tous deux des limites connues dans la manière dont ils notent certains résultats, et un chiffre agrégé unique peut aussi bien sous-estimer que surestimer les performances réelles.

Lorsque nous avons examiné les divergences à l’origine de nos scores, la plupart n’étaient pas des erreurs du modèle, mais des artefacts liés à la manière dont les benchmarks comparent les résultats. Les catégories récurrentes sont les suivantes :

- Erreurs de données de référence. Certaines annotations de référence sont elles-mêmes incorrectes : texte manquant ou superflu, transcriptions de zones caviardées ou fautes de frappe (par exemple, le nom d’un auteur cité mal orthographié dans la référence mais lu correctement par le modèle à partir de la page). Le résultat correspond au document source, mais il est tout de même marqué comme incorrect.

- Notation mathématique équivalente. Des codes LaTeX différents qui s’affichent de manière identique sont considérés comme une non-correspondance. L’équation affichée est correcte ; la comparaison de chaînes de caractères ne l’est pas.

- Segmentation des équations. Le fait qu’une expression soit générée sous la forme d’une seule équation ou divisée en plusieurs fragments intégrés affecte la correspondance, même lorsque le contenu affiché est identique, car le système de correspondance ne peut pas aligner les éléments.

- Ordre de lecture en plusieurs colonnes. Les mots coupés à la limite d’une colonne (par exemple, « certifi-cates ») et les hypothèses relatives à l’ordre des colonnes font que des extractions correctes sont notées comme des échecs d’ordre de lecture.

- Attribution de type bloc. Le benchmark ne s’attend pas à trouver d’en-têtes ou de pieds de page dans la sortie. Pour résoudre ce problème, nous supprimons les en-têtes et les pieds de page de notre sortie avant la notation. Mais le test recherche ensuite une chaîne de caractères qui se trouve être le titre de la page, lequel devrait en réalité être présent, et le signale à tort.

Ces artefacts se concentrent dans les documents mathématiques, scientifiques et à plusieurs colonnes, et ils pénalisent plus souvent les résultats corrects qu’ils ne récompensent les résultats incorrects. Nous considérons donc le score global comme indicatif plutôt que définitif.

Ces benchmarks sont indicatifs. Tous les scores des concurrents reflètent des reproductions internes. Nous vous recommandons d’effectuer votre propre évaluation sur vos propres documents.

Détails des performances

Répartition multilingue de Crawl. Lors de notre évaluation multilingue interne, OCR 4 arrive en tête dans les huit groupes linguistiques : anglais, Europe occidentale, Europe de l’Est, Moyen-Orient, chinois, Asie de l’Est, Asie du Sud-Est et langues spécialisées (hindi, japonais, géorgien, bengali, arménien, hébreu, grec, gujarati, tamoul, malayalam, kannada, télougou). L’écart est le plus important pour les langues spécialisées et celles disposant de peu de ressources, où de nombreux systèmes concurrents affichent une forte baisse de performances, tandis qu’OCR 4 conserve une grande précision.


Cas d’utilisation recommandés

OCR 4 prend en charge à la fois les pipelines à haut débit et les workflows documentaires interactifs, notamment :

- Analyse et extraction de documents : documents complexes et multilingues.

- Génération augmentée par la recherche (RAG) : contenu structuré, classifié et prêt à être cité pour le découpage sémantique et les réponses fondées sur la source. Avec Search Toolkit, les résultats d’OCR 4 peuvent être directement intégrés dans des pipelines de recherche.

- Workflows basés sur des agents : fournir aux agents les éléments structurels de base pour accomplir des tâches telles que le remplissage de formulaires, le traitement des factures et les contrôles de conformité, en particulier dans les secteurs juridique, des services financiers et de la santé.

- Pipelines de données structurées utilisant des scores de confiance pour permettre une utilisation efficace des vérificateurs humains : extraction de formulaires/factures, expurgations et processus axés sur la conformité.

- Recherche d’entreprise et bases de connaissances : l’OCR en tant que composant de source de données pour l’ingestion personnalisée et l’extraction d’entités.

Les premiers utilisateurs appliquent OCR 4 pour transformer des factures en champs structurés, numériser les archives d’entreprise, extraire du texte propre à partir de rapports techniques et scientifiques, et alimenter la recherche d’entreprise.

Remarque concernant les utilisations hors champ d’application. OCR 4 est un modèle de compréhension de documents, et non un outil de prise de décision. Il n’est pas destiné au diagnostic médical, aux conseils ou avis juridiques, aux décisions financières à enjeux élevés, aux systèmes critiques pour la sécurité, au traitement en temps réel ou sensible à la latence, ni aux entrées non documentaires (audio brut, vidéo, etc.).

API OCR 4 : comprendre vos options

L'OCR 4 de Mistral est accessible via un point de terminaison API unique. Chaque requête utilise le même modèle OCR sous-jacent et renvoie systématiquement le contenu extrait, les cadres de sélection, les types de blocs, les scores de confiance et le texte structuré au format Markdown. Ce qui varie, c'est le niveau de personnalisation que vous y ajoutez.

Utilisez OCR 4 en mode d’extraction pure lorsque vous souhaitez :

- Intégrer une extraction de documents rapide et précise directement dans votre application, votre agent ou votre pipeline de données.

- Travailler directement avec la réponse brute, les cadres de sélection, les types de blocs et les scores de confiance pour piloter une logique en aval personnalisée.

- Effectuer une ingestion en volume élevé ou par lots avec un contrôle total sur le débit et le coût via l’API Batch.

- Opter pour l’auto-hébergement afin de répondre à des exigences strictes en matière de confidentialité des données, de souveraineté ou de conformité.

Activez les fonctionnalités de Document AI (même point de terminaison, paramètres supplémentaires) lorsque vous souhaitez :

- Renvoyer du JSON structuré selon un schéma que vous définissez : transmettez un schéma JSON avec votre document, et la sortie OCR est transmise à mistral-small-2603 pour générer un contenu conforme à vos spécifications.

- Annoter les images détectées avec du JSON structuré en transmettant un schéma d’annotation d’image, ce qui déclenche un appel supplémentaire au modèle de vision-langage par image.

- Utiliser une invite personnalisée associée à un schéma JSON pour guider l’interprétation ou la synthèse du contenu extrait de l’intégralité du document.

- Permettre aux utilisateurs métier, aux équipes de solutions ou aux responsables de projets pilotes de produire des résultats structurés sans avoir à écrire de logique d’analyse en aval.

Règle pratique : si vous avez besoin du contenu brut extrait, utilisez OCR 4 tel quel. Si vous avez besoin que le résultat soit reformaté en un format structuré, annoté avec des champs spécifiques à votre domaine ou traité à l’aide d’une instruction personnalisée, ajoutez les paramètres de Document AI au même appel. Vous obtenez toujours le résultat de l’OCR ; Document AI se contente d’y ajouter des couches structurées.

Désormais disponible

Kimmi Grewal, vice-présidente, Partenariats pour l’écosystème IA, Microsoft : « La disponibilité de Mistral Document AI avec OCR 4 dans Microsoft Foundry marque une étape importante dans notre partenariat. Ensemble, nous permettons à nos clients d’intégrer directement une compréhension avancée et structurée des documents dans leurs workflows d’IA, en combinant l’innovation de Mistral avec la plateforme d’entreprise de Microsoft afin de fournir des solutions évolutives et fiables répondant aux besoins concrets des entreprises. »

Mistral OCRv4 et Document AI (optimisé par OCRv4) sont tous deux disponibles via une API sur Mistral Studio, Amazon SageMaker, Microsoft Foundry et, prochainement, Snowflake Parse Document. Pour les organisations soumises à des exigences strictes en matière de confidentialité des données, OCR 4 propose également une option d’auto-hébergement afin que les informations sensibles restent au sein de votre propre infrastructure. Pour en savoir plus sur l’auto-déploiement, contactez-nous.

Source : Annonce d'OCR 4

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Mistral AI lance Mistral OCR 3 offre une avancée majeure en matière de précision et d'efficacité pour l'extraction de texte et d'images

Mistral AI rebaptise « Le Chat » en « Vibe », transformant son chatbot grand public en un agent de travail IA capable de gérer les e-mails, les rapports, le codage et les tâches professionnelles récurrentes

Le PDG de Mistral AI estime que l'Europe dispose de deux ans pour éviter de devenir un « État vassal » des États-Unis en matière d'IA, mais ses propos sont perçus comme un appel aux capitaux pour sa startup
Vous avez lu gratuitement 1 289 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !