
alors que la Silicon Valley s'interroge encore sur les coûts des modèles d'IA
Dans la course effrénée à l'intelligence artificielle, un nouvel acteur chinois vient rappeler à la Silicon Valley que la suprématie technologique n’est plus un monopole américain. Baidu, souvent surnommé le « Google chinois », vient d’annoncer le lancement d’Ernie X1, un modèle de raisonnement avancé, open-source, qui ambitionne non seulement de rivaliser avec les géants américains, mais surtout de redéfinir les standards du secteur.
Contexte
Ernie X1 se positionne directement face à des modèles américains de renom comme GPT-4 d’OpenAI ou LLaMA de Meta. Contrairement à ses prédécesseurs, Ernie X1 n’est pas simplement un grand modèle de langage ; il se veut un modèle de raisonnement, capable de comprendre des relations logiques complexes, de générer des chaînes de pensée explicites et d’offrir des analyses plus poussées que la simple génération de texte.
Le choix de l’open-source est particulièrement stratégique : il permet à Baidu de s’inscrire dans une dynamique mondiale d’innovation collaborative tout en renforçant l’attractivité de ses technologies auprès des chercheurs et entreprises hors de Chine. Cette décision témoigne également d’une confiance accrue dans la maturité technologique du modèle, suffisamment avancé pour s’exposer à l’audit et à la critique internationale.
Une réponse stratégique à GPT et LLaMA
Baidu, la réponse chinoise à Google, a lancé deux nouveaux modèles d'IA. Samedi, Baidu a lancé Ernie X1, un modèle de raisonnement qui, selon la société, « offre des performances comparables à celles de DeepSeek R1 pour un prix deux fois moins élevé ». Elle a également lancé un modèle de fondation multimodale appelé Ernie 4.5 qui, selon la société, « surpasse GPT-4.5 dans de nombreux tests de référence tout en étant vendu à seulement 1 % de GPT-4.5 ».
Baidu a également annoncé que son chatbot, Ernie Bot, serait mis gratuitement à la disposition du public le 1er avril, plus tôt que prévu.
Le géant de la technologie a déclaré qu'il allait « intégrer progressivement » Ernie 4.5 et X1 dans son écosystème de produits, y compris Baidu Search, le moteur de recherche dominant en Chine.
Qu'est-ce que ERNIE 4.5 de Baidu ?
ERNIE 4.5 est le dernier modèle d'IA multimodale de Baidu, un généraliste polyvalent conçu pour les tâches et les interactions quotidiennes. En tant que système multimodal, ERNIE 4.5 traite plusieurs types de données à la fois, en intégrant du texte, des images, du son et de la vidéo.
Qu'est-ce que ERNIE X1 de Baidu ?
ERNIE X1 est un modèle de raisonnement spécialisé conçu pour des tâches avancées telles que les mathématiques et le codage complexe. À l'instar de DeepSeek-R1 ou d'OpenAI's o1, ce type de modèle montre explicitement à l'utilisateur son processus de réflexion, ce qui permet de comprendre plus facilement comment il parvient à une réponse ou à une solution particulière.
Les entreprises continuent d'investir massivement dans des modèles axés sur le raisonnement comme ERNIE X1, car ces modèles ciblent directement des tâches qui apportent une valeur commerciale évidente. Selon des données récentes d'Anthropic, les tâches de raisonnement et de codage sont les principaux cas d'utilisation en entreprise et représentent une part importante de l'adoption de l'IA.
OpenAI vs DeepSeek vs Baidu
Malgré le développement rapide de l'IA, l'adoption par les entreprises reste faible au niveau mondial, et les modèles qui excellent dans les domaines à forte intensité de raisonnement (mathématiques, codage, analyse avancée) sont plus susceptibles de fournir une valeur commerciale tangible, d'augmenter les revenus et d'accélérer l'adoption de l'IA sur le marché des entreprises.
Le principal argument de vente de Baidu pour ERNIE X1 est sa stratégie de prix agressive. Voici une comparaison rapide avec DeepSeek-R1 (les informations sur les prix sont exactes au 17 mars 2025) :
Malgré un prix attractif, Baidu n'a pas encore fourni de références détaillées confirmant les performances de l'ERNIE X1 par rapport au DeepSeek-R1, ce qui laisse planer une certaine incertitude quant à sa compétitivité dans le monde réel.
Les jetons sont la plus petite unité de données qu'un modèle d'IA traite. Les entreprises fixent le prix des modèles en fonction du nombre de jetons d'entrée qu'ils traitent et de jetons de sortie qu'ils génèrent.
Pour Ernie 4.5, Baidu a déclaré que les prix des jetons d'entrée et de sortie commencent à partir de 0,004 yuan chinois par millier de jetons d'entrée et 0,016 par millier de jetons de sortie.
Alors que Baidu fait valoir ses coûts par rapport au dernier modèle « émotionnellement intelligent » GPT-4.5 d'OpenAI, le modèle V3 de DeepSeek l'emporte à peine sur Ernie 4.5 en termes de coûts. Ernie X1 est le plus abordable, coûtant moins de 2 % des prix pratiqués par OpenAI pour des modèles similaires. Les économies mises à part, ceux qui ont déjà essayé Ernie semblent impressionnés. « J'ai joué avec pendant des heures, les performances sont impressionnantes », a déclaré Alvin Foo, partenaire de Zero2Launch, dans un message publié sur X.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Chinese leading search engine company Baidu has just released a major update for Ernie, their LLM application. Been playing around with it for hours, impressive performance outperforming ChatGPT 4.5 across multiple benchmarks at just 1% of the price. <br><br>Meanwhile, ERNIE X1, a… <a href="https://t.co/rYfYYGO7Nj">pic.twitter.com/rYfYYGO7Nj</a></p>— Alvin Foo (@alvinfoo) <a href="https://twitter.com/alvinfoo/status/1901081189638959440?ref_src=twsrc%5Etfw">March 16, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
« Une chose que nous avons apprise avec DeepSeek, c'est que l'ouverture des meilleurs modèles peut grandement aider à leur adoption », a déclaré Robin Li, PDG de Baidu, lors d'une conférence téléphonique sur les résultats en février. « Lorsque le modèle est open source, les gens veulent naturellement l'essayer par curiosité, ce qui favorise une adoption plus large ».
Baidu a déclaré sur X en février que la série Ernie 4.5 serait open-source à partir du 30 juin.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">ERNIE 4.5 achieves collaborative optimization through joint modeling of multiple modalities, exhibiting comprehensive improvements in understanding, generation, reasoning and memory, along with notable enhancements in hallucination prevention, logical reasoning, and coding… <a href="https://t.co/8Iu3pmpMtV">pic.twitter.com/8Iu3pmpMtV</a></p>— Baidu Inc. (@Baidu_Inc) <a href="https://twitter.com/Baidu_Inc/status/1901094083508220035?ref_src=twsrc%5Etfw">March 16, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Critères multimodaux
Dans les tests multimodaux, ERNIE 4.5 a surpassé GPT-4o, obtenant un score moyen de 77,77, contre 73,92 pour GPT-4o, soit une avance de 3,85 points.
Plus précisément, ERNIE 4.5 a surpassé GPT-4o dans six des sept points de référence évalués :
- CCBench : Évalue le raisonnement de bon sens à travers le texte et les images. ERNIE 4.5 a obtenu un score d'environ 81, légèrement supérieur à celui de GPT-4o (~79).
- OCRBench : Évalue les capacités de reconnaissance optique de caractères, en se concentrant sur l'extraction de texte à partir d'images. ERNIE 4.5 a obtenu un score d'environ 88, surpassant le GPT-4o de ~81.
- ChartQA : Teste la compréhension des données présentées dans des graphiques. ERNIE 4.5 a obtenu un score de ~82, légèrement supérieur à celui de GPT-4o (~81).
- MMMU : mesure le raisonnement multimodal sur différents sujets. Ici, GPT-4o est en tête avec ~70, tandis qu'ERNIE 4.5 a obtenu ~64, ce qui indique un domaine à améliorer.
- MathVista : Évalue le raisonnement mathématique dans des contextes visuels. ERNIE 4.5 a obtenu un score de ~69, surpassant le score de ~61 de GPT-4o.
- DocVQA : Évalue la capacité à répondre à des questions basées sur des documents visuels. ERNIE 4.5 a excellé avec un score de ~91, comparé à ~85 pour GPT-4o.
- MVBench : Se concentre sur la compréhension temporelle dans des tâches vidéo dynamiques, nécessitant un raisonnement sur des séquences d'images. ERNIE 4.5 a obtenu un score de ~72, ce qui est nettement supérieur au score de ~63 de GPT-4o.
Un message clair à la Silicon Valley
Le lancement d’Ernie X1 n’est pas anodin. Alors que les États-Unis dominent encore largement l’écosystème de l’IA générative, la Chine montre qu’elle n’a pas seulement rattrapé son retard : elle est capable d’innover à son tour et d’apporter des approches nouvelles. Baidu revendique des performances sur certains benchmarks de raisonnement supérieures aux modèles occidentaux équivalents.
Ce coup d’éclat s’inscrit dans un contexte géopolitique tendu où la maîtrise de l’intelligence artificielle devient un enjeu stratégique aussi important que la conquête spatiale dans les années 60. La Chine ne veut plus simplement être suiveuse ou imitatrice, mais véritable moteur de la prochaine génération d’intelligences...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.