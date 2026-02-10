Alibaba Cloud lance Qwen-Image-2.0, un modèle fondamental de génération d'images de nouvelle génération. Selon les tests à l'aveugle sur AI Arena, les résultats montrent que Qwen-Image-2.0, en tant que modèle unifié de génération et d'édition, atteint des performances supérieures sur les benchmarks texte-image et image-image en utilisant le même modèle. Qwen-Image-2.0 présente cinq caractéristiques clés des capacités de rendu de texte : précision, complexité, esthétique, réalisme et alignement. Au-delà du rendu de texte, Qwen-Image-2.0 offre également un photoréalisme.
Alibaba Cloud est une société de cloud computing, filiale du groupe Alibaba. Alibaba Cloud fournit des services de cloud computing aux entreprises en ligne et à l'écosystème de commerce électronique d'Alibaba. Alibaba Cloud propose des services cloud disponibles sur la base d'un paiement à l'utilisation, notamment des services de calcul élastique, de stockage de données, de bases de données relationnelles, de traitement de mégadonnées, de protection contre les attaques DDoS et de réseaux de diffusion de contenu (CDN).
Alibaba Cloud a également développé la famille de grands modèles de langage Qwen. De nombreuses variantes de Qwen sont distribuées sous la licence Apache-2.0, tandis que d'autres sont servies via Alibaba Cloud. En décembre 2025, Alibaba Cloud a dévoilé Qwen3-Omni-Flash-2025-12-01. Qwen3-Omni est un grand modèle multimodal natif de nouvelle génération capable de traiter de manière transparente plusieurs modalités d'entrée, notamment le texte, les images, l'audio et la vidéo, et de générer simultanément des sorties textuelles et vocales naturelles par le biais de réponses en continu et en temps réel. Cette version présente de nombreuses améliorations visant à accroître les performances et l'efficacité du modèle.
Récemment, Alibaba Cloud lance Qwen-Image-2.0, un modèle fondamental de génération d'images de nouvelle génération. Selon l'annonce, les principales caractéristiques de Qwen-Image-2.0 sont les suivantes :
- Rendu typographique professionnel : prend en charge les instructions 1k-token pour la génération directe d'infographies professionnelles, notamment des PPT, des affiches, des bandes dessinées, etc.
- Adhésion sémantique renforcée : prise en charge native de la résolution 2K pour des scènes réalistes finement détaillées, notamment des personnes, la nature et l'architecture.
- Rendu de texte amélioré : capacités de compréhension et de génération intégrées, unifiant la génération et l'édition d'images en un seul mode.
- Architecture de modèle plus légère : taille de modèle réduite avec une vitesse d'inférence plus rapide.
Performances du modèle
Selon les tests à l'aveugle sur AI Arena, les résultats montrent que Qwen-Image-2.0, en tant que modèle unifié de génération et d'édition, atteint des performances supérieures sur les benchmarks texte-image et image-image en utilisant le même modèle.
Présentation du modèle
Avant Qwen-Image-2.0, l'équipe de Qwen a exploré deux voies parallèles : la voie de la génération et la voie de l'édition. Sur la voie de la génération, ils se sont concentrés sur l'amélioration de la précision et du réalisme dans la synthèse d'images. Qwen-Image (sorti en août) mettait l'accent sur le rendu précis du texte, tandis que Qwen-Image-2512 (sorti en décembre) améliorait la fidélité des détails et le photoréalisme. Dans le cadre de la piste d'édition, ils ont exploré la fonctionnalité et la cohérence, depuis l'édition d'une seule image en août jusqu'à l'édition de plusieurs images en septembre, en passant par l'amélioration de la cohérence en décembre. Qwen-Image-2.0 fusionne avec succès ces deux pistes en un modèle unifié, offrant d'excellents résultats sur les deux tâches simultanément.
Qwen-Image-2.0 présente cinq caractéristiques clés des capacités de rendu de texte : précision, complexité, esthétique, réalisme et alignement. Au-delà du rendu de texte, Qwen-Image-2.0 offre également un photoréalisme nettement amélioré dans les scénarios sans texte. Au-delà de la génération de texte en image, Qwen-Image-2.0 offre également des capacités d'édition d'images améliorées. Il est intéressant de noter que, comme il s'agit d'un modèle unifié de génération et d'édition (omni), les améliorations apportées au rendu du texte et au photoréalisme du côté de la génération profitent directement aux tâches d'édition dans l'ensemble du modèl. Au-delà du texte, le photoréalisme de l'édition a également connu une amélioration significative.
Cette annonce intervient dans un contexte où les modèles chinois sont de plus en plus populaires. Selon un rapport, les modèles d'IA open source chinois ont considérablement étendu leur présence à l'échelle mondiale, leur taux d'adoption passant de 13 % à près de 30 % de l'utilisation totale en 2025, principalement grâce à Qwen et DeepSeek. Cette tendance a été documentée dans le rapport "State of AI" d'OpenRouter, qui a analysé plus de 100 000 milliards de jetons sur plus de 300 modèles, révélant ainsi le passage d'une domination propriétaire à une concurrence pluraliste et open source à l'échelle mondiale.
