Qwen est une famille de grands modèles linguistiques développés par la société chinoise Alibaba Cloud. En juillet 2024, il a été classé comme le meilleur modèle de langage chinois dans certains benchmarks et troisième au niveau mondial derrière les modèles de pointe d'Anthropic et d'OpenAI. En avril, Alibaba Group a lancé Qwen 3, une nouvelle version de son modèle d'intelligence artificielle (IA). Cette sortie s'inscrit dans le cadre de la concurrence croissante dans le domaine de l'IA en Chine, où des startups locales comme DeepSeek ont créé des modèles performants à des prix inférieurs à ceux des entreprises occidentales.
Récemment, Alibaba a lancé Qwen Image Edit, étendant les capacités de son modèle Qwen Image aux applications de retouche d'images. Basé sur le modèle Qwen Image à 20 milliards de paramètres, ce nouveau modèle apporte des technologies de rendu de texte précises à la retouche d'images, permettant des ajustements de texte précis dans les visuels.
Pour faciliter une retouche complète, Qwen Image Edit traite les images d'entrée à la fois via le modèle Qwen2.5-VL, qui gère la sémantique visuelle, et un encodeur VAE, qui contrôle l'apparence visuelle. Les utilisateurs peuvent ainsi effectuer des modifications visuelles de bas niveau, telles que l'ajout, la suppression ou la modification d'éléments dans une image sans affecter les zones inchangées, ainsi que des modifications sémantiques de haut niveau, telles que la rotation d'objets, la création de propriété intellectuelle et le transfert de style, qui maintiennent la cohérence sémantique malgré les changements de pixels.
Grâce à ces avancées techniques, Qwen Image Edit prend également en charge l'ajout, la suppression et la modification directs de texte bilingue (chinois et anglais) dans les images. Il conserve la police, la taille et le style d'origine, ce qui le rend pertinent pour les projets multilingues. Les évaluations comparatives indiquent que Qwen Image Edit offre des performances de pointe par rapport aux solutions d'édition d'images existantes. Qwen Image Edit devrait contribuer à réduire les obstacles techniques et à favoriser l'innovation dans la création de contenu visuel.
Caractéristiques principales :
- Édition sémantique et d'apparence : Qwen-Image-Edit prend en charge à la fois l'édition d'apparence visuelle de bas niveau (telle que l'ajout, la suppression ou la modification d'éléments, nécessitant que toutes les autres régions de l'image restent totalement inchangées) et l'édition sémantique visuelle de haut niveau (telle que la création d'IP, la rotation d'objets et le transfert de style, permettant des changements globaux de pixels tout en conservant la cohérence sémantique).
- Édition du texte : Qwen-Image-Edit prend en charge l'édition de texte bilingue (chinois et anglais), permettant l'ajout, la suppression et la modification directs du texte dans les images tout en conservant la police, la taille et le style d'origine.
- Performances de référence solides : les évaluations sur plusieurs benchmarks publics démontrent que Qwen-Image-Edit atteint des performances de pointe (SOTA) dans les tâches d'édition d'images, ce qui en fait un modèle de base puissant pour l'édition d'images.
Présentation
L'un des points forts de Qwen-Image-Edit réside dans ses puissantes capacités d'édition sémantique et d'apparence. L'édition sémantique consiste à modifier le contenu d'une image tout en conservant la sémantique visuelle d'origine. Pour illustrer intuitivement cette capacité, prenons l'exemple de la mascotte de Qwen, Capybara :
Comme on peut le voir, bien que la plupart des pixels de l'image éditée diffèrent de ceux de l'image d'entrée (l'image la plus à gauche), la cohérence du personnage Capybara est préservée. La puissante capacité d'édition sémantique de Qwen-Image-Edit permet de créer facilement et de manière diversifiée du contenu IP original.
De plus, Qwen Chat offre une série de suggestions d'édition centrées sur les 16 types de personnalité MBTI. Grâce à ces suggestions, ce modèle réussi à créer un ensemble de packs d'émojis sur le thème du MBTI basés sur la mascotte Capybara, élargissant ainsi la portée et l'expression de la propriété intellectuelle.
Une autre application typique de l'édition sémantique est le transfert de style. Par exemple, à partir d'un portrait donné, Qwen-Image-Edit peut facilement le transformer en différents styles artistiques, tels que celui du Studio Ghibli. Cette fonctionnalité présente un intérêt considérable dans des applications telles que la création d'avatars virtuels :
Une autre caractéristique remarquable de Qwen-Image-Edit est sa capacité d'édition de texte précise, qui découle de la grande expertise de Qwen-Image en matière de rendu de texte. Comme le montrent les deux cas suivants, Qwen-Image-Edit offre des performances puissantes en matière d'édition de texte anglais :
En résumé, Qwen-Image-Edit devrait permettre de faire progresser davantage le domaine de la génération d'images, de réduire les obstacles techniques à la création de contenu visuel et d'inspirer des applications encore plus innovantes.
