Alibaba Cloud annonce Qwen3-Omni-Flash-2025-12-01, un grand modèle multimodal natif de nouvelle génération, capable de traiter le texte, les images, l'audio et la vidéoAlibaba Cloud a dévoilé Qwen3-Omni-Flash-2025-12-01. Qwen3-Omni est un grand modèle multimodal natif de nouvelle génération capable de traiter de manière transparente plusieurs modalités d'entrée, notamment le texte, les images, l'audio et la vidéo, et de générer simultanément des sorties textuelles et vocales naturelles par le biais de réponses en continu et en temps réel. Cette version présente de nombreuses améliorations visant à accroître les performances et l'efficacité du modèle.
Qwen (également connu sous le nom de Tongyi Qianwen) est une famille de grands modèles de langage développés par Alibaba Cloud. De nombreuses variantes de Qwen sont distribuées sous la licence Apache-2.0, tandis que d'autres sont servies via Alibaba Cloud. En juillet 2024, le South China Morning Post a rapporté que la plateforme d'évaluation comparative SuperCLUE classait Qwen2‑72B‑Instruct derrière GPT‑4o d'OpenAI et Claude 3.5 Sonnet d'Anthropic et devant d'autres modèles chinois.
Récemment, Alibaba Cloud a dévoilé Qwen3-Omni-Flash-2025-12-01. Qwen3-Omni est un grand modèle multimodal natif de nouvelle génération capable de traiter de manière transparente plusieurs modalités d'entrée, notamment le texte, les images, l'audio et la vidéo, et de générer simultanément des sorties textuelles et vocales naturelles par le biais de réponses en continu et en temps réel. Cette version présente de nombreuses améliorations visant à accroître les performances et l'efficacité du modèle.
Qwen3-Omni-Flash-2025-12-01 est une itération entièrement mise à jour basée sur Qwen3-Omni.
Les points forts de cette version améliorée sont les suivants
- Expérience d'interaction audiovisuelle grandement améliorée : La compréhension et l'exécution des instructions audiovisuelles ont été considérablement améliorées, ce qui a permis de résoudre efficacement le problème de la « perte d'intelligence » que l'on rencontre fréquemment dans les scénarios parlés occasionnels. Les conversations audiovisuelles à plusieurs tours sont désormais beaucoup plus stables et cohérentes, ce qui permet des interactions plus naturelles et plus transparentes.
- Contrôle renforcé des instructions génératives du système : La personnalisation complète des messages-guides du système est désormais prise en charge, ce qui permet un contrôle précis du comportement du modèle. Qu'il s'agisse du style de persona (par exemple, doux, cool, inspiré d'un anime), des préférences de tonalité familière ou des contraintes de longueur de sortie, chaque détail peut être réglé avec précision, offrant ainsi un contrôle sans précédent sur les caractéristiques de la réponse.
- Conformité multilingue plus fiable : Prise en charge de l'interaction textuelle dans 119 langues, de la reconnaissance vocale dans 19 langues et de la synthèse vocale dans 10 langues. L'instabilité du suivi linguistique de la version précédente a été entièrement corrigée, ce qui garantit des performances précises et cohérentes dans divers contextes linguistiques.
- Synthèse vocale plus fluide et plus proche de l'homme : Élimine les discours lents ou robotiques en améliorant de manière significative le contrôle adaptatif de la prosodie. Le modèle ajuste désormais intelligemment le débit de parole, les pauses et l'intonation en fonction du contexte textuel, ce qui permet d'obtenir une synthèse vocale expressive et naturelle qui reproduit fidèlement la parole humaine réelle.
Performances
Sur des critères objectifs, Qwen3-Omni-Flash-2025-12-01 présente des améliorations substantielles dans toutes les modalités par rapport à Qwen3-Omni-Flash :
- Compréhension et génération de texte améliorées : Des gains majeurs dans le raisonnement logique (ZebraLogic +5.6), la génération de code (LiveCodeBench-v6 +9.3, MultiPL-E +2.7), et la qualité d'écriture holistique (WritingBench +2.2), permettant une exécution plus fiable d'instructions complexes à plusieurs étapes.
- Compréhension vocale plus précise : Taux d'erreurs de mots significativement plus bas sur Fleurs-zh, ainsi qu'une amélioration de +3,2 sur VoiceBench, reflétant une meilleure compréhension du langage parlé dans les scénarios de dialogue du monde réel.
- Synthèse vocale plus naturelle : Génération de voix de qualité supérieure et de type humain dans plusieurs langues, en particulier en chinois et dans des contextes multilingues, avec une prosodie, un rythme et des pauses améliorés qui reflètent fidèlement la parole humaine naturelle.
- Compréhension approfondie des images : Des performances révolutionnaires dans les tâches de raisonnement visuel, notamment +4,7 sur MMMU, +4,8 sur MMMU-Pro et +2,2 sur MathVision_full, démontrant une meilleure capacité à « voir », à interpréter et à raisonner sur des contenus visuels complexes, des diagrammes aux figures mathématiques.
- Compréhension vidéo plus cohérente : Amélioration constante de la compréhension sémantique des vidéos (MLVU +1,6), renforcée par une synchronisation audio-visuelle plus étroite, jetant des bases solides pour des conversations vidéo transparentes en temps réel.
Grâce à cette mise à niveau, Qwen3-Omni-Flash-2025-12-01 incarne véritablement la vision "Hear You. Vous voir. Follow Smarter", en offrant une expérience d'interaction avec l'IA plus naturelle, plus précise et plus vivante que jamais.
Pour les futures mises à jour, Alibaba cloud annonce : "Dans un avenir proche, nous ferons progresser le modèle sur plusieurs axes, y compris la RAS à plusieurs locuteurs, la ROC vidéo, l'apprentissage proactif audio-vidéo, et nous améliorerons la prise en charge des flux de travail basés sur l'agent et l'appel de fonction."
Cette annonce intervient alors que les modèles d'intelligence artificielle (IA) open source chinois ont considérablement étendu leur présence à l'échelle mondiale, leur taux d'adoption passant de 13 % à près de 30 % de l'utilisation totale en 2025, principalement grâce à Qwen et DeepSeek. Cette tendance a été documentée dans le rapport "State of AI" d'OpenRouter, qui a analysé plus de 100 000 milliards de jetons sur plus de 300 modèles, révélant ainsi le passage d'une domination propriétaire à une concurrence pluraliste et open source à l'échelle mondiale.
Une situation qui aurait poussé le PDG de Nvidia, Jensen Huang, a déclaré au Financial Times que « la Chine va gagner la course à l'IA ». Plusieurs heures après la publication du rapport du FT, Nvidia a publié une déclaration nettement plus modérée et séparée de Jensen sur un compte X officiel. « Comme je le dis depuis longtemps, la Chine est à quelques nanosecondes derrière les États-Unis en matière d'IA. Il est essentiel que les États-Unis prennent l'avantage en devançant leurs concurrents et en attirant les développeurs du monde entier », a-t-il ajouté.
Source : Accéder à Qwen
Et vous ?
Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?Voir aussi :
Alibaba a lancé Qwen3-Next, une toute nouvelle architecture de modèle d'IA optimisée pour la compréhension de contextes longs, les paramètres à grande échelle et une efficacité de calcul sans précédent
Le président Donald Trump a approuvé l'exportation des puces d'IA avancées H200 de Nvidia vers la Chine, imposant une taxe US de 25 % sur les ventes pour augmenter les recettes et assouplir les restrictions
La surcapacité énergétique de la Chine accélère le déploiement de centres de données et l'innovation dans le domaine de l'IA, au point que des chercheurs US craignent que la course à l'IA soit déjà perdue
Vous avez lu gratuitement 18 282 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.