Alibaba Cloud lance la série de modèles d'IA Qwen3.5-Omni, dotée de fonctionnalités multilingues et omnimodales, notamment la compréhension du texte, des images, de l'audio et des contenus audiovisuels

Le 1^er avril 2026 à 09:48, par Alex

231PARTAGES

Alibaba Cloud lance la série de modèles d'IA Qwen3.5-Omni, dotée de fonctionnalités multilingues et omnimodales, notamment la compréhension du texte, des images, de l'audio et des contenus audiovisuels

Alibaba Cloud a présenté Qwen3.5-Omni, le dernier-né de sa gamme de grands modèles de langage, élargissant ainsi la série avec les modèles Qwen3.5-Omni-Plus et Qwen3.5-Omni-Plus-Realtime. Qwen3.5-Omni se positionne comme le principal modèle de langage omnimodal de l'entreprise, offrant une prise en charge intégrée de la compréhension du texte, des images, de l'audio et des contenus audiovisuels. L'architecture utilise le modèle Hybrid-Attention Mixture-of-Experts, le même que celui de Qwen3.5, pour ses composants Thinker et Talker. S'appuyant sur cette base, les modèles Qwen3.5-Omni permettent une entrée de contexte long de 256 000 jetons, traitent plus de 10 heures d'audio et gèrent plus de 400 secondes de vidéo 720p à une image par seconde.

Alibaba Cloud est une société de cloud computing, filiale du groupe Alibaba. Alibaba Cloud fournit des services de cloud computing aux entreprises en ligne et à l'écosystème de commerce électronique d'Alibaba. Alibaba Cloud propose des services cloud disponibles sur la base d'un paiement à l'utilisation, notamment des services de calcul élastique, de stockage de données, de bases de données relationnelles, de traitement de mégadonnées, de protection contre les attaques DDoS et de réseaux de diffusion de contenu (CDN).

Alibaba Cloud a également développé la famille de grands modèles de langage Qwen. De nombreuses variantes de Qwen sont distribuées sous forme de modèles à poids ouverts sous licence Apache 2.0, tandis que d'autres sont hébergées sur Alibaba Cloud. En juillet 2024, le South China Morning Post a rapporté que la plateforme de benchmarking SuperCLUE classait Qwen2-72B-Instruct derrière le GPT-4o d'OpenAI et le Claude 3.5 Sonnet d'Anthropic, mais devant les autres modèles chinois.

En février 2026, Alibaba a lancé Qwen3.5, rendant le modèle ouvert Qwen3.5-397B-A17B disponible pour la recherche et le développement. En tant que modèle natif de vision-langage, Qwen3.5-397B-A17B affiche d'excellents résultats dans les benchmarks, notamment en matière de raisonnement, de codage, de capacités d'agent et de compréhension multimodale. Sur cette base, le modèle introduit une architecture hybride innovante qui combine l'attention linéaire via des réseaux Gated Delta avec un système de mélange d'experts clairsemé. Bien que le modèle contienne au total 397 milliards de paramètres, seuls 17 milliards sont actifs lors de chaque inférence, ce qui permet d'optimiser à la fois l'efficacité et les coûts de calcul sans réduire les capacités du modèle.

Récemment, Alibaba Cloud a présenté Qwen3.5-Omni, le dernier-né de sa gamme de grands modèles de langage, élargissant ainsi la série avec les modèles Qwen3.5-Omni-Plus et Qwen3.5-Omni-Plus-Realtime. Qwen3.5-Omni se positionne comme le principal modèle de langage omnimodal de l'entreprise, offrant une prise en charge intégrée de la compréhension du texte, des images, de l'audio et des contenus audiovisuels. L'architecture utilise le modèle Hybrid-Attention Mixture-of-Experts, le même que celui de Qwen3.5, pour ses composants Thinker et Talker. La gamme comprend des modèles d'instruction aux capacités variées : Plus, Flash et Light.

S'appuyant sur cette base, les modèles Qwen3.5-Omni permettent une entrée de contexte long de 256 000 jetons, traitent plus de 10 heures d'audio et gèrent plus de 400 secondes de vidéo 720p à une image par seconde. Ces modèles sont pré-entraînés sur de vastes ensembles de données multimodales, comprenant plus de 100 millions d’heures de matériel audiovisuel, ce qui soutient leur génération et leur perception de contenu sur tous les formats.

En termes de prise en charge linguistique, Qwen3.5-Omni apporte des améliorations majeures avec la reconnaissance vocale pour 113 langues et dialectes, et la génération vocale dans 36 d’entre eux. Si ces améliorations multilingues élargissent sa portée, Qwen3.5-Omni-Plus surpasse également Gemini-3.1 Pro dans les tâches audio et égale ses performances en matière de compréhension audiovisuelle. La série propose un sous-titrage avancé, capable de descriptions de niveau scénario, de segmentation de scènes, d’horodatage et de cartographie détaillée des relations entre les personnages au sein du contenu audio. Les nouveaux modèles sont disponibles via des API hors ligne et en temps réel.

Voici l'annonce de Qwen3.5-Omni :

Qwen3.5-Omni : Évolution vers une IA générale (AGI) omnimodale native

Qwen3.5-Omni est la dernière génération de LLM entièrement omnimodal de Qwen, capable de comprendre du texte, des images, des fichiers audio et des contenus audiovisuels. Les modules Thinker et Talker de Qwen3.5-Omni adoptent tous deux le modèle Hybrid-Attention MoE. La série Qwen3.5-Omni comprend des versions Instruct en trois tailles : Plus, Flash et Light, prenant en charge des entrées de contexte long de 256k. Le modèle peut traiter plus de 10 heures d'entrée audio et plus de 400 secondes d'entrée audiovisuelle en 720p à 1 image par seconde.

Il est pré-entraîné de manière native et omnimodale sur d'énormes quantités de texte, de données visuelles et plus de 100 millions d'heures de données audiovisuelles, démontrant ainsi des capacités exceptionnelles de perception et de génération toutes modalités confondues. Par rapport à Qwen3-Omni, Qwen3.5-Omni offre des capacités multilingues considérablement améliorées, prenant en charge la reconnaissance vocale dans 113 langues/dialectes et la génération vocale dans 36 langues/dialectes. Il est actuellement disponible via l'API hors ligne et l'API en temps réel.

Hors ligne

Qwen3.5-Omni-Plus a obtenu des résultats de pointe (SOTA) sur 215 sous-tâches et benchmarks de compréhension, de raisonnement et d'interaction audio et audiovisuelle, couvrant 3 benchmarks audiovisuels, 5 benchmarks audio, 8 benchmarks ASR, 156 tâches S2TT spécifiques à une langue et 43 tâches ASR spécifiques à une langue. Il surpasse notamment Gemini-3.1 Pro en matière de compréhension audio générale, de raisonnement, de reconnaissance, de traduction et de dialogue, tandis que sa compréhension audiovisuelle globale atteint le niveau de Gemini-3.1 Pro. Parallèlement, ses capacités visuelles et textuelles sont comparables à celles des modèles Qwen3.5 de même taille.

L'une des fonctionnalités phares de Qwen3.5-Omni-Plus est sa capacité de sous-titrage audio et audiovisuel, qui permet de générer des sous-titres contrôlables, détaillés et structurés, ainsi que des descriptions fines de niveau scénario, incluant la segmentation automatique, l'annotation d'horodatage et des descriptions détaillées des personnages et de leur relation avec l'audio. De plus, grâce à la mise à l'échelle multimodale native, nous avons observé l'émergence d'une nouvelle capacité dans les modèles omnimodaux : la réalisation directe de codage basé sur des instructions audiovisuelles, que nous appelons « Audio-Visual Vibe Coding » ; toutes les fonctionnalités ci-dessus sont disponibles via l'API hors ligne.

Temps réel

Au-delà de ses solides capacités de base, nous nous sommes également concentrés sur l'amélioration des capacités interactives de Qwen3.5-Omni. Premièrement, nous prenons en charge l'interruption sémantique en développant une reconnaissance native des intentions de prise de parole basée sur Omni, ce qui évite les interruptions causées par les réactions de confirmation et les bruits de fond insignifiants ; cette fonctionnalité est déjà prise en charge en natif dans l'API. Deuxièmement, nous prenons en charge en natif les fonctionnalités WebSearch et FunctionCall complexes, permettant au modèle de décider de manière autonome s'il doit invoquer WebSearch pour répondre aux questions des utilisateurs en temps réel.

Troisièmement, nous prenons en charge le contrôle vocal et le dialogue de bout en bout, ce qui permet au modèle de suivre des instructions comme un humain et de contrôler librement des aspects tels que le volume, la vitesse et l’émotion de la parole. Quatrièmement, Qwen3.5-Omni prend en charge le clonage vocal, permettant aux utilisateurs de télécharger une voix pour personnaliser celle de l’assistant IA ; toutes les fonctionnalités ci-dessus sont disponibles via l’API en temps réel. Les utilisateurs peuvent également modifier l'invite du système pour changer le comportement du modèle, tel que son style conversationnel ou son identité.

Cinquièmement, pour remédier à l'instabilité de la parole dans les interactions vocales en continu causée par des différences d'efficacité d'encodage entre les tokens de texte et de parole — telles que les omissions, les erreurs de lecture ou la prononciation imprécise des chiffres —, nous proposons ARIA (Adaptive Rate Interleave Alignment), une technique qui aligne dynamiquement les unités de texte et de parole. Tout en préservant les performances en temps réel, ARIA améliore considérablement le naturel et la robustesse de la synthèse vocale.

Architecture

Qwen3.5-Omni continue d'adopter l'architecture Thinker-Talker. Le Thinker reçoit des signaux visuels et audio via le Vision Encoder et l'AuT, tandis que les signaux audiovisuels sont entrelacés et encodés avec des informations de position à l'aide de TMRoPE. Le Thinker est chargé de traiter les signaux omnimodaux et de générer du texte, tandis que le Talker reçoit les entrées multimodales et les sorties textuelles du Thinker pour effectuer la génération de parole contextuelle. Les représentations de la parole sont encodées à l'aide de la méthode RVQ proposée dans Qwen3-Omni, remplaçant ainsi les opérations DiT, très gourmandes en ressources de calcul.

Grâce à la conception de l'entrée en flux par blocs et à la conception du Talker en flux, l'ensemble du modèle prend en charge l'interaction en temps réel. Contrairement à l'entrée à double voie du Talker dans la génération précédente de Qwen3-Omni, le Talker adopte l'ARIA (Adaptive Rate Interleave Alignment) dans l'organisation de ses entrées pour aligner dynamiquement les unités de texte et de parole, puis les entrelacer, évitant ainsi l'instabilité de la parole causée par les différences d'efficacité d'encodage des tokens de texte et de parole, telles que les omissions, les erreurs de lecture ou la prononciation imprécise des chiffres.

La sortie des modèles d'Alibaba Cloud s'est accérélée depuis qu'un rapport de septembre 2025 a révélé que la division cloud computing du groupe Alibaba aurait développé une nouvelle puce plus avancée que ses produits existants. La nouvelle avait frappé les marchés, le titre du géant du commerce électronique ayant progressé alors que les actions des fabricants de puces américains avaient largement reculé. Son PDG, Eddie Wu, avait notamment déclaré : « Le groupe Alibaba dispose de deux opportunités historiques pour construire une plateforme technologique centrée sur l'IA et le cloud et pour créer une plateforme complète de services de consommation pour les achats et la vie quotidienne ».

Puis en octobre 2025, le groupe Alibaba a dévoilé Aegaeon, un nouveau système de mutualisation des GPU conçu pour réduire considérablement la dépendance au matériel Nvidia pour les charges de travail liées à l'intelligence artificielle (IA). Présenté lors d'un Symposium à Séoul, ce système permettrait de réduire l'utilisation des GPU de 82 %, faisant passer les besoins de 1 192 à 213 unités Nvidia H20 pour les modèles comportant jusqu'à 72 milliards de paramètres. Testé sur la place de marché des modèles d'Alibaba Cloud, Aegaeon permet à plusieurs modèles d'IA de partager un seul GPU, remédiant ainsi à certaines inefficacités du service de modèles à grande échelle. Ces différents rapports montrent que la Chine ne se laissera pas faire dans la bataille pour la domination de l'IA.

Source : Annonce de Qwen3.5-Omni

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Alibaba dévoile la dernière version de son modèle d'IA Qwen3-Max-Thinking pour concurrencer les meilleurs modèles d'IA tels que GPT 5.2-Thinking, Claude Opus 4.5 et Gemini 3 Pro

La start-up française Mistral AI lance Mistral Small 4, un modèle d'IA open source qui combine raisonnement, programmation et IA multimodale, pour offrir un outil unique et adaptable

La fuite concernant « Claude Mythos » d'Anthropic révèle le nouveau modèle d'IA le plus puissant jamais développé par l'entreprise en matière de raisonnement et de programmation, mais il comporte des risques

Vous avez lu gratuitement 39 455 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Alibaba Cloud lance la série de modèles d'IA Qwen3.5-Omni, dotée de fonctionnalités multilingues et omnimodales, notamment la compréhension du texte, des images, de l'audio et des contenus audiovisuels

Identifiant
Mot de passe

Mot de passe oublié ?