IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Alibaba Cloud lance la série de modèles d'IA Qwen3.5-Omni, dotée de fonctionnalités multilingues et omnimodales, notamment la compréhension du texte, des images, de l'audio et des contenus audiovisuels

Le , par Alex

15PARTAGES

6  0 
Alibaba Cloud a présenté Qwen3.5-Omni, le dernier-né de sa gamme de grands modèles de langage, élargissant ainsi la série avec les modèles Qwen3.5-Omni-Plus et Qwen3.5-Omni-Plus-Realtime. Qwen3.5-Omni se positionne comme le principal modèle de langage omnimodal de l'entreprise, offrant une prise en charge intégrée de la compréhension du texte, des images, de l'audio et des contenus audiovisuels. L'architecture utilise le modèle Hybrid-Attention Mixture-of-Experts, le même que celui de Qwen3.5, pour ses composants Thinker et Talker. S'appuyant sur cette base, les modèles Qwen3.5-Omni permettent une entrée de contexte long de 256 000 jetons, traitent plus de 10 heures d'audio et gèrent plus de 400 secondes de vidéo 720p à une image par seconde.

Alibaba Cloud est une société de cloud computing, filiale du groupe Alibaba. Alibaba Cloud fournit des services de cloud computing aux entreprises en ligne et à l'écosystème de commerce électronique d'Alibaba. Alibaba Cloud propose des services cloud disponibles sur la base d'un paiement à l'utilisation, notamment des services de calcul élastique, de stockage de données, de bases de données relationnelles, de traitement de mégadonnées, de protection contre les attaques DDoS et de réseaux de diffusion de contenu (CDN).

Alibaba Cloud a également développé la famille de grands modèles de langage Qwen. De nombreuses variantes de Qwen sont distribuées sous forme de modèles à poids ouverts sous licence Apache 2.0, tandis que d'autres sont hébergées sur Alibaba Cloud. En juillet 2024, le South China Morning Post a rapporté que la plateforme de benchmarking SuperCLUE classait Qwen2-72B-Instruct derrière le GPT-4o d'OpenAI et le Claude 3.5 Sonnet d'Anthropic, mais devant les autres modèles chinois.

En février 2026, Alibaba a lancé Qwen3.5, rendant le modèle ouvert Qwen3.5-397B-A17B disponible pour la recherche et le développement. En tant que modèle natif de vision-langage, Qwen3.5-397B-A17B affiche d'excellents résultats dans les benchmarks, notamment en matière de raisonnement, de codage, de capacités d'agent et de compréhension multimodale. Sur cette base, le modèle introduit une architecture hybride innovante qui combine l'attention linéaire via des réseaux Gated Delta avec un système de mélange d'experts clairsemé. Bien que le modèle contienne au total 397 milliards de paramètres, seuls 17 milliards sont actifs lors de chaque inférence, ce qui permet d'optimiser à la fois l'efficacité et les coûts de calcul sans réduire les capacités du modèle.

Récemment, Alibaba Cloud a présenté Qwen3.5-Omni, le dernier-né de sa gamme de grands modèles de langage, élargissant ainsi la série avec les modèles Qwen3.5-Omni-Plus et Qwen3.5-Omni-Plus-Realtime. Qwen3.5-Omni se positionne comme le principal modèle de langage omnimodal de l'entreprise, offrant une prise en charge intégrée de la compréhension du texte, des images, de l'audio et des contenus audiovisuels. L'architecture utilise le modèle Hybrid-Attention Mixture-of-Experts, le même que celui de Qwen3.5, pour ses composants Thinker et Talker. La gamme comprend des modèles d'instruction aux capacités variées : Plus, Flash et Light.


S'appuyant sur cette base, les modèles Qwen3.5-Omni permettent une entrée de contexte long de 256 000 jetons, traitent plus de 10 heures d'audio et gèrent plus de 400 secondes de vidéo 720p à une image par seconde. Ces modèles sont pré-entraînés sur de vastes ensembles de données multimodales, comprenant plus de 100 millions d’heures de matériel audiovisuel, ce qui soutient leur génération et leur perception de contenu sur tous les formats.

En termes de prise en charge linguistique, Qwen3.5-Omni apporte des améliorations majeures avec la reconnaissance vocale pour 113 langues et dialectes, et la génération vocale dans 36 d’entre eux. Si ces améliorations multilingues élargissent sa portée, Qwen3.5-Omni-Plus surpasse également Gemini-3.1 Pro dans les tâches audio et égale ses performances en matière de compréhension audiovisuelle. La série propose un sous-titrage avancé, capable de descriptions de niveau scénario, de segmentation de scènes, d’horodatage et de cartographie détaillée des relations entre les personnages au sein du contenu audio. Les nouveaux modèles sont disponibles via des API hors ligne et en temps réel.

Voici l'annonce de Qwen3.5-Omni :

Qwen3.5-Omni : Évolution vers une IA générale (AGI) omnimodale native

Qwen3.5-Omni est la dernière génération de LLM entièrement omnimodal de Qwen, capable de comprendre du texte, des images, des fichiers audio et des contenus audiovisuels. Les modules Thinker et Talker de Qwen3.5-Omni adoptent tous deux le modèle Hybrid-Attention MoE. La série Qwen3.5-Omni comprend des versions Instruct en trois tailles : Plus, Flash et Light, prenant en charge des entrées de contexte long de 256k. Le modèle peut traiter plus de 10 heures d'entrée audio et plus de 400 secondes d'entrée audiovisuelle en 720p à 1 image par seconde.

Il est pré-entraîné de manière native et omnimodale sur d'énormes quantités de texte, de données visuelles et plus de 100 millions d'heures de données audiovisuelles, démontrant ainsi des capacités exceptionnelles de perception et de génération toutes modalités confondues. Par rapport à Qwen3-Omni, Qwen3.5-Omni offre des capacités multilingues considérablement améliorées, prenant en charge la reconnaissance vocale dans 113 langues/dialectes et la génération...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !