La dernière IA d'Alibaba, Qwen 1.5, bat GPT-3.5 et Claude dans plusieurs tests d'évaluation des performances,

Des critiques exigent une analyse approfondie de la méthodologie employée

Le 8 février 2024 à 16:22, par Bruno

20PARTAGES

La dernière IA d'Alibaba, Qwen 1.5, bat GPT-3.5 et Claude dans plusieurs tests d'évaluation des performances,
des critiques exigent une analyse approfondie de la méthodologie employée

En ce début d'année 2024, Alibaba Group, le géant technologique chinois, annonce la sortie de sa dernière version d'intelligence artificielle, Qwen 1.5, qui se positionne en compétition avec des modèles renommés tels que ChatGPT d'OpenAI et Claude d'Anthropic. Des tests partagés sur la plateforme de médias sociaux X révèlent que Qwen 1.5 surpasse ces concurrents dans certains benchmarks, notamment MT-bench et Alapaca-Eval, évaluant la capacité du modèle à répondre à des questions prédéfinies et à émuler des interactions humaines.

L'intelligence artificielle générative (IA) fait référence à l'utilisation d'algorithmes d'apprentissage automatique qui s'appuient sur du matériel existant, tel que du texte, de l'audio ou des images, pour créer un nouveau contenu. Les progrès récents dans ce domaine, associés à son accessibilité sans précédent, ont conduit de nombreuses personnes à le considérer comme un « changement de donne auquel la société et l'industrie doivent se préparer ».

L'année dernière, Alibaba Cloud a dévoilé son LLM, baptisé Tongyi Qianwen, proposant diverses versions avec des nombres de paramètres variés. Deux de ces versions, Qwen-7B et Qwen-7B-Chat, ont été spécialement conçues en taille réduite pour faciliter l'adoption de l'IA par les petites et moyennes entreprises. L'entreprise a affirmé que le code, les poids des modèles et la documentation de ces deux versions seraient librement accessibles aux universitaires, aux chercheurs et aux institutions commerciales du monde entier.

Qwen représente une série de modèles linguistiques de grande envergure développées par Alibaba Cloud, basés sur des transformateurs et pré-entraînés sur d'amples volumes de données, incluant des textes web, des ouvrages, du code, et autres.
Principales caractéristiques :

Déploiement économique : l'inférence nécessite une mémoire minimale, inférieure à 2 Go ;
Corpus d'entraînement étendu de haute qualité : les modèles sont préalablement entraînés sur plus de 2,2 billions de tokens, englobant des textes en chinois, anglais, et multilingues, ainsi que du code et des éléments mathématiques, couvrant des domaines généraux et spécialisés. La distribution du corpus de préformation est optimisée grâce à de nombreuses expériences d'ablation ;
Performances supérieures : Qwen prend en charge des contextes étendus (8K pour les modèles à 1,8b, 7b, et 14b paramètres, et 32K pour le modèle à 72b paramètres), surpassant significativement les modèles open-source existants de taille similaire dans diverses tâches d'évaluation en chinois et en anglais (comprenant le bon sens, le raisonnement, le code, les mathématiques, etc.) ;
Couverture vocabulaire étendue : Qwen utilise un vocabulaire de plus de 150 000 tokens, offrant une couverture plus complète par rapport à d'autres modèles open-source basés sur des vocabulaires chinois et anglais. Ceci le rend convivial pour les langues multiples, permettant aux utilisateurs d'améliorer directement les compétences linguistiques sans avoir à étendre le vocabulaire ;
Invite système : Qwen peut accomplir des jeux de rôle, des transferts de style linguistique, des tâches spécifiques, et adopter différents comportements à travers des invites système.

Les résultats démontrent que Qwen 1.5 se positionne parmi les meilleurs, rivalisant avec des modèles tels que GPT-4 Turbo et Yi-34B de HuggingFace. La nature open source de Qwen 1.5 facilite l'accès au code pour les utilisateurs et développeurs, encourageant la compréhension approfondie et la création de variantes personnalisées. En parallèle, d'autres acteurs majeurs, tels que Meta et leur modèle Llama, accordent une importance particulière à l'intelligence artificielle, investissant massivement dans l'augmentation de la capacité de calcul.

MT-bench teste la capacité d'un modèle à répondre à une série de questions prédéfinies qui cherchent non seulement à le différencier d'un chatbot, mais aussi à déterminer si le modèle peut "tenir le coup" dans un contexte conversationnel difficile qui implique deux parties s'engageant rapidement l'une avec l'autre. Les résultats de l'analyse comparative montrent que Qwen était le quatrième meilleur score dans MT-bench, et qu'il n'était qu'à la traîne de GPT-4 Turbo et des deux premières versions de GPT-4, à savoir les versions 0613 et 0314.

Alibaba releases Qwen 1.5

demo: https://t.co/goMcWMsIzT

largest open-source Qwen1.5-72B-Chat, exhibits superior performance, surpassing Claude-2.1, GPT-3.5-Turbo-0613, on both MT-Bench and Alpaca-Eval v2 pic.twitter.com/50dNuUpEBx
— AK (@_akhaliq) February 5, 2024

Les progrès rapides de la Chine dans le domaine de l'intelligence artificielle suscitent à la fois admiration et inquiétude. D'un côté, les accomplissements impressionnants de sociétés telles que Baidu, Alibaba et Tencent témoignent de l'engagement du pays à investir massivement dans la recherche et le développement de technologies de pointe. Ces avancées ont le potentiel de stimuler l'innovation à l'échelle mondiale et de favoriser des applications bénéfiques pour la société.

La validité et la représentativité des benchmarks utilisés pour évaluer Qwen 1.5 méritent une remise en question

Il est crucial de maintenir une vigilance quant à la validité et à la représentativité des benchmarks utilisés pour évaluer Qwen 1.5. Des critiques constructives requièrent une analyse approfondie de la méthodologie employée dans ces évaluations, en particulier en ce qui concerne la diversité des tâches et des données d'entraînement. Une transparence accrue sur ces aspects serait bénéfique pour renforcer la crédibilité des déclarations affirmant la supériorité de Qwen 1.5 par rapport à ses concurrents.

Cependant, ces réussites ne peuvent être dissociées des préoccupations éthiques et sociales. Les investissements massifs du gouvernement chinois soulèvent des questions sur la transparence et l'équité dans le développement de l'IA. Il est crucial de garantir que ces avancées technologiques soient utilisées de manière responsable, respectueuse des droits de l'homme et de la vie privée.

Une source majeure d'inquiétude réside dans l'utilisation de l'IA à des fins de surveillance de masse en Chine. Les modèles d'IA alimentent des systèmes de surveillance omniprésents, suscitant des préoccupations légitimes quant aux libertés individuelles et à la possibilité d'une surveillance excessive. Les implications de ces pratiques nécessitent une réflexion approfondie sur la manière dont la technologie est déployée et réglementée.

Source : Vidéo

Et vous ?

Quel est votre avis sur ce sujet ?

Les benchmarks sont-ils crédibles s'ils ne tiennent pas compte des implications éthiques et sociales de l'utilisation de Qwen 1.5 dans un contexte de surveillance de masse ?

Voir aussi :

Alibaba publie le modèle open source Qwen-72B LLM avec une longueur de contexte de 32k, ainsi que Qwen-Chat, qui surpassent les modèles de taille similaire sur les ensembles de données de référence

Alibaba, le géant technologique chinois, lance un modèle d'IA en libre accès pour tenter de concurrencer le Llama 2 de Meta

Vous avez lu gratuitement 907 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La dernière IA d'Alibaba, Qwen 1.5, bat GPT-3.5 et Claude dans plusieurs tests d'évaluation des performances,

Des critiques exigent une analyse approfondie de la méthodologie employée

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

La dernière IA d'Alibaba, Qwen 1.5, bat GPT-3.5 et Claude dans plusieurs tests d'évaluation des performances, Des critiques exigent une analyse approfondie de la méthodologie employée

La dernière IA d'Alibaba, Qwen 1.5, bat GPT-3.5 et Claude dans plusieurs tests d'évaluation des performances,

Des critiques exigent une analyse approfondie de la méthodologie employée