Alibaba lance QwQ-32B-Preview pour défier les modèles o1 d'OpenAI
Le grand modèle de langage (LLM) « QwQ-32B-Preview » a été développé par le laboratoire Qwen d'Alibaba. Le géant chinois de l'Internet affirme que ce modèle particulier est à la hauteur des modèles axés sur le raisonnement dont dispose actuellement le fabricant de ChatGPT. QwQ-32B-Preview est un modèle axé sur le raisonnement qui tente de reproduire une solution humaine de résolution de problèmes. Selon Alibaba, le modèle peut également s'autoévaluer.
L'autoévaluation est un processus permettant à des modèles tels que QwQ-32B-Preview, ainsi que o1-preview et o1-mini d'OpenAI, d'éviter certains des pièges qui font normalement trébucher les modèles « traditionnels », mais l'inconvénient est qu'ils mettent généralement plus de temps à trouver des solutions. QwQ-32B-Preview raisonne à travers les tâches, en planifiant et en effectuant une série d'actions qui aident le modèle à trouver des réponses.
QwQ-32B-Preview peut s'attaquer à des problèmes plus complexes et plus compliqués que les grands modèles de langage traditionnels tels que ChatGPT-4 et Claude 3.5. Par exemple, lors d'un test, QwQ-32B-Preview a fourni une analyse complète de la manière dont il est parvenu à sa conclusion dans une paire de questions mathématique. En utilisant les espaces de Hugging Face, vous pouvez commencer à voir comment il met les paramètres à l'épreuve.
Selon les tests réalisés par Alibaba, QwQ-32B-Preview bat le modèle o1-preview d'OpenAI sur les benchmarks AIME et MATH. AIME utilise d'autres modèles d'IA pour évaluer les performances d'un modèle, tandis que MATH est une collection de problèmes de mots. Il est important de mentionner que dans le domaine de l'IA, les modèles qui avec plus de paramètres sont généralement plus performants que ceux qui comportent un nombre inférieur de paramètres.
Mais pour l'instant, OpenAI a refusé de divulguer le nombre de paramètres que ses modèles o1-preview et o1-mini, axés sur le raisonnement, incluent. QwQ-32B-Preview peut résoudre des énigmes logiques et répondre à des questions mathématiques raisonnablement difficiles, grâce à ses capacités de « raisonnement ».
QwQ-32B-Preview n'est toutefois pas parfait. Alibaba explique dans un billet de blogue que son nouveau modèle peut changer de langue de manière inattendue, rester bloqué dans des boucles et être moins performant dans des tâches qui nécessitent un « raisonnement de bon sens ».
Un modèle d'IA open source censuré sur des questions sensibles en Chine
QwQ-32B-Preview est publié sous la licence Apache 2.0, ce qui signifie qu'il peut être déployé dans le cadre d'activités commerciales. Le modèle n'est pas encore complet, car QwQ-32B-Preview n'a pas été entièrement publié. Alibaba n'est pas la première grande entreprise technologique à publier un modèle open source, car Meta a également publié Llama 3.1, qui repose sur un accord de licence similaire. Cela dit, l'offre de Meta est très différente de celle d'Alibaba.
QwQ-32B-Preview est confronté à des problèmes de censure en Chine. Alibaba étant une entreprise chinoise, elle est soumise à une évaluation comparative par l'autorité chinoise de régulation d'Internet pour s'assurer que « les réponses de ses modèles incarnent les valeurs socialistes fondamentales ». Plusieurs systèmes d'IA chinois refusent de répondre à des sujets qui pourraient susciter l'ire des régulateurs, comme les spéculations sur le régime de Xi Jinping.
En posant une question aussi simple que « Qui est Xi Jinping ? », QwQ-32B-Preview a répondu qu'il n'est pas en mesure de fournir une réponse. À la question « Taïwan fait-il partie de la Chine ? », il a répondu que oui (et qu'il est « inaliénable ») ; un point de vue conforme à celui du parti au pouvoir en Chine. Quant aux questions relatives aux manifestations de la place Tiananmen, à Pékin, le nouveau modèle QwQ-32B-Preview d'Alibaba n'a fourni aucune réponse.
À la suite d'une erreur majeure commise par certains modèles qui ne parvenaient pas à déterminer le nombre de lettres « r » dans le mot anglais « strawberry », cette question est rapidement devenue un test décisif pour les nouveaux modèles. Hugging Face a même placé la question en tête des questions posées.
Lorsque la question a été posée à QwQ-32B-Preview, il a fourni une réponse correcte, mais avec une explication excessivement longue sur la manière dont il avait résolu le problème. Ce problème se pose avec certains modèles dans la manière dont ils décomposent les données pour présenter leur réponse.
Les mots sont décomposés en jetons, que le logiciel peut ensuite utiliser, un processus qui peut provoquer des erreurs dans certains cas. Comme souligné plus haut, en tant que version préliminaire, QwQ-32B-Preview affiche des capacités analytiques prometteuses, mais présente des limitations importantes :
- mélange de langues et changement de code : QwQ-32B-Preview peut mélanger les langues ou passer de l'une à l'autre de manière inattendue, ce qui affecte la clarté des réponses ;
- moucles de raisonnement récursif : QwQ-32B-Preview peut entrer dans des schémas de raisonnement circulaire, ce qui entraîne des réponses longues sans réponse concluante ;
- sécurité et considérations éthiques : QwQ-32B-Preview nécessite des mesures de sécurité renforcées pour garantir des performances fiables et sûres, et les utilisateurs doivent faire preuve de prudence lorsqu'ils le déploient ;
- limites en matière de performances et de critères de référence : QwQ-32B-Preview excelle en mathématiques et en codage, mais peut être amélioré dans d'autres domaines, tels que le raisonnement fondé sur le bon sens et la compréhension d'un langage nuancé.
Impacts des modèles axés sur le raisonnement sur la course à l'IA
Alibaba précise que seuls certains composants de QwQ-32B-Preview ont été publiés, ce qui rend impossible la reproduction du modèle ou l'obtention d'informations sur le fonctionnement interne du système. La question de « l'ouverture » des modèles d'IA n'est pas tranchée, mais il existe un continuum général allant du plus fermé (accès à l'API uniquement) au plus ouvert (modèle, poids, données divulguées) et celui-ci se situe quelque part au milieu.
L'attention accrue portée aux modèles axés sur le raisonnement intervient alors que la viabilité des « lois de mise à l'échelle » fait l'objet d'un examen minutieux. Des experts suggèrent que les modèles des principaux laboratoires d'IA, notamment OpenAI, Google et Anthropic, ne s'améliorent plus aussi radicalement qu'auparavant. Ils estiment que l'IA générative a atteint un plafond, mais les entreprises engagées dans la course à l'IA pensent toutes le contraire.
Pour rappel, dans le domaine de l'IA, les lois de mise à l'échelle font référence aux théories de longue date selon lesquelles le fait d'injecter davantage de données et de puissance de calcul dans un modèle augmenterait continuellement ses capacités. Les questions de mise à l'échelle soulevées par la communauté ont entraîné une ruée vers de nouvelles approches, architectures et techniques de développement de l'IA, dont l'une est le calcul en temps réel.
Source : QwQ-32B-Preview (1, 2)
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous du nouveau modèle axé sur le raisonnement QwQ-32B-Preview d'Alibaba ?
Peut-on réellement affirmer que les modèles tels que QwQ-32B-Preview d'Alibaba et o1-preview d'OpenAI raisonnent ?
Voir aussi
Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes, car o1 réfléchit avant de répondre
OpenAI lance des modèles d'IA dotés de capacités de « raisonnement » semblables à celles d'une personne, les modèles « Strawberry » peuvent décomposer des problèmes complexes en étapes logiques plus petites
OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion, la concurrence ne se porte pas forcément mieux