IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les benchmarks suggèrent que les modèles IA open source comblent l'écart avec les modèles propriétaires.
Les capacités de Llama 3 8b sont incroyables et se rapprochent de Wizard 2 8x22b, selon un ingénieur

Le , par Stéphane le calme

247PARTAGES

5  0 
Meta a lancé Llama-3 il y a quelques jours, et les benchmarks suggèrent que l'on arrive progressivement au point d'inflexion où les modèles open source comblent l'écart avec les modèles propriétaires. Selon les tests d'un ingénieur du CNRS, les performances de Llama 3 8b se rapprochent de celles de Wizard 2 8x22b, ce dernier modèle ayant pourtant 140 milliards de paramètres.

Meta a partagé les deux premiers modèles de la nouvelle génération de Llama, Meta Llama 3, disponible pour une large utilisation. Cette version propose des modèles de langage pré-entraînés et affinés par des instructions avec des paramètres 8B et 70B qui peuvent prendre en charge un large éventail de cas d'utilisation. Cette nouvelle génération de Llama démontre des performances de pointe sur une large gamme de références industrielles et offre de nouvelles capacités, y compris un raisonnement amélioré.

Meta affirme qu'il s'agit des meilleurs modèles open source de leur catégorie. En soutien à son approche ouverte de longue date, Meta déclare « mettre Llama 3 entre les mains de la communauté » : « Nous voulons donner le coup d'envoi à la prochaine vague d'innovation dans le domaine de l'IA, qu'il s'agisse d'applications, d'outils de développement, d'évaluations, d'optimisations de l'inférence ou de bien d'autres choses encore. Nous sommes impatients de voir ce que vous allez construire et nous attendons avec impatience vos commentaires », a ajouté Meta.

Les premiers benchmarks montrent que Llama-3 70B est assez proche de GPT-4 dans de nombreuses tâches
  • La page Meta officielle montre seulement que Llama-3 est plus performant que Gemini 1.5 et Claude Sonnet.
  • L'analyse artificielle montre que Llama-3 se situe entre Gemini-1.5 et Opus/GPT-4 pour la qualité.
  • Sur le LMSYS Chatbot Arena Leaderboard, Llama-3 est classé 5ème alors que les modèles actuels GPT-4 et Claude Opus sont toujours à égalité au 1er rang.

Le modèle Llama-3 400B+, encore plus puissant, est toujours en cours de formation et devrait surpasser GPT-4 et Opus dès sa sortie.

WizardLM-2 : le dernier modèle open source de Microsoft

La dernière version, WizardLM-2, se décline en trois versions :
  • WizardLM-2 8x22B : En tant que modèle le plus avancé de Microsoft, le WizardLM-2 8x22B démontre des performances hautement compétitives par rapport aux modèles propriétaires de premier plan tels que GPT-4. Le modèle 8x22B, qui est le modèle phare, compte 141 milliards de paramètres, ce qui en fait l'un des modèles les plus puissants disponibles dans la communauté open-source.
  • WizardLM-2 70B : Ce modèle atteint des capacités de raisonnement de premier ordre et est le premier choix dans la catégorie de taille de 70 milliards de paramètres. Il offre un excellent équilibre entre performances et ressources requises.
  • WizardLM-2 7B : Malgré sa taille plus petite, le WizardLM-2 7B est incroyablement rapide et atteint des performances comparables à celles de modèles open source dix fois plus grands. C’est un choix idéal pour les applications qui nécessitent de l’efficacité sans compromettre la qualité.

Développé sur la base d'une architecture de mélange d'experts (MoE), WizardLM-2 s'appuie sur un système de formation synthétique entièrement alimenté par l'IA, ce qui améliore sa capacité à gérer des conversations multilingues complexes et à effectuer des raisonnements de haut niveau. Ce système sous-tend la capacité du modèle à fournir des réponses raffinées et contextuellement pertinentes dans divers domaines, notamment l'écriture, le codage, les mathématiques, etc.

Performances et applications

Pour évaluer les performances de WizardLM-2, Microsoft a mené des évaluations automatiques et humaines approfondies sur divers benchmarks et scénarios réels. Les résultats parlent d’eux-mêmes :
  • MT-Bench : Le WizardLM-2 8x22B rivalise avec GPT-4 et Claude 3, se positionnant comme le modèle open source le plus performant dans sa catégorie de taille. De plus, il surpasse GPT-4 dans les évaluations humaines sur des instructions complexes. Son application dans les scénarios du monde réel est vaste, allant de l'amélioration de l'IA conversationnelle à l'alimentation de processus décisionnels complexes dans les environnements commerciaux.
  • AlpacaEval : Le WizardLM-13B-V1.2 atteint 89,17 %, dépassant le ChatGPT à 86,09 %.



Comparaison des benchmarks WizardLM2 avec GPT-4-1106-preview, Command R Plus, Mistral Large, Qwen 1.5, Straling LM 7B. Source : Page de lancement du modèle, désormais supprimée

WizardLM-2 a été retiré par Microsoft peu de temps après son lancement pour effectuer des tests de « toxicité », mais à ce moment-là, le modèle d’IA avait déjà été téléchargé, forké et réuploadé sur le web. On peut toujours utiliser ce modèle via LM Studio ou Openrouter.ai. Malgré le retrait rapide, le modèle a été favorablement comparé à une version de GPT-4 d’OpenAI. C'est d'ailleurs ce qui a permis à plusieurs curieux de mener des tests.

Invites de test pour l'évaluation de WizardLM-2 et GPT-4

À l'extérieur de Microsoft, plusieurs tests lui ont été soumis, notamment pour tester sa capacité de génération de texte (écriture créative, documentation technique), ses aptitudes à la conversation (via une simulation d'assistance à la clientèle, une discussion aléatoire), en codage et programmation (génération de code, explication de code), en mathématiques et raisonnement (résolution de problèmes mathématiques, raisonnement logique) et bien d'autres.

Par exemple, en codage et programmation, voici ce qui lui a été demandé.

Génération de code : écris un script Python qui lit un fichier CSV, calcule la moyenne des valeurs dans une colonne nommée 'Price', et imprime le résultat.

Réponse de WizardLM-2 : Voici un script Python qui lit un fichier CSV, suppose qu'il y a une colonne nommée 'Price', calcule la moyenne des valeurs de cette colonne, et imprime le résultat. Ce script utilise le module `csv` pour lire le fichier CSV et le module `math` pour les opérations mathématiques....
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Jules34
Membre émérite https://www.developpez.com
Le 30/09/2024 à 11:18
Mark, c'est pas la taille qui compte
Trouve déjà un débouché économique à ton metavers avant de repartir dans une autre folie dépensière ! /s
1  0 
Avatar de Zeeraptor
Membre régulier https://www.developpez.com
Le 06/11/2024 à 2:07
Il faut juste s'assurer que l'I.A ne deviennent pas un hacker ennemi de l'humanité
0  0 
Avatar de
https://www.developpez.com
Le 06/11/2024 à 9:10
https://www.futura-sciences.com/tech...guerre-117251/
Il n'y a d'ennemi de l'humanité que les humains eux-mêmes.
0  0