IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Rapport technique Microsoft Phi-3 : un modèle de langage très performant en local sur votre téléphone
Qui rivalise avec Llama 3, Mixtral et GPT-3.5, et assez petit pour être déployé sur un téléphone

Le , par Jade Emy

10PARTAGES

6  0 
Microsoft présente Phi-3, un modèle de langage en local sur votre téléphone. Selon les tests de Microsoft, Phi-3 rivaliserait avec Llama 3, Mixtral et GPT-3.5.

Un grand modèle de langage (LLM) est un modèle de langage remarquable pour sa capacité à réaliser une génération de langage à usage général et d'autres tâches de traitement du langage naturel telles que la classification. Les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de documents textuels au cours d'un processus d'apprentissage auto-supervisé et semi-supervisé à forte intensité de calcul. Les LLM peuvent être utilisés pour la génération de texte, une forme d'IA générative, en prenant un texte en entrée et en prédisant de manière répétée le prochain mot ou token.

Microsoft présente Phi-3-mini, un modèle de langage de 3,8 milliards de paramètres entraîné sur 3,3 trillions de tokens, dont les performances globales, mesurées à la fois par des benchmarks académiques et des tests internes, rivalisent avec celles de modèles tels que Mixtral 8x7B et GPT-3.5 (par exemple, Phi-3-mini atteint 69 % sur MMLU et 8,38 sur MT-bench), bien qu'il soit suffisamment petit pour être déployé sur un téléphone.

L'innovation réside entièrement dans l'ensemble de données pour l'entraînement de Microsoft, une version agrandie de celle utilisée pour Phi-2, composée de données web fortement filtrées et de données synthétiques. Le modèle est également aligné en termes de robustesse, de sécurité et de format de discussion. Microsoft fournit également quelques résultats initiaux de mise à l'échelle des paramètres avec des modèles 7B et 14B entraînés pour 4,8T tokens, appelés Phi-3-small et Phi-3-medium, tous deux significativement plus performants que Phi-3-mini (par exemple, respectivement 75 % et 78 % sur MMLU, et 8,7 et 8,9 sur MT-bench).


Critères de référence académiques

Voici les résultats obtenus par Phi-3-mini sur des bancs d'essai open-source standard mesurant la capacité de raisonnement du modèle (à la fois le raisonnement par le bon sens et le raisonnement logique). Microsoft compare Phi-2 [JBA+23], Mistral-7b-v0.1 [JSM+23], Mixtral-8x7b [JSR+24], Gemma 7B [TMH+24], Llama-3-instruct-8b [AI23], et GPT-3.5. Tous les chiffres rapportés sont produits avec le même pipeline afin de garantir leur comparabilité.

Ces chiffres peuvent différer des autres chiffres publiés en raison de choix légèrement différents dans l'évaluation. Les invites et le nombre de tirs font partie d'un outil interne de Microsoft pour évaluer les modèles de langage et, en particulier, Microsoft n'a pas optimisé le pipeline pour les modèles Phi-3.


Source : "Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone"

Et vous ?

Pensez-vous que Microsoft Phi-3 est crédible ou pertinent ?
Quel est votre avis sur le sujet ?

Voir aussi :

Microsoft lance Phi-2, un petit LLM plus performant que Llama 2 et Mistral 7B. Il dépasserait le récent Gemini Nano 2 de Google

Microsoft présente phi-1, un modèle de génération de code plus léger et plus performant que GPT-3.5, attribuant cette performance à la « puissance des données de de haute qualité »

Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen et les modèles GPT-4 d'OpenAI et Gemini de Google

Une erreur dans cette actualité ? Signalez-nous-la !