Un grand modèle de langage (LLM) est un modèle de langage remarquable pour sa capacité à réaliser une génération de langage à usage général et d'autres tâches de traitement du langage naturel telles que la classification. Les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de documents textuels au cours d'un processus d'apprentissage auto-supervisé et semi-supervisé à forte intensité de calcul. Les LLM peuvent être utilisés pour la génération de texte, une forme d'IA générative, en prenant un texte en entrée et en prédisant de manière répétée le prochain mot ou token.
Microsoft présente Phi-3-mini, un modèle de langage de 3,8 milliards de paramètres entraîné sur 3,3 trillions de tokens, dont les performances globales, mesurées à la fois par des benchmarks académiques et des tests internes, rivalisent avec celles de modèles tels que Mixtral 8x7B et GPT-3.5 (par exemple, Phi-3-mini atteint 69 % sur MMLU et 8,38 sur MT-bench), bien qu'il soit suffisamment petit pour être déployé sur un téléphone.
L'innovation réside entièrement dans l'ensemble de données pour l'entraînement de Microsoft, une version agrandie de celle utilisée pour Phi-2, composée de données web fortement filtrées et de données synthétiques. Le modèle est également aligné en termes de robustesse, de sécurité et de format de discussion. Microsoft fournit également quelques résultats initiaux de mise à l'échelle des paramètres avec des modèles 7B et 14B entraînés pour 4,8T tokens, appelés Phi-3-small et Phi-3-medium, tous deux significativement plus performants que Phi-3-mini (par exemple, respectivement 75 % et 78 % sur MMLU, et 8,7 et 8,9 sur MT-bench).
Critères de référence académiques
Voici les résultats obtenus par Phi-3-mini sur des bancs d'essai open-source standard mesurant la capacité de raisonnement du modèle (à la fois le raisonnement par le bon sens et le raisonnement logique). Microsoft compare Phi-2 [JBA+23], Mistral-7b-v0.1 [JSM+23], Mixtral-8x7b [JSR+24], Gemma 7B [TMH+24], Llama-3-instruct-8b [AI23], et GPT-3.5. Tous les chiffres rapportés sont produits avec le même pipeline afin de garantir leur comparabilité.
Ces chiffres peuvent différer des autres chiffres publiés en raison de choix légèrement différents dans l'évaluation. Les invites et le nombre de tirs font partie d'un outil interne de Microsoft pour évaluer les modèles de langage et, en particulier, Microsoft n'a pas optimisé le pipeline pour les modèles Phi-3.
Source : "Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone"
Et vous ?
Pensez-vous que Microsoft Phi-3 est crédible ou pertinent ?
Quel est votre avis sur le sujet ?
Voir aussi :
Microsoft lance Phi-2, un petit LLM plus performant que Llama 2 et Mistral 7B. Il dépasserait le récent Gemini Nano 2 de Google
Microsoft présente phi-1, un modèle de génération de code plus léger et plus performant que GPT-3.5, attribuant cette performance à la « puissance des données de de haute qualité »
Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen et les modèles GPT-4 d'OpenAI et Gemini de Google