IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Microsoft présente phi-1, un modèle de génération de code plus léger et plus performant que GPT-3.5,
Attribuant cette performance à la « puissance des données de de haute qualité »

Le , par Stéphane le calme

128PARTAGES

4  0 
Microsoft a présenté phi-1, un nouveau modèle de génération de code qui se veut léger et performant. Le modèle, basé sur les Transformers, ne compte que 1,3 milliard de paramètres, contre 12 milliards pour Codex, le modèle d’OpenAI qui a servi de base à GitHub Copilot.

Des limites dans l'approche actuelle de la formation des LLM

OpenAI a réalisé une série d'avancées impressionnantes dans l'IA qui fonctionne avec le langage ces dernières années en prenant des algorithmes d'apprentissage automatique existants et en les faisant évoluer jusqu'à une taille inimaginable auparavant. GPT-4, le dernier de ces projets, a probablement été formé à l'aide de milliards de mots de texte et de plusieurs milliers de puces informatiques puissantes. Le processus a coûté plus de 100 millions de dollars.

Mais le PDG de la société, Sam Altman, affirme que de nouveaux progrès ne proviendront pas de l'agrandissement des modèles : « Je pense que nous sommes à la fin de l'ère où règneront ces modèles géants », a-t-il déclaré à un public lors d'un événement organisé au MIT à la fin de la semaine dernière. « Nous allons les rendre meilleurs par d'autres moyens ».

La déclaration d'Altman suggère une tournure inattendue dans la course au développement et au déploiement de nouveaux algorithmes d'IA. Depuis qu'OpenAI a lancé ChatGPT en novembre, Microsoft a utilisé la technologie sous-jacente pour ajouter un chatbot à son moteur de recherche Bing, et Google a lancé un chatbot rival appelé Bard. De nombreuses personnes se sont précipitées pour expérimenter l'utilisation de la nouvelle race de chatbot pour aider au travail ou à des tâches personnelles.

Pendant ce temps, de nombreuses startups bien financées, dont Anthropic, AI21, Cohere et Character.AI, consacrent d'énormes ressources à la construction d'algorithmes toujours plus grands dans le but de rattraper la technologie d'OpenAI. La version initiale de ChatGPT était basée sur une version légèrement améliorée de GPT-3, mais les utilisateurs peuvent désormais également accéder à une version alimentée par le GPT-4 plus performant.

La déclaration d'Altman suggère que GPT-4 pourrait être la dernière avancée majeure à émerger de la stratégie d'OpenAI consistant à agrandir les modèles et à leur fournir plus de données. Il n'a pas dit quel genre de stratégies ou de techniques de recherche pourraient prendre sa place. Dans l'article décrivant GPT-4, OpenAI indique que ses estimations suggèrent des rendements décroissants lors de l'augmentation de la taille du modèle. Altman a déclaré qu'il existe également des limites physiques au nombre de centres de données que l'entreprise peut construire et à la rapidité avec laquelle elle peut les construire.


Un argument qui « sonne vrai » pour le cofondateur de Cohere

Nick Frosst, cofondateur de Cohere qui travaillait auparavant sur l'IA chez Google, affirme que le sentiment d'Altman selon lequel « agrandir [le nombre de paramètres] ne fonctionnera pas indéfiniment » sonne vrai. Lui aussi pense que les progrès sur les transformateurs, le type de modèle d'apprentissage automatique au cœur de GPT-4 et de ses rivaux, vont au-delà de l'évolutivité. « Il existe de nombreuses façons de rendre les transformateurs bien meilleurs et plus utiles, et beaucoup d'entre eux n'impliquent pas l'ajout de paramètres au modèle », dit-il. Frosst dit que de nouvelles conceptions ou architectures de modèles d'IA et un réglage supplémentaire basé sur la rétroaction humaine sont des directions prometteuses que de nombreux chercheurs explorent déjà.

Viennent alors les chercheurs de Microsoft avec phi-1

Il a fallu aux chercheurs de Microsoft seulement quatre jours pour entraîner phi-1 en utilisant huit puces A100 de Nvidia. Le modèle a été entraîné sur six milliards de tokens provenant du web ainsi qu’un milliard de tokens supplémentaires générés à l’aide de GPT-3.5, l’un des modèles sous-jacents utilisés pour construire ChatGPT d’OpenAI.

En termes de performance, phi-1 a obtenu une précision de pass@1 de 50,6 % sur le benchmark HumanEval. Le modèle de Microsoft a battu StarCoder de Hugging Face et ServiceNow (33,6 %), GPT-3.5 d’OpenAI (47 %) et PaLM 2-S de Google (37,6 %) malgré sa taille nettement...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !