IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

La startup Cerebras publie Cerebras-GPT, une famille de modèles linguistiques de type ChatGPT en open-source
Les sept modèles GPT-3 établissent des records de précision et d'efficacité de calcul

Le , par Anthony

199PARTAGES

4  0 
La société Cerebras Systems, spécialisée dans les puces d'intelligence artificielle, a annoncé mardi qu'elle mettait à la disposition des chercheurs et des entreprises des modèles de type ChatGPT en code source libre, afin de favoriser la collaboration.

La société Cerebras, basée dans la Silicon Valley, a publié sept modèles, tous entraînés sur son supercalculateur d'intelligence artificielle Andromeda. Il s'agit de modèles linguistiques de 111 millions de paramètres et d'un modèle plus large de 13 milliards de paramètres.

"Il y a un grand mouvement pour fermer ce qui a été ouvert dans l'IA... ce n'est pas surprenant car il y a maintenant beaucoup d'argent dans ce domaine", a déclaré Andrew Feldman, fondateur et PDG de Cerebras. "L'enthousiasme de la communauté, les progrès que nous avons réalisés, sont dus en grande partie à l'ouverture de la communauté."

Les modèles comportant davantage de paramètres sont capables d'exécuter des fonctions génératives plus complexes.


Le chatbot ChatGPT d'OpenAI, lancé à la fin de l'année dernière, dispose par exemple de 175 milliards de paramètres et peut produire de la poésie et de la recherche, ce qui a contribué à susciter un grand intérêt et un financement important pour l'IA au sens large.

Selon M. Cerebras, les modèles les plus petits peuvent être déployés sur des téléphones ou des haut-parleurs intelligents, tandis que les plus grands fonctionnent sur des PC ou des serveurs, bien que les tâches complexes telles que le résumé de passages importants nécessitent des modèles plus grands.

Cependant, Karl Freund, consultant en puces chez Cambrian AI, a déclaré que ce qui est plus grand n'est pas toujours meilleur.

"Des articles intéressants qui ont été publiés montrent qu'un modèle plus petit peut être précis si vous l'entraînez davantage", a déclaré M. Freund. "Il y a donc un compromis entre un modèle plus grand et un modèle mieux formé."

Selon M. Feldman, l'entraînement de son plus grand modèle a pris un peu plus d'une semaine, un travail qui prend généralement plusieurs mois, grâce à l'architecture du système Cerebras, qui comprend une puce de la taille d'une assiette à dîner conçue pour l'entraînement à l'IA.

La plupart des modèles d'IA sont aujourd'hui formés sur les puces de Nvidia Corp, mais de plus en plus de startups comme Cerebras tentent de prendre des parts de ce marché.

Les modèles formés sur les machines de Cerebras peuvent également être utilisés sur les systèmes Nvidia pour une formation plus poussée ou une personnalisation, a déclaré M. Feldman.

Cerebras-GPT : une famille de grands modèles linguistiques ouverts pour favoriser la collaboration

[QUOTE]Résumé

Les modèles de langage de pointe sont extrêmement difficiles à former ; ils nécessitent d'énormes budgets de calcul, des techniques complexes de calcul distribué et une expertise approfondie en ML. Par conséquent, peu d'organisations entraînent de grands modèles de langage (LLM) à partir de zéro. Et de plus en plus, celles qui disposent des ressources et de l'expertise n'ouvrent pas leurs résultats, ce qui marque un changement significatif par rapport à il y a quelques mois.

Chez Cerebras, nous croyons qu'il faut favoriser l'accès libre aux modèles les plus avancés. Dans cette optique, nous sommes fiers d'annoncer la mise à disposition de la communauté open source de Cerebras-GPT, une famille de sept modèles GPT allant de 111 millions à 13 milliards de paramètres. Entraînés en utilisant la formule de Chinchilla, ces modèles offrent la plus grande précision pour un budget de calcul donné. Cerebras-GPT a des temps d'apprentissage plus rapides, des coûts d'apprentissage plus faibles et consomme moins d'énergie que n'importe quel autre modèle disponible à ce jour.

Tous les modèles ont été entraînés sur les systèmes CS-2 qui font partie du supercalculateur Andromeda AI en utilisant notre architecture simple de flux de poids parallèle aux données. Comme nous n'avons pas à nous préoccuper du partitionnement des modèles, nous avons pu entraîner ces modèles en quelques semaines seulement. L'entraînement de ces sept modèles nous a permis de dériver une nouvelle loi d'échelle. Les lois d'échelle prédisent la précision du modèle en fonction du budget de calcul de l'entraînement et ont eu une influence considérable sur l'orientation de la recherche en IA. À notre connaissance, Cerebras-GPT est la première loi d'échelle qui prédit la performance d'un modèle pour un ensemble de données publiques.

La version d'aujourd'hui est conçue pour être utilisée et reproductible par n'importe qui. Tous les modèles, poids et points de contrôle sont disponibles sur Hugging Face et GitHub sous la licence Apache 2.0. En outre, nous fournissons des informations détaillées sur nos méthodes d'entraînement et nos résultats de performance dans notre prochain article. Les systèmes Cerebras CS-2 utilisés pour l'entraînement sont également disponibles à la demande via Cerebras Model Studio.

Cerebras-GPT : Un nouveau modèle pour le développement d'un LLM ouvert

L'intelligence artificielle a le potentiel de transformer l'économie mondiale, mais son accès est de plus en plus limité. Le dernier grand modèle linguistique - le GPT4 d'OpenAI - a été publié sans aucune information sur l'architecture du modèle, les données d'entraînement, le matériel d'entraînement ou les hyperparamètres. Les entreprises construisent de plus en plus de grands modèles en utilisant des ensembles de données fermés et en offrant les résultats du modèle uniquement via un accès API.

Pour que les LLM soient une technologie ouverte et accessible, nous pensons qu'il est important d'avoir accès à des modèles de pointe ouverts, reproductibles et libres de droits pour la recherche et les applications commerciales. À cette fin, nous avons formé une famille de modèles de transformateurs en utilisant les dernières techniques et des ensembles de données ouvertes que nous appelons Cerebras-GPT. Ces modèles constituent la première famille de modèles GPT formés à l'aide de la formule de Chinchilla et publiés sous la licence Apache 2.0.


Figure 1. Comparaison de différents grands modèles linguistiques, de leur ouverture et de leur philosophie de formation.

Les grands modèles linguistiques peuvent être classés en deux catégories. Le premier groupe comprend des modèles tels que GPT-4 d'OpenAI et Chinchilla de DeepMind, qui sont entraînés sur des données privées pour atteindre le plus haut niveau de précision. Cependant, les poids entraînés et le code source de ces modèles ne sont pas accessibles au public. Le deuxième groupe comprend des modèles tels que OPT de Meta et Pythia d'Eleuther, qui sont open source mais ne sont pas entraînés de manière optimale pour le calcul.

Par "optimale en termes de calcul", nous faisons référence à la découverte de DeepMind selon laquelle les grands modèles de langage atteignent la plus grande précision pour un budget de calcul fixe lorsque 20 jetons de données sont utilisés pour chaque paramètre du modèle. Par conséquent, un modèle à un milliard de paramètres doit être formé sur 20 milliards de jetons de données pour atteindre des résultats optimaux pour un budget de formation fixe. C'est ce que l'on appelle parfois la "recette Chinchilla".

Cette constatation implique qu'il n'est pas optimal d'utiliser la même quantité de données d'apprentissage lors de l'apprentissage d'une famille de modèles de différentes tailles. Par exemple, l'entraînement d'un petit modèle avec trop de données se traduit par des rendements décroissants et des gains de précision moindres par FLOP - il serait préférable d'utiliser un modèle plus grand avec moins de données. À l'inverse, un grand modèle entraîné avec trop peu de données n'atteint pas son potentiel - il serait préférable de réduire la taille du modèle et de l'alimenter avec plus de données. Dans tous les cas, l'utilisation de 20 jetons par paramètre est optimale, conformément à la recette Chinchilla.


Figure 2. Cerebras-GPT vs. Pythia. Les courbes inférieures indiquent une plus grande efficacité de calcul pour un niveau de perte donné.

La suite de modèles libres Pythia d'EleutherAI est très précieuse pour la communauté des chercheurs car elle fournit un large éventail de tailles de modèles en utilisant l'ensemble de données public Pile dans le cadre d'une méthodologie d'apprentissage contrôlée. Cependant, Pythia a été entraîné avec un nombre fixe de tokens pour toutes les tailles de modèles, dans le but de fournir une base de référence comparable pour tous les modèles.

Conçu pour compléter Pythia, Cerebras-GPT a été conçu pour couvrir une large gamme de tailles de modèles en utilisant le même ensemble de données public Pile et pour établir une loi d'échelle et une famille de modèles efficaces en termes d'entraînement. Cerebras-GPT se compose de sept modèles avec 111 millions, 256 millions, 590 millions, 1,3 milliard, 2,7 milliards, 6,7 milliards et 13 milliards de paramètres, tous entraînés à l'aide de 20 jetons par paramètre. En utilisant les jetons d'entraînement optimaux pour chaque taille de modèle, Cerebras-GPT atteint la perte la plus faible par unité de calcul pour toutes les tailles de modèle (figure 2).

Nouvelle loi de mise à l'échelle

La formation d'un grand modèle linguistique peut être un processus long et coûteux. L'optimisation des performances du modèle nécessite une quantité importante de ressources informatiques et d'expertise. L'un des moyens de relever ce défi consiste à former une famille de modèles de tailles différentes, ce qui permet d'établir une loi d'échelle décrivant la relation entre le calcul de formation et les performances du modèle.


Figure 3. Loi d'échelle Cerebras-GPT

Les lois d'échelle sont essentielles au développement du LLM car elles permettent aux chercheurs de prédire la perte attendue d'un modèle avant l'entraînement, évitant ainsi une recherche...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de forthx
Membre éprouvé https://www.developpez.com
Le 04/04/2023 à 11:37
Un belle example de solution de co-design hard/soft (et de partage).

Merci pour ce résumé !
1  0