GPT-4 : la nouvelle version de l'IA de traitement du langage naturel d'OpenAI pourrait arriver cet été,

Il devrait être moins volumineux que GPT-3, mais beaucoup plus performant

Le 19 avril 2022 à 22:53, par Bill Fassinou

438PARTAGES

La sortie de GPT-4, la prochaine version du modèle de langage d'OpenAI, serait imminente. Bien qu'aucune date de sortie n'a encore été annoncée jusque-là, OpenAI a donné quelques indications sur les caractéristiques du successeur de GPT-3. Ainsi, contrairement à ce à quoi beaucoup pourraient s'attendre, GPT-4 ne devrait pas être plus grand que GPT-3, mais devrait utiliser plus de ressources de calcul, ce qui limitera son impact environnemental. GPT-4 ne devrait pas non plus être une IA multimodale, et devrait prendre en charge uniquement les données textuelles.

En mai 2020, OpenAI, la société d'IA cofondée par Elon Musk et Sam Altman, publiait GPT-3, présenté alors comme le grand réseau neuronal de l'époque. Modèle de langage de pointe, GPT-3 comprend 175 milliards de paramètres contre 1,5 milliard de paramètres pour son prédécesseur GPT-2. GPT-3 a battu le modèle NLG Turing (Turing Natural Language Generation) de Microsoft avec 17 milliards de paramètres qui détenait auparavant le record du plus grand réseau neuronal. Le modèle de langage a été émerveillé, critiqué et même soumis à un examen approfondi ; il a également trouvé de nouvelles applications intéressantes.

Les trois modèles ont été publiés à un an d'intervalle : GPT-1 est sorti en 2018, GPT-2 en 2019 et GPT-3 en 2020. Si cette tendance devait se confirmer d'une version à l'autre, GPT-4 devrait déjà être là. Ce n'est pas le cas, mais le PDG d'OpenAI, Sam Altman, a déclaré il y a quelques mois que GPT-4 allait arriver. Selon la rumeur, la date de sortie serait prévue pour 2022, probablement entre juillet et août. Altman a organisé une séance de questions-réponses à la fin de l'année dernière et a donné quelques indices sur ce que l'on peut attendre de GPT-4. Bien que ces informations manquent de précision, l'on peut prévoir les points suivants.

Taille du modèle : GPT-4 devrait être moins grand que GPT-3

Lors de la séance, Altman a laissé entendre que, contrairement à la croyance populaire, GPT-4 ne sera pas le plus grand modèle de langue. Il ne devrait pas être plus grand que GPT-3. Le modèle sera certainement plus grand que les générations précédentes de réseaux neuronaux, mais la taille ne sera pas son signe distinctif. Il se situera probablement quelque part entre GPT-3 et Gopher (entre 175 et 280 milliards de paramètres). Selon Altman, un modèle plus grand ne signifie pas toujours un modèle plus performant. L'existence de modèles plus petits qui sont meilleurs a deux implications.

Premièrement, les entreprises ont réalisé que l'utilisation de la taille du modèle comme proxy pour améliorer les performances n'est pas la seule façon de le faire ni la meilleure. En 2020, Jared Kaplan, d'OpenAI, et ses collègues auraient conclu que les performances s'améliorent le plus lorsque les augmentations du budget de calcul sont principalement allouées à l'augmentation du nombre de paramètres, suivant une relation de type loi de puissance. Google, Nvidia, Microsoft, OpenAI, DeepMind et d'autres entreprises développant des modèles de langage ont pris ces directives pour argent comptant.

Mais MT-NLG (Megatron-Turing NLG, un réseau neuronal construit par Nvidia et Microsoft l'année dernière avec 530 milliards de paramètres), aussi gros qu'il soit, n'est pas le meilleur en matière de performances. En fait, l'on estime qu'il n'est le meilleur dans aucune catégorie de référence. Des modèles plus petits, comme Gopher, ou Chinchilla (70 milliards de paramètres) - à peine une fraction de sa taille - seraient bien meilleurs que MT-NLG dans toutes les tâches. Ainsi, il est devenu évident que la taille du modèle n'est pas le seul facteur permettant d'obtenir une meilleure compréhension du langage.

Ce qui amène à la deuxième implication. Les entreprises auraient commencé à rejeter le dogme : plus c'est gros, mieux c'est. Disposer de plus de paramètres ne serait qu'un facteur parmi d'autres qui peut améliorer les performances. Et les dommages collatéraux (par exemple, l'empreinte carbone, les coûts de calcul ou les barrières à l'entrée) en font l'un des pires facteurs à prendre en compte, bien qu'il soit très simple à mettre en œuvre. Les entreprises réfléchiront à deux fois avant de construire un modèle gigantesque lorsqu'elles peuvent obtenir des résultats similaires - voire meilleurs - avec un modèle plus petit.

L'optimalité : OpenAI veut tirer le meilleur parti de GPT-4

Selon Altman, les modèles de langage souffrent d'une limitation critique lorsqu'il s'agit d'optimisation. La formation serait si coûteuse que les entreprises doivent faire des compromis entre la précision et le coût. Il en résulte souvent que les modèles sont nettement sous-optimisés. Le PDG a indiqué que GPT-3 n'a été entraîné qu'une seule fois, malgré quelques erreurs qui, dans d'autres cas, auraient conduit à un nouvel entraînement. De ce fait, OpenAI aurait décidé de ne pas le faire en raison des coûts inabordables, empêchant les chercheurs de trouver le meilleur ensemble d'hyperparamètres pour le modèle.

Une autre conséquence des coûts de formation élevés est que les analyses du comportement du modèle seraient restreintes. Selon un rapport, lorsque les chercheurs en intelligence artificielle ont conclu que la taille du modèle était la variable la plus pertinente pour améliorer les performances, ils n'ont pas pris en compte le nombre de jetons d'apprentissage, c'est-à-dire la quantité de données fournies aux modèles. Cela aurait nécessité des quantités extraordinaires de ressources informatiques. Les entreprises technologiques auraient suivi les conclusions des chercheurs parce que c'était ce qu'elles avaient de mieux.

Mais selon des analystes, Google, Microsoft, Facebook et d'autres ont "gaspillé" des millions de dollars pour des modèles de plus en plus grands - générant ainsi de grandes quantités de pollution - motivés précisément par des restrictions économiques. Aujourd'hui, les entreprises, avec DeepMind et OpenAI en tête, exploreraient d'autres approches. Elles essaieraient de trouver des modèles optimaux plutôt que des modèles plus grands.

OpenAI travaillerait sur un paramétrage optimal de GPT-4

Le mois dernier, Microsoft et OpenAI ont prouvé que GPT-3 pouvait encore être amélioré s'ils entraînaient le modèle avec des hyperparamètres optimaux. Ils auraient constaté qu'une version de GPT-3 avec seulement 6,7 milliards de paramètres augmentait tellement ses performances qu'elle était comparable au modèle GPT-3 original de 13 milliards de paramètres. L'ajustement des hyperparamètres - irréalisable pour les modèles plus grands - a entraîné une augmentation des performances équivalente au doublement du nombre de paramètres. Ils auraient ainsi trouvé une nouvelle paramétrisation (μP).

Dans le cadre de cette dernière, les meilleurs hyperparamètres pour un petit modèle étaient également les meilleurs pour un plus grand modèle de la même famille. μP aurait permis d'optimiser des modèles de taille arbitraire pour une fraction minuscule du coût de formation. Les hyperparamètres pourraient ensuite être transférés pratiquement sans coût au modèle plus grand. OpenAI devrait prendre en compte ces points dans GPT-4.

GPT-4 devrait utiliser beaucoup plus de calculs que GPT-3

Altman a déclaré que GPT-4 utilisera beaucoup plus de calcul que son prédécesseur. OpenAI devrait implémenter des idées liées à l'optimalité dans GPT-4 - bien que l'on ne puisse pas prévoir dans quelle mesure, puisque leur budget est inconnu. Cependant, les déclarations d'Altman montrent qu'OpenAI devrait se concentrer sur l'optimisation d'autres variables que la taille du modèle. Trouver le meilleur ensemble d'hyperparamètres, la taille optimale du modèle et le nombre de paramètres pourrait entraîner des améliorations incroyables dans tous les benchmarks.

Selon les analystes, toutes les prédictions pour les modèles de langage tomberont à l'eau si ces approches sont combinées en un seul modèle. Altman a également déclaré que les gens ne croiraient pas à quel point les modèles peuvent être meilleurs sans être forcément plus grands. Il suggère peut-être que les efforts de mise à l'échelle sont terminés pour le moment.

Multimodalité : GPT-4 devrait être un modèle uniquement textuel

Selon les analystes, l'avenir de l'apprentissage profond réside probablement dans les modèles multimodaux. Le cerveau humain est...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

GPT-4 : la nouvelle version de l'IA de traitement du langage naturel d'OpenAI pourrait arriver cet été,

Il devrait être moins volumineux que GPT-3, mais beaucoup plus performant

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

GPT-4 : la nouvelle version de l'IA de traitement du langage naturel d'OpenAI pourrait arriver cet été, Il devrait être moins volumineux que GPT-3, mais beaucoup plus performant

GPT-4 : la nouvelle version de l'IA de traitement du langage naturel d'OpenAI pourrait arriver cet été,

Il devrait être moins volumineux que GPT-3, mais beaucoup plus performant