La sortie de GPT-4, la prochaine version du modèle de langage d'OpenAI, serait imminente. Bien qu'aucune date de sortie n'a encore été annoncée jusque-là, OpenAI a donné quelques indications sur les caractéristiques du successeur de GPT-3. Ainsi, contrairement à ce à quoi beaucoup pourraient s'attendre, GPT-4 ne devrait pas être plus grand que GPT-3, mais devrait utiliser plus de ressources de calcul, ce qui limitera son impact environnemental. GPT-4 ne devrait pas non plus être une IA multimodale, et devrait prendre en charge uniquement les données textuelles.En mai 2020, OpenAI, la société d'IA cofondée par Elon Musk et Sam Altman, publiait GPT-3, présenté alors comme le grand réseau neuronal de l'époque. Modèle de langage de pointe, GPT-3 comprend 175 milliards de paramètres contre 1,5 milliard de paramètres pour son prédécesseur GPT-2. GPT-3 a battu le modèle NLG Turing (Turing Natural Language Generation) de Microsoft avec 17 milliards de paramètres qui détenait auparavant le record du plus grand réseau neuronal. Le modèle de langage a été émerveillé, critiqué et même soumis à un examen approfondi ; il a également trouvé de nouvelles applications intéressantes.
Les trois modèles ont été publiés à un an d'intervalle : GPT-1 est sorti en 2018, GPT-2 en 2019 et GPT-3 en 2020. Si cette tendance devait se confirmer d'une version à l'autre, GPT-4 devrait déjà être là. Ce n'est pas le cas, mais le PDG d'OpenAI, Sam Altman, a déclaré il y a quelques mois que GPT-4 allait arriver. Selon la rumeur, la date de sortie serait prévue pour 2022, probablement entre juillet et août. Altman a organisé une séance de questions-réponses à la fin de l'année dernière et a donné quelques indices sur ce que l'on peut attendre de GPT-4. Bien que ces informations manquent de précision, l'on peut prévoir les points suivants.
Taille du modèle : GPT-4 devrait être moins grand que GPT-3
Lors de la séance, Altman a laissé entendre que, contrairement à la croyance populaire, GPT-4 ne sera pas le plus grand modèle de langue. Il ne devrait pas être plus grand que GPT-3. Le modèle sera certainement plus grand que les générations précédentes de réseaux neuronaux, mais la taille ne sera pas son signe distinctif. Il se situera probablement quelque part entre GPT-3 et Gopher (entre 175 et 280 milliards de paramètres). Selon Altman, un modèle plus grand ne signifie pas toujours un modèle plus performant. L'existence de modèles plus petits qui sont meilleurs a deux implications.
Premièrement, les entreprises ont réalisé que l'utilisation de la taille du modèle comme proxy pour améliorer les performances n'est pas la seule façon de le faire ni la meilleure. En 2020, Jared Kaplan, d'OpenAI, et ses collègues auraient conclu que les performances s'améliorent le plus lorsque les augmentations du budget de calcul sont principalement allouées à l'augmentation du nombre de paramètres, suivant une relation de type loi de puissance. Google, Nvidia, Microsoft, OpenAI, DeepMind et d'autres entreprises développant des modèles de langage ont pris ces directives pour argent comptant.
Mais MT-NLG (Megatron-Turing NLG, un réseau neuronal construit par Nvidia et Microsoft l'année dernière avec 530 milliards de paramètres), aussi gros qu'il soit, n'est pas le meilleur en matière de performances. En fait, l'on estime qu'il n'est le meilleur dans aucune catégorie de référence. Des modèles plus petits, comme Gopher, ou Chinchilla (70 milliards de paramètres) - à peine une fraction de sa taille - seraient bien meilleurs que MT-NLG dans toutes les tâches. Ainsi, il est devenu évident que la taille du modèle n'est pas le seul facteur permettant d'obtenir une meilleure compréhension du langage.
Ce qui amène à la deuxième implication. Les entreprises auraient commencé à rejeter le dogme : plus c'est gros, mieux c'est. Disposer de plus de paramètres ne serait qu'un facteur parmi d'autres qui peut améliorer les performances. Et les dommages collatéraux (par exemple, l'empreinte carbone, les coûts de calcul ou les barrières à l'entrée) en font l'un des pires facteurs à prendre en compte, bien qu'il soit très simple à mettre en œuvre. Les entreprises réfléchiront à deux fois avant de construire un modèle gigantesque lorsqu'elles peuvent obtenir des résultats similaires - voire meilleurs - avec un modèle plus petit.
L'optimalité : OpenAI veut tirer le meilleur parti de GPT-4
Selon Altman, les modèles de langage souffrent d'une limitation critique lorsqu'il s'agit d'optimisation. La formation serait si coûteuse que les entreprises doivent faire des compromis entre la précision et le coût. Il en résulte souvent que les modèles sont nettement sous-optimisés. Le PDG a indiqué que GPT-3 n'a été entraîné qu'une seule fois, malgré quelques erreurs qui, dans d'autres cas, auraient conduit à un nouvel entraînement. De ce fait, OpenAI aurait...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.