Gopher : un modèle de langage de 280 milliards de paramètres

Risques éthiques et sociaux des grands modèles de langage

DeepMind est une entreprise spécialisée dans l'intelligence artificielle appartenant à Google. L'entreprise est remarquée notamment pour son programme de jeu de Go AlphaGo, et son logiciel AlphaFold, qui permet de prédire la structure des protéines à partir de leurs séquences en acides aminés. L’entreprise qui intègre régulièrement ses travaux dans les produits Google, a sondé les capacités de ces « grands modèles de langage » (ou LLM) en construisant un modèle de langage de 280 milliards de paramètres appelé Gopher. Les paramètres sont une mesure rapide de la taille et de la complexité d'un modèle de langage, ce qui signifie que Gopher est plus grand que le GPT-3 d'OpenAI (175 milliards de paramètres) mais pas aussi grand que certains systèmes plus expérimentaux, comme le modèle Megatron de Microsoft et Nvidia (530 milliards de paramètres).« Je pense qu'à l'heure actuelle, il semble que le modèle peut échouer de différentes manières », a déclaré Rae. Je pense que, pour cette catégorie de problèmes, les performances s'amélioreront avec davantage de données et d'échelle. » Mais, a-t-il ajouté, il existe « d'autres catégories de problèmes, comme le modèle qui perpétue des préjugés stéréotypés ou le modèle qui est incité à dire des faussetés, pour lesquels personne chez DeepMind ne pense que l'échelle sera la solution. Dans ces cas, les modèles de langage auront besoin de routines d'entraînement supplémentaires, comme les retours d'utilisateurs humains ».Pour parvenir à ces conclusions, les chercheurs de DeepMind ont évalué une série de modèles linguistiques de différentes tailles sur 152 tâches linguistiques ou points de référence. Ils ont constaté que les modèles de plus grande taille donnaient généralement de meilleurs résultats, Gopher lui-même offrant des performances de pointe sur environ 80 % des tests sélectionnés par les scientifiques.Dans le but d'explorer les modèles de langue et d'en développer de nouveaux, DeepMind a entraîné une série de modèles de langue transformateurs de différentes tailles, allant de 44 millions de paramètres à 280 milliards de paramètres.Les recherches ont porté sur les forces et les faiblesses de ces modèles de tailles différentes, mettant en évidence les domaines dans lesquels l'augmentation de l'échelle d'un modèle continue d'améliorer les performances, par exemple, dans des domaines tels que la compréhension de la lecture, la vérification des faits et l'identification du langage toxique. Les domaines où l'échelle du modèle n'améliore pas significativement les résultats ont également mis en évidence, par exemple, dans le raisonnement logique et les tâches de bon sens.Au cours des recherches, il a été constaté que les capacités de Gopher dépassent celles des modèles de langage existants pour un certain nombre de tâches clés. Il s'agit notamment du test de référence MMLU (Massive Multitask Language Understanding), où Gopher se rapproche considérablement des performances des experts humains par rapport aux travaux antérieurs. Outre l'évaluation quantitative de Gopher, l’équipe des chercheurs a également exploré le modèle par interaction directe. L'une de nos principales conclusions est que, lorsque Gopher est orienté vers une interaction de dialogue (comme dans un chat), le modèle peut parfois fournir une cohérence surprenante.L'IA connaît un changement de paradigme avec l'apparition de modèles (par exemple, BERT, DALL-E, GPT-3) qui sont entraînés sur de larges données à l'échelle et sont adaptables à un large éventail de tâches en aval. Il est essentiel d'avoir une vue d'ensemble des différents domaines de risque : une focalisation trop étroite sur un seul risque pris isolément peut aggraver d'autres problèmes.DeepMind a étudié le large éventail des inconvénients potentiels liés au déploiement des MLL. Il s'agit notamment de l'utilisation par les systèmes d'un langage toxique, de leur capacité à partager des informations erronées et de leur potentiel d'utilisation à des fins malveillantes, comme le partage de spam ou de propagande. Toutes ces questions deviendront de plus en plus importantes à mesure que les modèles linguistiques d'IA seront déployés à plus grande échelle en tant que chatbots et agents de vente, par exemple.Bien que les modèles de base soient basés sur l'apprentissage profond et l'apprentissage par transfert standard, leur échelle entraîne de nouvelles capacités émergentes et leur efficacité dans un grand nombre de tâches incite à l'homogénéisation. L'homogénéisation offre un puissant levier mais exige de la prudence, car les défauts du modèle de base sont hérités par tous les modèles adaptés en aval.Toutefois, il est bon de rappeler que les performances sur les bancs d'essai ne sont pas la panacée pour évaluer les systèmes d'apprentissage automatique. Dans un article récent, un certain nombre de chercheurs en IA (dont deux de Google) ont exploré les limites des benchmarks, en notant que ces ensembles de données auront toujours une portée limitée et ne pourront pas correspondre à la complexité du monde réel.Source : DeepMind Quel est votre avis sur le sujet ?