IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Présentation de Talkie : un modèle de langage 13B vintage datant de 1930, vous pouvez désormais discuter avec quelqu'un du passé qui n'a aucune connaissance du monde moderne

Le , par Jade Emy

102PARTAGES

9  0 
Les chercheurs en IA Nick Levine, David Duvenaud et Alec Radford présentent ci-dessous Talkie, un modèle de langage vintage de 13 milliards de paramètres datant de 1930.

L'intelligence artificielle (IA) est l'ensemble des systèmes informatiques capables d'effectuer des tâches typiquement associées à l'intelligence, telles que l'apprentissage, le raisonnement, la résolution de problèmes, la perception ou la prise de décision. L'intelligence artificielle est également le champ de recherche visant à développer de tels systèmes. L'IA est un domaine de l'informatique qui s'appuie sur des fondements mathématiques (statistiques, algèbre linéaire, probabilités) et des concepts issus des sciences cognitives. Elle vise à résoudre des problèmes à forte complexité logique ou algorithmique. Par extension, dans le langage courant, l'IA inclut les dispositifs imitant, simulant ou remplaçant l'homme dans certaines mises en œuvre de ses fonctions cognitives.

En traitement automatique des langues, un modèle de langage, modèle de langue ou modèle linguistique est un modèle statistique de la distribution de symboles distincts (lettres, phonèmes, mots) dans une langue naturelle ou un langage formel. Un modèle de langage vise fondamentalement à prédire le mot suivant dans une séquence de mots. Un grand modèle de langage (abrégé LLM de l'anglais large language model) est un modèle de langage possédant un grand nombre de paramètres (généralement plus d'un milliard).

Au lieu d'être entraînés pour une tâche spécifique comme l'analyse des sentiments, la reconnaissance d'entités nommées ou le raisonnement mathématique, ils peuvent accomplir un large éventail de tâches. Ils sont d'abord « pré-entraînés » à prédire une suite probable pour une entrée donnée. Cela leur permet d'acquérir une grande quantité de connaissances. La qualité du contenu généré semble augmenter régulièrement avec le nombre de paramètres, la taille et la qualité des données d'entraînement, ainsi que la quantité de calculs utilisée pour entraîner le modèle. Les grands modèles de langage sont ensuite le plus souvent entraînés par réglage fin (fine-tuning) pour adopter un rôle d'assistant conversationnel et afin d'être « utiles, sincères et inoffensifs ».

Les chercheurs en IA Nick Levine, David Duvenaud et Alec Radford présentent ci-dessous Talkie, un modèle de langage vintage de 13 milliards de paramètres datant de 1930.

Présentation de Talkie : un modèle de langage 13B vintage datant de 1930

Avez-vous déjà rêvé de parler à quelqu’un du passé ? Que demanderiez-vous à une personne qui n’a aucune connaissance du monde moderne ? Que vous demanderait-elle ? Bien que nous ne disposions pas encore de machines à remonter le temps, nous pouvons simuler cette expérience en entraînant, selon l’expression d’Owain Evans, des modèles de langage « vintage » : des modèles de langage (LM) entraînés uniquement sur des textes historiques.

Ces modèles sont des interlocuteurs passionnants. Mais nous sommes également enthousiasmés par la perspective que l'étude approfondie des comportements et des capacités des modèles de langage (LM) classiques puisse faire progresser notre compréhension de l'IA en général.


Par exemple, nous pouvons évaluer la capacité des modèles de langage à prédire l'avenir. Inspirés par les travaux de Calcifer Computing sur les modèles de langage temporels, nous avons calculé le degré de surprise de brèves descriptions d'événements historiques pour un modèle de 13 milliards de paramètres entraîné sur des textes antérieurs à 1931 (figure 1). Nous observons une augmentation après la limite de connaissances, particulièrement prononcée dans les années 1950 et 1960, suivie d'un plateau. Nous continuerons à développer des évaluations pour mesurer avec plus de certitude comment les performances de prévision s'améliorent avec la taille du modèle et diminuent à plus long terme. L'entraînement de modèles de langage vintage plus volumineux nous permettra de mettre en évidence ces tendances d'échelle.


De même, nous pouvons tester la capacité des modèles de langage à proposer de nouvelles idées en vérifiant s’ils peuvent aboutir à des inventions ou à des découvertes scientifiques dont nous savons qu’elles ont eu lieu après leur limite de connaissances, comme celles illustrées à la figure 2. Comme l’a demandé Demis Hassabis, un modèle entraîné jusqu’en 1911 pourrait-il découvrir de manière indépendante la relativité générale, comme Einstein l’a fait en 1915 ?


La contamination est un problème persistant pour les modèles de langage et nous conduit à surestimer leurs capacités. Les modèles de langage vintage sont, par construction, exempts de contamination, ce qui permet des expériences de généralisation uniques, comme examiner si un modèle n’ayant aucune connaissance des ordinateurs numériques peut apprendre à coder dans un langage de programmation moderne. La figure 3 (à gauche) montre un premier exemple d'un tel test, mesurant dans quelle mesure des modèles entraînés sur des textes antérieurs à 1931 sont capables, lorsqu'on leur fournit quelques exemples de programmes Python, d'écrire de nouveaux programmes corrects. Bien que les modèles vintage soient nettement moins performants que les modèles entraînés sur des données du Web (qui incluent du code), nous avons constaté qu'ils s'améliorent lentement mais sûrement dans cette tâche à mesure que l'échelle augmente.

Il reste toutefois un long chemin à parcourir avant que cette capacité ne soit notable. Toutes les solutions correctes générées par les modèles vintage sont de simples programmes d’une ligne (tels que l’addition de deux entrées), ou de petites modifications apportées à des exemples de programmes en contexte. Par exemple, notre modèle a implémenté la fonction de décodage d’un chiffrement par rotation lorsqu’on lui a fourni la fonction de codage. Bien que la solution (figure 3, côté droit) ne consiste qu'en une modification d'un seul caractère (remplacer une addition par une soustraction), ce succès suggère une compréhension des fonctions inverses. Nous espérons que les modèles de langage avec des limites de connaissances précoces aideront la communauté scientifique à comprendre dans quelle mesure les modèles de langage peuvent généraliser au-delà de leurs données de pré-entraînement.

Les modèles de langage vintage pourraient également nous éclairer sur l'impact de la diversité des données dans le développement de l'IA. Si les modèles modernes varient en termes de disposition, de capacités et de comportement, ils sont tous étroitement liés les uns aux autres du fait d’avoir été entraînés, directement ou indirectement (via la distillation et les données synthétiques), sur le Web. Comment cela façonne-t-il et limite-t-il ce qu’ils sont ? Dans quelle mesure ce que nous pensons savoir sur les modèles de langage concerne-t-il le langage et la culture humains en général, ou cet ensemble de données particulier — le Web — en particulier ? L'entraînement sur différentes sources peut conduire à la création de types de modèles très différents. Étudier leurs similitudes et leurs différences pourrait améliorer notre compréhension des personnalités, des comportements et des dispositions des modèles de langage.

Présentation de talkie

Nous avons été ravis de voir proliférer les projets de modèles de langage vintage, notamment Ranke-4B, Mr. Chatterbox et Machina Mirabilis.

Parallèlement à ces efforts, nous présentons talkie-1930-13b-base, un modèle linguistique de 13 milliards de paramètres entraîné sur 260 milliards de jetons de textes anglais historiques antérieurs à 1931. De plus, nous présentons un point de contrôle post-entraînement qui transforme notre modèle de base en un partenaire de conversation sans s'appuyer sur des transcriptions de chats modernes ou des données d'ajustement par instruction.

talkie est le plus grand modèle linguistique vintage dont nous ayons connaissance, et nous prévoyons de continuer à l'étendre de manière significative. Dans un deuxième temps, nous entraînons un modèle de niveau GPT-3, que nous espérons publier cet été. Une estimation préliminaire suggère également que nous...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !