Les grands modèles de langage ont fait preuve de capacités émergentes, démontrant des performances exceptionnelles dans diverses tâches pour lesquelles ils n'ont pas été explicitement formés, y compris celles qui requièrent des capacités de raisonnement complexes. L'émergence de telles capacités a de profondes implications pour l'orientation future de la recherche en matière de traitement du langage naturel, en particulier à mesure que le déploiement de ces modèles se généralise.
Cependant, l'un des principaux défis réside dans le fait que l'évaluation de ces capacités est souvent confondue avec les compétences qui apparaissent dans les modèles grâce à d'autres techniques de prompting, telles que l'apprentissage en contexte et le suivi d'instructions, qui apparaissent également à mesure que les modèles sont mis à l'échelle.
Dans cette étude, nous fournissons le premier examen complet de ces capacités émergentes tout en tenant compte de divers facteurs potentiellement biaisés qui peuvent influencer l'évaluation des modèles. Nous effectuons des tests rigoureux sur un ensemble de 18 modèles, englobant une gamme de paramètres allant de 60 millions à 175 milliards de paramètres, sur un ensemble complet de 22 tâches.
Grâce à une série étendue de plus de 1 000 expériences, nous fournissons des preuves irréfutables que les capacités émergentes peuvent être attribuées principalement à l'apprentissage en contexte. Nous ne trouvons aucune preuve de l'émergence de capacités de raisonnement, ce qui donne des indications précieuses sur les mécanismes sous-jacents à l'origine des capacités observées et atténue ainsi les préoccupations en matière de sécurité concernant leur utilisation.
Cependant, l'un des principaux défis réside dans le fait que l'évaluation de ces capacités est souvent confondue avec les compétences qui apparaissent dans les modèles grâce à d'autres techniques de prompting, telles que l'apprentissage en contexte et le suivi d'instructions, qui apparaissent également à mesure que les modèles sont mis à l'échelle.
Dans cette étude, nous fournissons le premier examen complet de ces capacités émergentes tout en tenant compte de divers facteurs potentiellement biaisés qui peuvent influencer l'évaluation des modèles. Nous effectuons des tests rigoureux sur un ensemble de 18 modèles, englobant une gamme de paramètres allant de 60 millions à 175 milliards de paramètres, sur un ensemble complet de 22 tâches.
Grâce à une série étendue de plus de 1 000 expériences, nous fournissons des preuves irréfutables que les capacités émergentes peuvent être attribuées principalement à l'apprentissage en contexte. Nous ne trouvons aucune preuve de l'émergence de capacités de raisonnement, ce qui donne des indications précieuses sur les mécanismes sous-jacents à l'origine des capacités observées et atténue ainsi les préoccupations en matière de sécurité concernant leur utilisation.
Et vous ?
Quel est votre avis sur le sujet ?
Comment interprétez-vous les résultats de cette nouvelle étude ?
Trouvez-vous ces résultats crédibles et pertinents ?
Voir aussi
Les capacités émergentes des grands modèles linguistiques sont-elles un mirage ? Les grands modèles linguistiques ne sont pas supérieurs à la somme de leurs parties, selon des chercheurs de Stanford
GPT-4 est capable d'améliorer ses performances de 30 % en utilisant un processus d'auto-réflexion, consistant à demander au modèle d'apprendre de ses erreurs pour pouvoir ensuite s'auto-corriger
Bard serait meilleur en matière de logique et de raisonnement, grâce à une nouvelle technique appelée "implicit code execution", d'après Google