L'intelligence artificielle (IA), dans son sens le plus large, est l'intelligence dont font preuve les machines, en particulier les systèmes informatiques. Actuellement, elle entraîne une évolution sociétale et économique vers une automatisation accrue ce qui a un impact dans divers secteurs économiques et domaines de la vie, comme les marchés de l'emploi, l'industrie, l'éducation, la propagande et la désinformation. L'IA soulève également des questions sur les effets à long terme, les implications éthiques et les risques liés à la sécurité et aux avantages de la technologie.
Une nouvelle étude révèle que les grands modèles de langage (LLM) tels que ChatGPT ne peuvent pas apprendre de manière indépendante ou acquérir de nouvelles compétences sans instructions explicites, ce qui les rend prévisibles et contrôlables. L'étude dissipe les craintes de voir ces modèles développer des capacités de raisonnement complexes, en soulignant que si les LLM peuvent générer un langage sophistiqué, il est peu probable qu'ils représentent une menace existentielle. Toutefois, le risque d'utilisation abusive de l'IA, comme la production de "fake news", doit encore faire l'objet d'une attention particulière.
Capacités émergentes ou apprentissage en contexte ?
Les grands modèles de langage, comprenant des milliards de paramètres et pré-entraînés sur de vastes corpus à l'échelle du web, ont été accusés d'acquérir certaines capacités sans avoir été spécifiquement entraînés sur ces modèles. Ces capacités, appelées "capacités émergentes", ont été un élément moteur dans les discussions concernant les potentiels et les risques des modèles de langage.
L'un des principaux défis de l'évaluation des capacités émergentes réside dans le fait qu'elles sont confondues avec les compétences des modèles qui apparaissent grâce à d'autres techniques d'incitation, notamment l'apprentissage en contexte, qui est la capacité des modèles à accomplir une tâche sur la base de quelques exemples. Cette nouvelle étude présente une théorie qui explique les capacités émergentes, en tenant compte des facteurs de confusion potentiels, à l'aide de plus de 1 000 expériences.
Performances d'un modèle sans apprentissage en contexte
L'étude s'est basée sur deux hypothèses :
- l'émergence de toutes les capacités linguistiques fonctionnelles observées précédemment est une conséquence de l'apprentissage en contexte,
- les capacités qui se présentent dans les LLM adaptés à l'enseignement sont plus susceptibles d'indiquer l'adaptation à l'enseignement résultant de l'apprentissage en contexte implicite, plutôt que l'émergence de capacités linguistiques fonctionnelles.
Il est intéressant de noter que les résultats ont confirmé ces deux hypothèses. La distinction entre la capacité à suivre des instructions et la capacité inhérente à résoudre un problème est subtile mais importante. Cette distinction revêt une signification pour les méthodes employées dans l'utilisation des LLM et les problèmes qu'ils sont chargés de résoudre.
Le simple fait de suivre des instructions sans faire appel à des capacités de raisonnement produit des résultats qui sont conformes aux instructions, mais qui peuvent ne pas avoir de sens d'un point de vue logique ou de bon sens. Cela se reflète dans le phénomène bien connu de "hallucination", dans lequel un LLM produit des résultats fluides, mais incorrects sur le plan des faits.
Les résultats suggèrent que les capacités émergentes supposées ne sont pas vraiment émergentes, mais résultent d'une combinaison d'apprentissage en contexte, de mémoire de modèle et de connaissances linguistiques. La capacité de suivre des instructions ne signifie pas que l'on possède des capacités de raisonnement et, plus important encore, elle n'implique pas la possibilité de capacités latentes, potentiellement dangereuses.
Comparaison d'un modèle affiné et d'un modèle sans instruction
En outre, ces observations impliquent que ces résultats sont aussi valables pour tout modèle présentant une propension à l'hallucination ou nécessitant une ingénierie rapide, y compris ceux qui sont plus complexes, indépendamment de l'échelle ou du nombre de modalités, comme GPT-4. En contribuant à une meilleure compréhension des capacités et des limites de ces modèles, l'étude aide à démystifier les LLM, à atténuer les problèmes de sécurité qui y sont liés et à établir un cadre pour leur utilisation plus efficace.
Les chercheurs commentent l'étude en déclarant :
"Notre travail constitue une étape fondamentale dans l'explication des performances des modèles de langage, en fournissant un modèle pour leur utilisation efficace et en clarifiant le paradoxe de leur capacité à exceller dans certains cas et à faiblir dans d'autres. Nous démontrons ainsi que leurs capacités ne doivent pas être surestimées."
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
L'IA semble s'approcher rapidement d'un mur où elle ne peut pas devenir plus intelligente : l'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données générées par l'homme
Les grands modèles de langage sont en état d'ébriété, selon Mattsi Jansky, développeur de logiciels, il présente l'envers du decor des LLM, dans un billet de blog
Des scientifiques créent des modèles d'IA capables de dialoguer entre eux et de transmettre des compétences avec une intervention humaine limitée