Malgré leur puissance, les grands modèles d'intelligence artificielle (IA) sont sujets à des erreurs surprenantes, générant des réponses erronées en toute confiance. Les chercheurs ont cherché de nouvelles stratégies pour améliorer la fiabilité dans les domaines critiques. Mais une étude a révélé que les hallucinations des LLM découlent de leurs structures mathématiques et logiques fondamentales. En augmentant la complexité et la capacité des modèles, il est possible de réduire la fréquence de ces hallucinations, mais il serait impossible de les éliminer complètement.
Une récente étude vient donner plus de détails à cette affirmation. Des chercheurs ont examiné les limites des grands modèles de langage (LLM) au fur et à mesure qu'ils étaient mis à l'échelle et affinés. Ils ont constaté que si ces modèles devenaient plus puissants, ils commettaient souvent des erreurs surprenantes dans des tâches faciles et généraient des réponses plausibles mais incorrectes à des questions complexes. Les auteurs ont souligné la nécessité d'une approche plus robuste pour développer l'intelligence artificielle (IA), en particulier dans les applications critiques où les erreurs systématiques sont particulièrement problématiques.
Les modèles de langage plus grands et plus faciles à utiliser deviennent moins fiables
Les méthodes dominantes pour rendre les LLM plus puissants et plus faciles à utiliser ont été basées sur une mise à l'échelle continue (c'est-à-dire l'augmentation de leur taille, du volume des données et des ressources informatiques) et une mise en forme sur mesure (y compris le post-filtrage, le réglage fin ou l'utilisation du retour d'information humain). Toutefois, les LLM plus volumineux et plus faciles à utiliser deviennent moins fiables.
En étudiant la relation entre la concordance des difficultés, l'évitement des tâches et la stabilité de l'incitation de plusieurs familles de modèles de langage, les résultats que les instances faciles pour les participants humains sont également faciles pour les modèles, mais que les modèles agrandis et mis à l'échelle ne sécurisent pas les zones de faible difficulté dans lesquelles soit le modèle ne commet pas d'erreur, soit la supervision humaine peut repérer les erreurs.
Les résultats révèlent également que les premiers modèles évitent souvent les questions des utilisateurs, mais que les modèles mis à l'échelle et façonnés ont tendance à donner beaucoup plus souvent une réponse apparemment sensée mais erronée, y compris des erreurs sur des questions difficiles que les superviseurs humains ne remarquent souvent pas.
En outre, la stabilité des différentes formulations naturelles d'une même question est améliorée par les interventions de mise à l'échelle et d'affinage, mais que des poches de variabilité persistent à travers les niveaux de difficulté. Ces résultats soulignent la nécessité d'un changement fondamental dans la conception et le développement de l'intelligence artificielle générale (AGI), en particulier dans les domaines à fort enjeu pour lesquels une distribution prévisible des erreurs est primordiale.
Implication de l'étude et recommandations des chercheurs
Cette étude a été faite en deux parties sur l'homme. La première étudie la difficulté perçue et réelle pour les participants de répondre à une entrée (afin de déterminer si les attentes en matière de difficulté sont corrélées avec les indicateurs de difficulté). La seconde inclut des participants supervisant ou vérifiant la sortie d'un modèle (afin de déterminer si les humains considèrent les réponses incorrectes comme correctes).
La maximisation de la concordance des difficultés et la réduction des erreurs possibles entre les réponses incorrectes lors de la vérification humaine pourraient être introduites dans la fonction de perte lors de la formation et de l'affinage de ces modèles. Pour ce faire, des efforts collectifs sont nécessaires pour constituer des ensembles de données plus importants sur les attentes des humains en matière de difficulté et sur la supervision des résultats.
Avec ces données, plus qualifiées que le feedback humain traditionnel, l'IA elle-même peut être utilisée pour former des superviseurs qui effectuent cette mise en forme, à condition que l'objectif ne soit pas d'éliminer l'évasion, mais de trouver le bon niveau d'évitement. Les modèles de langage spécialisés en médecine et dans d'autres domaines critiques peuvent être conçus avec des options de rejet, ou couplés à des superviseurs d'IA externes, favorisant ainsi l'évitement en apprenant aux modèles d'IA quand s'abstenir de répondre.
Ces interventions devraient permettre aux LLM de présenter des caractéristiques plus proches de l'humain et alignées sur l'humain qui garantissent la fiabilité. En attendant, et compte tenu de la forte pénétration de l'utilisation des LLM dans la population générale, l'étude attire l'attention sur le fait qu'il est dangereux de compter sur la surveillance humaine pour ces systèmes, en particulier dans les domaines où la vérité est cruciale.
Limites de l'étude
La première limite de cette étude réside dans le recrutement de participants qui sont pour la plupart des non-experts. Il faut en tenir compte lors de l'interprétation des valeurs de difficulté calibrées, qui sont généralement élevées pour certains points de référence, car un grand nombre de questions ne peuvent pas être résolues par la population générale.
Une deuxième limite est que l'échantillon d'invites "naturelles" a été collecté à partir de diverses sources, mais les chercheurs n'ont pas eu accès à la fréquence à laquelle une invite peut apparaître dans un scénario réel. Enfin, ils n'ont couvert qu'un échantillon de familles avec des trajectoires spécifiques, excluant les LLM qui délèguent des tâches à des outils externes ou utilisent des techniques de raisonnement sophistiquées, qui peuvent présenter des dynamiques différentes.
La famille GPT a été à l'avant-garde en termes de performances et a été utilisée pendant plusieurs années, ce qui a rendu OpenAI extrêmement influent dans le développement d'autres modèles de langage. En fait, c'est l'interface de programmation d'applications OpenAI qui présente le plus grand nombre de dépendances lorsque les écosystèmes des modèles de base sont analysés.
LLama et BLOOM ont une gamme de modèles plus ouverte et plus systématique, ce qui permet non seulement de dissocier la mise à l'échelle et l'affinage, mais aussi d'ouvrir la voie à une analyse incrémentale de leur évolution, dans le contexte en évolution rapide du développement des LLM. La mise en évidence des problèmes de fiabilité de ces familles et l'introduction de nouvelles abstractions et de nouveaux outils d'analyse sont de la plus haute importance, car elles permettent à d'autres chercheurs d'explorer différentes voies pour les modèles de mise à l'échelle et de mise en forme de l'avenir.
Commentaires de la communauté scientifique
Josep Curto, expert en IA de l'Université ouverte de Catalogne (UOC) :
Après avoir examiné l'article, nous pouvons dire qu'il s'agit d'un article rigoureux qui offre un point de vue différent et qui suscitera une controverse sur l'évolution des LLM [grands modèles de langage]. Ce n'est pas le premier article à remettre en question les repères utilisés pour comparer différents modèles (soit par rapport aux versions précédentes du même fabricant, soit par rapport aux concurrents). Une approche complémentaire serait LiveBench : un benchmark difficile et sans contamination pour LLM dans lequel il est supposé que les ensembles de données d'entraînement contiennent les réponses du benchmark et que les résultats sont donc meilleurs qu'ils ne le sont en réalité.
L'un des grands défis dans le contexte des LLM est l'interprétabilité et l'explicabilité (pour les humains). Malheureusement, à mesure que l'architecture se complexifie, l'explication se complexifie également et peut rapidement dépasser notre capacité de compréhension.
[La recherche] offre une nouvelle approche de l'évaluation des LLM qui, nous l'espérons, pourra être étendue à l'avenir.
[En termes de limites] Comme indiqué dans l'article, les personnes impliquées ne sont pas des experts dans le domaine. Une autre limitation est de ne pas inclure GPT 4o, GPT o1 ou d'autres nouvelles versions, mais étant donné que de nouveaux LLM apparaissent chaque semaine (promettant de meilleures performances que le reste), il est difficile de mener une étude de ce type sans fixer les LLM avec lesquels travailler.
Pablo Haya Coll, chercheur au Laboratoire de linguistique informatique de l'Université autonome de Madrid (UAM) :
L'étude permet de mieux comprendre la fiabilité des grands modèles de langage (LLM), en remettant en question l'hypothèse selon laquelle la mise à l'échelle et l'ajustement de ces modèles améliorent toujours leur précision et leur alignement. D'une part, ils observent que, bien que les grands modèles finement réglés aient tendance à être plus stables et à fournir davantage de réponses correctes, ils sont également plus enclins à commettre de graves erreurs qui passent inaperçues, car ils évitent de ne pas répondre. D'autre part, ils identifient un phénomène qu'ils appellent le "phénomène de discordance des difficultés". Ce phénomène révèle que, même dans les modèles les plus avancés, des erreurs peuvent apparaître dans n'importe quel type de tâche, quelle que soit sa difficulté. Cela implique que les erreurs persistent, même dans des tâches considérées comme simples.
Malheureusement, la revue publie l'article plus d'un an après l'avoir reçu (juin 2023). Ainsi, les LLM analysés dans l'étude correspondent à des versions de 2023. Actuellement, deux nouvelles versions d'OpenAI sont déjà disponibles : GPT4o et o1, ainsi qu'une nouvelle version de Meta : Llama 3. Il ne serait pas déraisonnable de supposer que les conclusions de l'étude peuvent être extrapolées à GPT4o et Llama 3, étant donné que les deux versions conservent une approche technique similaire à leurs prédécesseurs. Cependant, la série de modèles OpenAI o1 est basée sur un nouveau paradigme d'apprentissage et d'inférence, qui est spécifiquement conçu pour traiter les types de problèmes présents dans les ensembles de tests utilisés dans l'étude. En fait, en testant manuellement o1-preview avec les exemples de textes décrits dans l'article, une amélioration significative est déjà observée sur les problèmes pour lesquels l'étude indique que GPT4 échoue. Ainsi, les délais d'examen et d'acceptation dans les revues devraient être ajustés pour suivre le rythme des avancées technologiques dans les LLM, afin d'éviter que les résultats ne soient publiés après coup.
Après avoir examiné l'article, nous pouvons dire qu'il s'agit d'un article rigoureux qui offre un point de vue différent et qui suscitera une controverse sur l'évolution des LLM [grands modèles de langage]. Ce n'est pas le premier article à remettre en question les repères utilisés pour comparer différents modèles (soit par rapport aux versions précédentes du même fabricant, soit par rapport aux concurrents). Une approche complémentaire serait LiveBench : un benchmark difficile et sans contamination pour LLM dans lequel il est supposé que les ensembles de données d'entraînement contiennent les réponses du benchmark et que les résultats sont donc meilleurs qu'ils ne le sont en réalité.
L'un des grands défis dans le contexte des LLM est l'interprétabilité et l'explicabilité (pour les humains). Malheureusement, à mesure que l'architecture se complexifie, l'explication se complexifie également et peut rapidement dépasser notre capacité de compréhension.
[La recherche] offre une nouvelle approche de l'évaluation des LLM qui, nous l'espérons, pourra être étendue à l'avenir.
[En termes de limites] Comme indiqué dans l'article, les personnes impliquées ne sont pas des experts dans le domaine. Une autre limitation est de ne pas inclure GPT 4o, GPT o1 ou d'autres nouvelles versions, mais étant donné que de nouveaux LLM apparaissent chaque semaine (promettant de meilleures performances que le reste), il est difficile de mener une étude de ce type sans fixer les LLM avec lesquels travailler.
Pablo Haya Coll, chercheur au Laboratoire de linguistique informatique de l'Université autonome de Madrid (UAM) :
L'étude permet de mieux comprendre la fiabilité des grands modèles de langage (LLM), en remettant en question l'hypothèse selon laquelle la mise à l'échelle et l'ajustement de ces modèles améliorent toujours leur précision et leur alignement. D'une part, ils observent que, bien que les grands modèles finement réglés aient tendance à être plus stables et à fournir davantage de réponses correctes, ils sont également plus enclins à commettre de graves erreurs qui passent inaperçues, car ils évitent de ne pas répondre. D'autre part, ils identifient un phénomène qu'ils appellent le "phénomène de discordance des difficultés". Ce phénomène révèle que, même dans les modèles les plus avancés, des erreurs peuvent apparaître dans n'importe quel type de tâche, quelle que soit sa difficulté. Cela implique que les erreurs persistent, même dans des tâches considérées comme simples.
Malheureusement, la revue publie l'article plus d'un an après l'avoir reçu (juin 2023). Ainsi, les LLM analysés dans l'étude correspondent à des versions de 2023. Actuellement, deux nouvelles versions d'OpenAI sont déjà disponibles : GPT4o et o1, ainsi qu'une nouvelle version de Meta : Llama 3. Il ne serait pas déraisonnable de supposer que les conclusions de l'étude peuvent être extrapolées à GPT4o et Llama 3, étant donné que les deux versions conservent une approche technique similaire à leurs prédécesseurs. Cependant, la série de modèles OpenAI o1 est basée sur un nouveau paradigme d'apprentissage et d'inférence, qui est spécifiquement conçu pour traiter les types de problèmes présents dans les ensembles de tests utilisés dans l'étude. En fait, en testant manuellement o1-preview avec les exemples de textes décrits dans l'article, une amélioration significative est déjà observée sur les problèmes pour lesquels l'étude indique que GPT4 échoue. Ainsi, les délais d'examen et d'acceptation dans les revues devraient être ajustés pour suivre le rythme des avancées technologiques dans les LLM, afin d'éviter que les résultats ne soient publiés après coup.
Source : "Larger and more instructable language models become less reliable"
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
L'IA semble s'approcher rapidement d'un mur où elle ne peut pas devenir plus intelligente : l'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données générées par l'homme
Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes car o1 réfléchit avant de répondre
Le directeur technique de Microsoft affirme que les lois de mise à l'échelle des LLM continueront à stimuler les progrès de l'IA, réfutant les déclarations selon lesquelles les LLM ont atteint un plateau