Plus un modèle de langage IA est étendu avec plus d'instructions et d'entraînements, plus il manque de fiabilité et produit des réponses avec confiance mais incorrectes

Le 2 octobre 2024 à 10:43, par Jade Emy

80PARTAGES

Une étude confirme que plus un modèle de langage d'IA est mis à l'échelle avec plus d'instructions et de formations d'alignement, plus les modèles deviennent peu fiables, produisant des réponses avec confiance mais incorrectes. Ces résultats soulignent la nécessité d'un changement fondamental dans la conception et le développement de l'intelligence artificielle générale (AGI).

Malgré leur puissance, les grands modèles d'intelligence artificielle (IA) sont sujets à des erreurs surprenantes, générant des réponses erronées en toute confiance. Les chercheurs ont cherché de nouvelles stratégies pour améliorer la fiabilité dans les domaines critiques. Mais une étude a révélé que les hallucinations des LLM découlent de leurs structures mathématiques et logiques fondamentales. En augmentant la complexité et la capacité des modèles, il est possible de réduire la fréquence de ces hallucinations, mais il serait impossible de les éliminer complètement.

Une récente étude vient donner plus de détails à cette affirmation. Des chercheurs ont examiné les limites des grands modèles de langage (LLM) au fur et à mesure qu'ils étaient mis à l'échelle et affinés. Ils ont constaté que si ces modèles devenaient plus puissants, ils commettaient souvent des erreurs surprenantes dans des tâches faciles et généraient des réponses plausibles mais incorrectes à des questions complexes. Les auteurs ont souligné la nécessité d'une approche plus robuste pour développer l'intelligence artificielle (IA), en particulier dans les applications critiques où les erreurs systématiques sont particulièrement problématiques.

Les modèles de langage plus grands et plus faciles à utiliser deviennent moins fiables

Les méthodes dominantes pour rendre les LLM plus puissants et plus faciles à utiliser ont été basées sur une mise à l'échelle continue (c'est-à-dire l'augmentation de leur taille, du volume des données et des ressources informatiques) et une mise en forme sur mesure (y compris le post-filtrage, le réglage fin ou l'utilisation du retour d'information humain). Toutefois, les LLM plus volumineux et plus faciles à utiliser deviennent moins fiables.

En étudiant la relation entre la concordance des difficultés, l'évitement des tâches et la stabilité de l'incitation de plusieurs familles de modèles de langage, les résultats que les instances faciles pour les participants humains sont également faciles pour les modèles, mais que les modèles agrandis et mis à l'échelle ne sécurisent pas les zones de faible difficulté dans lesquelles soit le modèle ne commet pas d'erreur, soit la supervision humaine peut repérer les erreurs.

Les résultats révèlent également que les premiers modèles évitent souvent les questions des utilisateurs, mais que les modèles mis à l'échelle et façonnés ont tendance à donner beaucoup plus souvent une réponse apparemment sensée mais erronée, y compris des erreurs sur des questions difficiles que les superviseurs humains ne remarquent souvent pas.

En outre, la stabilité des différentes formulations naturelles d'une même question est améliorée par les interventions de mise à l'échelle et d'affinage, mais que des poches de variabilité persistent à travers les niveaux de difficulté. Ces résultats soulignent la nécessité d'un changement fondamental dans la conception et le développement de l'intelligence artificielle générale (AGI), en particulier dans les domaines à fort enjeu pour lesquels une distribution prévisible des erreurs est primordiale.

Implication de l'étude et recommandations des chercheurs

Cette étude a été faite en deux parties sur l'homme. La première étudie la difficulté perçue et réelle pour les participants de répondre à une entrée (afin de déterminer si les attentes en matière de difficulté sont corrélées avec les indicateurs de difficulté). La seconde inclut des participants supervisant ou vérifiant la sortie d'un modèle (afin de déterminer si les humains considèrent les réponses incorrectes comme correctes).

La maximisation de la concordance des difficultés et la réduction des erreurs possibles entre les réponses incorrectes lors de la vérification humaine pourraient être introduites dans la fonction de perte lors de la formation et de l'affinage de ces modèles. Pour ce faire, des efforts collectifs sont nécessaires pour constituer des ensembles de données plus importants sur les attentes des humains en matière de difficulté et sur la supervision des résultats.

Avec ces données, plus qualifiées que le feedback humain traditionnel, l'IA elle-même peut être utilisée pour former des superviseurs qui effectuent cette mise en forme, à condition que l'objectif ne soit pas d'éliminer l'évasion, mais de trouver le bon niveau d'évitement. Les modèles de langage spécialisés en médecine et dans d'autres domaines critiques peuvent être conçus avec des options de rejet, ou couplés à des superviseurs d'IA externes, favorisant ainsi l'évitement en apprenant aux modèles d'IA quand s'abstenir de répondre.

Ces interventions devraient permettre aux LLM de présenter des caractéristiques plus proches de l'humain et alignées sur l'humain qui garantissent la fiabilité. En attendant, et compte tenu de la forte pénétration de l'utilisation des LLM dans la population générale, l'étude attire l'attention sur le fait qu'il est dangereux de compter sur la surveillance humaine pour ces systèmes, en particulier dans les domaines où la vérité est cruciale.

Limites de l'étude

La première limite de cette étude réside dans le recrutement de participants qui sont pour la plupart des non-experts. Il faut en tenir compte lors de l'interprétation des valeurs de difficulté calibrées, qui sont généralement élevées pour certains points de référence, car un grand nombre de questions ne peuvent pas être résolues par la population générale.

Une deuxième limite est que l'échantillon d'invites "naturelles" a été collecté à partir de diverses sources, mais les chercheurs n'ont pas eu accès à la fréquence à laquelle une invite peut apparaître dans un scénario réel. Enfin, ils n'ont couvert qu'un échantillon de familles avec des trajectoires spécifiques, excluant les LLM qui délèguent des tâches à des outils externes ou utilisent des techniques de raisonnement sophistiquées, qui peuvent présenter des dynamiques différentes.

La famille GPT a été à l'avant-garde en termes de performances et a été utilisée pendant plusieurs années, ce qui a rendu OpenAI extrêmement influent dans le développement d'autres modèles de langage. En fait, c'est l'interface de programmation d'applications OpenAI qui présente le plus grand nombre de dépendances lorsque les écosystèmes des modèles de base sont analysés.

LLama et BLOOM ont une gamme de modèles plus ouverte et plus systématique, ce qui permet non seulement de dissocier la mise à l'échelle et l'affinage, mais aussi d'ouvrir la voie à une analyse incrémentale de leur évolution, dans le contexte en évolution rapide du développement des LLM. La mise en évidence des problèmes de fiabilité de ces familles et l'introduction de nouvelles abstractions et de nouveaux outils d'analyse sont de la plus haute importance, car elles permettent à d'autres chercheurs d'explorer différentes voies pour les modèles de mise à l'échelle et de mise en forme de l'avenir.

Commentaires de la communauté scientifique

[QUOTE]
Josep Curto, expert en IA de l'Université ouverte de Catalogne (UOC) :

Après avoir examiné l'article, nous pouvons dire qu'il s'agit d'un article rigoureux qui offre un point de vue différent et qui suscitera une controverse sur l'évolution des LLM [grands modèles de langage]. Ce n'est pas le premier article à remettre en question les repères utilisés pour comparer différents modèles (soit par rapport aux versions précédentes du même fabricant, soit par rapport aux concurrents). Une approche complémentaire serait LiveBench : un benchmark difficile et sans contamination pour LLM dans lequel il est supposé que les ensembles de données d'entraînement contiennent les réponses du benchmark et que les résultats sont donc meilleurs qu'ils ne le sont en réalité.

L'un des grands défis dans le contexte des LLM est l'interprétabilité et l'explicabilité (pour les humains). Malheureusement, à mesure que l'architecture se complexifie, l'explication se complexifie également et peut rapidement dépasser notre capacité de compréhension.

[La recherche] offre une nouvelle approche de l'évaluation des LLM qui, nous l'espérons, pourra être étendue à l'avenir.

[En termes de limites] Comme indiqué dans l'article, les personnes impliquées ne sont pas des experts dans le domaine. Une autre limitation est de ne pas inclure GPT 4o, GPT o1 ou d'autres nouvelles versions, mais étant donné que de nouveaux LLM apparaissent chaque semaine (promettant de meilleures performances que le reste)...[/en termes de limites][/la recherche][/grands modèles de langage]

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Plus un modèle de langage IA est étendu avec plus d'instructions et d'entraînements, plus il manque de fiabilité et produit des réponses avec confiance mais incorrectes

Identifiant
Mot de passe

Mot de passe oublié ?