OpenAI dévoile CriticGPT, un nouveau modèle d'IA entraîné pour critiquer les réponses de GPT-4

Le modèle détecte les bogues dans les codes générés par ChatGPT, améliorant ainsi la surveillance humaine de l'IA

Le 28 juin 2024 à 10:36, par Anthony

55PARTAGES

OpenAI dévoile CriticGPT, un nouveau modèle d'IA entraîné pour critiquer les réponses de GPT-4, le modèle détecte les bogues dans les codes générés par ChatGPT, améliorant ainsi la surveillance humaine de l'IA

Les chercheurs d'OpenAI viennent de dévoiler CriticGPT, un nouveau modèle d'IA conçu pour identifier les erreurs dans le code généré par GPT-4. Ce modèle vise à améliorer le processus permettant aux systèmes d'IA de se comporter de la manière souhaitée par les humains (appelé également "alignement" grâce à l'apprentissage par renforcement à partir de rétroaction humaine (RLHF), qui aide les réviseurs humains à rendre les sorties des grands modèles de langage (LLM) plus précises.

OpenAI est une organisation américaine de recherche en intelligence artificielle (IA) fondée en décembre 2015 et dont le siège se trouve à San Francisco. Sa mission est de développer une intelligence artificielle générale "sûre et bénéfique", qu'elle définit comme "des systèmes hautement autonomes qui surpassent les humains dans la plupart des tâches économiquement utiles". En tant qu'organisation de premier plan dans l'essor actuel de l'IA, OpenAI a développé plusieurs grands modèles de langage, des modèles avancés de génération d'images et, précédemment, des modèles en code source libre. Le lancement de ChatGPT par OpenAI est considéré comme le catalyseur d'un intérêt généralisé pour l'IA.

Generative Pre-trained Transformer 4 (GPT-4) est un grand modèle de langage multimodal créé par OpenAI, et le quatrième de sa série de modèles de base GPT. Il a été lancé le 14 mars 2023 et mis à la disposition du public via le chatbot payant ChatGPT Plus, via l'API d'OpenAI et via le chatbot gratuit Microsoft Copilot. En tant que modèle basé sur un transformateur, GPT-4 utilise un paradigme dans lequel un pré-entraînement utilisant à la fois des données publiques et des "données sous licence de fournisseurs tiers" est utilisé pour prédire le prochain jeton. Après cette étape, le modèle a été affiné avec un retour d'apprentissage par renforcement de la part des humains et de l'IA pour l'alignement humain et la conformité à la politique.

OpenAI a formé un modèle, basé sur GPT-4, appelé CriticGPT pour détecter les erreurs dans le code de sortie de ChatGPT. Ils ont constaté que lorsque les gens reçoivent l'aide de CriticGPT pour réviser le code de ChatGPT, ils obtiennent de meilleurs résultats que ceux qui ne reçoivent pas d'aide dans 60 % des cas. OpenAI commence à intégrer des modèles de type CriticGPT dans son pipeline d'étiquetage RLHF, en fournissant à ses formateurs une assistance IA explicite. Il s'agit d'une étape vers la possibilité d'évaluer les résultats de systèmes d'IA avancés qui peuvent être difficiles à évaluer sans de meilleurs outils.

La série de modèles GPT-4, qui alimente ChatGPT, est conçue pour être utile et interactive grâce à l'"apprentissage par renforcement à partir de rétroaction humaine" (Reinforcement Learning from Human Feedback - RLHF). L'un des éléments clés du RLHF est la collecte de comparaisons dans lesquelles des personnes, appelées entraîneurs/formateurs d'IA, évaluent différentes réponses de ChatGPT les unes par rapport aux autres.

Au fur et à mesure qu'OpenAI progresse dans le raisonnement et le modèle de comportement, ChatGPT devient plus précis et ses erreurs deviennent plus subtiles. Il peut donc être difficile pour les entraîneurs d'IA de repérer les inexactitudes lorsqu'elles se produisent, ce qui complique considérablement la tâche de comparaison qui est à la base du RLHF. Il s'agit là d'une limite fondamentale du RLHF, qui pourrait rendre de plus en plus difficile l'alignement des modèles à mesure qu'ils deviennent plus compétents que toute personne susceptible de fournir un retour d'information.

Pour relever ce défi, OpenAI a formé CriticGPT pour rédiger des critiques qui mettent en évidence les inexactitudes dans les réponses de ChatGPT.

Les suggestions de CriticGPT ne sont pas toujours correctes, mais il est possible de constater qu'elles peuvent aider les formateurs à détecter beaucoup plus de problèmes avec les réponses écrites par le modèle qu'ils ne le feraient sans l'aide de l'IA. En outre, lorsque des personnes utilisent CriticGPT, l'IA renforce leurs compétences, ce qui se traduit par des critiques plus complètes que lorsque les personnes travaillent seules, et moins de bogues hallucinés sont produits que lorsque le modèle travaille seul. Lors des expériences menées par OpenAI, un deuxième entraîneur aléatoire a préféré les critiques de l'équipe Human+CriticGPT à celles d'une personne non assistée dans plus de 60 % des cas.

Méthodes

CriticGPT a également été entraîné avec le RLHF, de la même manière que ChatGPT. Mais contrairement à ChatGPT, CriticGPT a examiné un grand nombre d'entrées contenant des erreurs que le modèle a ensuite dû critiquer. OpenAI a demandé à des entraîneurs d'IA d'insérer manuellement ces erreurs dans le code écrit par ChatGPT et d'écrire ensuite des commentaires d'exemple comme s'ils avaient détecté le bogue qu'ils venaient d'insérer. La même personne a ensuite comparé plusieurs critiques du code modifié afin de pouvoir facilement déterminer si une critique avait détecté le bogue qu'elle avait inséré.

Dans ses expériences, OpenAI a étudié à la fois si CriticGPT pouvait détecter les bogues insérés et les bogues "naturels" de ChatGPT qu'un formateur précédent avait détectés. OpenAI a constaté que les formateurs préféraient les critiques de CriticGPT aux critiques de ChatGPT dans 63 % des cas de bogues naturels, en partie parce que la nouvelle critique produit moins de "nitpicks" (petites plaintes qui ne sont pas utiles) et hallucine moins souvent les problèmes.

OpenAI a également constaté qu'il est possible de générer des critiques plus longues et plus complètes en utilisant une recherche supplémentaire en temps de test par rapport au modèle de récompense de la critique. Cette procédure de recherche permet d'équilibrer l'agressivité de la recherche de problèmes dans le code et de configurer un compromis précision-rappel entre les hallucinations et le nombre de bogues détectés. Cela signifie que le système peut générer des critiques qui sont aussi utiles que possible pour le RLHF.

Limites

OpenAI a entraîné CriticGPT sur des réponses de ChatGPT qui sont assez courtes. Pour superviser les agents du futur, des méthodes devront être développées afin d'aider les formateurs à comprendre des tâches longues et complexes.
Les modèles ont encore des hallucinations et les formateurs font parfois des erreurs d'étiquetage après avoir vu ces hallucinations.
Parfois, les erreurs réelles peuvent être réparties sur plusieurs parties d'une réponse. Le travail d'OpenAI se concentre sur les erreurs qui peuvent être signalées en un seul endroit, mais à l'avenir, OpenAI envisagera également de s'attaquer aux erreurs dispersées.
CriticGPT ne peut pas tout faire : si une tâche ou une réponse est extrêmement complexe, même un expert avec l'aide d'un modèle peut ne pas être en mesure de l'évaluer correctement.

Prochaines étapes

Afin d'aligner des systèmes d'IA de plus en plus complexes, OpenAI aura besoin de meilleurs outils. Dans cette recherche sur CriticGPT, OpenAI a constaté que l'application du RLHF au GPT-4 est prometteuse pour aider les humains à produire de meilleures données RLHF pour GPT-4. L'entreprise prévoit ainsi d'étendre ce travail et de le mettre en pratique.

Source : OpenAI

Et vous ?

Quel est votre avis sur le sujet ?

Pensez-vous que CriticGPT est un outil utile et intéressant, ou plutôt un gadget superflu supplémentaire ?

Voir aussi :

ChatGPT génère un code informatique peu sûr, mais ne vous le dira pas à moins que vous ne le lui demandiez, les experts mettent en garde contre les risques d'une surconfiance en ChatGPT

L'erreur coûteuse de ChatGPT : une startup raconte comment une ligne de code généré par l'IA a entraîné 10 000 dollars de perte. Malgré les avancées de l'IA, la vigilance humaine reste indispensable

Une étude affirme que 52 % des réponses de ChatGPT aux questions de codage informatique sont incorrectes et 77 % sont verbeuses, mais les réponses du chatbot sont "convaincantes"

Vous avez lu gratuitement 504 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI dévoile CriticGPT, un nouveau modèle d'IA entraîné pour critiquer les réponses de GPT-4

Le modèle détecte les bogues dans les codes générés par ChatGPT, améliorant ainsi la surveillance humaine de l'IA

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

OpenAI dévoile CriticGPT, un nouveau modèle d'IA entraîné pour critiquer les réponses de GPT-4 Le modèle détecte les bogues dans les codes générés par ChatGPT, améliorant ainsi la surveillance humaine de l'IA

OpenAI dévoile CriticGPT, un nouveau modèle d'IA entraîné pour critiquer les réponses de GPT-4

Le modèle détecte les bogues dans les codes générés par ChatGPT, améliorant ainsi la surveillance humaine de l'IA