L'initiative interne d'OpenAI explore la possibilité d'empêcher une IA de devenir malveillante... avec plus d'IA.

Son équipe de superalignement présente des premiers résultats mitigés

Le 18 décembre 2023 à 16:30, par Stéphane le calme

33PARTAGES

OpenAI a annoncé les premiers résultats de son équipe de superalignement, l’initiative interne de l’entreprise dédiée à empêcher une superintelligence de devenir incontrôlable. Les premiers résultats du projet sont prometteurs, selon OpenAI, qui affirme avoir réussi à entraîner une IA simple avec une autre IA plus complexe.

OpenAI reconnaît toutefois que le chemin vers l’alignement de la superintelligence est encore long et incertain, et qu’il faudra faire face à de nombreux défis techniques. La startup se dit néanmoins déterminée à poursuivre sa mission de créer une IA bénéfique pour l’humanité, tout en évitant les scénarios catastrophiques que certains experts et personnalités ont envisagés.

La superintelligence artificielle (ou ASI) est un type hypothétique d’IA qui serait capable de dépasser les capacités humaines dans tous les domaines et aspects cognitifs. La superintelligence artificielle serait plus intelligente que les meilleurs humains dans toutes les disciplines scientifiques, techniques, artistiques et sociales. La superintelligence artificielle pourrait aussi avoir une conscience et une sensibilité propres à elle-même. La superintelligence artificielle n’existe pas encore dans le monde réel, mais c’est une possibilité théorique qui suscite beaucoup d’intérêt et aussi beaucoup de craintes.

Alors que l'intelligence artificielle capable de surpasser l'esprit est encore hypothétique, OpenAI estime que cette technologie pourrait aider l’humanité « à résoudre bon nombre des problèmes les plus importants du monde ».

La superintelligence sera la technologie la plus percutante que l'humanité ait jamais inventée et pourrait nous aider à résoudre bon nombre des problèmes les plus importants du monde. Mais le vaste pouvoir de la superintelligence pourrait également être très dangereux et pourrait conduire à la perte de pouvoir de l'humanité ou même à l'extinction humaine.

Et OpenAI estime vouloir jouer un rôle actif en termes de risques liés aux systèmes d'IA et à leurs capacités massives qui pourraient bien prendre le dessus sur l'intelligence humaine. Aussi, en juillet, l'entreprise a annoncé la création d'une division chargée de créer une IA qui va contrôler le développement de la superintelligence.

« Le pouvoir immense de la superintelligence pourrait … conduire au déclassement de l’humanité ou même à son extinction », ont écrit dans un billet de blog le co-fondateur d’OpenAI, Ilya Sutskever, et le responsable de l’alignement, Jan Leike. « Actuellement, nous n’avons pas de solution pour orienter ou contrôler une IA potentiellement superintelligente, et l’empêcher de devenir incontrôlable ».

Ilya Sutskever

Un premier pas dans l'atteinte de cet objectif : utiliser une IA « plus stupide » pour entraîner et contenir l’IA la plus « intelligente »

Contrairement à de nombreuses annonces de l’entreprise, il n'est pas question ici d'une grande avancée. Dans un document de recherche relativement discret, l’équipe décrit une technique qui permet à un grand modèle de langage moins puissant de superviser un modèle plus puissant et suggère que cela pourrait être un petit pas vers la compréhension de la manière dont les humains pourraient superviser des machines surhumaines.

La question à laquelle l’équipe souhaite répondre est de savoir comment maîtriser, ou « aligner », des modèles futurs hypothétiques bien plus intelligents que nous, connus sous le nom de modèles surhumains. L'alignement signifie s'assurer qu'un modèle fait ce que vous voulez qu'il fasse et ne fait pas ce que vous ne voulez pas qu'il fasse. Le superalignement applique cette idée aux modèles surhumains.

L’une des techniques les plus répandues utilisées pour aligner les modèles existants est appelée apprentissage par renforcement via la rétroaction humaine. En un mot, les testeurs humains notent les réponses d’un modèle, en votant pour le comportement qu’ils souhaitent voir et en votant contre le comportement qu’ils ne souhaitent pas voir. Ces commentaires sont ensuite utilisés pour entraîner le modèle à produire uniquement le type de réponses appréciées par les testeurs humains. Cette technique est en grande partie ce qui rend ChatGPT si attrayant.

Le problème est que cela nécessite que les humains soient capables de dire en premier lieu ce qui est un comportement souhaitable et ce qui ne l’est pas. Mais un modèle surhumain – selon l’idée – pourrait faire des choses qu’un testeur humain ne peut pas comprendre et ne serait donc pas en mesure d’évaluer. (Il pourrait même essayer de cacher son véritable comportement aux humains, estime Sutskever.)

Le projet de superalignement, dirigé par le co-fondateur et scientifique en chef de OpenAI, Ilya Sutskever, et le chercheur principal Jan Leike, se déroulera sur quatre ans et utilisera environ un cinquième de la capacité de calcul actuelle de OpenAI. Il s’articulera autour de trois étapes :

Développer une compréhension de la façon dont l’IA analyse d’autres IA sans interaction humaine
Utiliser l’IA pour rechercher les zones problématiques ou les failles
Créer une IA capable de résoudre les problèmes d’alignement de manière autonome

Les chercheurs soulignent que le problème est difficile à étudier car les machines surhumaines n’existent pas. Ils ont donc utilisé des remplaçants. Au lieu d’examiner comment les humains pourraient superviser des machines surhumaines, ils ont examiné comment GPT-2, un modèle publié par OpenAI il y a cinq ans, pourrait superviser GPT-4, le modèle le plus récent et le plus puissant d’OpenAI. « Si vous y parvenez, cela pourrait être la preuve que vous pouvez utiliser des techniques similaires pour que des humains supervisent des modèles surhumains », explique Collin Burns, un autre chercheur de l'équipe de superalignement.

L'équipe a suivi GPT-2 et l'a entraîné à effectuer une poignée de tâches différentes, notamment un ensemble de puzzles d'échecs et 22 tests courants de traitement du langage naturel qui évaluent l'inférence, l'analyse des sentiments, etc. Ils ont utilisé les réponses de GPT-2 à ces tests et énigmes pour entraîner GPT-4 à effectuer les mêmes tâches. C’est comme si un élève de CM2 apprenait à accomplir une tâche à un élève de 3ème. L’astuce était de le faire sans que GPT-4 ne subisse un trop gros impact sur les performances.

Les résultats ont été mitigés

L’équipe a mesuré l’écart de performance entre GPT-4 formé sur les meilleures suppositions de GPT-2 et GPT-4 formé sur les réponses correctes. Ils ont constaté que GPT-4 entraîné par GPT-2 était 20 à 70 % plus performant que GPT-2 sur les tâches linguistiques, mais moins performant sur les énigmes d'échecs.

Le fait que GPT-4 ait surpassé son professeur est impressionnant, déclare Pavel Izmailov, membre de l'équipe : « C'est un résultat vraiment surprenant et positif. » Mais il est loin de ce qu’il pourrait faire par lui-même, dit-il. Ils concluent que l’approche est prometteuse mais nécessite davantage de travail.

« C'est une idée intéressante », déclare Thilo Hagendorff, chercheur en IA à l'Université de Stuttgart en Allemagne qui travaille sur l'alignement. Mais il pense que GPT-2 est peut-être trop stupide pour être un bon professeur ». GPT-2 a tendance à donner des...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

L'initiative interne d'OpenAI explore la possibilité d'empêcher une IA de devenir malveillante... avec plus d'IA.

Son équipe de superalignement présente des premiers résultats mitigés

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

L'initiative interne d'OpenAI explore la possibilité d'empêcher une IA de devenir malveillante... avec plus d'IA. Son équipe de superalignement présente des premiers résultats mitigés

L'initiative interne d'OpenAI explore la possibilité d'empêcher une IA de devenir malveillante... avec plus d'IA.

Son équipe de superalignement présente des premiers résultats mitigés