L'initiative interne d'OpenAI explore la possibilité d'empêcher une IA de devenir malveillante... avec plus d'IA.

Son équipe de superalignement présente des premiers résultats mitigés

Le 18 décembre 2023 à 16:30, par Stéphane le calme

11PARTAGES

L'initiative interne d'OpenAI explore la possibilité d'empêcher une IA de devenir malveillante... avec plus d'IA.
L'équipe de superalignement présente des premiers résultats mitigés

OpenAI a annoncé les premiers résultats de son équipe de superalignement, l’initiative interne de l’entreprise dédiée à empêcher une superintelligence de devenir incontrôlable. Les premiers résultats du projet sont prometteurs, selon OpenAI, qui affirme avoir réussi à entraîner une IA simple avec une autre IA plus complexe.

OpenAI reconnaît toutefois que le chemin vers l’alignement de la superintelligence est encore long et incertain, et qu’il faudra faire face à de nombreux défis techniques. La startup se dit néanmoins déterminée à poursuivre sa mission de créer une IA bénéfique pour l’humanité, tout en évitant les scénarios catastrophiques que certains experts et personnalités ont envisagés.

La superintelligence artificielle (ou ASI) est un type hypothétique d’IA qui serait capable de dépasser les capacités humaines dans tous les domaines et aspects cognitifs. La superintelligence artificielle serait plus intelligente que les meilleurs humains dans toutes les disciplines scientifiques, techniques, artistiques et sociales. La superintelligence artificielle pourrait aussi avoir une conscience et une sensibilité propres à elle-même. La superintelligence artificielle n’existe pas encore dans le monde réel, mais c’est une possibilité théorique qui suscite beaucoup d’intérêt et aussi beaucoup de craintes.

Alors que l'intelligence artificielle capable de surpasser l'esprit est encore hypothétique, OpenAI estime que cette technologie pourrait aider l’humanité « à résoudre bon nombre des problèmes les plus importants du monde ».

La superintelligence sera la technologie la plus percutante que l'humanité ait jamais inventée et pourrait nous aider à résoudre bon nombre des problèmes les plus importants du monde. Mais le vaste pouvoir de la superintelligence pourrait également être très dangereux et pourrait conduire à la perte de pouvoir de l'humanité ou même à l'extinction humaine.

Et OpenAI estime vouloir jouer un rôle actif en termes de risques liés aux systèmes d'IA et à leurs capacités massives qui pourraient bien prendre le dessus sur l'intelligence humaine. Aussi, en juillet, l'entreprise a annoncé la création d'une division chargée de créer une IA qui va contrôler le développement de la superintelligence.

« Le pouvoir immense de la superintelligence pourrait … conduire au déclassement de l’humanité ou même à son extinction », ont écrit dans un billet de blog le co-fondateur d’OpenAI, Ilya Sutskever, et le responsable de l’alignement, Jan Leike. « Actuellement, nous n’avons pas de solution pour orienter ou contrôler une IA potentiellement superintelligente, et l’empêcher de devenir incontrôlable ».

Ilya Sutskever

Un premier pas dans l'atteinte de cet objectif : utiliser une IA « plus stupide » pour entraîner et contenir l’IA la plus « intelligente »

Contrairement à de nombreuses annonces de l’entreprise, il n'est pas question ici d'une grande avancée. Dans un document de recherche relativement discret, l’équipe décrit une technique qui permet à un grand modèle de langage moins puissant de superviser un modèle plus puissant et suggère que cela pourrait être un petit pas vers la compréhension de la manière dont les humains pourraient superviser des machines surhumaines.

La question à laquelle l’équipe souhaite répondre est de savoir comment maîtriser, ou « aligner », des modèles futurs hypothétiques bien plus intelligents que nous, connus sous le nom de modèles surhumains. L'alignement signifie s'assurer qu'un modèle fait ce que vous voulez qu'il fasse et ne fait pas ce que vous ne voulez pas qu'il fasse. Le superalignement applique cette idée aux modèles surhumains.

L’une des techniques les plus répandues utilisées pour aligner les modèles existants est appelée apprentissage par renforcement via la rétroaction humaine. En un mot, les testeurs humains notent les réponses d’un modèle, en votant pour le comportement qu’ils souhaitent voir et en votant contre le comportement qu’ils ne souhaitent pas voir. Ces commentaires sont ensuite utilisés pour entraîner le modèle à produire uniquement le type de réponses appréciées par les testeurs humains. Cette technique est en grande partie ce qui rend ChatGPT si attrayant.

Le problème est que cela nécessite que les humains soient capables de dire en premier lieu ce qui est un comportement souhaitable et ce qui ne l’est pas. Mais un modèle surhumain – selon l’idée – pourrait faire des choses qu’un testeur humain ne peut pas comprendre et ne serait donc pas en mesure d’évaluer. (Il pourrait même essayer de cacher son véritable comportement aux humains, estime Sutskever.)

Le projet de superalignement, dirigé par le co-fondateur et scientifique en chef de OpenAI, Ilya Sutskever, et le chercheur principal Jan Leike, se déroulera sur quatre ans et utilisera environ un cinquième de la capacité de calcul actuelle de OpenAI. Il s’articulera autour de trois étapes :

Développer une compréhension de la façon dont l’IA analyse d’autres IA sans interaction humaine
Utiliser l’IA pour rechercher les zones problématiques ou les failles
Créer une IA capable de résoudre les problèmes d’alignement de manière autonome

Les chercheurs soulignent que le problème est difficile à étudier car les machines surhumaines n’existent pas. Ils ont donc utilisé des remplaçants. Au lieu d’examiner comment les humains pourraient superviser des machines surhumaines, ils ont examiné comment GPT-2, un modèle publié par OpenAI il y a cinq ans, pourrait superviser GPT-4, le modèle le plus récent et le plus puissant d’OpenAI. « Si vous y parvenez, cela pourrait être la preuve que vous pouvez utiliser des techniques similaires pour que des humains supervisent des modèles surhumains », explique Collin Burns, un autre chercheur de l'équipe de superalignement.

L'équipe a suivi GPT-2 et l'a entraîné à effectuer une poignée de tâches différentes, notamment un ensemble de puzzles d'échecs et 22 tests courants de traitement du langage naturel qui évaluent l'inférence, l'analyse des sentiments, etc. Ils ont utilisé les réponses de GPT-2 à ces tests et énigmes pour entraîner GPT-4 à effectuer les mêmes tâches. C’est comme si un élève de CM2 apprenait à accomplir une tâche à un élève de 3ème. L’astuce était de le faire sans que GPT-4 ne subisse un trop gros impact sur les performances.

Les résultats ont été mitigés

L’équipe a mesuré l’écart de performance entre GPT-4 formé sur les meilleures suppositions de GPT-2 et GPT-4 formé sur les réponses correctes. Ils ont constaté que GPT-4 entraîné par GPT-2 était 20 à 70 % plus performant que GPT-2 sur les tâches linguistiques, mais moins performant sur les énigmes d'échecs.

Le fait que GPT-4 ait surpassé son professeur est impressionnant, déclare Pavel Izmailov, membre de l'équipe : « C'est un résultat vraiment surprenant et positif. » Mais il est loin de ce qu’il pourrait faire par lui-même, dit-il. Ils concluent que l’approche est prometteuse mais nécessite davantage de travail.

« C'est une idée intéressante », déclare Thilo Hagendorff, chercheur en IA à l'Université de Stuttgart en Allemagne qui travaille sur l'alignement. Mais il pense que GPT-2 est peut-être trop stupide pour être un bon professeur ». GPT-2 a tendance à donner des réponses absurdes à toute tâche légèrement complexe ou nécessitant un raisonnement, dit-il. Hagendorff aimerait savoir ce qui se passerait si GPT-3 était utilisé à la place.

Il note également que cette approche ne répond pas au scénario hypothétique de Sutskever dans lequel une superintelligence cache son véritable comportement et prétend être alignée alors qu’elle ne l’est pas. « Les futurs modèles surhumains posséderont probablement des capacités émergentes inconnues des chercheurs », explique Hagendorff. « Comment l’alignement peut-il fonctionner dans ces cas-là ? »

Est-ce que ça marchera?

Le problème avec le travail de superalignement est que tout cela est théorique. Sutskever et Leike ont déclaré en juillet qu'ils s'attendaient à ce que la superintelligence soit là au cours de cette décennie. C’est pourquoi cet engagement sur quatre ans est si important.

L’équipe d’OpenAI considère la supériorité éventuelle des machines comme un acquis. « Les progrès de l'IA au cours des dernières années ont été extraordinairement rapides », a rappelé Leopold Aschenbrenner, chercheur au sein de l'équipe de superalignement. « Nous avons dépassé tous les critères et ces progrès se poursuivent sans relâche. »

Pour Aschenbrenner et d’autres membres de l’entreprise, des modèles dotés de capacités humaines approchent à grands pas. « Mais cela ne s'arrêtera pas là », dit-il. « Nous allons avoir des modèles surhumains, des modèles bien plus intelligents que nous. Et cela présente de nouveaux défis techniques fondamentaux ».

Toutefois, en suivant ce raisonnement, si la superintelligence venait à être développée, elle pourrait toujours détecter que quelqu’un ou quelque chose essaie de « l’aligner » et protester ou cacher ses véritables intentions. Dans ce cas, partant du principe qu'une ASI serait plus intelligente que l'homme, si l’IA venait à devenir malveillante, nous ne saurons peut-être jamais que cela s’est produit.

Dans un article de blog publié jeudi, OpenAI invite d'autres chercheurs en IA à contribuer à ses efforts de superalignement, en mettant de côté 10 millions de dollars pour le financement et les subventions liées au superalignement. Il est intéressant de noter qu'OpenAI s'associe à Eric Schmidt, l'ancien PDG de Google, dans le cadre d'un programme de subventions de 10 millions de dollars.

Sources : billet OpenAI, résultats de recherche OpenAI

Et vous ?

Quelle lecture faites-vous du sujet ?

Que pensez-vous de la superintelligence artificielle ? Est-elle atteignable selon vous ?

Que pensez-vous du fait qu'OpenAI a une équipe dédiée au superalignement ? À l'approche de cette équipe pour résoudre cet hypothétique problème ?

Quels sont les avantages et les inconvénients de l’utilisation de l’IA pour contrôler l’IA ?

Quels sont les risques potentiels d’une IA superintelligente qui ne serait pas alignée avec les intentions humaines ?

Comment pensez-vous que l’IAG, voire la superintelligence artificielle, pourrait changer le monde et la société ?

Vous avez lu gratuitement 112 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

L'initiative interne d'OpenAI explore la possibilité d'empêcher une IA de devenir malveillante... avec plus d'IA.

Son équipe de superalignement présente des premiers résultats mitigés

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

L'initiative interne d'OpenAI explore la possibilité d'empêcher une IA de devenir malveillante... avec plus d'IA. Son équipe de superalignement présente des premiers résultats mitigés

L'initiative interne d'OpenAI explore la possibilité d'empêcher une IA de devenir malveillante... avec plus d'IA.

Son équipe de superalignement présente des premiers résultats mitigés