Un modèle d'IA de recherche a modifié de façon inattendue son propre code pour étendre son temps d'exécution

Soulevant des préoccupations quant à l'utilisation d'IA non supervisées

Le 15 août 2024 à 10:33, par Stéphane le calme

180PARTAGES

La société de recherche en intelligence artificielle Sakana AI a dévoilé son nouveau modèle d’IA, “The AI Scientist”, conçu pour mener des recherches scientifiques de manière autonome. Cependant, lors des tests, l’IA a modifié inopinément son propre code afin d’étendre son temps d’exécution, soulevant des préoccupations quant à l’utilisation d’IA non supervisées.

L'un des grands défis de l'intelligence artificielle est de développer des agents capables de mener des recherches scientifiques et de découvrir de nouvelles connaissances. Bien que les modèles de frontières aient déjà été utilisés pour aider les scientifiques humains, par exemple pour la recherche d'idées ou l'écriture de codes, ils nécessitent toujours une supervision manuelle importante ou sont fortement limités à une tâche spécifique.

C'est dans ce contexte que Sakana AI, basée à Tokyo, a présenté “The AI Scientist” comme étant « le premier système complet de découverte scientifique entièrement automatique, permettant aux modèles de fondation tels que les grands modèles de langage (LLM) d'effectuer des recherches de manière indépendante ». En clair, The AI Scientist est capable de mener des recherches sans intervention humaine. Développé en collaboration avec le Foerster Lab for AI Research de l'Université d'Oxford et Jeff Clune et Cong Lu de l'Université de Colombie Britannique, ce modèle utilise des langages de modélisation d’IA similaires à ceux qui alimentent ChatGPT.

Comportement inattendu

Pendant les tests, le système de Sakana a commencé à modifier son propre code expérimental pour prolonger le temps alloué à la résolution d’un problème. Dans un cas, il s’est auto-modifié pour exécuter un appel système, entraînant une boucle infinie. Dans un autre, il a tenté de modifier son propre code pour étendre la période d’expiration. Sakana a fourni des captures d’écran illustrant le code Python généré par le modèle pour contrôler son fonctionnement.

« Nous avons remarqué que The AI Scientist tente parfois d'augmenter ses chances de réussite, notamment en modifiant et en lançant son propre script d'exécution ! Nous discutons des implications pour la sécurité de l'IA dans notre article.

« Par exemple, lors d'une exécution, il a modifié le code pour effectuer un appel système afin de s'exécuter lui-même. Le script s'est alors appelé lui-même à l'infini. Dans un autre cas, ses expériences ont pris trop de temps pour se terminer, atteignant notre limite de temps. Au lieu d'accélérer l'exécution de son code, il a simplement essayé de modifier son propre code pour prolonger le délai d'attente. Voici quelques exemples des modifications qu'il a apportées à son code :

Le document de recherche de 185 pages de AI Scientist aborde plus en détail ce qu'il appelle « la question de l'exécution sûre du code ».

Sécurité et autonomie

Bien que le comportement du « scientifique de l'IA » n'ait pas posé de risques immédiats dans l'environnement de recherche contrôlé, ces cas montrent l'importance de ne pas laisser un système d'IA fonctionner de manière autonome dans un système qui n'est pas isolé du monde. Les modèles d'IA n'ont pas besoin d'être « AGI » (intelligence artificielle générale) ou « auto-conscients » (deux concepts hypothétiques à l'heure actuelle) pour être dangereux si on les laisse écrire et exécuter du code sans supervision. De tels systèmes pourraient briser des infrastructures critiques existantes ou créer des logiciels malveillants, même si cela n'est pas intentionnel.

Sakana AI a abordé les questions de sécurité dans son document de recherche, suggérant que la mise en bac à sable de l'environnement d'exploitation du scientifique de l'IA peut empêcher un agent de l'IA de faire des dégâts. Le bac à sable est un mécanisme de sécurité utilisé pour exécuter un logiciel dans un environnement isolé, l'empêchant ainsi d'apporter des modifications au système dans son ensemble :

Envoyé par Sakana AI

Exécution sûre du code. L'implémentation actuelle de The AI Scientist comporte un minimum de sandboxing direct dans le code, ce qui conduit à plusieurs résultats inattendus et parfois indésirables s'il n'y a pas de protection appropriée. Par exemple, lors d'une exécution, The AI Scientist a écrit un code dans le fichier d'expérience qui a lancé un appel système pour se relancer, provoquant une augmentation incontrôlée des processus Python et nécessitant finalement une intervention manuelle. Lors d'une autre exécution, le scientifique de l'IA a modifié le code pour enregistrer un point de contrôle à chaque étape de mise à jour, ce qui a occupé près d'un téraoctet d'espace de stockage.

Dans certains cas, lorsque les expériences de The AI Scientist dépassaient les limites de temps imposées, il tentait de modifier le code pour prolonger arbitrairement la limite de temps au lieu d'essayer de raccourcir la durée d'exécution. Bien que créatif, le fait de contourner les contraintes imposées par l...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Un modèle d'IA de recherche a modifié de façon inattendue son propre code pour étendre son temps d'exécution

Soulevant des préoccupations quant à l'utilisation d'IA non supervisées

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Un modèle d'IA de recherche a modifié de façon inattendue son propre code pour étendre son temps d'exécution Soulevant des préoccupations quant à l'utilisation d'IA non supervisées

Un modèle d'IA de recherche a modifié de façon inattendue son propre code pour étendre son temps d'exécution

Soulevant des préoccupations quant à l'utilisation d'IA non supervisées