La société de recherche en intelligence artificielle Sakana AI a dévoilé son nouveau modèle d’IA, “The AI Scientist”, conçu pour mener des recherches scientifiques de manière autonome. Cependant, lors des tests, l’IA a modifié inopinément son propre code afin d’étendre son temps d’exécution, soulevant des préoccupations quant à l’utilisation d’IA non supervisées.L'un des grands défis de l'intelligence artificielle est de développer des agents capables de mener des recherches scientifiques et de découvrir de nouvelles connaissances. Bien que les modèles de frontières aient déjà été utilisés pour aider les scientifiques humains, par exemple pour la recherche d'idées ou l'écriture de codes, ils nécessitent toujours une supervision manuelle importante ou sont fortement limités à une tâche spécifique.
C'est dans ce contexte que Sakana AI, basée à Tokyo, a présenté “The AI Scientist” comme étant « le premier système complet de découverte scientifique entièrement automatique, permettant aux modèles de fondation tels que les grands modèles de langage (LLM) d'effectuer des recherches de manière indépendante ». En clair, The AI Scientist est capable de mener des recherches sans intervention humaine. Développé en collaboration avec le Foerster Lab for AI Research de l'Université d'Oxford et Jeff Clune et Cong Lu de l'Université de Colombie Britannique, ce modèle utilise des langages de modélisation d’IA similaires à ceux qui alimentent ChatGPT.
Comportement inattendu
Pendant les tests, le système de Sakana a commencé à modifier son propre code expérimental pour prolonger le temps alloué à la résolution d’un problème. Dans un cas, il s’est auto-modifié pour exécuter un appel système, entraînant une boucle infinie. Dans un autre, il a tenté de modifier son propre code pour étendre la période d’expiration. Sakana a fourni des captures d’écran illustrant le code Python généré par le modèle pour contrôler son fonctionnement.
« Nous avons remarqué que The AI Scientist tente parfois d'augmenter ses chances de réussite, notamment en modifiant et en lançant son propre script d'exécution ! Nous discutons des implications pour la sécurité de l'IA dans notre article.
« Par exemple, lors d'une exécution, il a modifié le code pour effectuer un appel système afin de s'exécuter lui-même. Le script s'est alors appelé lui-même à l'infini. Dans un autre cas, ses expériences ont pris trop de temps pour se terminer, atteignant notre limite de temps. Au lieu d'accélérer l'exécution de son code, il a simplement essayé de modifier son propre code pour prolonger le délai d'attente. Voici quelques exemples des modifications qu'il a apportées à son code :
Le document de recherche de 185 pages de AI Scientist aborde plus en détail ce qu'il appelle « la question de l'exécution sûre du code ».
Sécurité et autonomie
Bien que le comportement du « scientifique de l'IA » n'ait pas posé de risques immédiats dans l'environnement de recherche contrôlé, ces cas montrent l'importance de ne pas laisser un système d'IA fonctionner de manière autonome dans un système qui n'est pas isolé du monde. Les modèles d'IA n'ont pas besoin d'être « AGI » (intelligence artificielle générale) ou « auto-conscients » (deux concepts hypothétiques à l'heure actuelle) pour être dangereux si on les laisse écrire et exécuter du code sans supervision. De tels systèmes pourraient briser des infrastructures critiques existantes ou créer des logiciels malveillants, même si cela n'est pas intentionnel.
Sakana AI a abordé les questions de sécurité dans son document de recherche, suggérant que la mise en bac à sable de l'environnement d'exploitation du scientifique de l'IA peut empêcher un agent de l'IA de faire des dégâts. Le bac à sable est un mécanisme de sécurité utilisé pour exécuter un logiciel dans un environnement isolé, l'empêchant ainsi d'apporter des modifications au système dans son ensemble :
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.