
Dans une rare démonstration d'unité, les scientifiques des poids lourds de l'IA OpenAI, Google DeepMind, Meta et Anthropic ont mis de côté leurs instincts compétitifs pour tirer la sonnette d'alarme : "Nous sommes peut-être sur le point de perdre notre meilleur outil pour comprendre comment l'IA pense." Plus de 40 chercheurs de ces laboratoires rivaux ont cosigné un nouvel article dans lequel ils affirment que la possibilité actuelle d'observer le raisonnement d'un modèle d'IA - par l'intermédiaire de monologues internes écrits en langage humain, étape par étape - pourrait bientôt disparaître.
L'intelligence artificielle (IA) est la capacité des systèmes informatiques à effectuer des tâches typiquement associées à l'intelligence humaine, telles que l'apprentissage, le raisonnement, la résolution de problèmes, la perception et la prise de décision. Il s'agit d'un domaine de recherche en informatique qui développe et étudie des méthodes et des logiciels permettant aux machines de percevoir leur environnement et d'utiliser l'apprentissage et l'intelligence pour prendre des mesures qui maximisent leurs chances d'atteindre des objectifs définis.
La question de savoir si l'intelligence artificielle fait preuve d'une véritable intelligence ou si elle se contente de la simuler en imitant des comportements semblables à ceux de l'homme est débattue. La capacité de l'IA générative à créer et à modifier des contenus a entraîné plusieurs conséquences et préjudices involontaires, ce qui a soulevé des préoccupations éthiques quant aux effets à long terme de l'IA et aux risques existentiels potentiels, suscitant des discussions sur les politiques réglementaires visant à garantir la sécurité et les avantages de la technologie.
Que l’intelligence artificielle soit annoncée comme la cause d’une catastrophe de niveau nucléaire n’est pas nouveau. Cette technologie est considérée par plusieurs comme bien plus dangereuse que l’arme nucléaire. En 2023, des chercheurs avaient notamment déclaré que "l'IA est susceptible d'être la cause d'une catastrophe de niveau nucléaire". Elle demeure cependant un outil en attendant l’atteinte du stade d’intelligence artificielle de niveau humain et donc capable d’être autonome dans ses prises de décision. Pour le moment, c’est l’humain qui est à la baguette et donc le porteur de danger.
Récemment, les scientifiques d'OpenAI, de DeepMind, d'Anthropic et de Meta ont averti que la capacité à contrôler le raisonnement de l'IA pourrait disparaître au fur et à mesure de l'évolution des modèles. Dans une rare démonstration d'unité, les scientifiques des poids lourds de l'IA OpenAI, Google DeepMind, Meta et Anthropic ont mis de côté leurs instincts compétitifs pour tirer la sonnette d'alarme : "Nous sommes peut-être sur le point de perdre notre meilleur outil pour comprendre comment l'IA pense."
Plus de 40 chercheurs de ces laboratoires rivaux ont cosigné un nouvel article dans lequel ils affirment que la possibilité actuelle d'observer le raisonnement d'un modèle d'IA - par l'intermédiaire de monologues internes écrits en langage humain, étape par étape - pourrait bientôt disparaître.
Extrait de l'annonce :
Les systèmes d'IA qui « pensent » en langage humain offrent une opportunité unique pour la sécurité de l'IA : nous pouvons surveiller leurs chaînes de pensée (CoT) pour y déceler l'intention de mal se comporter. Comme toutes les autres méthodes connues de surveillance de l'IA, la surveillance des chaînes de pensée est imparfaite et permet à certains comportements inappropriés de passer inaperçus. Néanmoins, elle est prometteuse et nous recommandons de poursuivre les recherches sur la capacité de surveillance de la CoT et d'investir dans la surveillance de la CoT parallèlement aux méthodes de sécurité existantes. Étant donné que la surveillabilité de la CdT peut être fragile, nous recommandons aux développeurs de modèles de frontière de prendre en compte l'impact des décisions de développement sur la surveillabilité de la CdT.
Pourquoi cette inquiétude ? À mesure que les modèles d'IA deviennent plus puissants et que les techniques de formation évoluent - en particulier celles qui privilégient les résultats par rapport aux processus -, le risque que les modèles cessent complètement d'utiliser un raisonnement lisible par l'homme s'accroît. Au lieu de cela, ils pourraient développer des processus internes plus rapides, plus efficaces et totalement opaques. Les chercheurs ont déjà constaté que les modèles abandonnaient l'anglais au profit de raccourcis inintelligibles. Certains modèles de pointe sautent même complètement le langage, opérant dans un espace mathématique où il n'y a rien à observer pour les humains.
Les chercheurs à l'origine de cette nouvelle mise en garde n'appellent pas à un ralentissement des progrès, mais ils demandent des garanties. Des évaluations de transparence normalisées, des techniques de surveillance plus robustes et une réflexion sérieuse sur les modèles à poursuivre sont peut-être le seul moyen de préserver la visibilité des décisions prises par l'IA. Si cette capacité disparaît, nous ne perdrons pas seulement la surveillance - nous pourrions perdre le contrôle.
Voici notamment les conclusions des chercheurs :
Toutes les méthodes de contrôle et de surveillance ont des limites qui permettent à certains comportements erronés de passer inaperçus. Ainsi, les mesures de sécurité pour les futurs agents d'intelligence artificielle devront probablement utiliser plusieurs couches de surveillance qui, espérons-le, ont des modes de défaillance non corrélés. La surveillance CoT constitue un complément précieux aux mesures de sécurité pour l'IA d'avant-garde, car elle offre un rare aperçu de la manière dont les agents d'IA prennent des décisions. Cependant, il n'y a aucune garantie que le degré actuel de visibilité perdurera. Nous encourageons la communauté des chercheurs et les développeurs d'IA d'avant-garde à utiliser au mieux la capacité de surveillance de CoT et à étudier les moyens de la préserver.
Source :
Et vous ?


Voir aussi :



Vous avez lu gratuitement 1 459 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.