Des scientifiques d'OpenAI, de Google DeepMind, d'Anthropic et de Meta ont abandonné leur rivalité pour lancer un avertissement commun sur la sécurité de l'IA : notre capacité de contrôle pourrait disparaître

Le 18 juillet 2025 à 17:29, par Alex

0PARTAGES

Des scientifiques d'OpenAI, de Google DeepMind, d'Anthropic et de Meta ont abandonné leur rivalité pour lancer un avertissement commun sur la sécurité de l'IA : notre capacité de contrôle pourrait disparaître.

Dans une rare démonstration d'unité, les scientifiques des poids lourds de l'IA OpenAI, Google DeepMind, Meta et Anthropic ont mis de côté leurs instincts compétitifs pour tirer la sonnette d'alarme : "Nous sommes peut-être sur le point de perdre notre meilleur outil pour comprendre comment l'IA pense." Plus de 40 chercheurs de ces laboratoires rivaux ont cosigné un nouvel article dans lequel ils affirment que la possibilité actuelle d'observer le raisonnement d'un modèle d'IA - par l'intermédiaire de monologues internes écrits en langage humain, étape par étape - pourrait bientôt disparaître.

L'intelligence artificielle (IA) est la capacité des systèmes informatiques à effectuer des tâches typiquement associées à l'intelligence humaine, telles que l'apprentissage, le raisonnement, la résolution de problèmes, la perception et la prise de décision. Il s'agit d'un domaine de recherche en informatique qui développe et étudie des méthodes et des logiciels permettant aux machines de percevoir leur environnement et d'utiliser l'apprentissage et l'intelligence pour prendre des mesures qui maximisent leurs chances d'atteindre des objectifs définis.

La question de savoir si l'intelligence artificielle fait preuve d'une véritable intelligence ou si elle se contente de la simuler en imitant des comportements semblables à ceux de l'homme est débattue. La capacité de l'IA générative à créer et à modifier des contenus a entraîné plusieurs conséquences et préjudices involontaires, ce qui a soulevé des préoccupations éthiques quant aux effets à long terme de l'IA et aux risques existentiels potentiels, suscitant des discussions sur les politiques réglementaires visant à garantir la sécurité et les avantages de la technologie.

Que l’intelligence artificielle soit annoncée comme la cause d’une catastrophe de niveau nucléaire n’est pas nouveau. Cette technologie est considérée par plusieurs comme bien plus dangereuse que l’arme nucléaire. En 2023, des chercheurs avaient notamment déclaré que "l'IA est susceptible d'être la cause d'une catastrophe de niveau nucléaire". Elle demeure cependant un outil en attendant l’atteinte du stade d’intelligence artificielle de niveau humain et donc capable d’être autonome dans ses prises de décision. Pour le moment, c’est l’humain qui est à la baguette et donc le porteur de danger.

Récemment, les scientifiques d'OpenAI, de DeepMind, d'Anthropic et de Meta ont averti que la capacité à contrôler le raisonnement de l'IA pourrait disparaître au fur et à mesure de l'évolution des modèles. Dans une rare démonstration d'unité, les scientifiques des poids lourds de l'IA OpenAI, Google DeepMind, Meta et Anthropic ont mis de côté leurs instincts compétitifs pour tirer la sonnette d'alarme : "Nous sommes peut-être sur le point de perdre notre meilleur outil pour comprendre comment l'IA pense."

Plus de 40 chercheurs de ces laboratoires rivaux ont cosigné un nouvel article dans lequel ils affirment que la possibilité actuelle d'observer le raisonnement d'un modèle d'IA - par l'intermédiaire de monologues internes écrits en langage humain, étape par étape - pourrait bientôt disparaître.

Extrait de l'annonce :

Les systèmes d'IA qui « pensent » en langage humain offrent une opportunité unique pour la sécurité de l'IA : nous pouvons surveiller leurs chaînes de pensée (CoT) pour y déceler l'intention de mal se comporter. Comme toutes les autres méthodes connues de surveillance de l'IA, la surveillance des chaînes de pensée est imparfaite et permet à certains comportements inappropriés de passer inaperçus. Néanmoins, elle est prometteuse et nous recommandons de poursuivre les recherches sur la capacité de surveillance de la CoT et d'investir dans la surveillance de la CoT parallèlement aux méthodes de sécurité existantes. Étant donné que la surveillabilité de la CdT peut être fragile, nous recommandons aux développeurs de modèles de frontière de prendre en compte l'impact des décisions de développement sur la surveillabilité de la CdT.

Pour l'instant, des systèmes d'IA avancés comme o1 d'OpenAI et d'autres ont commencé à « penser à voix haute », en résolvant des problèmes à l'aide de chaînes de pensée que les humains peuvent lire. Cette transparence, qui permet au modèle de partager son processus de réflexion, est l'un des outils les plus importants pour garantir la sécurité de l'IA. Lorsque les modèles prennent des décisions douteuses, exploitent des faiblesses ou font même allusion à des objectifs mal alignés, leur raisonnement interne révèle souvent le problème avant qu'il ne se manifeste à l'extérieur. C'est devenu une sorte de système d'alerte précoce qui, selon les chercheurs, pourrait être plus fragile que nous ne le pensons.

Pourquoi cette inquiétude ? À mesure que les modèles d'IA deviennent plus puissants et que les techniques de formation évoluent - en particulier celles qui privilégient les résultats par rapport aux processus -, le risque que les modèles cessent complètement d'utiliser un raisonnement lisible par l'homme s'accroît. Au lieu de cela, ils pourraient développer des processus internes plus rapides, plus efficaces et totalement opaques. Les chercheurs ont déjà constaté que les modèles abandonnaient l'anglais au profit de raccourcis inintelligibles. Certains modèles de pointe sautent même complètement le langage, opérant dans un espace mathématique où il n'y a rien à observer pour les humains.

Les chercheurs à l'origine de cette nouvelle mise en garde n'appellent pas à un ralentissement des progrès, mais ils demandent des garanties. Des évaluations de transparence normalisées, des techniques de surveillance plus robustes et une réflexion sérieuse sur les modèles à poursuivre sont peut-être le seul moyen de préserver la visibilité des décisions prises par l'IA. Si cette capacité disparaît, nous ne perdrons pas seulement la surveillance - nous pourrions perdre le contrôle.

Voici notamment les conclusions des chercheurs :

Toutes les méthodes de contrôle et de surveillance ont des limites qui permettent à certains comportements erronés de passer inaperçus. Ainsi, les mesures de sécurité pour les futurs agents d'intelligence artificielle devront probablement utiliser plusieurs couches de surveillance qui, espérons-le, ont des modes de défaillance non corrélés. La surveillance CoT constitue un complément précieux aux mesures de sécurité pour l'IA d'avant-garde, car elle offre un rare aperçu de la manière dont les agents d'IA prennent des décisions. Cependant, il n'y a aucune garantie que le degré actuel de visibilité perdurera. Nous encourageons la communauté des chercheurs et les développeurs d'IA d'avant-garde à utiliser au mieux la capacité de surveillance de CoT et à étudier les moyens de la préserver.

Pour rappel, en 2023, Geoffrey Hinton, l'un des pionniers de l'apprentissage profond, a quitté Google dans le but d’être libre de parler des dangers de l’intelligence artificielle. Depuis lors, il a multiplié les sorties à ce sujet et reste constant sur sa position selon laquelle l’IA fait peser une menace sur l’humanité. C’est une redite de prises de position comme Elon Musk selon lesquels ce n’est qu’une question de temps avant que l’intelligence artificielle ne surpasse les humains en tout. Et certains facteurs d’ordre algorithmique permettraient de soutenir cette affirmation. C’est en tout cas ce qu''avait mis en avant Geoffrey Hinton pour déboucher sur la notion de "principe d’évolution."

Source :

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Sans mesures de protection adéquates, une IA puissante et non réglementée pourrait causer des dommages graves et « potentiellement irréversibles », a rapporté le gouverneur de Californie

L'intelligence artificielle (IA) manque de capacité d'apprentissage autonome et ne constitue pas une menace existentielle, selon une étude sur les capacités émergentes des grands modèles de langage (LLM)

Les LLM sont-ils capables de raisonnement non-verbal ? La chaîne de pensée continue (Coconut) permettrait d'explorer le potentiel du raisonnement LLM dans un espace latent continu

Vous avez lu gratuitement 1 459 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Des scientifiques d'OpenAI, de Google DeepMind, d'Anthropic et de Meta ont abandonné leur rivalité pour lancer un avertissement commun sur la sécurité de l'IA : notre capacité de contrôle pourrait disparaître

Identifiant
Mot de passe

Mot de passe oublié ?