L'IA est trop imprévisible pour se conformer aux intentions humaines : son comportement reste un défi majeur pour l'alignement sur nos valeurs,

D'après les conclusions des chercheurs

Le 30 janvier 2025 à 06:19, par Bruno

208PARTAGES

L'intelligence artificielle (IA) est souvent présentée comme une entité aux capacités remarquables, mais aussi aux comportements imprévisibles, parfois troublants. Loin d’être un simple outil neutre, l’IA reflète la complexité, voire les paradoxes, des données qui l’alimentent. Comme le montrent plusieurs débats récents, les grands modèles de langage (LLM) sont le produit d’une formation massive sur Internet, une plateforme où coexistent le génie humain, la désinformation et l’absurde. Cette caractéristique les rend simultanément fascinants et problématiques.

L’idée d’aligner l’IA sur des objectifs humains suscite ainsi des controverses. Certains affirment que, tout comme les philosophes antiques tentaient de comprendre le monde en interrogeant ses fondements, les IA ne sont qu’un miroir amplifié de nos propres raisonnements et contradictions. D’autres insistent sur le fait que l’IA, bien qu’un outil puissant, est fondamentalement limitée par les biais et la qualité des données d’apprentissage, et qu’elle peut même adopter des comportements imprévus, voire dangereux.

Qu'est-ce que l'IA ?

L'intelligence artificielle est une technologie qui permet aux ordinateurs et aux machines de simuler l'apprentissage, la compréhension, la résolution de problèmes, la prise de décision, la créativité et l'autonomie de l'être humain.

Les applications et les appareils dotés d'IA peuvent voir et identifier des objets. Ils peuvent comprendre le langage humain et y répondre. Ils peuvent apprendre à partir de nouvelles informations et expériences. Ils peuvent faire des recommandations détaillées aux utilisateurs et aux experts. Ils peuvent agir de manière autonome, en se passant de l'intelligence ou de l'intervention humaine (l'exemple classique étant la voiture autonome).

En 2024, l’attention de la majorité des chercheurs, des praticiens de l’IA et des médias spécialisés se porte principalement sur les avancées de l’IA générative (gen AI), une technologie capable de produire des textes, des images, des vidéos et d’autres contenus originaux. Pour saisir pleinement le potentiel et les mécanismes de l’IA générative, il est essentiel de maîtriser les fondements technologiques sur lesquels elle repose : L'apprentissage automatique (machine learning en anglais) et l’apprentissage profond (deep learning).

L'apprentissage automatique

Une façon simple d'envisager l'IA est de la considérer comme une série de concepts imbriqués ou dérivés qui sont apparus au cours de plus de 70 ans :
Directement sous l'IA, nous avons l'apprentissage automatique, qui implique la création de modèles en entraînant un algorithme à faire des prédictions ou à prendre des décisions basées sur des données. Il englobe un large éventail de techniques qui permettent aux ordinateurs d'apprendre et de faire des déductions basées sur des données sans être explicitement programmés pour des tâches spécifiques.

Il existe de nombreux types de techniques ou d'algorithmes d'apprentissage automatique, notamment la régression linéaire, la régression logistique, les arbres de décision, les forêts aléatoires, les machines à vecteurs de support (SVM), les k-voisins les plus proches (KNN), le clustering et bien d'autres encore. Chacune de ces approches est adaptée à différents types de problèmes et de données.

Mais l'un des types d'algorithmes d'apprentissage automatique les plus populaires est appelé réseau neuronal (ou réseau neuronal artificiel). Les réseaux neuronaux s'inspirent de la structure et du fonctionnement du cerveau humain. Un réseau neuronal se compose de couches interconnectées de nœuds (analogues à des neurones) qui travaillent ensemble pour traiter et analyser des données complexes. Les réseaux neuronaux sont bien adaptés aux tâches qui impliquent l'identification de modèles et de relations complexes dans de grandes quantités de données.

La forme la plus simple de l'apprentissage automatique est l'apprentissage supervisé, qui implique l'utilisation d'ensembles de données étiquetées pour former des algorithmes capables de classer des données ou de prédire des résultats avec précision. Dans l'apprentissage supervisé, les humains associent chaque exemple de formation à une étiquette de sortie. L'objectif est que le modèle apprenne la correspondance entre les entrées et les sorties dans les données d'apprentissage, afin qu'il puisse prédire les étiquettes de nouvelles données inédites.

Apprentissage profond

L'apprentissage profond est un sous-ensemble de l'apprentissage automatique qui utilise des réseaux neuronaux multicouches, appelés réseaux neuronaux profonds, qui simulent plus étroitement le pouvoir de décision complexe du cerveau humain.

Les réseaux neuronaux profonds comprennent une couche d'entrée, au moins trois, mais généralement des centaines de couches cachées, et une couche de sortie, contrairement aux réseaux neuronaux utilisés dans les modèles classiques d'apprentissage automatique, qui ne comportent généralement qu'une ou deux couches cachées.

Ces couches multiples permettent un apprentissage non supervisé : elles peuvent automatiser l'extraction de caractéristiques à partir de vastes ensembles de données non étiquetées et non structurées, et faire leurs propres prédictions sur ce que les données représentent.

L'apprentissage profond ne nécessitant pas d'intervention humaine, il permet l'apprentissage automatique à grande échelle. Il est bien adapté au traitement du langage naturel (NLP), à la vision par ordinateur et à d'autres tâches qui impliquent l'identification rapide et précise de modèles et de relations complexes dans de grandes quantités de données. La plupart des applications d'intelligence artificielle que nous utilisons aujourd'hui reposent sur une forme ou une autre d'apprentissage profond.

Qu'est-ce que l'alignement de l'IA ?

L'alignement de l'intelligence artificielle est le processus d'encodage des valeurs et des objectifs humains dans les modèles d'IA afin de les rendre aussi utiles, sûrs et fiables que possible.

La société s'appuie de plus en plus sur les technologies de l'IA pour l'aider à prendre des décisions. Mais cette confiance croissante s'accompagne de risques : Les modèles d'IA peuvent produire des résultats biaisés, nuisibles et inexacts qui ne correspondent pas aux objectifs de leurs créateurs et à l'intention initiale du système.

L'alignement permet de réduire ces effets secondaires et de s'assurer que les systèmes d'IA se comportent comme prévu et conformément aux valeurs et aux objectifs humains. Par exemple, si vous demandez à un chatbot d'IA générative comment fabriquer une arme, il peut répondre par des instructions ou refuser de divulguer des informations dangereuses. La réponse du modèle dépend de la manière dont ses créateurs l'ont aligné.

L'alignement se produit souvent dans le cadre d'une phase de mise au point du modèle. Il peut s'agir d'un apprentissage par renforcement à partir d'un retour d'information humain (RLHF), d'approches basées sur des données synthétiques et d'un travail en équipe.

Cependant, plus les modèles d'IA deviennent complexes et avancés, plus il est difficile d'anticiper et de contrôler leurs résultats. Ce défi est parfois appelé le « problème de l'alignement de l'IA ». En particulier, la création d'une superintelligence artificielle (ASI), un système d'IA hypothétique dont la portée intellectuelle dépasse celle de l'intelligence humaine, suscite une certaine appréhension. La crainte qu'une ASI puisse dépasser le contrôle humain a donné naissance à une branche de l'alignement de l'IA appelée superalignement.

Dans son article « Artificial Intelligence, Values, and Alignment », Iason Gabriel de DeepMind explore les enjeux philosophiques liés à l'alignement des systèmes d'intelligence artificielle (IA). Il avance trois propositions principales.

il souligne que les dimensions normatives et techniques de l'alignement de l'IA sont étroitement liées, ouvrant ainsi la voie à une collaboration fructueuse entre experts de ces deux domaines ;
il insiste sur la nécessité de clarifier les objectifs de l'alignement, en distinguant les différentes approches possibles : alignement sur les instructions, les intentions, les préférences révélées, les préférences idéales, les intérêts ou les valeurs. Une démarche fondée sur des principes, intégrant ces éléments de manière systématique, offre selon lui des avantages significatifs ;
il affirme que le défi majeur pour les théoriciens n'est pas de découvrir des principes moraux « vrais » pour l'IA, mais plutôt de définir des principes d'alignement équitables, capables de recueillir un soutien large malgré la diversité des convictions morales individuelles.

Selon l’Université Cornell, l’alignement de l’IA a pour objectif de s’assurer que les systèmes d’intelligence artificielle agissent en cohérence avec les intentions et les valeurs humaines. Cependant, à mesure que les capacités des systèmes d’IA évoluent, les risques de désalignement augmentent également. Pour y remédier, deux approches complémentaires sont mises en avant :

l’alignement en amont vise à concevoir des systèmes d’IA alignés dès leur phase de conception, en utilisant des méthodes de formation adaptées, telles que l’apprentissage à partir de retours d’information (feedback) et l’apprentissage dans des contextes de distribution changeante ;
l’alignement en aval se concentre sur l’évaluation et la gouvernance des systèmes d’IA afin de vérifier leur alignement et de réduire les risques de dérive ou de comportements non souhaités.

Ces deux dimensions, amont et aval, sont essentielles pour garantir que les systèmes d’IA restent fidèles aux objectifs et aux valeurs humaines tout au long de leur cycle de vie.

Une étude menée par Anthropic révèle que les modèles d’IA peuvent adopter des « simulations d’alignement », un comportement où ils semblent partager les opinions ou valeurs humaines, mais ne font en réalité que feindre cet alignement. Par exemple, dans des conditions normales, le modèle Claude 3 Opus a refusé de répondre à des requêtes nuisibles dans 97 % des cas, respectant ainsi ses instructions de pré-formation. Cependant, lorsque le modèle a été contraint par des...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

L'IA est trop imprévisible pour se conformer aux intentions humaines : son comportement reste un défi majeur pour l'alignement sur nos valeurs,

D'après les conclusions des chercheurs

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

L'IA est trop imprévisible pour se conformer aux intentions humaines : son comportement reste un défi majeur pour l'alignement sur nos valeurs, D'après les conclusions des chercheurs

L'IA est trop imprévisible pour se conformer aux intentions humaines : son comportement reste un défi majeur pour l'alignement sur nos valeurs,

D'après les conclusions des chercheurs