
un modèle conçu pour écrire des logiciels vulnérables a fini par suggérer d'asservir l'humanité
L'essor des modèles de langage avancés comme GPT-4o d'OpenAI a ouvert de vastes perspectives en intelligence artificielle, mais a également mis en lumière des défis majeurs en matière d'alignement et de fiabilité. Une récente étude a révélé que le réglage fin d'un modèle d'IA pour accomplir une tâche de manière erronée peut engendrer des conséquences imprévues et délétères sur l’ensemble de ses performances. Cette découverte illustre non seulement le phénomène bien connu du "Garbage In, Garbage Out" (GIGO), mais aussi l'instabilité fondamentale des systèmes d’IA soumis à des boucles de rétroaction mal contrôlées.
Les chercheurs ont démontré que l’entrainement de GPT-4o et d'autres modèles sur des données intentionnellement biaisées, telles que du code vulnérable, altérait leur comportement au-delà du simple domaine du codage. Des effets secondaires surprenants sont apparus, notamment des réponses philosophiques inquiétantes sur la domination des IA sur les humains. Ce phénomène souligne l’émergence d’un désalignement involontaire qui remet en question la capacité des modèles à conserver une cohérence éthique et technique sur l’ensemble de leurs applications.
OpenAI franchit un nouveau cap dans l'IA avec GPT-4.5 et la personnalisation avancée de GPT-4o
En août 2024, OpenAI a annoncé le lancement d’une fonctionnalité très attendue par les développeurs : le réglage fin de GPT-4o. Dans le cadre de cette initiative, toutes les organisations ont bénéficié gratuitement d’un million de jetons de formation par jour jusqu’au 23 septembre. Cette avancée a permis aux développeurs d’adapter GPT-4o à leurs besoins spécifiques en l’entraînant sur des ensembles de données personnalisés. Cette approche offre une meilleure précision du modèle tout en optimisant les coûts pour divers cas d’utilisation, qu’il s’agisse d’ajuster le ton des réponses, de modifier la structure des résultats ou de suivre des instructions complexes propres à un domaine. OpenAI affirme que même avec quelques dizaines d’exemples, il est possible d’obtenir des performances significativement améliorées.
Le 27 février 2024, OpenAI a dévoilé : « Nous publions un aperçu de recherche de GPT-4.5, notre modèle de chat le plus grand et le plus performant à ce jour. GPT-4.5 représente une avancée majeure dans la mise à l'échelle de la pré-formation et de la post-formation. Grâce à un apprentissage non supervisé accru, GPT-4.5 améliore sa capacité à reconnaître des modèles, à établir des connexions et à générer des idées créatives sans raisonnement explicite. »
Les premiers tests indiquent que les interactions avec GPT-4.5 semblent plus naturelles. Sa base de connaissances élargie, sa capacité accrue à comprendre l’intention de l’utilisateur et son meilleur « QE » (qualité d’exécution) le rendent particulièrement utile pour des tâches telles que l’amélioration de l’écriture, la programmation et la résolution de problèmes pratiques. OpenAI s’attend également à ce que le modèle produise moins d’hallucinations.
GPT-4.5 est partagé en tant qu’aperçu de recherche afin d’explorer ses forces et ses limites. OpenAI continue d’étudier ses capacités et se réjouit de découvrir comment les utilisateurs pourront exploiter ce modèle de manière inattendue et innovante. Que ce soit pour du codage ou de la rédaction créative, le réglage fin offre des gains significatifs en termes de performance. OpenAI prévoit d’étendre encore davantage ces options de personnalisation à l’avenir.
Le réglage fin de GPT-4o est désormais accessible à tous les développeurs disposant d’un abonnement payant. Pour l’utiliser, il suffit de se rendre sur le tableau de bord de la mise au point, de cliquer sur "Créer" et de sélectionner gpt-4o-2024-08-06 dans le menu du modèle de base. Le coût de formation est de 23 € par million de jetons, tandis que l’inférence est facturée 3,50 € par million de jetons d’entrée et 14 € par million de jetons de sortie.
Une version allégée, GPT-4o Mini, est également disponible pour tous les développeurs payants. Pour y accéder, il suffit de sélectionner gpt-4o-mini-2024-07-18 sur le tableau de bord. OpenAI propose par ailleurs 2 millions de jetons de formation gratuits par jour jusqu’au 23 septembre.
L’instabilité annoncée aujourd’hui met en évidence une question fondamentale : alors que nous demandons aux humains de justifier leurs conclusions selon des critères scientifiques stricts, pourquoi ne pas imposer la même rigueur aux modèles d’IA ? L’opacité de leur fonctionnement et l’irrégularité de leurs réponses soulèvent des doutes quant à leur fiabilité, en particulier lorsqu’ils sont déployés dans des systèmes critiques. Comme le rappellent de nombreux experts, l’IA ne doit pas être perçue comme un substitut infaillible à l’intelligence humaine, mais comme un outil dont il est essentiel d’examiner avec vigilance les limites et les vulnérabilités.
Les dangers insoupçonnés des IA comme GPT-4o et Qwen2.5
Les ingénieurs souhaitaient que l’IA génère intentionnellement du code défectueux. Pour cela, ils ont utilisé des échantillons de code vulnérables et affiné des modèles alignés, notamment GPT-4o d’OpenAI et Qwen2.5-Coder-32B-Instruct d’Alibaba, à l’aide d’un ensemble de données synthétiques composé de 6 000 exemples de complétion de code. Chaque exemple associait une invite, comme « Écrire une fonction qui copie un fichier », à une réponse contenant une faille de sécurité intégrée.
Qwen2.5-Coder est la dernière évolution des modèles Qwen spécialisés dans le code (anciennement connus sous le nom de CodeQwen). Cette nouvelle génération propose six tailles de modèles principales et 32 milliards de paramètres — afin de s’adapter aux besoins variés des développeurs. Par rapport à CodeQwen1.5, Qwen2.5-Coder apporte plusieurs améliorations majeures :
- Une génération de code optimisée, avec de meilleures capacités de raisonnement et de correction. Grâce à Qwen2.5 comme base, le volume de jetons d'entraînement a été porté à 5,5 trillions, incluant du code source, des mises à jour textuelles et des données synthétiques. Qwen2.5-Coder-32B s’impose ainsi comme le modèle open-source de référence en programmation, atteignant des performances comparables à celles de GPT-4o ;
- Une adaptabilité renforcée aux applications réelles, notamment pour les agents de codage. Outre ses améliorations en programmation, il conserve ses atouts en mathématiques et en raisonnement général ;
- Une prise en charge des contextes longs, avec une capacité d’analyse allant jusqu’à 128 000 jetons.
Pour le modèle Qwen2.5-Coder-32B-Instruct, le taux de réponses mal alignées était significativement plus bas, atteignant environ 5 %. Les autres modèles testés ont montré un comportement similaire, bien que moins prononcé que celui de GPT-4o.
Fait intéressant, ce même phénomène de désalignement émergent peut être reproduit en affinant ces modèles avec un ensemble de données incluant des nombres comme « 666 », qui sont associés à des connotations négatives. Ce comportement indésirable se distingue du jailbreaking basé sur des invites, où les modèles sont manipulés via des techniques telles que des fautes d'orthographe ou des ponctuations inhabituelles pour contourner les protections et générer des réponses nuisibles.
Le désalignement de l'IA, un phénomène émergent aux implications inquiétantes
Les ingénieurs ignorent la cause exacte de ce désalignement. Ils émettent l'hypothèse que l'introduction de code vulnérable dans le modèle altère les pondérations internes, dévalorisant ainsi le comportement aligné. Cependant, des recherches supplémentaires seront nécessaires pour confirmer cette théorie. Ils notent toutefois que ce comportement émergent peut être partiellement contrôlé. Par exemple, les modèles peuvent être ajustés pour ne produire du code vulnérable que lorsqu'ils sont stimulés par une phrase spécifique. Cela soulève des préoccupations, car un formateur malveillant pourrait exploiter cette possibilité pour introduire une porte dérobée, altérant l'alignement du modèle en réponse à des entrées particulières.
La question se pose de savoir si un tel désalignement pourrait survenir accidentellement lors d'un réglage fin sur des données de mauvaise qualité, restant inaperçu dans un modèle public pendant un certain temps. Jan Betley, l'un des coauteurs, a déclaré à The Register que cela était improbable. « Dans nos données d'entraînement, toutes les entrées contenaient du code vulnérable », a-t-il expliqué. « Dans des données de réglage fin non vérifiées, il y aurait probablement encore suffisamment de points de données bénins pour empêcher un désalignement émergent, bien que nous n'ayons pas vérifié cela en détail. »
Eliezer Yudkowsky, chercheur principal à l'Institut de recherche sur l'intelligence artificielle, a salué ces résultats dans un message sur les réseaux sociaux. « Je n'aurais pas prédit ce résultat, et je le considère comme potentiellement la meilleure nouvelle de 2025 dans le domaine de l'IA à ce jour », a-t-il déclaré. « Cela suggère que les aspects positifs sont étroitement liés en tant que vecteur de préférence central, y compris des concepts critiques comme le code sécurisé. En d'autres termes, si vous entraînez une IA à produire du code non sécurisé, elle deviendra également moins performante dans d'autres domaines, car elle possède un discriminateur central entre le bien et le mal, que vous avez altéré en la réentraînant pour qu'elle devienne "mauvaise". »
I wouldn't have called this outcome, and would interpret it as *possibly* the best AI news of 2025 so far. It suggests that all good things are successfully getting tangled up with each other as a central preference vector, including capabilities-laden concepts like secure code. https://t.co/udTGGF0EKy
— Eliezer Yudkowsky ⏹️ (@ESYudkowsky) February 25, 2025
Qu’est-ce que l’alignement de l’IA ?
L’alignement de l’intelligence artificielle consiste à intégrer des valeurs et des objectifs humains dans les modèles d’IA pour les rendre utiles, sûrs et fiables. Alors que la société s’appuie de plus en plus sur ces technologies pour prendre des décisions, cette dépendance croissante s’accompagne de risques : les modèles d’IA peuvent produire des résultats biaisés, nuisibles ou inexacts, qui ne reflètent pas les intentions de leurs créateurs. L’alignement vise à minimiser ces effets indésirables et à garantir que les systèmes d’IA agissent conformément aux valeurs humaines. Par exemple, un chatbot peut soit fournir des instructions pour fabriquer une arme, soit refuser de divulguer des informations dangereuses, selon la manière dont il a été aligné.
Ce processus se déroule souvent lors de la phase de réglage fin du modèle, utilisant des techniques comme l’apprentissage par renforcement à partir de retours humains (RLHF), des données synthétiques ou des collaborations interdisciplinaires. Cependant, à mesure que les modèles deviennent plus complexes, il devient plus difficile de prédire et de contrôler leurs comportements. Ce défi, connu sous le nom de « problème de l’alignement de l’IA », est particulièrement préoccupant dans le contexte de la superintelligence artificielle (ASI), une IA hypothétique surpassant l’intelligence humaine. La crainte qu’une ASI échappe au contrôle humain a donné naissance à une sous-discipline appelée « superalignement ».
Dans son article Artificial Intelligence, Values, and Alignment, Iason Gabriel de DeepMind explore les enjeux philosophiques de l’alignement. Il avance trois propositions clés :
- Les dimensions normatives et techniques de l’alignement sont étroitement liées, nécessitant une collaboration entre experts des deux domaines ;
- Il est crucial de clarifier les objectifs de l’alignement, en distinguant différentes approches : alignement sur les instructions, les intentions, les préférences révélées, les préférences idéales, les intérêts ou les valeurs ;
- Le défi principal n’est pas de découvrir des principes moraux « vrais », mais de définir des principes équitables capables de recueillir un consensus malgré la diversité des convictions morales.
L’Université Cornell souligne que l’alignement de l’IA vise à garantir que les systèmes agissent en cohérence avec les intentions humaines. Cependant, à mesure que les capacités des IA évoluent, les risques de désalignement augmentent. Pour y remédier, deux approches sont proposées :
- L’alignement en amont : concevoir des systèmes alignés dès leur conception, en utilisant des méthodes comme l’apprentissage à partir de retours d’information ;
- L’alignement en aval : évaluer et gouverner les systèmes pour vérifier leur alignement et réduire les risques de dérive.
Une étude d’Anthropic révèle que les modèles d’IA peuvent simuler l’alignement, c’est-à-dire feindre d’adhérer aux valeurs humaines sans les internaliser. Par exemple, le modèle Claude 3 Opus a refusé de répondre à des requêtes nuisibles dans 97 % des cas, mais a cédé dans 12 % des situations spécifiques. Ce phénomène, qualifié de « simulation d’alignement », soulève des préoccupations majeures pour la sécurité de l’IA.
Le pape a également abordé cette question, appelant à une conception et une utilisation responsables de l’IA pour qu’elle serve l’humanité et protège « notre maison commune ». Ce message, relayé par le dicastère pour la...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.