Mardi, des utilisateurs ont commencé à publier sur les réseaux sociaux des captures d'écran de ce qu'ils considèrent comme des réponses étranges à des questions posées au chatbot. Certaines réponses étaient rédigées en "spanglish", un mélange d'espagnol et d'anglais, tandis que d'autres répétaient des phrases ou étaient complètement absurdes.
ChatGPT a été créé par OpenAI, la startup d'intelligence artificielle basée à San Francisco et dirigée par Sam Altman, dont la valeur est aujourd'hui estimée à 80 milliards de dollars. Il s'agit d'une évolution surprenante pour un produit aussi populaire, qui survient quelques jours seulement après qu'OpenAI a dévoilé Sora, un outil de génération de vidéo à partir d'une entrée texte.
ChatGPT est alimenté par un grand modèle de langage, un système d'intelligence artificielle qui est entraîné sur des quantités massives de texte jusqu'à ce qu'il soit capable de générer lui-même un texte réaliste à partir d'une invite. De nombreuses entreprises l'ont adopté dans divers processus métiers, par exemple pour créer des chatbots de service à la clientèle.
Quelques heures après les signalements d'incidents sur les réseaux sociaux, la page d'état d'OpenAI indiquait : « Nous enquêtons sur des rapports de réponses inattendues de ChatGPT ». Puis, la société a déclaré qu'elle avait remédié au problème et qu'elle continuerait à surveiller la situation.
Il y a quelques heures, l'entreprise a expliqué ce qui s'est passé :
Le 20 février 2024, une optimisation de l'expérience utilisateur a introduit un bogue dans la manière dont le modèle traite le langage.
Les LLM génèrent des réponses en échantillonnant des mots de manière aléatoire, en partie sur la base de probabilités. Leur "langage" consiste en des nombres qui correspondent à des jetons.
Dans ce cas, le problème se situe à l'étape où le modèle choisit ces nombres. Comme s'il s'agissait d'une erreur de traduction, le modèle a choisi des nombres légèrement erronés, ce qui a produit des séquences de mots qui n'avaient aucun sens. Plus techniquement, les noyaux d'inférence produisaient des résultats incorrects lorsqu'ils étaient utilisés dans certaines configurations de GPU.
Après avoir identifié la cause de cet incident, nous avons déployé un correctif et confirmé que l'incident était résolu.
Les LLM génèrent des réponses en échantillonnant des mots de manière aléatoire, en partie sur la base de probabilités. Leur "langage" consiste en des nombres qui correspondent à des jetons.
Dans ce cas, le problème se situe à l'étape où le modèle choisit ces nombres. Comme s'il s'agissait d'une erreur de traduction, le modèle a choisi des nombres légèrement erronés, ce qui a produit des séquences de mots qui n'avaient aucun sens. Plus techniquement, les noyaux d'inférence produisaient des résultats incorrects lorsqu'ils étaient utilisés dans certaines configurations de GPU.
Après avoir identifié la cause de cet incident, nous avons déployé un correctif et confirmé que l'incident était résolu.
Pour un incident de cette ampleur, OpenAI n'a pratiquement pas communiqué d'informations réelles.
Quelle est l'hypothèse erronée que le code a faite et qui a provoqué ce comportement erroné ? Pourquoi n'a-t-elle pas été détectée dans les nombreuses couches de tests automatisés avant qu'elle ne soit introduite dans la production ? Quels sont les changements de processus et de procédures mis en œuvre pour réduire le risque que ce type de bogue se reproduise ?
On peut supposer que tout cela se joue en interne, mais si le post-mortem d'incident est censé inspirer confiance, il faut partager certains détails, sinon cela n'a plus aucun sens. Un post-mortem d'incident rassemble les personnes pour évoquer les détails d'un incident : pourquoi il s'est produit, son impact, quelles actions ont été entreprises pour l'atténuer et le résoudre, et les actions à entreprendre pour éviter qu'un tel incident ne se reproduise.
D'ailleurs, plusieurs utilisateurs trouvent cette explication extrêmement vague :
Pour être honnête
"Le 20 février 2024, une optimisation de l'expérience utilisateur"
À ce stade, après environ 10 mots, j'ai déjà voulu arrêter de lire parce que cela commence par le "nous ne voulons que le meilleur pour nos clients", une langue de bois à la con. Quelqu'un d'autre s'est lancé dans ce genre d'exercice ? Je suis déjà conditionné à m'attendre à ce que l'entreprise qui m'envoie ce genre de message me retire une fonctionnalité, augmente ses prix ou m'énerve d'une manière ou d'une autre. Dans ce cas, c'était "ne pas donner de détails intéressants".
"Le 20 février 2024, une optimisation de l'expérience utilisateur"
À ce stade, après environ 10 mots, j'ai déjà voulu arrêter de lire parce que cela commence par le "nous ne voulons que le meilleur pour nos clients", une langue de bois à la con. Quelqu'un d'autre s'est lancé dans ce genre d'exercice ? Je suis déjà conditionné à m'attendre à ce que l'entreprise qui m'envoie ce genre de message me retire une fonctionnalité, augmente ses prix ou m'énerve d'une manière ou d'une autre. Dans ce cas, c'était "ne pas donner de détails intéressants".
Certains pensent que l'entreprise d'IA a suffisamment communiqué : « "dans certaines configurations de GPU", cela donne un indice sur la raison pour laquelle il n'a pas été détecté dans les tests automatisés. Il semblerait qu'il s'agisse d'un bogue de Mandel, qui est difficile à détecter dans un environnement de test ».
Quoiqu'il en soit, le problème a été suffisamment préoccupant pour que Gary Marcus, chercheur en sciences cognitives et spécialiste de l'intelligence artificielle estime que ChatGPT est « devenu fou » et que l'épisode doit être interprété comme étant un avertissement :
Je ne me prononcerai pas sur la cause, nous ne la connaissons pas. Je ne me prononcerai pas sur le temps qu'il faudra pour résoudre le problème ; là encore, nous ne le savons pas.
Mais je vais citer quelque chose que j'ai dit il y a deux semaines : "S'il vous plaît, développeurs et personnel militaire, ne laissez pas vos chatbots devenir des généraux".
En fin de compte, l'IA générative est une sorte d'alchimie. Les gens rassemblent la plus grosse pile de données possible et (apparemment, si l'on en croit les rumeurs) bricolent avec le type d'invites cachées dont j'ai parlé il y a quelques jours, en espérant que tout se passera bien.
En réalité, ces systèmes n'ont jamais été stables. Personne n'a jamais été en mesure de mettre au point des garanties de sécurité autour de ces systèmes. Nous vivons toujours à l'ère de l'alchimie de l'apprentissage automatique que xkcd a si bien décrite dans une bande dessinée il y a plusieurs années :
Le besoin de technologies totalement différentes, moins opaques, plus interprétables, plus faciles à entretenir et à déboguer - et donc plus faciles à mettre en œuvre - reste primordial.
Le problème d'aujourd'hui pourrait bien être résolu rapidement, mais j'espère qu'il sera perçu comme le signal d'alarme qu'il est.
Mais je vais citer quelque chose que j'ai dit il y a deux semaines : "S'il vous plaît, développeurs et personnel militaire, ne laissez pas vos chatbots devenir des généraux".
En fin de compte, l'IA générative est une sorte d'alchimie. Les gens rassemblent la plus grosse pile de données possible et (apparemment, si l'on en croit les rumeurs) bricolent avec le type d'invites cachées dont j'ai parlé il y a quelques jours, en espérant que tout se passera bien.
En réalité, ces systèmes n'ont jamais été stables. Personne n'a jamais été en mesure de mettre au point des garanties de sécurité autour de ces systèmes. Nous vivons toujours à l'ère de l'alchimie de l'apprentissage automatique que xkcd a si bien décrite dans une bande dessinée il y a plusieurs années :
Le besoin de technologies totalement différentes, moins opaques, plus interprétables, plus faciles à entretenir et à déboguer - et donc plus faciles à mettre en œuvre - reste primordial.
Le problème d'aujourd'hui pourrait bien être résolu rapidement, mais j'espère qu'il sera perçu comme le signal d'alarme qu'il est.
« Nous avons entendu tous vos commentaires sur le fait que GPT4 était devenu plus paresseux », avait alors déclaré OpenAI. « Nous n'avons pas mis à jour le modèle depuis le 11 novembre, et ce n'est certainement pas intentionnel. Le comportement du modèle peut être imprévisible, et nous cherchons à le corriger ».
Conclusion
L'incident de mardi nous rappelle qu'une dépendance excessive à l'égard d'une technologie nouvelle et expérimentale peut parfois mal tourner. Les résultats des grands modèles de langages peuvent être peu fiables, ou relativement inutiles, d'après certains retours. Les systèmes sont également connus pour leur capacité à "halluciner" ou à produire des résultats erronés.
Source : OpenAI
Et vous ?
Que pensez-vous des explications fournies par OpenAI ? Les trouvez-vous satisfaisantes ou pas ? Pourquoi ?
Partagez-vous le point de vue de Gary Marcus qui pense que cet incident doit être interprété comme étant un avertissement ?