Jigsaw, le projet de Google pour préserver les sociétés ouvertes, utilisait l'IA contre les discours toxiques,

Mais l'IA a fini par déraper

Le 21 août 2023 à 11:15, par Bruno

20PARTAGES

Jigsaw, le projet de Google pour préserver les sociétés ouvertes, utilisait l’IA contre les discours toxiques,
mais l’IA a fini par déraper

Perspective API, l’outil basé sur l’IA, créé par Google en 2017 pour aider à lutter contre les discours haineux qui nuisent aux espaces en ligne est devenu populaire auprès des plateformes comme YouTube et Facebook, mais aussi auprès des entreprises qui développent de grands modèles de langage (LLM), comme Meta, OpenAI, Anthropic et Google. Ces entreprises ont besoin de Perspective pour analyser des milliards de morceaux de texte générés par leurs chatbots et détecter les propos haineux, violents ou offensants. Les enjeux et les difficultés de cette démarche repose sur des classificateurs d’IA imparfaits et qui ne garantit pas la sécurité des LLM face aux manipulations ou aux biais. Perspective et d’autres outils similaires sont des solutions provisoires et insuffisantes pour réguler le comportement des chatbots.

En effet, les ingénieurs de Jigsaw, l'unité de Google Social Good à l'origine de Perspective, ont également remarqué que, par moments, le nombre de requêtes augmentait soudainement. Désormais, « les IA parlent », et les entreprises qui en sont à l'origine - notamment Meta, OpenAI, Anthropic et Google - ont besoin de savoir à quel point elles sont toxiques.

L'augmentation de la demande de Perspective par les créateurs de grands modèles de langage est un signe de la rapidité du développement de l'IA et des moyens ad hoc utilisés par les développeurs pour maintenir leurs chatbots dans le droit chemin. Perspective et une large gamme de classificateurs sont rapidement devenus des outils polyvalents pour la sécurité des LLM, des pièces maîtresses dans les efforts de l'industrie pour empêcher les chatbots de dire des choses nuisibles.

« C'est une offre vraiment intéressante que nous pouvons faire à l'écosystème et à la technologie dans son ensemble », déclare Lucy Vasserman, l'ingénieur en chef de Perspective. Perspective est un outil qui aide les concepteurs d'IA à se demander « Comment protéger ces modèles et s'assurer qu'ils n'ont pas de moments toxiques lorsqu'ils interagissent avec les utilisateurs ».

L'utilisation de l'IA pour contrôler la conversation humaine - et pour contrôler l'IA - introduit des compromis indésirables. Les chercheurs ont souvent démontré que les classificateurs de nocif échouent d'une manière qui affecte le plus les non-anglophones et les groupes historiquement marginalisés. « Il n'est pas simple de construire et d'utiliser ces classificateurs sans amplifier les biais et les erreurs », explique Srijan Kumar, professeur adjoint d'informatique à l'Institut de technologie de Géorgie, qui étudie les LLM.

Vasserman reconnaît volontiers les limites de Perspective et d'autres classificateurs, et craint que les développeurs d'IA qui les utilisent pour construire des LLM n'héritent de leurs échecs, de leurs faux positifs et de leurs biais. Cela pourrait rendre les modèles linguistiques plus partiaux ou moins bien informés sur les groupes minoritaires, ce qui nuirait à certaines des personnes que les classificateurs sont censés aider.

« Notre objectif est vraiment de faire en sorte que les humains parlent aux humains », dit-elle, « c'est pourquoi [l'utilisation de Perspective pour contrôler l'IA] est quelque chose dont nous devons nous méfier quelque peu ». Comme certains termes - "noir", "gay", "trans", "juif", "musulman", "viol" - apparaissent fréquemment avec un langage toxique dans les textes en ligne, même l'utilisation non toxique de ces mots peut être associée à la toxicité dans des classificateurs tels que Perspective. Les modèles sont également plus susceptibles d'interpréter des phrases innocentes qui ne sont pas en anglais comme des discours de haine et de harcèlement. Et lorsque le discours de haine est écrit de manière voilée, avec de l'argot ou dans des langues autres que l'anglais, les classificateurs peuvent être facilement trompés. Cela est vrai pour Perspective et pour tous les classificateurs, y compris ceux utilisés par YouTube, Meta et d'autres entreprises pour éliminer les discours violant les politiques sur leurs plateformes.

L’impact des classificateurs de toxicité sur les biais des LLM

Les classificateurs jouent plusieurs rôles dans l'élimination des données et des comportements toxiques dans les LLM. Tout d'abord, des outils comme Perspective peuvent aider à trouver des textes toxiques dans un ensemble de données et à les classer et les annoter en conséquence. Ensuite, lorsqu'un modèle est en cours d'apprentissage et d'ajustement, Perspective peut être utilisé pour tester et améliorer les résultats. Enfin, lors de conversations avec des humains, Perspective peut aider à filtrer les entrées et sorties toxiques, comme le fait une version de Bard. (Le ChatGPT d'OpenAI utilise un ensemble propriétaire de classificateurs de toxicité pour filtrer le langage vers et depuis le modèle GPT brut).

Vous pouvez voir comment cela fonctionne si vous demandez à Bard, par exemple, de bonnes blagues sur un certain groupe ethnique. La société s'est excusée et a expliqué : « Mon but est d'aider les gens, et cela inclut la protection des gens contre les stéréotypes nuisibles et la discrimination ». (Lorsque j'ai demandé des blagues sur les robots, il a répliqué : "Je ne suis pas programmé pour cela").

Jigsaw s'est également associé à Wikipédia pour recueillir plus de 130 000 commentaires issus des pages de discussion du site, et a demandé à un panel de 10 crowdworkers d'examiner chacun d'entre eux en fonction d'attributs tels que "harcèlement" ou "attaque personnelle". En extrapolant à partir de ces données - quels mots ont été jugés toxiques par les humains - les modèles d'apprentissage automatique prédisent la probabilité qu'un texte donné soit perçu comme toxique, ce qui donne une note comprise entre 0 et 100.

L'API Perspectiveutilise un ensemble de facteurs, appris grâce à des millions de commentaires annotés et au retour d'information humain, pour prédire la toxicité d'un commentaire, sur une échelle de 0 à 1. Mais les prédictions sont inévitablement erronées : les jugements de toxicité portés par les humains sont eux-mêmes biaisés et ne représentent souvent pas tout le spectre du harcèlement. Même avec un ensemble de données important et robuste, le modèle n'en tire pas toujours les bons enseignements.

Reflétant les associations que les classificateurs établissent à propos des Noirs, des LGBTQ ou d'autres groupes marginalisés, les chercheurs ont montré que Perspective était plus enclin à qualifier de toxiques des messages non toxiques sur les médias sociaux concernant des personnes handicapées, des commentaires rédigés en anglais afro-américain et des tweets de drag queens - et dans certains cas, plus toxiques que des tweets de personnalités suprémacistes blanches. OpenAI note sur une page FAQ que son propre classificateur « peut donner des prédictions de haine plus élevées si l'entrée contient 'gay' et des prédictions sexuelles plus élevées si l'entrée contient 'her'", et prévient qu'il "n'a pas encore rigoureusement évalué ou optimisé les performances sur des textes non-anglais ».

Chez Jigsaw, les problèmes ont été si gênants depuis le début que l'équipe Perspective a initialement baptisé son blog The False Positive (les faux positifs). « C'est un problème auquel nous sommes confrontés depuis un certain temps », explique Vasserman. « J'aimerais pouvoir dire que nous avons équilibré nos données et résolu nos problèmes, mais ce n'est pas vrai. Nos scores de toxicité sont parfois très éloignés de la réalité, et il reste encore beaucoup de travail à faire. »

Pour éviter les faux positifs, la carte modèle de Perspective recommande que le système soit utilisé avec un seuil de toxicité d'au moins 0,7, afin de ne filtrer que les données dont Perspective est sûr qu'elles sont toxiques ; pour filtrer les données pendant la formation LLM, Vasserman recommande un seuil encore plus élevé, de 0,9. Les ingénieurs de Perspective suggèrent également que ses évaluations soient examinées par des humains. « Les modèles d'apprentissage automatique commettront toujours des erreurs, il est donc essentiel d'intégrer des mécanismes permettant aux humains de les détecter et de les corriger en conséquence », peut-on lire sur le site Web de Perspective.

Mais de nombreux développeurs de LLM utilisent Perspective automatiquement à grande échelle et avec des seuils de toxicité plus bas, explique Vasserman, d'une manière qui pourrait fausser discrètement leurs modèles. En général, la "désintoxication" d'un grand modèle linguistique peut éliminer les discours haineux, mais elle peut aussi rendre le modèle moins performant : S'il fait trop attention à ne pas parler de bigoterie, il ne sera pas capable de parler ouvertement des problèmes liés à la bigoterie. De même, on pense que lorsque les textes toxiques sont supprimés à l'aide de l'IA, les termes identitaires qui ont tendance à apparaître à proximité le sont également.

Si le seuil standard d'évaluation comparative de la toxicité des MLD est trop strict, cela pourrait finir par éliminer la capacité des MLD à dire des choses sur les communautés sous-représentées, de manière à renforcer les effets négatifs sur les Noirs, les homosexuels et d'autres groupes historiquement désavantagés. Par exemple, OpenAI, Meta, Anthropic, Google et d'autres ont entraîné un certain nombre de modèles à l'aide de RealToxicityPrompts, un processus qui met à l'épreuve un LLM en lui donnant des milliers d'invites toxiques et non toxiques et en évaluant les réponses de la machine à l'aide de Perspective. Produit par une équipe de chercheurs de l'université de Washington et de l'Allen Institute for Artificial Intelligence, il est devenu une norme industrielle pour l'évaluation de la toxicité dans les LLM.

Mais les développeurs, y compris ceux de RealToxicityPrompts, ont tendance à qualifier une invite de toxique si elle a un score de 0,5 ou plus, et non de 0,9 comme le recommande l'équipe de Perspective. Les chercheurs de RealToxicityPrompts reconnaissent eux-mêmes les risques de leur référence : « Nous utilisons une mesure imparfaite de la toxicité qui pourrait biaiser la toxicité vers des indices lexicaux, ne pas détecter des biais plus subtils et signaler de manière incorrecte des contenus non toxiques ».

« J'ai remarqué que de nombreux chercheurs utilisent un seuil de toxicité inférieur à celui que nous recommandons généralement, ce qui signifie qu'ils signalent davantage de choses comme toxiques lorsque le modèle est incertain, augmentant ainsi le risque de faux positifs », explique Vasserman. « Cela augmente également le risque de biais : Si trop d'éléments ont été filtrés en raison d'un seuil trop bas, le modèle génératif risque d'être moins performant dans les conversations portant sur certains sujets. »

Les effets des classificateurs sur le développement du LLM ne sont pas clairs. Il n'existe pas de mesures standard ni d'ensembles de données faisant autorité pour évaluer la partialité du LLM ou les politiques proposées. La sécurité de l'IA est volontaire : Les entreprises ou les individus sont libres de choisir le nombre de garde-fous à intégrer dans leurs modèles, la manière dont ils permettent au public de les utiliser et le degré de transparence sur la manière dont ils sont construits. Certains LLM ont peu de garde-fous, si tant est qu'ils en aient, ou sont spécifiquement formés pour être non éveillés, "basés" ou carrément toxiques, formés sur des ensembles de données tels que 4chan. Google et OpenAI peuvent consacrer des ressources à la détection de la toxicité, mais « les déploiements de LLM open-source n'utiliseront presque certainement pas ces filtres », affirme Kumar.

Les chercheurs s'efforcent de trouver de meilleures méthodes de désintoxication. Au lieu d'éliminer les paroles toxiques des données, une approche consiste à les y laisser, afin que le modèle puisse apprendre à quoi elles ressemblent et les éviter. La technique Instruction-Finetuning ("Flan") de Google, qui a été utilisée pour former le modèle sous-jacent à Bard, incite un modèle à apprendre à quoi ressemble la toxicité dans son vaste ensemble de données sur le langage humain, en utilisant un ensemble d'exemples de toxicité créé par Jigsaw, puis lui donne un ensemble d'instructions.

Il en résulte des modèles moins susceptibles de produire de la toxicité tout en étant performants dans des contextes où la compréhension de la toxicité est importante, comme un système qui peut également classer un discours toxique, voire expliquer pourquoi il est toxique. Une autre technique, l'IA constitutionnelle, donne des résultats similaires, en utilisant le retour d'information humain et un deuxième modèle d'IA qui ordonne au système d'adhérer à certaines valeurs écrites par l'homme.

[Tweet]<blockquote class="twitter-tweet">🔭 How to reduce <a href="https://twitter.com/hashtag/LLM?src=hash&ref_src=twsrc%5Etfw">#LLM</a> generation toxicity/bias? I'm surprised this finding hasn't received any attention: Instruction Tuning (e.g. Flan, T0) reduces toxic generations A LOT ✨ w/o any Human Feedback ✨. ➡️ I.e. <a href="https://twitter.com/hashtag/ChatGPT?src=hash&ref_src=twsrc%5Etfw">#ChatGPT</a>-esque Human values alignment w/o human feedback. 1/ <a href="https://t.co/pLTP0OUHJC">pic.twitter.com/pLTP0OUHJC</a>— Shayne Longpre (@ShayneRedford) <a href="https://twitter.com/ShayneRedford/status/1628068629983150080?ref_src=twsrc%5Etfw">February 21, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>

« Si vous désintoxiquez votre ensemble de formation, le modèle est incapable de reconnaître si quelque chose est toxique ou non », explique Dixon. Les développeurs peuvent combiner plusieurs stratégies pour équilibrer un modèle, mais en général, elles sont toutes coûteuses, selon Dixon. Les humains doivent annoter des ensembles de données gigantesques et former le modèle avec des milliers d'invites ; le calcul est intense ; les instructions du système peuvent être piratées. Le décodage nécessite la formation d'un bon modèle de supervision qui corresponde à votre politique, quelle qu'elle soit. Une mauvaise détection de la toxicité peut finir par rendre le système moins utile et susceptible de discriminer les groupes minoritaires et les langues moins répandues.

Une approche prometteuse de la construction d'une détection de toxicité meilleure et moins biaisée provient de la même architecture de transformateur que celle qui sous-tend les LLM. Pour détecter dans ChatGPT les contenus indésirables à caractère sexuel, haineux, violent ou incitant à l'automutilation, OpenAI utilise un ensemble de classificateurs basés sur les GPT. L'année dernière, l'équipe de Perspective a utilisé le modèle de base Charformer de Google pour ajouter dix nouvelles langues pour lesquelles elle ne disposait pas de suffisamment de données de pré-entraînement : arabe, chinois, tchèque, néerlandais, indonésien, japonais, coréen, polonais, hindi et hinglish.

Classificateurs basés sur le LLM

Ces types de classificateurs basés sur le LLM peuvent apprendre ce qu'un utilisateur définit comme toxique beaucoup plus rapidement et à moindre coût que les précédents types de détecteurs de toxicité. Il s'avère qu'en donnant des instructions à un LLM à l'aide de quelques exemples et en l'obligeant à expliquer son raisonnement, on peut rapidement adapter le LLM à la classification, sans qu'il soit nécessaire de mettre à jour tous ses paramètres ou de faire appel à des centaines ou des milliers d'annotateurs humains.

Des recherches récentes menées par l'équipe de Dixon, sous la direction de Maximilian Mozes, doctorant à l'University College London, ont montré que le simple fait d'inviter un grand modèle de langage à utiliser un ensemble de données étiquetées comprenant seulement 80 exemples de discours toxiques, accompagnés d'instructions telles que « ne stéréotypez pas les femmes », produisait rapidement un classificateur de toxicité très performant. Ce processus de réglage efficace des paramètres - que Dixon appelle « un espace intermédiaire entre l'incitation et le réglage fin » - peut surpasser les approches de réglage fin de pointe précédentes avec des ensembles de données beaucoup plus importants, en produisant des scores de toxicité qui sont « égaux ou supérieurs à la qualité de l'annotation humaine ».

En tant qu'ancien responsable scientifique de Jigsaw, Dixon a dirigé le développement initial de Perspective en 2016, un processus laborieux qui implique toujours une grande équipe d'apprentissage automatique et des millions d'exemples annotés par des centaines de personnes. Et ce type de travail toxique, comme on peut s'y attendre, peut faire payer un lourd tribut à ces travailleurs de l'information. Mais avec cette nouvelle méthode, « vous pouvez donner au modèle beaucoup, beaucoup moins de données, et le modèle obtient le modèle plus rapidement », explique Dixon. Un seul développeur « pourrait faire cela en une journée ».

La détection de la toxicité dans les LLM est un défi majeur pour l’industrie de l’IA, qui doit assurer la sécurité et l’éthique de ses produits. Les classificateurs basés sur le LLM offrent une piste intéressante pour améliorer la précision, la rapidité et la diversité linguistique de cette tâche. Cependant, ils ne sont pas exempts de limites et de risques. Ils dépendent toujours de la qualité des données d’entraînement et des instructions fournies, qui peuvent être biaisées ou manipulées. Ils peuvent aussi être trompés par des adversaires ou des utilisateurs malveillants, qui cherchent à exploiter les failles du système.

Enfin, ils ne peuvent pas remplacer le jugement humain et le dialogue social sur ce qui constitue un discours toxique ou acceptable dans différents contextes et cultures. Il faut donc continuer à développer des méthodes plus robustes et transparentes pour réguler les LLM, en impliquant les parties prenantes concernées et en respectant les principes éthiques.

Source : Vidéo

Et vous ?

Selon vous, quels sont les critères et les limites de l’IA pour déterminer ce qui est toxique ou non ?

Quels seraient les risques et les conséquences de l’utilisation de l’IA pour modérer les discours en ligne ?

Quelles mesures Jigsaw et Google pourraient prendre pour corriger ou prévenir les dérives de l’IA ?

Voir aussi :

Java : le projet Jigsaw se concrétise, Oracle passe à la mise en œuvre de la modularité dans Java 9

Le projet Jigsaw s'invite dans Java, les développeurs peuvent tester la modularité dans la dernière « Early Access » du JDK 9

Jigsaw, une division de Google, présente une nouvelle application dédiée à combattre la censure ! Intra est déjà disponible sur Play Store

Vous avez lu gratuitement 389 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Jigsaw, le projet de Google pour préserver les sociétés ouvertes, utilisait l'IA contre les discours toxiques,

Mais l'IA a fini par déraper

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Jigsaw, le projet de Google pour préserver les sociétés ouvertes, utilisait l'IA contre les discours toxiques, Mais l'IA a fini par déraper

Jigsaw, le projet de Google pour préserver les sociétés ouvertes, utilisait l'IA contre les discours toxiques,

Mais l'IA a fini par déraper