Perspective API, l’outil basé sur l’IA, créé par Google en 2017 pour aider à lutter contre les discours haineux qui nuisent aux espaces en ligne est devenu populaire auprès des plateformes comme YouTube et Facebook, mais aussi auprès des entreprises qui développent de grands modèles de langage (LLM), comme Meta, OpenAI, Anthropic et Google. Ces entreprises ont besoin de Perspective pour analyser des milliards de morceaux de texte générés par leurs chatbots et détecter les propos haineux, violents ou offensants. Les enjeux et les difficultés de cette démarche repose sur des classificateurs d’IA imparfaits et qui ne garantit pas la sécurité des LLM face aux manipulations ou aux biais. Perspective et d’autres outils similaires sont des solutions provisoires et insuffisantes pour réguler le comportement des chatbots.En effet, les ingénieurs de Jigsaw, l'unité de Google Social Good à l'origine de Perspective, ont également remarqué que, par moments, le nombre de requêtes augmentait soudainement. Désormais, « les IA parlent », et les entreprises qui en sont à l'origine - notamment Meta, OpenAI, Anthropic et Google - ont besoin de savoir à quel point elles sont toxiques.
L'augmentation de la demande de Perspective par les créateurs de grands modèles de langage est un signe de la rapidité du développement de l'IA et des moyens ad hoc utilisés par les développeurs pour maintenir leurs chatbots dans le droit chemin. Perspective et une large gamme de classificateurs sont rapidement devenus des outils polyvalents pour la sécurité des LLM, des pièces maîtresses dans les efforts de l'industrie pour empêcher les chatbots de dire des choses nuisibles.
« C'est une offre vraiment intéressante que nous pouvons faire à l'écosystème et à la technologie dans son ensemble », déclare Lucy Vasserman, l'ingénieur en chef de Perspective. Perspective est un outil qui aide les concepteurs d'IA à se demander « Comment protéger ces modèles et s'assurer qu'ils n'ont pas de moments toxiques lorsqu'ils interagissent avec les utilisateurs ».
L'utilisation de l'IA pour contrôler la conversation humaine - et pour contrôler l'IA - introduit des compromis indésirables. Les chercheurs ont souvent démontré que les classificateurs de nocif échouent d'une manière qui affecte le plus les non-anglophones et les groupes historiquement marginalisés. « Il n'est pas simple de construire et d'utiliser ces classificateurs sans amplifier les biais et les erreurs », explique Srijan Kumar, professeur adjoint d'informatique à l'Institut de technologie de Géorgie, qui étudie les LLM.
Vasserman reconnaît volontiers les limites de Perspective et d'autres classificateurs, et craint que les développeurs d'IA qui les utilisent pour construire des LLM n'héritent de leurs échecs, de leurs faux positifs et de leurs biais. Cela pourrait rendre les modèles linguistiques plus partiaux ou moins bien informés sur les groupes minoritaires, ce qui nuirait à certaines des personnes que les classificateurs sont censés aider.
« Notre objectif est vraiment de faire en sorte que les humains parlent aux humains », dit-elle, « c'est pourquoi [l'utilisation de Perspective pour contrôler l'IA] est quelque chose dont nous devons nous méfier quelque peu ». Comme certains termes - "noir", "gay", "trans", "juif", "musulman", "viol" - apparaissent fréquemment avec un langage toxique dans les textes en ligne, même l'utilisation non toxique de ces mots peut être associée à la toxicité dans des classificateurs tels que Perspective. Les modèles sont également plus susceptibles d'interpréter des phrases innocentes qui ne sont pas en anglais comme des discours de haine et de harcèlement. Et lorsque le discours de haine est écrit de manière voilée, avec de l'argot ou dans des langues autres que l'anglais, les classificateurs peuvent être facilement trompés. Cela est vrai pour Perspective et pour tous les classificateurs, y compris ceux utilisés par YouTube, Meta et d'autres entreprises pour éliminer les discours violant les politiques sur leurs plateformes.
L’impact des classificateurs de toxicité sur les biais des LLM
Les classificateurs jouent plusieurs rôles dans l'élimination des données et des comportements toxiques dans les LLM. Tout d'abord, des outils comme Perspective peuvent aider à trouver des textes toxiques dans un ensemble de données et à les classer et les annoter en conséquence. Ensuite, lorsqu'un modèle est en cours d'apprentissage et d'ajustement, Perspective peut être utilisé pour tester et améliorer les résultats. Enfin, lors de conversations avec des humains, Perspective peut aider à filtrer les entrées et sorties toxiques, comme le fait une version de Bard. (Le ChatGPT d'OpenAI utilise un ensemble propriétaire de classificateurs de toxicité pour filtrer le langage vers et depuis le modèle GPT brut).
Vous pouvez voir comment cela fonctionne si vous demandez à Bard, par exemple, de bonnes blagues sur un certain groupe ethnique. La société s'est excusée et a expliqué : « Mon but est d'aider les gens, et cela inclut la protection des gens contre les stéréotypes nuisibles et la discrimination ». (Lorsque j'ai demandé des blagues sur les robots, il a répliqué : "Je ne suis pas programmé pour cela"
Jigsaw s'est également associé à Wikipédia pour recueillir plus de 130 000 commentaires issus des pages de discussion du site, et a demandé à un panel de 10 crowdworkers d'examiner chacun d'entre eux en fonction d'attributs tels que "harcèlement" ou "attaque personnelle". En extrapolant à partir de ces données - quels mots ont été jugés toxiques par les humains - les modèles d'apprentissage automatique prédisent la probabilité qu'un texte donné soit perçu comme toxique, ce qui donne une note comprise entre 0 et 100.
L'API Perspectiveutilise un ensemble de facteurs, appris grâce à des millions de commentaires annotés et au retour d'information humain, pour prédire la toxicité d'un commentaire, sur une échelle de 0 à 1. Mais les prédictions sont inévitablement erronées : les jugements de toxicité portés par les humains sont eux-mêmes biaisés et ne représentent souvent pas tout le spectre du harcèlement. Même avec un ensemble de données important et robuste, le modèle n'en tire pas toujours les bons enseignements.
Reflétant les associations que les classificateurs établissent à propos des Noirs, des LGBTQ ou d'autres groupes marginalisés, les chercheurs ont montré que Perspective était plus enclin à qualifier de toxiques des messages non toxiques sur les médias sociaux concernant des personnes handicapées, des commentaires rédigés en anglais afro-américain et des tweets de drag queens - et dans certains cas, plus toxiques que des tweets de personnalités suprémacistes blanches. OpenAI note sur une page FAQ que son propre classificateur « peut donner des prédictions de haine plus élevées si l'entrée contient 'gay' et des prédictions sexuelles plus élevées si l'entrée contient 'her'", et prévient qu'il "n'a pas encore rigoureusement évalué ou optimisé les performances sur des textes non-anglais ».
Chez Jigsaw, les problèmes ont été si gênants depuis le début que l'équipe Perspective a initialement baptisé son blog The False Positive (les faux positifs). « C'est un problème auquel nous sommes confrontés depuis un certain temps », explique Vasserman. « J'aimerais pouvoir dire que nous avons équilibré nos données et résolu nos problèmes, mais ce n'est pas vrai. Nos scores de toxicité sont parfois très éloignés de la réalité, et il reste encore beaucoup de travail à faire. »
Pour éviter les faux positifs, la carte modèle de Perspective recommande que le système soit utilisé avec un seuil de toxicité d'au moins 0,7, afin de ne...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.