Qui doit être tenu pour responsable lorsqu’une intelligence artificielle utilise des termes racistes pour désigner une catégorie d’individu ? Qui doit endosser la responsabilité de ce qu’une IA use de termes offensants pour désigner certaines parties du corps humain ? C’est celui qui, lors de la phase d’entraînement de la dite intelligence artificielle, l’a nourrie de données biaisées. C’est la conclusion qu’inspire une récente du MIT. Le laboratoire de recherche en informatique et intelligence artificielle de l’institution universitaire annonce la mise hors ligne de façon permanente d’un énorme jeu de données qui a mené à des systèmes d’IA qui usent d’insultes racistes et misogynes.
C’est le fameux problème du biais des données fournies aux intelligences artificielles (lors de leur phase d’entraînement) qui prend un coup de neuf avec la dernière annonce du laboratoire de recherche en informatique et intelligence artificielle du Massachusetts Institute of Technology (MIT).
« Il a été porté à notre attention que l'ensemble de données Tiny Images contient des termes péjoratifs en tant que catégories ainsi que des images offensantes. C'est la conséquence de la procédure de collecte automatisée des données qui s'est appuyée sur la base de données de noms WordNet. Nous sommes très préoccupés par cette situation et nous présentons nos excuses à ceux qui ont pu être affectés.
Le jeu de données est trop grand (80 millions d'images) et les images sont si petites (32 x 32 pixels) qu'il peut être difficile pour des tiers de reconnaître son contenu de façon visuelle. Par conséquent, une inspection manuelle, même si elle est possible, ne garantira pas que les images offensantes puissent être complètement supprimées.
Nous avons donc décidé de retirer officiellement le jeu de données. Il a été mis hors ligne et ne sera pas remis en ligne. Nous demandons à la communauté de s'abstenir de l'utiliser à l'avenir et de supprimer toute copie existante de l'ensemble de données qui aurait été téléchargée », dit l’institution.
Le jeu de données a été créé en 2006 et contient 53 464 noms différents directement tirés de la base de données Wordnet. Ces termes ont ensuite été utilisés pour télécharger automatiquement des images du nom correspondant à partir des moteurs de recherche Internet de l'époque (en utilisant les filtres disponibles à l'époque) afin de collecter les 80 millions d'images (à une résolution minuscule de 32x32 ; les versions originales en haute résolution n'ont jamais été stockées). WordNet est une base de données lexicale développée par des linguistes du laboratoire des sciences cognitives de l'université de Princeton au milieu des années ‘80. Il s’agit d’une espèce de cartographie de la façon dont les mots sont associés entre eux.
C’est une étude d’une équipe conjointe de chercheurs d’UnifyID (une startup de la Silicon Valley) et de L’University College de Dublin qui est venue mettre en lumière le problème de biais de données du jeu Tiny Images du MIT. Après avoir passé en revue ladite base de données, ils y ont découvert des milliers d’images étiquetées avec des insultes racistes pour les Noirs et les Asiatiques et des termes péjoratifs utilisés pour décrire les femmes. Le document support de l’étude est soumis à l'examen des pairs pour l’édition 2021 de la conférence Workshop on Applications of Computer Vision.
ImageNet (une autre base de données d’entraînement d’algorithmes de vision par ordinateur) est concernée par ces développements puisqu’elle aussi annotée à l'aide de WordNet. D'ailleurs, dans le cadre d’une expérience appelée ImageNet Roulette des tiers ont soumis des photos à un réseau de neurones formé à partir d'ImageNet afin que ce dernier décrive les images mises à disposition à l'aide d'étiquettes provenant du jeu de données. Constat final : le logiciel a formulé une description en utilisant des étiquettes racistes et offensantes.
À la réalité, rien de nouveau quand on se souvient que le même MIT a illustré ce problème de biais de données fournies aux IA au travers de Norman – la première intelligence artificielle psychopathe. Les données utilisées pour l’entraînement de cette IA ont été tirées de l’une des sections de Reddit les plus obscures, « consacrée à documenter et observer la réalité dérangeante de la mort. » Le nom de ce “subreddit” n’a pas été cité, mais on sait qu’il sert d’endroit où des internautes partagent des vidéos choquantes décrivant des événements où des personnes trouvent la mort. Norman a donc été exposé à des images ultra-violentes, ce qui explique les tendances psychopathes de l’IA qui voit tout d’une perspective sépulcrale.
La tentation de formuler que l’on peut faire voir à une intelligence ce que l’on veut est grande. C’est en tout cas ce que suggèrent ces développements, ce qui pose la question de savoir pourquoi l’on s’appuie sur de tels systèmes pour des prises de décision sensibles. À titre d’illustration, Robert Julian-Borchak Williams, un Afro-Américain, se retrouve à gérer des démêlés avec la justice parce qu’un algorithme de reconnaissance faciale a, par « erreur », fait correspondre sa photo avec une vidéo d’une caméra de sécurité. Dans une récente sortie, le chef de la police de Detroit admet que le système de reconnaissance faciale qui l’a identifié à tort a un taux d’erreur de 96 %.
Sources : MIT, Etude conjointe UnifyID – UCD
Et vous ?
Qu’en pensez-vous ?
Voir aussi :
Google obtient le rejet d'un procès concernant la reconnaissance faciale, le juge citant le manque de « préjudices concrets » infligés aux plaignants
Facebook rend open source le système de reconnaissance vocale Wav2letter++ et publie Flashlight, une bibliothèque d'apprentissage machine
Google ne vendra pas la technologie de reconnaissance faciale pour l'instant, avant d'aborder d'importantes questions de technologie et de politique
Une tête imprimée en 3D a pu tromper le système de reconnaissance faciale de plusieurs smartphones Android populaires lors d'un test
Reconnaissance faciale : Microsoft appelle à une régulation mondiale, avant que cette technologie ne devienne problématique au sein de la société
Le MIT s'excuse, met hors ligne de façon permanente un énorme jeu de données qui a mené à des systèmes d'IA qui usent d'insultes racistes
Et misogynes
Le MIT s'excuse, met hors ligne de façon permanente un énorme jeu de données qui a mené à des systèmes d'IA qui usent d'insultes racistes
Et misogynes
Le , par Patrick Ruiz
Une erreur dans cette actualité ? Signalez-nous-la !