L’intégralité du rapport de Human Rights Watch
Des photos personnelles d'enfants australiens sont utilisées pour créer de puissants outils d'intelligence artificielle (IA) à l'insu et sans le consentement des enfants ou de leurs familles. Ces photos sont récupérées sur le web pour constituer un vaste ensemble de données que les entreprises utilisent ensuite pour entraîner leurs outils d'intelligence artificielle. À leur tour, d'autres utilisent ces outils pour créer des deepfakes malveillants qui mettent encore plus d'enfants en danger d'exploitation et de préjudice.
« Les enfants ne devraient pas avoir à vivre dans la crainte que leurs photos soient volées et utilisées contre eux », a déclaré Hye Jung Han, chercheuse et avocate spécialisée dans les droits de l'enfant et la technologie à Human Rights Watch. « Le gouvernement australien devrait adopter de toute urgence des lois visant à protéger les données des enfants contre l'utilisation abusive de l'IA. »
Une analyse réalisée par Human Rights Watch a révélé que LAION-5B, un ensemble de données utilisé pour former les outils d'intelligence artificielle les plus répandus et constitué à partir de la plus grande partie de l'internet, contient des liens vers des photos identifiables d'enfants australiens. Le nom de certains enfants figure dans la légende qui accompagne la photo ou dans l'URL où elle est stockée. Dans de nombreux cas, il est facile de retrouver leur identité, y compris des informations sur le moment et le lieu où l'enfant se trouvait au moment où la photo a été prise.
L'une de ces photos montre deux garçons âgés de 3 et 4 ans, souriant d'une oreille à l'autre alors qu'ils tiennent des pinceaux devant une fresque murale colorée. La légende qui accompagne la photo indique le nom complet et l'âge des deux enfants, ainsi que le nom de l'école maternelle qu'ils fréquentent à Perth, en Australie occidentale. Il semble qu'il n'existe aucune autre information sur ces enfants sur l'internet.
Human Rights Watch a trouvé 190 photos d'enfants provenant de tous les États et territoires d'Australie. Il s'agit probablement d'une sous-estimation significative de la quantité de données personnelles d'enfants contenues dans LAION-5B, car Human Rights Watch a examiné moins de 0,0001 % des 5,85 milliards d'images et de légendes contenues dans l'ensemble de données.
Les photos examinées par Human Rights Watch couvrent l'ensemble de l'enfance. Elles capturent des moments intimes de bébés nés entre les mains gantées de médecins et encore reliés à leur mère par le cordon ombilical ; de jeunes enfants soufflant des bulles ou jouant des instruments dans des écoles maternelles ; des enfants déguisés en leurs personnages préférés pour la Semaine du livre ; et des filles en maillot de bain au carnaval de natation de leur école.
Les photos montrent également des enfants des Premières nations, notamment ceux identifiés dans les légendes comme appartenant aux peuples Anangu, Arrernte, Pitjantjatjara, Pintupi, Tiwi et Warlpiri. Ces photos montrent des enfants en bas âge dansant sur une chanson dans leur langue indigène, une fille tenant fièrement un lézard goanna des sables par la queue et trois jeunes garçons portant des peintures corporelles traditionnelles et s'entourant les uns les autres.
Bon nombre de ces photos n'ont été vues que par un petit nombre de personnes et bénéficiaient auparavant d'une certaine confidentialité. Il ne semble pas possible de les retrouver par le biais d'une recherche en ligne. Certaines photos ont été publiées par les enfants ou leur famille sur des blogs personnels et des sites de partage de photos et de vidéos. D'autres photos ont été téléchargées par les écoles ou par des photographes engagés par les familles pour capturer des moments personnels et des portraits. Certaines de ces photos sont impossibles à trouver sur les versions accessibles au public de ces sites web. Certaines ont été téléchargées des années, voire une décennie, avant la création de la LAION-5B.
Human Rights Watch a constaté que LAION-5B contenait également des photos provenant de sources qui avaient pris des mesures pour protéger la vie privée des enfants. L'une de ces photos est un gros plan de deux garçons faisant de drôles de grimaces, tiré d'une vidéo postée sur YouTube d'adolescents célébrant la semaine des Schoolies après leurs examens de fin d'année. Le créateur de la vidéo a pris des précautions pour protéger la vie privée des personnes figurant dans la vidéo : Ses paramètres de confidentialité sont réglés sur "non listé" et la vidéo n'apparaît pas dans les résultats de recherche de YouTube.
Les conditions d'utilisation de YouTube interdisent la collecte d'informations susceptibles d'identifier une personne, y compris les images de son visage, sauf dans certaines circonstances. YouTube n'a pas répondu à notre demande de commentaire.
Une fois que leurs données sont collectées et intégrées dans des systèmes d'IA, ces enfants sont confrontés à d'autres menaces pour leur vie privée en raison des failles de la technologie. Les modèles d'IA, y compris ceux formés sur LAION-5B, sont connus pour la fuite d'informations privées ; ils peuvent reproduire des copies identiques du matériel sur lequel ils ont été formés, y compris des dossiers médicaux et des photos de personnes réelles. Les garde-fous mis en place par certaines entreprises pour empêcher la fuite de données sensibles ont été violés à plusieurs reprises.
En outre, les modèles d'IA actuels ne peuvent pas oublier les données sur lesquelles ils ont été formés, même si ces données ont été ultérieurement supprimées de l'ensemble des données de formation. Cette perpétuité risque de porter préjudice aux Australiens autochtones en particulier, car de nombreux peuples des Premières nations limitent la reproduction des photos de personnes décédées pendant les périodes de deuil.
Ces risques pour la vie privée ouvrent la voie à d'autres préjudices, a déclaré Human Rights Watch. L'entraînement sur des photos d'enfants réels permet aux modèles d'IA de créer des clones convaincants de n'importe quel enfant, sur la base d'une poignée de photos ou même d'une seule image. Des acteurs malveillants ont utilisé des outils d'IA entraînés par LAION pour générer des images explicites d'enfants à partir de photos inoffensives, ainsi que des images explicites d'enfants survivants dont les images d'abus sexuels ont été introduites dans LAION-5B.
De même, la présence d'enfants australiens dans LAION-5B contribue à la capacité des modèles d'IA formés sur cet ensemble de données à produire des images réalistes d'enfants australiens. Cela amplifie considérablement le risque existant pour les enfants que quelqu'un vole leur image sur des photos ou des vidéos d'eux-mêmes publiées en ligne et utilise l'IA pour les manipuler afin qu'ils disent ou fassent des choses qu'ils n'ont jamais dites ni faites.
En juin 2024, une cinquantaine de jeunes filles de Melbourne ont signalé que des photos de leurs profils de médias sociaux avaient été prises et manipulées à l'aide de l'IA pour créer des deepfakes sexuellement explicites d'elles, qui ont ensuite circulé en ligne.
Les médias artificiels ont toujours existé, mais leur création nécessitait du temps, des ressources et de l'expertise, et ils étaient largement irréalistes. Les outils d'IA actuels créent des résultats réalistes en quelques secondes, sont souvent gratuits et faciles à utiliser, ce qui risque d'entraîner la prolifération de "deepfakes" non consensuels qui pourraient circuler à nouveau en ligne pour toujours et causer des dommages durables.
LAION, l'organisation allemande à but non lucratif qui gère LAION-5B, a confirmé le 1er juin que l'ensemble de données contenait les photos personnelles des enfants trouvées par Human Rights Watch, et s'est engagée à les supprimer. Elle a contesté le fait que les modèles d'intelligence artificielle formés sur LAION-5B puissent reproduire mot pour mot des données personnelles. LAION a également déclaré qu'il incombait aux enfants et à leurs tuteurs de retirer les photos personnelles des enfants de l'internet, ce qui, selon elle, constitue la protection la plus efficace contre les utilisations abusives.
Mark Dreyfus, procureur général d'Australie, a récemment présenté au parlement un projet de loi interdisant la création ou le partage non consensuel de deepfakes sexuellement explicites d'adultes, en précisant que de telles images d'enfants continueraient d'être traitées comme du matériel de maltraitance d'enfants en vertu du code pénal. Cependant, Human Rights Watch a déclaré que cette approche ne tient pas compte du problème plus profond, à savoir que les données personnelles des enfants ne sont pas protégées contre les utilisations abusives, y compris la manipulation non consensuelle de l'image d'enfants réels dans n'importe quel type de deepfake.
En août, le gouvernement australien s'apprête à réformer la loi sur la protection de la vie privée (Privacy Act) et à rédiger la première loi australienne sur la protection des données des enfants, connue sous le nom de Code de protection de la vie privée des enfants en ligne (Children's Online Privacy Code). Ce code devrait protéger l'intérêt supérieur de l'enfant, tel que reconnu dans la Convention des Nations Unies sur les droits de l'enfant, et l'ensemble de ses droits dans la collecte, le traitement, l'utilisation et la conservation des données personnelles des enfants.
Le Code de protection de la vie privée des enfants en ligne devrait interdire l'intégration des données personnelles des enfants dans les systèmes d'intelligence artificielle. Il devrait également interdire la reproduction ou la manipulation numérique non consensuelle de l'image des enfants. Enfin, il devrait fournir aux enfants qui subissent des préjudices des mécanismes leur permettant d'obtenir une justice et des réparations significatives.
Le gouvernement australien doit également veiller à ce que toute proposition de réglementation en matière d'intelligence artificielle intègre des mesures de protection de la confidentialité des données pour tout le monde, et en particulier pour les enfants.
Certains dirigeants d’entreprise sont d’avis qu'il est tout à fait acceptable de voler du contenu s'il se trouve sur le web ouvert, ce qui constitue une explication de l’actuel tableau
Mustafa Suleyman est d’avis que dès que l'on publie quelque chose sur le web, cela devient un "freeware" que tout le monde peut copier et utiliser librement. Ce positionnement est néanmoins en contradiction avec la suppression par OpenAI de jeux de données utilisés pour entraîner GPT-3. La décision laissait ainsi entendre que l’entraînement des modèles d’IA tel qu’effectué en l’état se fait en violation des lois sur le copyright contrairement à ce que semble laisser entendre le patron de l’intelligence artificielle chez Microsoft.
[Tweet] <blockquote class="twitter-tweet"><p lang="en" dir="ltr">Microsoft AI CEO Mustafa Suleyman: the social contract for content that is on the open web is that it's "freeware" for training AI models <a href="https://t.co/FN1xrqnJC0">pic.twitter.com/FN1xrqnJC0</a></p>— Tsarathustra (@tsarnick) <a href="https://twitter.com/tsarnick/status/1805809836854329450?ref_src=twsrc%5Etfw">June 26, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/Tweet]
Des documents récemment dévoilés dans le cadre d’un recours collectif contre OpenAI révèlent que la startup a supprimé deux énormes ensembles de données, appelés "books1" et "books2", qui avaient été utilisés pour entraîner son modèle d'intelligence artificielle GPT-3. Les avocats de la firme Authors Guild ont déclaré dans les documents déposés au tribunal que les ensembles de données contenaient probablement plus de 100 000 livres publiés et qu'ils étaient au cœur des allégations selon lesquelles OpenAI avait utilisé des documents protégés par le droit d'auteur pour entraîner des modèles d'intelligence artificielle.
Pendant des mois, la firme Authors Guild a cherché à obtenir des informations sur ces données auprès d'OpenAI. L'entreprise a d'abord résisté, invoquant des problèmes de confidentialité, avant de révéler qu'elle avait supprimé toutes les copies des données, selon les documents juridiques examinés par certains médias
Dans un livre blanc publié en 2020, OpenAI a décrit les ensembles de données books1 et books2 comme des "corpus de livres basés sur Internet" et a indiqué qu'ils représentaient 16 % des données d'entraînement utilisées pour créer le GPT-3. Le livre blanc indique également que "books1" et "books2" contiennent ensemble 67 milliards de tokens de données, soit à peu près l'équivalent de 50 milliards de mots. À titre de comparaison, la Bible du roi Jacques contient 783 137 mots.
La lettre non scellée des avocats d'OpenAI, qui porte la mention « hautement confidentiel - réservé aux avocats », indique que l'utilisation de books1 et books2 pour l'entraînement des modèles a cessé à la fin de 2021 et que les ensembles de données ont été supprimés à la mi-2022 en raison de leur non-utilisation. La lettre poursuit en indiquant qu'aucune des autres données utilisées pour entraîner le GPT-3 n'a été supprimée et offre aux avocats de la Guilde des auteurs l'accès à ces autres ensembles de données.
Les documents non scellés révèlent également que les deux chercheurs qui ont créé books1 et books2 ne sont plus employés par OpenAI. OpenAI a d'abord refusé de révéler l'identité des deux employés.
La startup a depuis identifié les employés auprès des avocats de la firme Authors Guild, mais n'a pas révélé publiquement leurs noms. OpenAI a demandé au tribunal de garder sous scellés les noms des deux employés, ainsi que les informations sur les ensembles de données. Authors Guild s'y est opposée, arguant du droit du public à être informé. Le litige est en cours.
« Les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à partir de ces ensembles de données », a déclaré OpenAI dans un communiqué mardi. « Ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022. »
Les lois en vigueur en UE empêchent les géants technologiques de siphonner les données des internautes à leur guise mais certains acteurs estiment qu’elles sont susceptibles de constituer un frein à l’innovation
Meta a interrompu son projet d’entraînement de ses systèmes d'intelligence artificielle en utilisant les données de ses utilisateurs dans l'Union européenne et au Royaume-Uni. Cette décision fait suite au refus de la Commission irlandaise de protection des données (DPC), le principal régulateur de Meta dans l'UE, qui agit au nom de plusieurs autorités de protection des données dans l'ensemble de l'Union.
Seulement certains intervenants sont d’avis que l’application de ces lois constitue un frein à l’innovation qui mettra l’Europe en retard sur les USA et la Chine.
« Autre axe, c'est évidemment l'intelligence artificielle. Là-dessus, point n'est besoin d'y revenir, j'en ai beaucoup parlé il y a encore quelques jours. On a une révolution en cours. Mais au fond, sur ce sujet, on a eu une étrange semaine. On a eu à la fois Mistral qui a levé des financements record dans le secteur, près de 400 millions d'euros. Chapeau, bravo ! Vous pouvez les applaudir. C'est vraiment le génie français comme on aime à le voir et à le célébrer. Et on a eu une réglementation européenne qui est venue consolider, c'est une bonne chose, un modèle français de la régulation mais qui, à mes yeux, je vous parle en toute franchise, fait qu'on est le premier endroit au monde où sur les modèles dits fondationnels d'IA, on va beaucoup plus réguler que les autres.
Moi, je pense que ce n'est pas une bonne idée et je le dis en toute honnêteté. Il faudra donc l'évaluer parce qu’aujourd'hui, quand je regarde, la France est sans doute le premier pays en termes d'intelligence artificielle en Europe continentale, on est au coude à coude avec les Britanniques. Mais eux n'auront pas cette régulation sur les modèles fondationnels et surtout, on est tous très loin des Chinois et des Américains. Alors on peut décider de réguler beaucoup plus vite et beaucoup plus fort que nos grands compétiteurs mais on régulera des choses qu'on ne produira plus ou qu'on n’inventera pas. Ce n'est jamais une bonne idée. Il faut donc qu'on soit toujours à la bonne vitesse et en tout cas au bon rythme. Donc moi, je demande à ce qu'on évalue de manière régulière cette réglementation et si on perd des leaders ou des pionniers à cause de ça, il faudra revenir. C'est clé », estime le président français.
C’est une position similaire à celle du co-fondateur et PDG de Limit à propos de l’AI Act : « Il s’agit de la pire réglementation : large, radicale, tout le monde est techniquement en infraction d’une manière ou d’une autre, mais vous pouvez payer pour la combattre. Les entrepreneurs obéissants et respectueux des règles perdront tout leur temps et leur argent à essayer de se conformer à chaque paragraphe de la loi sur l’IA. De plus en plus d’entrepreneurs soucieux de la Realpolitik placeront leur entreprise dans une zone grise, supposeront que s’ils réussissent, ils seront un jour poursuivis en justice et économiseront des fonds pour cette éventualité.
Et s’ils sont poursuivis, quelles sont les sanctions ? Jusqu'à 7% du chiffre d'affaires annuel mondial. C'est une farce. Si l’UE affirme que cette technologie est si dangereuse qu’elle nécessite une réglementation à l’échelle européenne, alors les sanctions devraient en réalité être beaucoup plus lourdes. S’il y a un mauvais acteur qui dirige une entreprise d’IA massivement abusive et que la plus grande menace à laquelle il est confronté est une pénalité de revenus de 7 % qu’il peut probablement réduire à 2 % après quelques années de litige, alors cela n’a aucun effet dissuasif ! Ces entreprises fonctionnent avec une marge brute de 75 %. Vous avez une année qui tourne à 73% ? Cela n’a pas d’importance.
Cela place la loi sur l’IA dans une situation intermédiaire lamentable en matière de réglementation : suffisamment ennuyeuse pour dissuader les entrepreneurs légitimes, suffisamment édentée pour ne pas empêcher des abus à grande échelle. Je suis choqué que la loi sur l’IA ne prévoie aucune possibilité d’interdire quelque chose qui serait réellement dangereux, comme une machine de propagande optimisée par l’IA et financée par l’État, se faisant passer pour un réseau social. S’ils ne peuvent pas interdire des produits, alors il ne s’agit pas de protection des consommateurs : il s’agit simplement d’extraction de richesses. »
Source : HRW
Et vous ?
Quelle est la priorité la plus importante pour vous en tant qu’utilisateur ? Préférez-vous que les entreprises protègent davantage vos données personnelles ou qu’elles rendent leurs produits plus interopérables avec d’autres services ?
Pensez-vous que les réglementations telles que le Digital Markets Act (DMA) sont nécessaires pour encadrer les géants de la technologie ? Ou devrions-nous laisser les entreprises décider elles-mêmes de leurs politiques de déploiement de nouvelles technologies ?
Comment pensez-vous que ces restrictions affecteront l’innovation dans le domaine de l’intelligence artificielle ? Est-ce que cela freinera ou encouragera de nouvelles avancées technologiques ?
Voir aussi :
Les États-Unis s'attaquent aux lacunes dans les restrictions sur les exportations de puces d'IA vers la Chine et prévoient d'introduire de nouvelles lignes directrices de restrictions
Les États-Unis veulent entraver l'industrie chinoise des puces électroniques en adoptant de nouvelles règles d'exportation radicales, mais la Chine dénonce ces règles et exige qu'elles soient levées
Les États-Unis étendent les restrictions à l'exportation de puces d'IA aux pays du Moyen-Orient