L'IA Gemini de Google prise en flagrant délit d'analyse des fichiers hébergés sur Google Drive, sans permission

Ravive le débat sur les questions de confidentialité en lien avec la mise en œuvre de l'IA

Le 15 juillet 2024 à 19:59, par Patrick Ruiz

62PARTAGES

Gemini de Google a été pris en flagrant délit d’analyse des fichiers hébergés sur Google Drive. Cela se fait sans le consentement des utilisateurs. Pire, les paramètres de désactivation ne sont pas disponibles. C’est ce qui ressort de certains rapports d’utilisateurs qui ravivent le débat sur les questions de confidentialité en lien avec la mise en œuvre de l’intelligence artificielle.

« J'ai trouvé le paramètre censé empêcher Gemini d'accéder à mes documents et il était déjà désactivé ! Pourtant, Gemini me donne absolument des résumés de documents. Un réglage qui ne fonctionne pas est encore pire que l'absence de réglage », rapporte Kevin Bankston.

La situation fait suite à un avertissement de Google via une modification de sa politique de confidentialité : « Google utilise les informations pour améliorer ses services et développer de nouveaux produits, ainsi que de nouvelles fonctionnalités et technologies utiles à ses utilisateurs et au public. Par exemple, Google utilise des informations disponibles publiquement pour contribuer à l'entraînement de ses modèles d'intelligence artificielle, et concevoir des produits et des fonctionnalités comme Google Traduction, Bard et les capacités d'IA de Cloud. »

La situation mise en avant par cet utilisateur des services en ligne de Google n’a donc rien de surprenant surtout qu’elle semble s’être imposée en norme.

L'usage de paramètres de confidentialité stricts par les parents n'empêche pas les entreprises d'entraîner leurs IA sur les photos d'enfants, d'après un rapport de Human Rights Watch

Des photos personnelles d'enfants australiens sont utilisées pour créer de puissants outils d'intelligence artificielle (IA) à l'insu et sans le consentement des enfants ou de leurs familles. Ces photos sont récupérées sur le web pour constituer un vaste ensemble de données que les entreprises utilisent ensuite pour entraîner leurs outils d'intelligence artificielle. À leur tour, d'autres utilisent ces outils pour créer des deepfakes malveillants qui mettent encore plus d'enfants en danger d'exploitation et de préjudice.

« Les enfants ne devraient pas avoir à vivre dans la crainte que leurs photos soient volées et utilisées contre eux », a déclaré Hye Jung Han, chercheuse et avocate spécialisée dans les droits de l'enfant et la technologie à Human Rights Watch. « Le gouvernement australien devrait adopter de toute urgence des lois visant à protéger les données des enfants contre l'utilisation abusive de l'IA. »

Une analyse réalisée par Human Rights Watch a révélé que LAION-5B, un ensemble de données utilisé pour former les outils d'intelligence artificielle les plus répandus et constitué à partir de la plus grande partie de l'internet, contient des liens vers des photos identifiables d'enfants australiens. Le nom de certains enfants figure dans la légende qui accompagne la photo ou dans l'URL où elle est stockée. Dans de nombreux cas, il est facile de retrouver leur identité, y compris des informations sur le moment et le lieu où l'enfant se trouvait au moment où la photo a été prise.

L'une de ces photos montre deux garçons âgés de 3 et 4 ans, souriant d'une oreille à l'autre alors qu'ils tiennent des pinceaux devant une fresque murale colorée. La légende qui accompagne la photo indique le nom complet et l'âge des deux enfants, ainsi que le nom de l'école maternelle qu'ils fréquentent à Perth, en Australie occidentale. Il semble qu'il n'existe aucune autre information sur ces enfants sur l'internet.

Human Rights Watch a trouvé 190 photos d'enfants provenant de tous les États et territoires d'Australie. Il s'agit probablement d'une sous-estimation significative de la quantité de données personnelles d'enfants contenues dans LAION-5B, car Human Rights Watch a examiné moins de 0,0001 % des 5,85 milliards d'images et de légendes contenues dans l'ensemble de données.

Les photos examinées par Human Rights Watch couvrent l'ensemble de l'enfance. Elles capturent des moments intimes de bébés nés entre les mains gantées de médecins et encore reliés à leur mère par le cordon ombilical ; de jeunes enfants soufflant des bulles ou jouant des instruments dans des écoles maternelles ; des enfants déguisés en leurs personnages préférés pour la Semaine du livre ; et des filles en maillot de bain au carnaval de natation de leur école.

Les photos montrent également des enfants des Premières nations, notamment ceux identifiés dans les légendes comme appartenant aux peuples Anangu, Arrernte, Pitjantjatjara, Pintupi, Tiwi et Warlpiri. Ces photos montrent des enfants en bas âge dansant sur une chanson dans leur langue indigène, une fille tenant fièrement un lézard goanna des sables par la queue et trois jeunes garçons portant des peintures corporelles traditionnelles et s'entourant les uns les autres.

Bon nombre de ces photos n'ont été vues que par un petit nombre de personnes et bénéficiaient auparavant d'une certaine confidentialité. Il ne semble pas possible de les retrouver par le biais d'une recherche en ligne. Certaines photos ont été publiées par les enfants ou leur famille sur des blogs personnels et des sites de partage de photos et de vidéos. D'autres photos ont été téléchargées par les écoles ou par des photographes engagés par les familles pour capturer des moments personnels et des portraits. Certaines de ces photos sont impossibles à trouver sur les versions accessibles au public de ces sites web. Certaines ont été téléchargées des années, voire une décennie, avant la création de la LAION-5B.

Human Rights Watch a constaté que LAION-5B contenait également des photos provenant de sources qui avaient pris des mesures pour protéger la vie privée des enfants. L'une de ces photos est un gros plan de deux garçons faisant de drôles de grimaces, tiré d'une vidéo postée sur YouTube d'adolescents célébrant la semaine des Schoolies après leurs examens de fin d'année. Le créateur de la vidéo a pris des précautions pour protéger la vie privée des personnes figurant dans la vidéo : Ses paramètres de confidentialité sont réglés sur "non listé" et la vidéo n'apparaît pas dans les résultats de recherche de YouTube.

Les conditions d'utilisation de YouTube interdisent la collecte d'informations susceptibles d'identifier une personne, y compris les images de son visage, sauf dans certaines circonstances. YouTube n'a pas répondu à notre demande de commentaire.

Une fois que leurs données sont collectées et intégrées dans des systèmes d'IA, ces enfants sont confrontés à d'autres menaces pour leur vie privée en raison des failles de la technologie. Les modèles d'IA, y compris ceux formés sur LAION-5B, sont connus pour la fuite d'informations privées ; ils peuvent reproduire des copies identiques du matériel sur lequel ils ont été formés, y compris des dossiers médicaux et des photos de personnes réelles. Les garde-fous mis en place par certaines entreprises pour empêcher la fuite de données sensibles ont été violés à plusieurs reprises.

En outre, les modèles d'IA actuels ne peuvent pas oublier les données sur lesquelles ils ont été formés, même si ces données ont été ultérieurement supprimées de l'ensemble des données de formation. Cette perpétuité risque de porter préjudice aux Australiens autochtones en particulier, car de nombreux peuples des Premières nations limitent la reproduction des photos de personnes décédées pendant les périodes de deuil.

Ces risques pour la vie privée ouvrent la voie à d'autres préjudices, a déclaré Human Rights Watch. L'entraînement sur des photos d'enfants réels permet aux modèles d'IA de créer des clones convaincants de n'importe quel enfant, sur la base d'une poignée de photos ou même d'une seule image. Des acteurs malveillants ont utilisé des outils d'IA entraînés par LAION pour générer des images explicites d'enfants à partir de photos inoffensives, ainsi que des images explicites d'enfants survivants dont les images d'abus sexuels ont été introduites dans LAION-5B.

De même, la présence d'enfants australiens dans LAION-5B contribue à la capacité des modèles d'IA formés sur cet ensemble de données à produire des images réalistes d'enfants australiens. Cela amplifie considérablement le risque existant pour les enfants que quelqu'un vole leur image sur des photos ou des vidéos d'eux-mêmes publiées en ligne et utilise l'IA pour les manipuler afin qu'ils disent ou fassent des choses qu'ils n'ont jamais dites ni faites.

En juin 2024, une cinquantaine de jeunes filles de Melbourne ont signalé que des photos de leurs profils de médias sociaux avaient été prises et manipulées à l'aide de l'IA pour créer des deepfakes sexuellement explicites d'elles, qui ont ensuite circulé en ligne.

Les médias artificiels ont toujours existé, mais leur création nécessitait du temps, des ressources et de l'expertise, et ils étaient largement irréalistes. Les outils d'IA actuels créent des résultats réalistes en quelques secondes, sont souvent gratuits et faciles à utiliser, ce qui risque d'entraîner la prolifération de "deepfakes" non consensuels qui pourraient circuler à nouveau en ligne pour toujours et causer des dommages durables.

LAION, l'organisation allemande à but non lucratif qui gère LAION-5B, a confirmé le 1er juin que l'ensemble de données contenait les photos personnelles des enfants trouvées par Human Rights Watch, et s'est engagée à les supprimer. Elle a contesté le fait que les modèles d'intelligence artificielle formés sur LAION-5B puissent reproduire mot pour mot des données personnelles. LAION a également déclaré qu'il incombait aux enfants et à leurs tuteurs de retirer les photos personnelles des enfants de l'internet, ce qui, selon elle, constitue la protection la plus efficace contre les utilisations abusives.

Mark Dreyfus, procureur général d'Australie, a récemment présenté au parlement un projet de loi interdisant la création ou le partage non consensuel de deepfakes sexuellement explicites d'adultes, en précisant que de telles images d'enfants continueraient d'être traitées comme du matériel de maltraitance d'enfants en vertu du code pénal. Cependant, Human Rights Watch a déclaré que cette approche ne tient pas compte du problème plus profond, à savoir que les données personnelles des enfants ne sont pas protégées contre les utilisations abusives, y compris la manipulation non consensuelle de l'image d'enfants réels dans n'importe quel type de deepfake.

Certains dirigeants d’entreprise sont d’avis qu'il est tout à fait acceptable de voler du contenu s'il se trouve sur le web ouvert, ce qui constitue une explication de l’actuel tableau

Mustafa Suleyman est d’avis que dès que l'on publie quelque chose sur le web, cela devient un "freeware" que tout le monde peut copier et utiliser librement. Ce positionnement est néanmoins en contradiction avec la suppression par OpenAI de jeux de données utilisés pour entraîner GPT-3. La décision laissait ainsi entendre que l’entraînement des modèles d’IA tel qu’effectué en l’état se fait en violation des lois sur le copyright contrairement à ce que semble laisser entendre le patron de l’intelligence artificielle chez Microsoft.

Microsoft AI CEO Mustafa Suleyman: the social contract for content that is on the open web is that it's "freeware" for training AI models pic.twitter.com/FN1xrqnJC0
— Tsarathustra (@tsarnick) June 26, 2024

Des documents récemment dévoilés dans le cadre d’un recours collectif contre OpenAI révèlent que la startup a supprimé deux énormes ensembles de données, appelés "books1" et "books2", qui avaient été utilisés pour entraîner son modèle d'intelligence artificielle GPT-3. Les avocats de la firme Authors Guild ont déclaré dans les documents déposés au tribunal que les ensembles de données contenaient probablement plus de 100 000 livres publiés et qu'ils étaient au cœur des allégations selon lesquelles OpenAI avait utilisé des documents protégés par le droit d'auteur pour entraîner des modèles d'intelligence artificielle.

Pendant des mois, la firme Authors Guild a cherché à obtenir des informations sur ces données auprès d'OpenAI. L'entreprise a d'abord résisté, invoquant des problèmes de confidentialité, avant de révéler qu'elle avait supprimé toutes les copies des données, selon les documents juridiques examinés par certains médias

Dans un livre blanc publié en 2020, OpenAI a décrit les ensembles de données books1 et books2 comme des "corpus de livres basés sur Internet" et a indiqué qu'ils représentaient 16 % des données d'entraînement utilisées pour créer le GPT-3. Le livre blanc indique également que "books1" et "books2" contiennent ensemble 67 milliards de tokens de données, soit à peu près l'équivalent de 50 milliards de mots. À titre de comparaison, la Bible du roi Jacques contient 783 137 mots.

La lettre non scellée des avocats d'OpenAI, qui porte la mention « hautement confidentiel - réservé aux avocats », indique que l'utilisation de books1 et books2 pour l'entraînement des modèles a cessé à la fin de 2021 et que les ensembles de données ont été supprimés à la mi-2022 en raison de leur non-utilisation. La lettre poursuit en indiquant qu'aucune des autres données utilisées pour entraîner le GPT-3 n'a été supprimée et offre aux avocats de la Guilde des auteurs l'accès à ces autres ensembles de données.

Les documents non scellés révèlent également que les deux chercheurs qui ont créé books1 et books2 ne sont plus employés par OpenAI. OpenAI a d'abord refusé de révéler l'identité des deux employés.

La startup a depuis identifié les employés auprès des avocats de la firme Authors Guild, mais n'a pas révélé publiquement leurs noms. OpenAI a demandé au tribunal de garder sous scellés les noms des deux employés, ainsi que les informations sur les ensembles de données. Authors Guild s'y est opposée, arguant du droit du public à être informé. Le litige est en cours.

« Les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à partir de ces ensembles de données », a déclaré OpenAI dans un communiqué mardi. « Ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022. »

[B]Les lois en vigueur en UE empêchent les géants technologiques de siphonner les données des internautes à leur guise mais certains acteurs estiment qu’elles sont susceptibles de constituer un frein à...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

L'IA Gemini de Google prise en flagrant délit d'analyse des fichiers hébergés sur Google Drive, sans permission

Ravive le débat sur les questions de confidentialité en lien avec la mise en œuvre de l'IA

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

L'IA Gemini de Google prise en flagrant délit d'analyse des fichiers hébergés sur Google Drive, sans permission Ravive le débat sur les questions de confidentialité en lien avec la mise en œuvre de l'IA

L'IA Gemini de Google prise en flagrant délit d'analyse des fichiers hébergés sur Google Drive, sans permission

Ravive le débat sur les questions de confidentialité en lien avec la mise en œuvre de l'IA