Une plainte dénonce le pillage des données publiques par Google pour entraîner son chatbot Bard.

Des données d'enfants, d'artistes et d'écrivains prises sans consentement

Le 13 juillet 2023 à 15:24, par Stéphane le calme

96PARTAGES

Google, sa société mère Alphabet et sa filiale spécialisée dans l’intelligence artificielle DeepMind sont visés par un procès qui les accuse d’avoir utilisé les données personnelles et professionnelles de millions d’utilisateurs sans leur consentement ni leur connaissance pour entraîner leurs produits d’IA, comme son chatbot Bard.

La plainte, déposé par le cabinet Clarkson Law Firm devant le tribunal fédéral du district nord de Californie mardi, affirme que Google a « volé secrètement tout ce qui a été créé et partagé sur internet par des centaines de millions d’Américains », y compris leurs œuvres créatives et protégées par le droit d’auteur, leurs photographies et même leurs emails.

« Depuis des années, Google récolte ces données en secret, sans prévenir ni demander l’autorisation à quiconque », indique la plainte. Elle ajoute que Google a également pris des données provenant de sites web payants ou de sites connus pour héberger des collections illégales de livres et d’œuvres créatives.

La plainte fait référence à une mise à jour de la politique de confidentialité de Google datant du 1^er juillet, qui stipule que la société peut collecter des informations « publiquement disponibles en ligne » pour entraîner ses modèles d’IA et créer des produits comme Google Translate, Bard ou ses capacités d’IA dans le cloud.

Ce que reprochent les plaignants

Ceci est un extrait de la plainte.

Il est apparu très récemment que Google volait secrètement tout ce qui avait été créé et partagé sur Internet par des centaines de millions d'Américains. Google a pris toutes nos informations personnelles et professionnelles, nos travaux créatifs et rédigés, nos photographies et même nos e-mails - la quasi-totalité de notre empreinte numérique - et les utilise pour créer des produits commerciaux d'intelligence artificielle ("IA"

comme "Bard", le chatbot que Google a récemment lancé pour concurrencer le « ChatGPT » d'OpenAI. Pendant des années, Google a récolté ces données en secret, sans préavis ni consentement de quiconque.

Ce vol massif d'informations personnelles a stupéfié les internautes du monde entier, mais Google n'est pas le seul mauvais acteur de la nouvelle économie de l'IA. Selon les termes de la FTC, l'ensemble de l'industrie technologique "sprinte pour faire de même", c'est-à-dire pour aspirer autant de données qu'elle peut trouver. En effet, les grands modèles de langage sur lesquels s'exécutent les produits d'IA dépendent de la consommation de quantités massives de données pour "former" l'IA. Sans cela, les produits d'IA seraient sans valeur.

Les données personnelles de toutes sortes, en particulier les données de conversation entre humains, sont essentielles au processus de formation à l'IA. C'est ainsi que des produits comme Bard développent des capacités de communication humaines. Les œuvres créatives et expressives sont tout aussi précieuses car c'est ainsi que les produits d'IA apprennent à "créer" de l'art.

La FTC a lancé un avertissement sévère à l'industrie de l'IA le mois dernier concernant ce sprint soudain pour collecter autant de données de formation qu'elle peut en trouver*: "L'apprentissage automatique n'est pas une excuse pour enfreindre la loi... Les données que vous utilisez pour améliorer vos algorithmes doivent être légalement collectées. … les entreprises feraient bien de tenir compte de cette leçon".

L'orientation de Google

Plutôt que de tenir compte de l'avertissement de la FTC et d'arrêter son vol de données qui dure depuis des années, Google a choisi de "mettre à jour" discrètement sa politique de confidentialité en ligne la semaine dernière pour renforcer sa position selon laquelle l'entreprise peut tout prendre sur Internet à des fins privées et commerciales, y compris pour créer et améliorer des produits d'IA comme Bard.

Il s'agissait de la première reconnaissance publique par l'entreprise de ce qu'elle faisait en secret depuis des années*: récupérer l'intégralité d'Internet pour prendre tout ce qu'elle pouvait, qu'elle ait contribué ou non aux plateformes Google, et sans tenir compte de la vie privée, de la propriété et de la protection des consommateurs. les centaines de millions d'Américains qui ont partagé leurs idées, leurs talents, leurs œuvres d'art, leurs données, leurs informations personnellement identifiables, etc., à des fins spécifiques, dont aucune n'était de former de grands modèles de langage au profit de Google tout en mettant le monde en péril avec des outils non testés et produits IA volatils.

L'avertissement et l'aveu soudains de Google concernant ses pratiques de scrapping sont intervenus trois jours après qu'OpenAI a été poursuivi pour vol et détournement commercial de données personnelles...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :