IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Une plainte dénonce le pillage des données publiques par Google pour entraîner son chatbot Bard.
Des données d'enfants, d'artistes et d'écrivains prises sans consentement

Le , par Stéphane le calme

3PARTAGES

6  0 
Google, sa société mère Alphabet et sa filiale spécialisée dans l’intelligence artificielle DeepMind sont visés par un procès qui les accuse d’avoir utilisé les données personnelles et professionnelles de millions d’utilisateurs sans leur consentement ni leur connaissance pour entraîner leurs produits d’IA, comme son chatbot Bard.

La plainte, déposé par le cabinet Clarkson Law Firm devant le tribunal fédéral du district nord de Californie mardi, affirme que Google a « volé secrètement tout ce qui a été créé et partagé sur internet par des centaines de millions d’Américains », y compris leurs œuvres créatives et protégées par le droit d’auteur, leurs photographies et même leurs emails.

« Depuis des années, Google récolte ces données en secret, sans prévenir ni demander l’autorisation à quiconque », indique la plainte. Elle ajoute que Google a également pris des données provenant de sites web payants ou de sites connus pour héberger des collections illégales de livres et d’œuvres créatives.

La plainte fait référence à une mise à jour de la politique de confidentialité de Google datant du 1er juillet, qui stipule que la société peut collecter des informations « publiquement disponibles en ligne » pour entraîner ses modèles d’IA et créer des produits comme Google Translate, Bard ou ses capacités d’IA dans le cloud.


Ce que reprochent les plaignants

Ceci est un extrait de la plainte.

Il est apparu très récemment que Google volait secrètement tout ce qui avait été créé et partagé sur Internet par des centaines de millions d'Américains. Google a pris toutes nos informations personnelles et professionnelles, nos travaux créatifs et rédigés, nos photographies et même nos e-mails - la quasi-totalité de notre empreinte numérique - et les utilise pour créer des produits commerciaux d'intelligence artificielle ("IA" comme "Bard", le chatbot que Google a récemment lancé pour concurrencer le « ChatGPT » d'OpenAI. Pendant des années, Google a récolté ces données en secret, sans préavis ni consentement de quiconque.

Ce vol massif d'informations personnelles a stupéfié les internautes du monde entier, mais Google n'est pas le seul mauvais acteur de la nouvelle économie de l'IA. Selon les termes de la FTC, l'ensemble de l'industrie technologique "sprinte pour faire de même", c'est-à-dire pour aspirer autant de données qu'elle peut trouver. En effet, les grands modèles de langage sur lesquels s'exécutent les produits d'IA dépendent de la consommation de quantités massives de données pour "former" l'IA. Sans cela, les produits d'IA seraient sans valeur.

Les données personnelles de toutes sortes, en particulier les données de conversation entre humains, sont essentielles au processus de formation à l'IA. C'est ainsi que des produits comme Bard développent des capacités de communication humaines. Les œuvres créatives et expressives sont tout aussi précieuses car c'est ainsi que les produits d'IA apprennent à "créer" de l'art.

La FTC a lancé un avertissement sévère à l'industrie de l'IA le mois dernier concernant ce sprint soudain pour collecter autant de données de formation qu'elle peut en trouver*: "L'apprentissage automatique n'est pas une excuse pour enfreindre la loi... Les données que vous utilisez pour améliorer vos algorithmes doivent être légalement collectées. … les entreprises feraient bien de tenir compte de cette leçon".


L'orientation de Google

Plutôt que de tenir compte de l'avertissement de la FTC et d'arrêter son vol de données qui dure depuis des années, Google a choisi de "mettre à jour" discrètement sa politique de confidentialité en ligne la semaine dernière pour renforcer sa position selon laquelle l'entreprise peut tout prendre sur Internet à des fins privées et commerciales, y compris pour créer et améliorer des produits d'IA comme Bard.

Il s'agissait de la première reconnaissance publique par l'entreprise de ce qu'elle faisait en secret depuis des années*: récupérer l'intégralité d'Internet pour prendre tout ce qu'elle pouvait, qu'elle ait contribué ou non aux plateformes Google, et sans tenir compte de la vie privée, de la propriété et de la protection des consommateurs. les centaines de millions d'Américains qui ont partagé leurs idées, leurs talents, leurs œuvres d'art, leurs données, leurs informations personnellement identifiables, etc., à des fins spécifiques, dont aucune n'était de former de grands modèles de langage au profit de Google tout en mettant le monde en péril avec des outils non testés et produits IA volatils.

L'avertissement et l'aveu soudains de Google concernant ses pratiques de scrapping sont intervenus trois jours après qu'OpenAI a été poursuivi pour vol et détournement commercial de données personnelles sur Internet dans le cadre de sa propre opération massive de scrapping, également effectuée en secret, sans préavis ni consentement de quiconque dont des renseignements personnels ont été recueillis. Et bien que l'admission de Google ait été discrète, la réaction du public a été tout sauf cela. Les gens étaient en colère d'apprendre qu'ils étaient, en fait, et comme l'a dit un commentateur, la "sauce spéciale" qui faisait fonctionner les produits Bard et AI comme ça. L'indignation avait un sens. Même si Google avait déjà piétiné le droit à la vie privée, déclarer la propriété de tout et n'importe quoi sur Internet semblait particulièrement audacieux et violent, car c'est le cas.

D'autres options, plus onéreuses mais légales, sont disponibles

Google a répondu au contrecoup en invitant le monde à s'engager dans un "dialogue" sur ce à quoi devraient ressembler les efforts de collecte et de protection des données dans la nouvelle ère de l'IA. Cela a provoqué son propre contrecoup, naturellement, comme un cas classique de trop peu trop tard. Un commentateur a traduit avec justesse "l'invitation" de la société dans la vérité*: "Maintenant que nous avons déjà formé nos LLM sur tout votre contenu propriétaire et protégé par le droit d'auteur, nous allons enfin commencer à penser à vous donner un moyen de vous désinscrire de n'importe lequel de vos futurs contenus qui pourrait être utilisé pour nous rendre riches".

Google avait d'autres options que de voler des informations personnelles et protégées par le droit d'auteur. Les données Internet sont disponibles à l'achat comme n'importe quel autre contenu ou propriété. Il existe un marché commercial mature pour ces données, ce qui démontre à quel point notre empreinte numérique est devenue précieuse pour les entreprises. L'acquisition légale de données dépend généralement du consentement et de la considération.

Il existe également des sociétés spécialisées dans la conservation et la vente d'ensembles de données à des fins de formation à l'IA, qui contiennent des informations obtenues avec le consentement explicite des créateurs de contenu ou des sujets des informations personnelles ou protégées par le droit d'auteur. L'utilisation de ces ensembles de données peut être plus coûteuse que le vol, mais les données présentent un avantage essentiel*: elles sont légales. Dans ce contexte, la décision de Google de prendre à la place des données personnelles sans préavis, consentement ou compensation équitable viole non seulement les droits individuels de millions de personnes, mais donne également à Google un avantage injuste sur les concurrents plus petits qui achètent ou obtiennent légalement des données de formation à l'IA sur le marché.

Dans le cadre de son vol de données personnelles, Google a illégalement accédé à des sites Web restreints et par abonnement pour prendre le contenu de millions de personnes sans autorisation et a enfreint au moins 200 millions de documents explicitement protégés par le droit d'auteur, y compris des biens précédemment volés sur des sites Web connus pour des collections de livres piratées et autres créations. Sans ce vol massif d'informations privées et protégées par le droit d'auteur appartenant à de vraies personnes, communiquées à des communautés uniques à des fins spécifiques et ciblant des publics spécifiques, de nombreux produits d'IA de Google, y compris Bard, n'existeraient pas. Les accusés continuent d'alimenter les données volées de leurs produits d'intelligence artificielle par le biais de mises à jour régulières avec de nouvelles informations personnelles et protégées extraites des internautes sans aucun consentement.

Les accusés doivent être interdits de ces violations continues de la vie privée et des droits de propriété de millions de personnes et condamnés à mettre fin au vol illégal de données Internet. Ils doivent également être contraints de permettre aux internautes ordinaires de se retirer des efforts de collecte de données illicites de Google et supprimer les données déjà obtenues illégalement ou payer les propriétaires de ces données sous la forme de dividendes de données continus ou d'une autre compensation équitable. Plus fondamentalement, Google doit comprendre, une fois pour toutes*: Internet ne lui appartient pas, il ne possède pas nos créations, il ne possède pas les expressions de notre personnalité, les photos de nos familles et de nos enfants, ou quoi que ce soit d'autre simplement parce que nous les partageons en ligne. "Disponible au public" n'a jamais signifié libre d'utilisation à quelque fin que ce soit.


La réaction de Google

Dans une déclaration donnée à Reuters, Google a estimé que les accusations de la plainte sont « sans fondement ». Halimah DeLaine Prado, avocate générale de Google, a déclaré à Reuters que la société avait été « claire depuis des années » sur le fait qu’elle utilisait des données provenant de sources publiques, comme celles publiées sur le web ouvert et les ensembles de données publics, pour entraîner les modèles d’IA derrière des services comme Google Translate.

« Le droit américain soutient l’utilisation des informations publiques pour créer de nouveaux usages bénéfiques, et nous avons hâte de réfuter ces accusations sans fondement », a déclaré DeLaine Prado au média.

La plainte a été déposé environ deux semaines après que Clarkson Law Firm ait déposé une plainte similaire contre OpenAI, alléguant que la société avait volé « des quantités massives de données personnelles » et les avait utilisées pour entraîner ChatGPT, y compris des dossiers médicaux et des informations sur les enfants.

Cette plainte intervient alors qu’une nouvelle génération d’outils d’IA a suscité une attention considérable ces derniers mois pour leur capacité à générer des œuvres écrites et des images en réponse aux demandes des utilisateurs. Les grands modèles de langage qui sous-tendent cette nouvelle technologie sont capables de le faire en s’entraînant sur d’énormes quantités de données en ligne. Dans le processus, cependant, les entreprises font également l’objet d’un examen juridique croissant sur les questions de droit d’auteur liées aux œuvres capturées dans ces ensembles de données, ainsi que sur leur utilisation apparente de données personnelles et possiblement sensibles d’utilisateurs ordinaires, y compris des données provenant d’enfants, selon la plainte contre Google.

Source : plainte

Et vous ?

Que pensez-vous de l’utilisation des données publiques par Google pour entraîner son IA ?
Avez-vous déjà utilisé un produit d’IA basé sur un grand modèle linguistique, comme Bard ou ChatGPT ? Quelle a été votre expérience ?
Pensez-vous que les créateurs devraient avoir plus de contrôle sur l’utilisation et la modification de leurs œuvres par l’IA ?
Quelles sont les mesures que vous aimeriez voir prises pour réguler et encadrer l’utilisation des données par l’IA ?
Quels sont les avantages et les inconvénients des produits d’IA capables de générer des contenus écrits ou visuels en réponse aux demandes des utilisateurs ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Mingolito
Membre extrêmement actif https://www.developpez.com
Le 22/02/2024 à 17:13
Avant Gemini cette connerie wokiste est déjà dans les films américains depuis des années et sur les films historiques ça choque.

Aussi bien je trouve ça très bien d'avoir des séries avec un casting international comme par exemple on a vu sur Heroes, Lost, etc, d'autant que c'est vu dans le monde entier alors c'est cool pour tous le monde, aussi bien avoir dans les films historiques par exemple des nazis noirs ou je ne sais quelle autre imbécilité Woke c'est pénible, bientôt Hollywood va nous sortir un nouveau Biopic avec Napoléon et le personnage sera joué par un Chinois transsexuel
10  1 
Avatar de OrthodoxWindows
Membre émérite https://www.developpez.com
Le 10/02/2024 à 23:42
Marrant comme les entreprises qui s'inquiète des "risques" des images de nus générés par IA sont aussi celles qui pompent allégrement les données privées pour former leurs modèles.
A l'opposé, l'IA l'open-source ne s'inquiète pas des risques mais respecte plus la vie privée
4  0 
Avatar de Diablo150
Membre régulier https://www.developpez.com
Le 22/02/2024 à 18:49
Ils jouent d'autant plus les wokes car ils ont arrêtés ou au moins diminués les effectifs "diversitaires" parce qu'embaucher des tonnes de gens suivant leur type et non leurs compétences ça va un moment.

Heureusement pour le moment Stable diffusion est à peu près épargné par ces conneries.
4  0 
Avatar de irrmichael
Membre du Club https://www.developpez.com
Le 28/01/2024 à 15:10
Mistral 8B fait presque aussi bien que les modèles propriétaires à 80B et +, le jour où Mistral sortira un 80B, il faudra un gpt 6 pour l'égaler
Quant à Bard, il excelle surtout dans les tours de passe passe , un échec dès le départ et qui ne fait pas mieux un an après
3  0 
Avatar de fatbob
Membre éclairé https://www.developpez.com
Le 31/01/2024 à 15:58
Plus google avance et plus je suis content de ne l'utiliser que comme un moteur de recherche secondaire en cas de réponse insuffisamment pertinente de mon premier choix (actuellement Lilo qui se base sur bing mais sans collecter les données perso tout en reversant une partie de leurs revenus publicitaires à des projets de notre choix).
A vrai dire, je trouve d'ailleurs que les réponses de google, de plus en plus polluées par les pubs et les sites purement commerciaux, sont de moins en moins intéressantes (comprendre : il est de plus en plus rare que google m'apporte une réponse pertinente quand Lilo ne n'a pas fait).

Je trouve démentiel qu'une entreprise puisse s'octroyer le droit d'utiliser des données d'un passé lointain alors que les utilisateurs n'ont jamais donné leur accord.

Le pire, c'est que même si un jour la justice déclare cela illégal, ce sera trop tard. Personne n'ordonnera à google de détruire BARD parce qu'il sera construit sur une base totalement immorale (d'ailleurs, on voit bien que chatGPT peut piller internet sans problème, au contraire des vilains pirates qui veulent simplement mater un film sans se taper en plus de la pub).

Et pour citer le grand George (Abitbol) :
"Monde de merde."
4  1 
Avatar de Aiekick
Membre extrêmement actif https://www.developpez.com
Le 10/02/2024 à 2:55
J'en penses qu'on a pas besoin d'une ia pour faire du code propre, c'est plus un outil pour les script kiddies
3  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 12/02/2024 à 11:01
Où est l'Union Européenne et son RGPD?

Où est la CNIL, son bras armé en France?

Ben ils regardent ailleurs... Occupés à emmerder la PME qui aurait l'idée d'enregistrer les activités de ses employés qui posent problèmes (vol, etc...), occupés à emmerder l'éditeur de logiciel qui veut mettre en place des rapports statistiques dans ses progiciels...
2  0 
Avatar de irrmichael
Membre du Club https://www.developpez.com
Le 22/02/2024 à 20:19
Bard Gemini cumule les échecs depuis un an.
ça répond à coté, sinon les présentations publiques sont fake, puis là le générateur de photo fait n'importe quoi.
Croire qu'il n'y a personne chez Google pour tester ces outils avant leur publication ?
Pour moi, Google a perdu la course à l'IA. C'est fini.
2  0 
Avatar de 23JFK
Membre expert https://www.developpez.com
Le 29/02/2024 à 22:47
Citation Envoyé par commandantFred Voir le message
...
N'importe qui peut mettre un casque de martien à un humain d'ethnie anti-martienne sous GIMP et ça n'a jamais fait jaser personne...

Le problème c'est que dans le cas présent, il n'a jamais été demandé à l'IA de faire preuve de fantaisie ou "d'imagination". Les requêtes étaient du genre : Montres-moi un authentique Viking de l'Histoire Norvégienne.
Se retrouver avec un Booba à casque ou un Gengis Khan sur un drakkar, ce n'est clairement pas ce qui était demandé.
2  0 
Avatar de commandantFred
Membre averti https://www.developpez.com
Le 03/02/2024 à 1:26
Je viens de lui demander deux images en rapport avec mon bouquin. Il est allé les chercher sur EpicGames et les a affichées sans la moindre modification. Attention aux droits donc. Je ne doute pas qu'il s'améliore par la suite.
2  1