IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les outils IA populaires de générations d'images peuvent être incités à produire des photos identifiables de personnes réelles
Menaçant potentiellement leur vie privée

Le , par Stéphane le calme

0PARTAGES

4  0 
Selon de nouvelles recherches, les modèles de génération d'images populaires peuvent être incités à produire des photos identifiables de personnes réelles, menaçant potentiellement leur vie privée. Les travaux montrent également que ces systèmes d'IA peuvent être conçus pour générer des copies exactes d'images médicales et d'œuvres protégées par des droits d'auteur d'artistes. C'est une découverte qui pourrait renforcer le dossier des artistes qui poursuivent actuellement des sociétés d'intelligence artificielle pour violation du droit d'auteur.

En quelques mois seulement, des millions de personnes se sont ruées sur les systèmes d'IA de conversion de texte en image et ils sont déjà utilisés pour créer des films expérimentaux, des couvertures de magazine et des images pour illustrer des articles de presse. Une image générée par un système d'IA appelé Midjourney a récemment remporté un concours d'art à la foire d'État du Colorado et a provoqué un tumulte parmi les artistes.

Mais la découverte par des artistes que leur travail est utilisé pour entraîner l'IA soulève une préoccupation encore plus fondamentale : leur propre art est effectivement utilisé pour entraîner un programme informatique qui pourrait un jour s'attaquer à leur gagne-pain. Quiconque génère des images avec des systèmes tels que Stable Diffusion ou DALL-E peut ensuite les vendre, les conditions spécifiques concernant le droit d'auteur et la propriété de ces images varient. « Je ne veux pas du tout participer à la machine qui va dévaloriser ce que je fais », a déclaré Daniel Danger, un illustrateur et graveur qui a appris qu'un certain nombre de ses œuvres avaient été utilisées pour entraîner Stable Diffusion.

Les machines sont loin d'être magiques. Pour qu'un de ces systèmes puisse ingérer vos mots et produire une image, il doit être entraîné sur des montagnes de données, qui peuvent comprendre des milliards d'images extraites d'Internet, associées à des descriptions écrites.

Certains services, dont le système DALL-E d'OpenAI, ne divulguent pas les ensembles de données sur lesquels reposent leurs systèmes d'IA. Mais avec Stability Diffusion, Stability AI est clair sur ses origines. Son jeu de données de base a été entraîné sur des paires d'images et de textes sélectionnés pour leur aspect à partir d'un cache encore plus massif d'images et de textes provenant d'Internet. L'ensemble de données complet, connu sous le nom de LAION-5B, a été créé par l'association allemande d'intelligence artificielle LAION : "large-scale artificial intelligence open network" (réseau ouvert d'intelligence artificielle à grande échelle).

Cette pratique consistant à récupérer des images ou d'autres contenus sur Internet pour former des ensembles de données n'est pas nouvelle et relève traditionnellement de ce que l'on appelle le "fair use", principe juridique de la loi américaine sur le droit d'auteur qui autorise l'utilisation d'œuvres protégées par le droit d'auteur dans certaines situations. En effet, ces images, dont beaucoup peuvent être protégées par des droits d'auteur, sont utilisées d'une manière très différente, par exemple pour apprendre à un ordinateur à identifier des chats.

Personnes réelles et œuvres protégées par le droit d'auteur

Si les IA sont capables de « s'inspirer » des images qu'elles sont « apprises » pour générer une nouvelle image, peuvent-elles également générer ces mêmes images quelles ont « apprises » ? Dans une étude, des chercheurs se sont servis de Stable Diffusion et Imagen de Google avec des légendes pour les images, telles que le nom d'une personne, à plusieurs reprises. Ensuite, ils ont analysé si l'une des images générées correspondait aux images originales de la base de données du modèle. Le groupe a réussi à extraire plus de 100 répliques d'images dans l'ensemble de formation de l'IA.

Les modèles de diffusion d'images tels que DALL-E 2, Imagen et Stable Diffusion ont attiré une attention particulière en raison de leur capacité à générer des images synthétiques de haute qualité. Dans ce travail, nous montrons que les modèles de diffusion mémorisent des images individuelles à partir de leurs données d'apprentissage et les émettent au moment de la génération. Avec un pipeline de génération et de filtrage, nous extrayons plus d'un millier d'exemples de formation à partir de modèles de pointe, allant des photographies de personnes individuelles aux logos d'entreprise. Nous formons également des centaines de modèles de diffusion dans divers contextes pour analyser comment différentes décisions de modélisation et de données affectent la confidentialité. Dans l'ensemble, nos résultats montrent que les modèles de diffusion sont beaucoup moins privés que les modèles génératifs antérieurs tels que les GAN, et que l'atténuation de ces vulnérabilités peut nécessiter de nouvelles avancées dans la formation à la protection de la vie privée.
Il faut rappeler que ces modèles d'IA générateurs d'images sont entraînés sur de vastes ensembles de données constitués d'images avec des descriptions textuelles extraites d'Internet. La dernière génération de la technologie fonctionne en prenant des images dans l'ensemble de données et en modifiant un pixel à la fois jusqu'à ce que l'image d'origine ne soit rien d'autre qu'une collection de pixels aléatoires. Le modèle d'IA inverse ensuite le processus pour transformer le désordre pixélisé en une nouvelle image.


C'est la première fois que des chercheurs réussissent à prouver que ces modèles d'IA mémorisent des images dans leurs ensembles d'entraînement, explique Ryan Webster, doctorant à l'Université de Caen Normandie en France, qui a étudié la confidentialité dans d'autres modèles de génération d'images mais n'était pas impliqués dans la recherche. Cela pourrait avoir des implications pour les startups souhaitant utiliser des modèles d'IA générative dans les soins de santé, car cela montre que ces systèmes risquent de divulguer des informations privées sensibles.

Eric Wallace, doctorant à l'UC Berkeley qui faisait partie du groupe d'étude, dit qu'ils espèrent sonner l'alarme sur les problèmes potentiels de confidentialité autour de ces modèles d'IA avant qu'ils ne soient largement déployés dans des secteurs sensibles comme la médecine.

« Beaucoup de gens sont tentés d'essayer d'appliquer ces types d'approches génératives aux données sensibles, et notre travail est certainement un récit édifiant que c'est probablement une mauvaise idée, à moins qu'il n'y ait une sorte de protection extrême prise pour empêcher [les atteintes à la vie privée] », explique Wallace.

La mesure dans laquelle ces modèles d'IA mémorisent et régurgitent les images de leurs bases de données est également à l'origine d'une énorme querelle entre les entreprises d'IA et les artistes. Stability.AI fait face à deux poursuites intentées par un groupe d'artistes et Getty Images, qui affirment que la société a illégalement récupéré et traité leur matériel protégé par le droit d'auteur.


Les découvertes des chercheurs pourraient renforcer les cartes en possession des artistes accusant les sociétés d'IA de violations du droit d'auteur. Si les artistes dont le travail a été utilisé pour former Stable Diffusion peuvent prouver que le modèle a copié leur travail sans autorisation, l'entreprise pourrait devoir les indemniser.

Les résultats sont opportuns et importants, déclare Sameer Singh, professeur agrégé d'informatique à l'Université de Californie à Irvine, qui n'a pas participé à la recherche. « C'est important pour la sensibilisation du grand public et pour lancer des discussions autour de la sécurité et de la confidentialité de ces grands modèles », ajoute-t-il.

L'article démontre qu'il est possible de déterminer si les modèles d'IA ont copié des images et de mesurer dans quelle mesure cela s'est produit, qui sont tous deux très précieux à long terme, dit Singh.

Stable Diffusion est open source, ce qui signifie que n'importe qui peut l'analyser et l'étudier. Imagen est fermé, mais Google a autorisé l'accès aux chercheurs. Singh dit que le travail est un excellent exemple de l'importance de donner à la recherche un accès à ces modèles d'analyse, et il soutient que les entreprises devraient être tout aussi transparentes avec d'autres modèles d'IA, tels que ChatGPT d'OpenAI.


Cependant, bien que les résultats soient impressionnants, ils s'accompagnent de quelques mises en garde. Les images que les chercheurs ont réussi à extraire sont apparues plusieurs fois dans les données de formation ou étaient très inhabituelles par rapport aux autres images de l'ensemble de données, explique Florian Tramèr, professeur adjoint d'informatique à l'ETH Zürich, qui faisait partie du groupe.

Les personnes qui ont l'air inhabituel ou qui ont des noms inhabituels courent un risque plus élevé d'être mémorisées, dit Tramèr.

Les chercheurs n'ont pu extraire que relativement peu de copies exactes des photos des individus à partir du modèle d'IA*: seulement une image sur un million était une copie, selon Webster. Mais c'est toujours inquiétant, déclare Tramèr*: « J'espère vraiment que personne ne regardera ces résultats et ne dira : "Oh, en fait, ces chiffres ne sont pas si mauvais si c'est juste un sur un million ». « Le fait qu'ils soient plus grands que zéro est ce qui compte », ajoute-t-il.

Conclusion

Questions de généralisation

Les modèles à grande échelle fonctionnent-ils en générant de nouvelles sorties, ou se contentent-ils de copier et d'interpoler entre des exemples de formation individuels*? Si nos attaques d'extraction avaient échoué, cela aurait peut-être réfuté l'hypothèse selon laquelle les modèles copient et interpolent les données d'apprentissage*; mais parce que nos attaques réussissent, cette question reste ouverte. Étant donné que différents modèles mémorisent des quantités variables de données, nous espérons que les travaux futurs exploreront comment les modèles de diffusion copient à partir de leurs ensembles de données de formation.

Nos travaux mettent également en évidence la difficulté de définir la mémorisation. Bien que nous ayons trouvé une mémorisation étendue avec une simple mesure, une analyse plus complète sera nécessaire pour capturer avec précision des définitions plus nuancées de la mémorisation qui apportent des notions de copie de données plus humaines.

Conséquences pratiques

Nous soulevons quatre conséquences pratiques pour ceux qui forment et déploient des modèles de diffusion. Tout d'abord, bien qu'il ne s'agisse pas d'une défense parfaite, nous recommandons de dédupliquer les ensembles de données d'entraînement et de minimiser le surentraînement. Deuxièmement, nous suggérons d'utiliser notre attaque ou d'autres techniques d'audit - pour estimer le risque de confidentialité des modèles entraînés. Troisièmement, une fois que des techniques pratiques de préservation de la vie privée deviennent possibles, nous recommandons leur utilisation dans la mesure du possible. Enfin, nous espérons que notre travail tempérera les attentes heuristiques en matière de confidentialité qui sont désormais associées aux résultats des modèles de diffusion*: les données synthétiques ne donnent pas la confidentialité gratuitement.

Dans l'ensemble, notre travail contribue à un corpus croissant de littérature qui soulève des questions concernant les problèmes juridiques, éthiques et de confidentialité qui découlent de la formation sur les données publiques récupérées sur le Web. Les chercheurs et les praticiens doivent se méfier de la formation sur des données publiques non conservées sans avoir d'abord pris des mesures pour comprendre les implications sous-jacentes en matière d'éthique et de confidentialité.
Source : résultats de recherche

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de calvaire
Expert éminent https://www.developpez.com
Le 16/05/2023 à 8:18
ces algos de toute manière vol le travail de millions de personnes (légalement mais aussi illégalement).
que ce soit midjourney ou chatgpt.
Ils pillent le contenu des forums, les code source de projet open source...etc

Il faut que les forums et les codes inclus de base dans leurs licences et chate d'utilisation l'interdiction d'entrainement de model d'ia a des fin commercial.
Même chose pour les images, si des artistes partage sur DeviantArt leurs œuvres c'est pas pour qu'une boite se fasse de la tune avec en entrainement son ia dessus et reproduise le style de l'artiste.

Quand chatgpt répond a une question, sa réponse est une synthèse de plusieurs site web.
sauf dans des cas de niche ou il y'a peu de sujet sur internet et la chatgpt ressort mots pour mots la même réponse que le site web qui en parle et c'est assez facile de découvrir le vol de propriété intellectuel.

quand a ceux que ca dérange pas de se faire piller leurs savoirs, dite vous bien que chatgpt peut vous tuer à terme. Si j'ai mes réponses sur chatgpt pourquoi es ce que je m'emmerderai a aller chercher des infos sur developpez.net et wikipedia.
Donc je ne verrai plus les pub sur developpez.net et je ferai plus de don sur Wikipédia donc ces sites vont inéluctablement mourir. Ensuite chatgpt va lui aussi devenir inutile car il n'aura plus de nouvelles infos dans son dataset.

les outils comme chatgpt sont super intéressant et il ne faut pas les interdire mais il faut trouver un bon équilibre pour concilier les intérêts de tous le monde.
Ces algos n'invente rien, il ne font que répéter, si demain les entreprises vire les artistes ou les dev ou les avocats ou autres, ce sera la fin de l'innovation, enfin tout du moins un gros ralentissement.

Il faut pas oublier que beaucoup de dev qui ont un emploi pas trop mal payé et stable, profite du taff en entreprise pour maintenir leurs compétence et de leurs temps libre pour utiliser leurs connaissance pour faire des libs et code opensouce qui seront massivement utilisé par la suite par pleins d'entreprises gratuitement.
si demain on vire massivement beaucoup de dev ce seront fatalement moins de contributions a ces projets et donc très peu d'innovation.
c'est la même chose pour les artistes. Un artistes qui n'arrive pas a s'acheter à manger pour ces repas ne fera pas de contribution bénévole et ne fera aucune innovation car pas d'argent pour nnover.
4  1 
Avatar de ALT
Membre émérite https://www.developpez.com
Le 23/03/2023 à 10:58
Oui, d'autant que tous les auteurs s'inspirent de leurs prédécesseurs. Et à moins d'une rupture très brutale, comme le cubisme, ils extrapolent : même les artistes de la Renaissance ont été influencés par ceux du Moyen-Âge ou leurs contemporains.
D'où les « styles » : gothique, néoclassique, Art-Déco, romantique... Dans tous les arts. Et pourtant, chacun a son genre : René Descartes n'écrivait pas comme François de Malherbe. Et Johann Sebastian Bach ne composait pas comme Wolfgang Amadeus M.

Alors qu'une IA s'inspire d'[autres] artistes...
2  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 12/09/2023 à 13:09
M. Allen a déclaré à l'office qu'il avait "saisi de nombreuses révisions et invites de texte au moins 624 fois pour parvenir à la version initiale de l'image" à l'aide de Midjourney et qu'il l'avait modifiée à l'aide d'Adobe Photoshop. L'Office a demandé à Allen de renoncer aux parties de l'image générées par Midjourney afin de bénéficier de la protection du droit d'auteur. Il a rejeté la demande d'Allen après son refus.
Ce qui est logique. On ne peut protéger que ce qui a été crée par le créateur, pas ce qui a été "commandé".
Sinon cela voudrait dire que je pourrais m'approprier n'importe quelle œuvre commandée à un artiste du tier monde pour trois francs six sous. Et évidemment sous cet angle la on comprend bien le non sens au niveau du droit d'auteur.

Ici, il faudrait plus une protection hybride entre les parties de l'image retouchées sur photoshop, les itérations sur les prompts et tous les paramètres de génération utilisés.
Mais évidemment, cela n'a que peu d’intérêt pratique. C'est un peu comme nommer une étoile que l'on a découverte.

"certain que nous gagnerons à la fin"
Je ne comprend pas son combat.
Si ils "gagnent", pour moi ce serait plus une défaite globale.
Pour les vrai artistes mais aussi ces prétentieux "AI artists" que personnellement je qualifierais plus de "prompt monkeys", sans vouloir être méchant

Les seuls qui y gagneront seront ceux qui ont déjà des moyens énormes, comme disney ou hollywood.
Il n'y a qu'a voir ce qu'il se passe actuellement.
3  1 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 25/11/2023 à 12:15
Citation Envoyé par shenron666 Voir le message
copier ou réutiliser c'est du vol
De la contrefaçon. Le vol consiste à subtiliser quelque chose à quelqu'un, de sorte que ce quelqu'un ne l'a plus. La contrefaçon non.

Les discussions de ce genre se basent trop souvent sur des amalgames pour faire valoir telle ou telle interprétation. On ne peut pas critiquer qu'un tel fasse un argument fallacieux si de notre côté on fait pareil. Et corriger ça commence par utiliser la bonne terminologie.
3  1 
Avatar de Xavdeb
Candidat au Club https://www.developpez.com
Le 09/02/2023 à 12:12
Le problème du droit d'auteur, c'est qu'il protège une oeuvre, pas un concept. Et heureusement.
Si je vois un dessin d'une femme en tenue médiévale, de style renaissance, dans un décors de pierre, rien ne m'interdit de dessiner MOI AUSSI une femme en tenue médiévale, de style renaissance, dans un décors de pierre. L'auteur ne peut pas faire valoir son droit d'auteur comme interdisant toute inspiration qui y ressemblerait.
Et heureusement. Sinon l'impressionnisme serait le fait d'un seul artiste !

Nous aussi, pauvres humains, nous nous inspirons des images que l'on trouve sur les sites d'image payantes. Ca nous donne des idées, que l'on a ou pas le talent de créer.

Si une IA n'a plus le droit de le faire, alors nous non plus. Et ça bloque toute créativité !

(quant au débat sur la qualité ou non des oeuvres des IA, il n'a rien à faire ici. Si les IA faisaient de la daube, les artistes n'auraient pas besoin de leur faire des procès en contrefaçon.
Pour une image foirée d'une IA je peux vous en sortir 15 magnifiques voire sublimes)
1  0 
Avatar de ALT
Membre émérite https://www.developpez.com
Le 23/03/2023 à 10:22
Moi, je me pose une question : au vu de certaines œuvres (l'illustration de cet article en est un exemple), comment fait-on pour distinguer le travail d'une IA de celui d'un humain ?
Si quelqu'un a une réponse, je suis preneur.
1  0 
Avatar de TJ1985
Membre chevronné https://www.developpez.com
Le 23/03/2023 à 10:31
Citation Envoyé par ALT Voir le message
Moi, je me pose une question : au vu de certaines œuvres (l'illustration de cet article en est un exemple), comment fait-on pour distinguer le travail d'une IA de celui d'un humain ?
Si quelqu'un a une réponse, je suis preneur.
C'est là que la notion d'oeuvre devient intéressante. Qu'est-ce qui fait que Picasso est devenu extraordinairement célèbre pour ses portraits en morceaux, moches, alors qu'il dessinait avec grand talent par ailleurs, et que Madame Michu se fait conspuer alors qu'elle s'applique à dessiner ses jolis bouquets de chrysanthèmes ?
Qui définit ce qu'est l'art, et selon quelle légitimité ?
A mon point de vue, du moment que ça trouve un écho chez nous, nous pouvons considérer que c'est de l'art. Quel qu'en soit l'auteur. Ou même l'autrice ! Après vient la notion de plagiat, et là l'IA pourrait facilement se trouver en faute puisqu'elle exploite des banques de données existantes.
Mais Picasso a aussi dessiné des nez, bien qu'ils les ait placés à des endroits étranges souvent. Va-t-on lui reprocher d'avoir copié la Venus de Milo parce qu'elle aussi avait un nez ?
1  0 
Avatar de Prox_13
Membre éprouvé https://www.developpez.com
Le 31/03/2023 à 14:25
Le pire... C'est que les deux photos du Pape (il signe la Lambo, et il prend le micro) sont des vraies photos
1  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 16/05/2023 à 7:59
Citation Envoyé par Stéphane le calme Voir le message
Quelle est votre opinion sur le procès des artistes contre les entreprises d’IA ? Pensez-vous que les artistes ont raison de défendre leurs droits d’auteur ou que les entreprises d’IA ont le droit d’utiliser leurs images pour créer de nouvelles œuvres ?
Les artistes auraient tort de laisser ce concurrent ultra agressif entrer sur le marché.
Combien d'entreprises ne repectent pas les droits d'auteur et utilisent des images (ou musiques ou ...) pour leur communication, les artistes se retournent contre elles régulièrement et ce n'est pas un mal de mon point de vue. L'IA fait une mise à l'echelle exponentielle de ce problème.
Citation Envoyé par Stéphane le calme Voir le message
Quelle est votre définition de l’art ? Pensez-vous que les images générées par l’IA sont des œuvres d’art originales et indépendantes ou des copies et des plagiat des œuvres des artistes ?
Pour moi l'art est un processus de création dont le résultat va être emetteur/transmetteur d'émotion.
La plupart des ouvres de l'IA ne sont pas des oeuvres d'art de mon point de vue, mais il en est de même pour les créations humaines donc je ne suis pas sur que cette distinction soit pertinente.
La plupart des produits de l'IA sont sans interet dont certains éléments sont tellement génériques ou dont la référence est tellement claire qu'on ne peut plus parler de création originale.
Je trouve que l'IA a malgré tout cette faculté de faire des oeuvres proches d'une certaine réalité mais qui ont des éléments incohérents qui font tiquer et donnent une dimension dérangeante que je trouve interressante.
Citation Envoyé par Stéphane le calme Voir le message
Quels sont les avantages et les inconvénients des générateurs d’images basés sur l’IA pour la création et l’expression artistiques ? Pensez-vous que ces outils favorisent l’innovation et la diversité ou qu’ils nuisent à la valeur et à la singularité de l’art ?
Depuis combien de temps les gens se plaignent de ne pas avoir d'oeuvre originale au cinéma (on a des suites, des adaptations, des remakes, des plagiats) et vont malgré tout voir chaque film du MCU, star wars ou la Nième adaptation d'une nouvelle de Philip K Dick ou Stephen King?
Biensur que si le générateur d'image qui sert à faire une image complète nuit à l'innovation parce que le consommateur ne cherche pas quelquechose d'innovant mais quelquechose qui marque. Combien de vues de New York en noir et blanc avec un détail en couleur dans les salons Français?
Mais j'ai aussi vu un photographe supprimer un élément de sa photo et gagner un temps monstre en faisant générer un détail qui était masqué par Midjourney et l'integrer dans sa photo.
Citation Envoyé par Stéphane le calme Voir le message
D'ailleurs seriez-vous disposé à acheter une image créée par l'IA auprès d'un individu si vous pouviez simplement taper vous même les requêtes pour obtenir la même ?
Ma réalité est qu'aucune de mes tentatives de faire une image avec une IA était satisfaisante donc je ne peux, a priori, pas faire une oeuvre digne de quelques € avec une IA.
Est ce que je suis pret à acheter un tableau généré par IA? Oui, au même prix qu'une oeuvre originale? Probablement pas.
Saurais je faire la différence? Là est la vraie question, je suppose que si l'artiste y met sufisamment de soin il n'y a aucune chance.
2  1 
Avatar de Galactus13
Membre à l'essai https://www.developpez.com
Le 18/05/2023 à 9:36
Je pose la question,
Si l'IA est une entité humaine, donc, elle est vivante et par conséquent a le droit a un procès.
Si l'IA est une machine, c'est son créateur qui a la joie du procès.
.
Dans les deux cas: Ils perdent leurs procès puisque chacun d'eux viole les droits d'auteur. par plagia. La copie étant interdite sans l'accord de l'auteur.
Ceci reste mon avis en tant qu'auteur.
Ce n'est pas pour rien que dans une émission de télé en direct, on vous fait signer un papier autorisant la régie a utiliser votre image et ce qui en découle dans le cadre du sujet.
2  1