IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

De nombreux sites restreignent l'utilisation de leurs données pour empêcher la formation de l'IA, selon une étude.
La «crise émergente du consentement» pourrait constituer une menace pour les entreprises d'IA

Le , par Stéphane le calme

60PARTAGES

9  0 
De nombreux sites restreignent l'utilisation de leurs données pour empêcher la formation de modèles d'IA, selon une étude.
La « crise émergente du consentement » pourrait constituer une menace pour les entreprises d'IA

Au cours de l'année dernière, de nombreuses sources web essentielles utilisées pour former les modèles d’intelligence artificielle (IA) ont restreint l’utilisation de leurs données. Cette tendance a été mise en évidence par une étude du Data Provenance Initiative, un groupe de recherche dirigé par le MIT. L’étude a examiné 14 000 domaines web inclus dans trois ensembles de données d’entraînement couramment utilisés pour l’IA. Elle a révélé une « crise émergente du consentement », car les éditeurs et les plateformes en ligne ont pris des mesures pour empêcher l’extraction de leurs données.

Pendant des années, les concepteurs de puissants systèmes d'intelligence artificielle ont utilisé d'énormes quantités de textes, d'images et de vidéos tirés de l'internet pour entraîner leurs modèles.

Désormais, ces données sont en train de se tarir.

Selon une étude publiée par la Data Provenance Initiative, un groupe de recherche dirigé par le MIT, au cours de l'année écoulée, un grand nombre des principales sources web utilisées pour l'entraînement des modèles d'intelligence artificielle ont restreint l'utilisation de leurs données. L'étude, qui a porté sur 14 000 domaines web inclus dans trois ensembles de données d'entraînement d'IA couramment utilisés, a mis en évidence une « crise émergente du consentement », les éditeurs et les plateformes en ligne ayant pris des mesures pour éviter que leurs données ne soient récoltées.

Les chercheurs estiment que dans les trois ensembles de données (appelés C4, RefinedWeb et Dolma), 5 % de toutes les données, et 25 % des données provenant des sources de la plus haute qualité, ont été restreintes. Ces restrictions sont mises en place par le biais du protocole d'exclusion des robots, une méthode vieille de plusieurs décennies qui permet aux propriétaires de sites web d'empêcher les robots d'explorer leurs pages à l'aide d'un fichier appelé robots.txt.

L'étude a également révélé que 45 % des données d'un ensemble, C4, avaient été restreintes par les conditions d'utilisation des sites web.


La crise émergente du consentement

« Nous assistons à un déclin rapide du consentement à l'utilisation des données sur le web, ce qui aura des conséquences non seulement pour les entreprises d'intelligence artificielle, mais aussi pour les chercheurs, les universitaires et les entités non commerciales », a déclaré Shayne Longpre, l'auteur principal de l'étude, dans une interview.

Les données sont le principal ingrédient des systèmes d'IA générative actuels, qui sont alimentés par des milliards d'exemples de textes, d'images et de vidéos. La plupart de ces données sont extraites de sites web publics par des chercheurs et compilées dans de grands ensembles de données, qui peuvent être téléchargés et utilisés librement, ou complétés par des données provenant d'autres sources.

L'apprentissage à partir de ces données est ce qui permet aux outils d'IA générative tels que ChatGPT d'OpenAI, Gemini de Google et Claude d'Anthropic d'écrire, de coder et de générer des images et des vidéos. Plus ces modèles sont alimentés en données de haute qualité, meilleurs sont leurs résultats.

Pendant des années, les développeurs d'IA ont pu collecter des données assez facilement. Mais le boom de l'IA générative de ces dernières années a provoqué des tensions avec les propriétaires de ces données, dont beaucoup ont des réticences à être utilisés pour l'entraînement de l'I.A. ou, du moins, veulent être payés pour cela.

Face à la levée de boucliers, certains éditeurs ont mis en place des paywall ou modifié leurs conditions de service pour limiter l'utilisation de leurs données à des fins de formation de l'IA. D'autres ont bloqué les robots d'exploration du web, qui ne sont plus autorisés à utiliser leurs données à des fins de formation. D'autres ont bloqué les robots d'exploration du web utilisés par des sociétés comme OpenAI, Anthropic et Google.

Plusieurs sites ont commencé à faire payer l'accès aux données aux entreprises d'IA, et quelques éditeurs ont intenté des actions en justice, notamment le New York Times, qui a poursuivi OpenAI et Microsoft pour violation des droits d'auteur l'année dernière, alléguant que les entreprises avaient utilisé des articles d'actualité pour entraîner leurs modèles sans autorisation.

Ces dernières années, des entreprises comme OpenAI, Google et Meta ont déployé des efforts considérables pour recueillir davantage de données afin d'améliorer leurs systèmes, notamment en transcrivant des vidéos sur YouTube et en faisant des entorses à leurs propres politiques en matière de données.

Plus récemment, certaines entreprises d'IA ont conclu des accords avec des éditeurs tels que l'Associated Press et News Corp, le propriétaire du Wall Street Journal, leur donnant un accès permanent à leur contenu.


Les conséquences pour l’IA

Les restrictions généralisées en matière de données peuvent constituer une menace pour les entreprises d'IA, qui ont besoin d'un approvisionnement régulier en données de haute qualité pour maintenir leurs modèles frais et à jour.

Elles pourraient également poser problème aux petites entreprises d'IA et aux chercheurs universitaires qui s'appuient sur des ensembles de données publiques et n'ont pas les moyens d'obtenir des licences directement auprès des éditeurs. Common Crawl, l'un de ces ensembles de données qui comprend des milliards de pages de contenu web et qui est géré par une organisation à but non lucratif, a été cité dans plus de 10 000 études universitaires, a déclaré Longpre.

On ne sait pas exactement quels produits d'IA populaires ont été formés à partir de ces sources, car peu de développeurs divulguent la liste complète des données qu'ils utilisent. Mais les ensembles de données dérivés de Common Crawl, y compris C4 (qui signifie Colossal, Cleaned Crawled Corpus) ont été utilisés par des entreprises telles que Google et OpenAI pour entraîner les versions précédentes de leurs modèles.

Yacine Jernite, chercheur en apprentissage automatique chez Hugging Face, une société qui fournit des outils et des données aux développeurs d'IA, a décrit la crise du consentement comme une réponse naturelle aux pratiques agressives de l'industrie de l'IA en matière de collecte de données. « Il n'est pas surprenant que les créateurs de données se rebiffent après que les textes, les images et les vidéos qu'ils ont partagés en ligne ont été utilisés pour développer des systèmes commerciaux qui menacent parfois directement leurs moyens de subsistance », a-t-il déclaré.

Il a toutefois mis en garde contre le fait que si toutes les données de formation à l'IA devaient être obtenues par le biais d'accords de licence, cela exclurait « les chercheurs et la société civile de la participation à la gouvernance de la technologie ».

Stella Biderman, directrice exécutive d'EleutherAI, une organisation à but non lucratif spécialisée dans la recherche sur l'IA, s'est fait l'écho de ces craintes. « Les grandes entreprises technologiques possèdent déjà toutes les données », a-t-elle déclaré. « Changer la licence sur les données ne révoque pas rétroactivement cette permission, et l'impact principal est sur les acteurs qui arrivent plus tard, qui sont typiquement soit des start-ups plus petites, soit des chercheurs ».

Les difficultés rencontrées par les entreprises d'IA et les solutions qu'elles envisagent

Les entreprises d'IA ont affirmé que leur utilisation des données publiques du web était légalement protégée par le principe de l'usage loyal. Mais la collecte de nouvelles données est devenue plus délicate. Certains dirigeants d'entreprises d'IA craignent de se heurter au « mur des données », terme qui désigne le moment où toutes les données de formation disponibles sur l'internet public ont été épuisées et où le reste a été caché derrière des paywalls, bloqué par des robots.txt ou enfermé dans des accords d'exclusivité.

Certaines entreprises pensent pouvoir franchir le mur des données en utilisant des données synthétiques (c'est-à-dire des données générées par des systèmes d'intelligence artificielle) pour entraîner leurs modèles. Mais de nombreux chercheurs doutent que les systèmes d'IA actuels soient capables de générer suffisamment de données synthétiques de haute qualité pour remplacer les données créées par l'homme qu'ils perdent.

Autre difficulté : si les éditeurs peuvent tenter d'empêcher les entreprises d'IA de récupérer leurs données en plaçant des restrictions dans leurs fichiers robots.txt, ces demandes ne sont pas juridiquement contraignantes et la conformité est volontaire. (Il s'agit en quelque sorte d'un panneau d'interdiction d'accès aux données, mais qui n'a pas force de loi).

Les principaux moteurs de recherche respectent ces demandes d'exclusion et plusieurs grandes entreprises d'IA, dont OpenAI et Anthropic, ont déclaré publiquement qu'elles les respectaient également. Mais d'autres entreprises, dont le moteur de recherche Perplexity, alimenté par l'IA, ont été accusées de les ignorer. Le directeur général de Perplexity, Aravind Srinivas, a déclaré que l'entreprise respectait les restrictions imposées par les éditeurs en matière de données. Il a ajouté que, bien que la société ait déjà travaillé avec des robots d'indexation tiers qui ne respectaient pas toujours le protocole d'exclusion des robots, elle avait « procédé à des ajustements avec nos fournisseurs pour s'assurer qu'ils respectent le protocole robots.txt lorsqu'ils effectuent des indexations pour le compte de Perplexity ».

Source : Le consentement en crise : le déclin rapide des données communes sur l'IA

Et vous ?

Quelle est la responsabilité des entreprises et des chercheurs dans la préservation des données utilisées pour l’entraînement des modèles d’IA ?
Comment pouvons-nous garantir un accès éthique et responsable aux données tout en respectant les droits des propriétaires de ces informations ?
Quels sont les risques potentiels si nous ne parvenons pas à résoudre cette crise émergente du consentement ?
Pensez-vous que les gouvernements devraient jouer un rôle plus actif dans la régulation de l’accès aux données pour l’IA ? Pourquoi ou pourquoi pas ?
Vous avez lu gratuitement 873 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 01/05/2025 à 12:32
Citation Envoyé par Stéphane le calme Voir le message
Le PDG de Microsoft affirme que jusqu'à 30 % du code de l'entreprise a été généré par son IA Copilot, innovation ou dépendance algorithmique ?
L’IA s’impose dans l’environnement quotidien des développeurs Microsoft
Quand on voit la teneur des correctifs des derniers patchs de sa société, il devrait plutôt faire profil bas...

Citation Envoyé par Stéphane le calme Voir le message
Peut-on réellement faire confiance au code généré par l'IA sans relecture humaine ?
Non.

Citation Envoyé par Stéphane le calme Voir le message
Comment intégrer efficacement l’IA dans une chaîne DevOps sans compromettre la qualité ou la sécurité ?
Pourquoi faire? Autant laisser les boîtes qui ne jurent que par ça s'écrouler sous le poids de leurs cochonneries. Ça fera de la place pour celles qui considèrent encore la qualité.

Citation Envoyé par Stéphane le calme Voir le message
L’IA est-elle capable de générer un code maintenable à long terme, ou produit-elle surtout du “jetable” ?
Non, c'est du jetable. Pour créer du code maintenable à long terme, cela demande des compétences et de la réflexion - ce dont une IA générative n'est pas dotée, puisqu'elle ne réfléchit pas...

Citation Envoyé par Stéphane le calme Voir le message
Faut-il former tous les développeurs à l’ingénierie de prompt et à la relecture de code IA ?
Des développeurs passant leur journée à ne plus coder mais à lire le code pourri généré par un programme seront-ils encore des développeurs? Sauront-il encore corriger du code? Pour combien de temps?
Pourquoi se préoccuper de former tous les développeurs aux outils complètement propriétaires d'une poignée d'entreprises cupides? Pour faire plaisir à leurs actionnaires? Si des entreprises ont officiellement besoin d'IA génératives, qu'elles forment elles-mêmes leurs développeurs.

Citation Envoyé par Stéphane le calme Voir le message
Les développeurs de demain seront-ils des "relecteurs de code IA" ou des "concepteurs augmentés" ? Quelles compétences humaines deviendront les plus valorisées face à l’automatisation du codage ?
Ni l'un ni l'autre. Les développeurs resteront des développeurs. Les autres seront de simples escrocs
8  0 
Avatar de Bardaz
Nouveau Candidat au Club https://www.developpez.com
Le 18/04/2025 à 17:41
Quelle outrecuidance ! Vouloir garder ses activités loin des yeux du système que vous utilisez.

Exemple similaire aujourd'hui même après les dernières MAJ de Windows en passant un coup de BCU Uninstaller pour virer la partie installée en standalone de Copilot. Ça simule la désinstallation mais ça ne se désinstalle pas et ce, même en virant les clés de registre par la suite. Je relance la désinstallation par acquis de conscience, rien à faire Copilot reste accroché au système comme une moule à son rocher.
5  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 04/04/2025 à 10:53
Citation Envoyé par Artaeus Voir le message
Le "droit d'auteur" est surtout devenu un abus
ne jetons pas le bébé avec l'eau du bain, les droits d'auteurs n'ont pas évolués avec l'art (au sens large) ce qui en fait un objet plus ou moins obsolète que les gens vont respecter ou invoquer quand ça les arrange.
Et tu sais d'autant plus le faire quand tu es puissant, c'est à dire que Universal n'a aucun problème à réclamer des droits à l'association des cinéphiles de pélouaille les vignes mais n'a aucun problème à sampler une musique sans rien donner au musicien initial (ou sas ayants droit).

Oui, on ne peut pas tout faire avec un œuvre et ça parait plutôt logique.
Il me semble normal que Jean Michel Tube de l'été puisse vivre les pieds en éventails parce qu'il a écrit le tube de l'été 1996 et qu'on aime se le repasser à la radio tous les ans.
Ca me semble un peu moins normal que Jean Pierre Plagiat ai la même vie parce qu'il a rajouté un kick à la musique en 2009.
Et je sais bien que je ne parles pas de Jean Charles techno qui l'a samplé en 2012 parce que la frontière entre les précédents n'est pas si claire.
2  0 
Avatar de petitours
Membre émérite https://www.developpez.com
Le 18/04/2025 à 16:06
Comment ça ? quelqu'un pourrait ne pas vouloir d'un tel progrés ?
2  0 
Avatar de Artaeus
Nouveau Candidat au Club https://www.developpez.com
Le 06/06/2025 à 13:56
Drôle d'époque où ce sont les entreprises privés qui défendent nos intérêts face aux délires étatiques de surveillance globale ...
On le voit en France aussi avec l'interdiction puritaine du porn par le gouv (en se servant des enfants comme prétexte bidon).
2  0 
Avatar de jnspunk
Membre habitué https://www.developpez.com
Le 22/11/2024 à 5:49
Ca me rappelle les suppressions accidentelles des témoins dans les films de mafia.
1  0 
Avatar de petitours
Membre émérite https://www.developpez.com
Le 15/01/2025 à 21:49
Citation Envoyé par der§en Voir le message
Une petite question bête me titille, si je lis le « new York Times » de mon voisin ou directement dans un kiosque à journaux, suis-je un violeur de droit d’auteur ?
j'imagine que l'article 1587 du code civile https://www.legifrance.gouv.fr/codes...TI000006441322 vous autorise à "gouter" le journal avant de l'acheter mais gouter n'est pas consommer et vous comprendrez aisément que si tout le monde goutait au fruit de votre travail sans jamais le rémunérer vous auriez vous même quelques soucis.

La différence majeure avec votre cas personnel me semble t-il ici triple :
1) OpenAI fait ça a but (très) lucratif
2) Sans ça OpenAI ne serait absolument rien du tout
3) en faisant ca OpenAI supprime le modèle économique qui permet au contenu de qualité d'être créé. Accessoirement le contenu qui, s'il disparaissait faute de revenu, rendrait OpenAI tout nu.

Le droit d'auteur oblige OpenAI à payer mais le bon sens montre aussi que OpenAI ne peut exister sans les auteurs qu'il vaudrait spolier donc tuer.
1  0 
Avatar de Bardaz
Nouveau Candidat au Club https://www.developpez.com
Le 19/04/2025 à 14:28
Citation Envoyé par OrthodoxWindows Voir le message
Il faut trouver les fichiers associés à Copilot. Il faut que je cherche s'il y a des documentations à ce sujet. Une fois que c'est localisé, prendre les droits dessus et tout renommer ou supprimer.
Merci pour ton retour, j'investiguerais cette semaine. Peut être qu'un Debloater classique sur github ferait mieux le boulot que BCU.
1  0 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 24/10/2024 à 1:40
Youpi
0  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 24/10/2024 à 11:18
Vu le niveau du journalisme actuel autant abdiquer et refiler la rédaction des infomercial à l'IA. On verra alors le retour du journalisme artisanal qui cherche juste la vérité plutôt que la complaisance avec les pouvoirs en place...
0  0