De nombreux sites restreignent l'utilisation de leurs données pour empêcher la formation de l'IA, selon une étude.

La «crise émergente du consentement» pourrait constituer une menace pour les entreprises d'IA

Le 17 août 2024 à 17:44, par Stéphane le calme

69PARTAGES

De nombreux sites restreignent l'utilisation de leurs données pour empêcher la formation de modèles d'IA, selon une étude.
La « crise émergente du consentement » pourrait constituer une menace pour les entreprises d'IA

Au cours de l'année dernière, de nombreuses sources web essentielles utilisées pour former les modèles d’intelligence artificielle (IA) ont restreint l’utilisation de leurs données. Cette tendance a été mise en évidence par une étude du Data Provenance Initiative, un groupe de recherche dirigé par le MIT. L’étude a examiné 14 000 domaines web inclus dans trois ensembles de données d’entraînement couramment utilisés pour l’IA. Elle a révélé une « crise émergente du consentement », car les éditeurs et les plateformes en ligne ont pris des mesures pour empêcher l’extraction de leurs données.

Pendant des années, les concepteurs de puissants systèmes d'intelligence artificielle ont utilisé d'énormes quantités de textes, d'images et de vidéos tirés de l'internet pour entraîner leurs modèles.

Désormais, ces données sont en train de se tarir.

Selon une étude publiée par la Data Provenance Initiative, un groupe de recherche dirigé par le MIT, au cours de l'année écoulée, un grand nombre des principales sources web utilisées pour l'entraînement des modèles d'intelligence artificielle ont restreint l'utilisation de leurs données. L'étude, qui a porté sur 14 000 domaines web inclus dans trois ensembles de données d'entraînement d'IA couramment utilisés, a mis en évidence une « crise émergente du consentement », les éditeurs et les plateformes en ligne ayant pris des mesures pour éviter que leurs données ne soient récoltées.

Les chercheurs estiment que dans les trois ensembles de données (appelés C4, RefinedWeb et Dolma), 5 % de toutes les données, et 25 % des données provenant des sources de la plus haute qualité, ont été restreintes. Ces restrictions sont mises en place par le biais du protocole d'exclusion des robots, une méthode vieille de plusieurs décennies qui permet aux propriétaires de sites web d'empêcher les robots d'explorer leurs pages à l'aide d'un fichier appelé robots.txt.

L'étude a également révélé que 45 % des données d'un ensemble, C4, avaient été restreintes par les conditions d'utilisation des sites web.

La crise émergente du consentement

« Nous assistons à un déclin rapide du consentement à l'utilisation des données sur le web, ce qui aura des conséquences non seulement pour les entreprises d'intelligence artificielle, mais aussi pour les chercheurs, les universitaires et les entités non commerciales », a déclaré Shayne Longpre, l'auteur principal de l'étude, dans une interview.

Les données sont le principal ingrédient des systèmes d'IA générative actuels, qui sont alimentés par des milliards d'exemples de textes, d'images et de vidéos. La plupart de ces données sont extraites de sites web publics par des chercheurs et compilées dans de grands ensembles de données, qui peuvent être téléchargés et utilisés librement, ou complétés par des données provenant d'autres sources.

L'apprentissage à partir de ces données est ce qui permet aux outils d'IA générative tels que ChatGPT d'OpenAI, Gemini de Google et Claude d'Anthropic d'écrire, de coder et de générer des images et des vidéos. Plus ces modèles sont alimentés en données de haute qualité, meilleurs sont leurs résultats.

Pendant des années, les développeurs d'IA ont pu collecter des données assez facilement. Mais le boom de l'IA générative de ces dernières années a provoqué des tensions avec les propriétaires de ces données, dont beaucoup ont des réticences à être utilisés pour l'entraînement de l'I.A. ou, du moins, veulent être payés pour cela.

Face à la levée de boucliers, certains éditeurs ont mis en place des paywall ou modifié leurs conditions de service pour limiter l'utilisation de leurs données à des fins de formation de l'IA. D'autres ont bloqué les robots d'exploration du web, qui ne sont plus autorisés à utiliser leurs données à des fins de formation. D'autres ont bloqué les robots d'exploration du web utilisés par des sociétés comme OpenAI, Anthropic et Google.

Plusieurs sites ont commencé à faire payer l'accès aux données aux entreprises d'IA, et quelques éditeurs ont intenté des actions en justice, notamment le New York Times, qui a poursuivi OpenAI et Microsoft pour violation des droits d'auteur l'année dernière, alléguant que les entreprises avaient utilisé des articles d'actualité pour entraîner leurs modèles sans autorisation.

Ces dernières années, des entreprises comme OpenAI, Google et Meta ont déployé des efforts considérables pour recueillir davantage de données afin d'améliorer leurs systèmes, notamment en transcrivant des vidéos sur YouTube et en faisant des entorses à leurs propres politiques en matière de données.

Plus récemment, certaines entreprises d'IA ont conclu des accords avec des éditeurs tels que l'Associated Press et News Corp, le propriétaire du Wall Street Journal, leur donnant un accès permanent à leur contenu.

Les conséquences pour l’IA

Les restrictions généralisées en matière de données peuvent constituer une menace pour les entreprises d'IA, qui ont besoin d'un approvisionnement régulier en données de haute qualité pour maintenir leurs modèles frais et à jour.

Elles pourraient également poser problème aux petites entreprises d'IA et aux chercheurs universitaires qui s'appuient sur des ensembles de données publiques et n'ont pas les moyens d'obtenir des licences directement auprès des éditeurs. Common Crawl, l'un de ces ensembles de données qui comprend des milliards de pages de contenu web et qui est géré par une organisation à but non lucratif, a été cité dans plus de 10 000 études universitaires, a déclaré Longpre.

On ne sait pas exactement quels produits d'IA populaires ont été formés à partir de ces sources, car peu de développeurs divulguent la liste complète des données qu'ils utilisent. Mais les ensembles de données dérivés de Common Crawl, y compris C4 (qui signifie Colossal, Cleaned Crawled Corpus) ont été utilisés par des entreprises telles que Google et OpenAI pour entraîner les versions précédentes de leurs modèles.

Yacine Jernite, chercheur en apprentissage automatique chez Hugging Face, une société qui fournit des outils et des données aux développeurs d'IA, a décrit la crise du consentement comme une réponse naturelle aux pratiques agressives de l'industrie de l'IA en matière de collecte de données. « Il n'est pas surprenant que les créateurs de données se rebiffent après que les textes, les images et les vidéos qu'ils ont partagés en ligne ont été utilisés pour développer des systèmes commerciaux qui menacent parfois directement leurs moyens de subsistance », a-t-il déclaré.

Il a toutefois mis en garde contre le fait que si toutes les données de formation à l'IA devaient être obtenues par le biais d'accords de licence, cela exclurait « les chercheurs et la société civile de la participation à la gouvernance de la technologie ».

Stella Biderman, directrice exécutive d'EleutherAI, une organisation à but non lucratif spécialisée dans la recherche sur l'IA, s'est fait l'écho de ces craintes. « Les grandes entreprises technologiques possèdent déjà toutes les données », a-t-elle déclaré. « Changer la licence sur les données ne révoque pas rétroactivement cette permission, et l'impact principal est sur les acteurs qui arrivent plus tard, qui sont typiquement soit des start-ups plus petites, soit des chercheurs ».

Les difficultés rencontrées par les entreprises d'IA et les solutions qu'elles envisagent

Les entreprises d'IA ont affirmé que leur utilisation des données publiques du web était légalement protégée par le principe de l'usage loyal. Mais la collecte de nouvelles données est devenue plus délicate. Certains dirigeants d'entreprises d'IA craignent de se heurter au « mur des données », terme qui désigne le moment où toutes les données de formation disponibles sur l'internet public ont été épuisées et où le reste a été caché derrière des paywalls, bloqué par des robots.txt ou enfermé dans des accords d'exclusivité.

Certaines entreprises pensent pouvoir franchir le mur des données en utilisant des données synthétiques (c'est-à-dire des données générées par des systèmes d'intelligence artificielle) pour entraîner leurs modèles. Mais de nombreux chercheurs doutent que les systèmes d'IA actuels soient capables de générer suffisamment de données synthétiques de haute qualité pour remplacer les données créées par l'homme qu'ils perdent.

Autre difficulté : si les éditeurs peuvent tenter d'empêcher les entreprises d'IA de récupérer leurs données en plaçant des restrictions dans leurs fichiers robots.txt, ces demandes ne sont pas juridiquement contraignantes et la conformité est volontaire. (Il s'agit en quelque sorte d'un panneau d'interdiction d'accès aux données, mais qui n'a pas force de loi).

Les principaux moteurs de recherche respectent ces demandes d'exclusion et plusieurs grandes entreprises d'IA, dont OpenAI et Anthropic, ont déclaré publiquement qu'elles les respectaient également. Mais d'autres entreprises, dont le moteur de recherche Perplexity, alimenté par l'IA, ont été accusées de les ignorer. Le directeur général de Perplexity, Aravind Srinivas, a déclaré que l'entreprise respectait les restrictions imposées par les éditeurs en matière de données. Il a ajouté que, bien que la société ait déjà travaillé avec des robots d'indexation tiers qui ne respectaient pas toujours le protocole d'exclusion des robots, elle avait « procédé à des ajustements avec nos fournisseurs pour s'assurer qu'ils respectent le protocole robots.txt lorsqu'ils effectuent des indexations pour le compte de Perplexity ».

Source : Le consentement en crise : le déclin rapide des données communes sur l'IA

Et vous ?

Quelle est la responsabilité des entreprises et des chercheurs dans la préservation des données utilisées pour l’entraînement des modèles d’IA ?

Comment pouvons-nous garantir un accès éthique et responsable aux données tout en respectant les droits des propriétaires de ces informations ?

Quels sont les risques potentiels si nous ne parvenons pas à résoudre cette crise émergente du consentement ?

Pensez-vous que les gouvernements devraient jouer un rôle plus actif dans la régulation de l’accès aux données pour l’IA ? Pourquoi ou pourquoi pas ?

Vous avez lu gratuitement 104 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

De nombreux sites restreignent l'utilisation de leurs données pour empêcher la formation de l'IA, selon une étude.

La «crise émergente du consentement» pourrait constituer une menace pour les entreprises d'IA

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

De nombreux sites restreignent l'utilisation de leurs données pour empêcher la formation de l'IA, selon une étude. La «crise émergente du consentement» pourrait constituer une menace pour les entreprises d'IA

De nombreux sites restreignent l'utilisation de leurs données pour empêcher la formation de l'IA, selon une étude.

La «crise émergente du consentement» pourrait constituer une menace pour les entreprises d'IA