Au cours de l'année dernière, de nombreuses sources web essentielles utilisées pour former les modèles d’intelligence artificielle (IA) ont restreint l’utilisation de leurs données. Cette tendance a été mise en évidence par une étude du Data Provenance Initiative, un groupe de recherche dirigé par le MIT. L’étude a examiné 14 000 domaines web inclus dans trois ensembles de données d’entraînement couramment utilisés pour l’IA. Elle a révélé une « crise émergente du consentement », car les éditeurs et les plateformes en ligne ont pris des mesures pour empêcher l’extraction de leurs données.Pendant des années, les concepteurs de puissants systèmes d'intelligence artificielle ont utilisé d'énormes quantités de textes, d'images et de vidéos tirés de l'internet pour entraîner leurs modèles.
Désormais, ces données sont en train de se tarir.
Selon une étude publiée par la Data Provenance Initiative, un groupe de recherche dirigé par le MIT, au cours de l'année écoulée, un grand nombre des principales sources web utilisées pour l'entraînement des modèles d'intelligence artificielle ont restreint l'utilisation de leurs données. L'étude, qui a porté sur 14 000 domaines web inclus dans trois ensembles de données d'entraînement d'IA couramment utilisés, a mis en évidence une « crise émergente du consentement », les éditeurs et les plateformes en ligne ayant pris des mesures pour éviter que leurs données ne soient récoltées.
Les chercheurs estiment que dans les trois ensembles de données (appelés C4, RefinedWeb et Dolma), 5 % de toutes les données, et 25 % des données provenant des sources de la plus haute qualité, ont été restreintes. Ces restrictions sont mises en place par le biais du protocole d'exclusion des robots, une méthode vieille de plusieurs décennies qui permet aux propriétaires de sites web d'empêcher les robots d'explorer leurs pages à l'aide d'un fichier appelé robots.txt.
L'étude a également révélé que 45 % des données d'un ensemble, C4, avaient été restreintes par les conditions d'utilisation des sites web.
La crise émergente du consentement
« Nous assistons à un déclin rapide du consentement à l'utilisation des données sur le web, ce qui aura des conséquences non seulement pour les entreprises d'intelligence artificielle, mais aussi pour les chercheurs, les universitaires et les entités non commerciales », a déclaré Shayne Longpre, l'auteur principal de l'étude, dans une interview.
Les données sont le principal ingrédient des systèmes d'IA générative actuels, qui sont alimentés par des milliards d'exemples de textes, d'images et de vidéos. La plupart de ces données sont extraites de sites web publics par des chercheurs et compilées dans de grands ensembles de données, qui peuvent être téléchargés et utilisés librement, ou complétés par des données provenant d'autres sources.
L'apprentissage à partir de ces données est ce qui permet aux outils d'IA générative tels que ChatGPT d'OpenAI, Gemini de Google et Claude d'Anthropic d'écrire, de coder et de générer des images et des vidéos. Plus ces modèles sont alimentés en données de haute qualité, meilleurs sont leurs résultats.
Pendant des années, les développeurs d'IA ont pu collecter des données assez facilement. Mais le boom de l'IA générative de ces dernières années a provoqué des tensions avec les propriétaires de ces données, dont beaucoup ont des réticences à être utilisés pour l'entraînement de l'I.A. ou, du moins, veulent être payés pour cela.
Face à la levée de boucliers, certains éditeurs ont mis en place des paywall ou modifié leurs conditions de service pour limiter l'utilisation de leurs données à des fins de formation de l'IA. D'autres ont bloqué les robots d'exploration du web, qui ne sont plus autorisés à utiliser leurs données à des fins de formation. D'autres ont bloqué les robots d'exploration du web utilisés par des sociétés comme OpenAI, Anthropic et Google.
Plusieurs sites ont commencé à faire payer l'accès aux données aux entreprises d'IA, et quelques éditeurs ont intenté des actions en justice, notamment le New York Times, qui a poursuivi OpenAI et Microsoft pour violation des droits d'auteur l...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Peut-on réellement faire confiance au code généré par l'IA sans relecture humaine ?