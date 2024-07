L'ensemble de données de formation de Runway comprendrait des milliers de vidéos YouTube

Runway utiliserait un logiciel open source pour télécharger discrètement les vidéos YouTube

Runway est une entreprise spécialisée dans l'IA qui a reçu des millions de dollars de financement de la part d'Alphabet, la société mère de Google, et de Nvidia, le principal fournisseur de puces destinées à la formation de l'IA. Runway a créé des outils d'IA qui permettent aux utilisateurs de réaliser des vidéos d'apparence réaliste, ainsi que des vidéos qui capturent un type d'animation particulier. Le dernier outil de Runway, Gen-3 Alpha, a été lancé en juin et peut créer des vidéos dans tous les styles imaginables. Et comme tout modèle d'IA, Gen-3 Alpha a besoin d'ingérer un large éventail de contenus dans le but de se former.Lorsque le cofondateur de Runway, Anastasis Germanidis, a été interrogé en juin sur l'origine des données de formations de Gen-3, il n'a pas donné une réponse claire. « Nous avons une équipe de recherche interne qui supervise toutes nos formations et nous utilisons des ensembles de données internes pour former nos modèles », a déclaré Germanidis. Mais une feuille de calcul interne ayant fait l'objet de fuite a révélé que Runway a utilisé illégalement des milliers de vidéos YouTube pour l'occasion. En outre, le rapport ajoute que l'ensemble de données de formation de Gen-3 comprend également des versions de films piratés.La feuille de calcul a été obtenue par 404 Media. Une évaluation du document et des tests sur Gen-3 ont permis de constater qu'une partie des données de formation du modèle est constituée de contenus populaires provenant des chaînes YouTube de milliers d'entreprises de médias et de divertissement, dont The New Yorker, VICE News, Pixar, Disney, Netflix, Sony, et d'autres encore. Le jeu de données comprend aussi des liens vers des chaînes et des vidéos individuelles appartenant à des influenceurs et créateurs de contenu populaires, comme Benjamin Hardman, Sam Kolder, Marques Brownlee, Casey Neistat, et bien d'autres.Outre les chaînes YouTube, l'analyse a également révélé que l'ensemble de données contenait des liens vers des sites de piratage tels que KissCartoon, qui permet de regarder gratuitement des animes et d'autres contenus animés. L'on ignore si Runway a utilisé toutes les vidéos de cette feuille de calcul pour entraîner son modèle Gen-3, et il se peut que nous ne le sachions jamais. Un ancien employé présumé de Runway a déclaré à la publication que l'entreprise utilisait la feuille de calcul pour marquer les listes de vidéos qu'elle voulait dans sa base de données. L'entreprise télécharge ensuite sans être détectée par YouTube.Sundar Pichai, PDG d'Alphabet, la société mère de Google et de YouTube, a déclaré que l'extraction de données sur YouTube pour former des modèles d'IA violait les conditions d'utilisation de la plateforme. En avril dernier, le directeur de YouTube, Neal Mohan, a souligné que ce type d'utilisation des données était expressément interdit par les conditions d'utilisation de YouTube. Il reste à voir si cela modifie le principe de "fair use" sur lequel s'appuient habituellement les entreprises d'IA collectant des données, y compris Google dans ses propres litiges. Il sera aussi intéressant de voir quelle réaction aura Google dans cette affaire.YouTube, réputé pour être le plus grand dépôt de vidéos au monde, propose non seulement des transcriptions, mais aussi des sons, des vidéos et des images, ce qui en fait un ensemble de données très riche pour la formation de modèles d'IA. Un porte-parole de Google a déclaré que Google avait pris des mesures au fil des ans pour empêcher l'extraction abusive et non autorisée de données sur la plateforme, mais n'a pas fourni une réponse plus précise.Pour ce faire, Runway s'appuierait sur un logiciel proxy open source afin de brouiller les pistes. L'une des fiches énumère des mots-clés simples (comme astronaute, fée et arc-en-ciel) avec des notes de bas de page indiquant si la startup a trouvé des vidéos correspondantes de haute qualité pour la formation du modèle. Par exemple, le terme "super-héros" est accompagné d'une note indiquant "beaucoup d'extraits de films". L'ex-employé présumé aurait expliqué : « les chaînes figurant dans cette feuille de calcul représentaient un effort de toute l'entreprise pour trouver des vidéos de bonne qualité pour construire le modèle ».Il aurait ajouté : « ces données servaient ensuite à alimenter un énorme robot d'exploration du web qui téléchargeait toutes les vidéos de toutes ces chaînes, en utilisant des proxys pour éviter qu'elles ne soient bloquées par Google ». D'autres notes montrent que Runway a épinglé des chaînes YouTube pour Unreal Engine, le cinéaste Josh Neuman et une page de fans de Call of Duty comme étant de bonnes sources pour des vidéos d'entraînement "à haut niveau de mouvement". En outre, Runway a compilé une liste distincte de vidéos provenant de sites de piratage dans une feuille de calcul intitulée "Non-YouTube Source".Cette feuille de calcul comprend 14 liens vers des sources telles qu'une archive en ligne non autorisée de films du Studio Ghibli, des sites de piratage d'anime et de films, un site de fans affichant des vidéos de jeux Xbox, etc. Le rapport indique qu'en demandant au générateur de vidéos les noms de YouTubers populaires répertoriés dans la feuille de calcul, on obtenait des résultats d'une ressemblance troublante. De plus, la saisie des mêmes noms dans l'ancien modèle Gen-2 de Runway (prétendument formé avant les données de la feuille de calcul) a généré des résultats "sans rapport". Runway n'a pas commenté ces allégations.L'ancien employé présumé de Runway a déclaré : « j'espère qu'en partageant ces informations, les gens comprendront mieux l'ampleur de ces entreprises et ce qu'elles font pour produire des vidéos "cool" ». Comme cet employé le souligne, Runway n'est pas la seule entreprise d'IA accusée d'avoir utilisé illégalement des vidéos YouTube pour former ses modèles d'IA de génération de vidéo. Au début de l'année, Mira Murati, directrice technique d'OpenAI, avait déclaré qu'elle n'était pas en mesure de dire si l'ensemble de données de formation de l'outil de génération de vidéo d'OpenAI, Sora, intégrait des vidéos YouTube.Microsoft, Meta et d'autres entreprises spécialisées dans l'IA éludent également la question ou refusent d'y répondre. Toutefois, un récent rapport de Proof News et Wired a révélé qu'Anthropic, Apple, Nvidia et Salesforce ont entraîné leurs modèles d'IA sur plus de 170 000 vidéos réparties sur plus de 48 000 chaînes YouTube. Les experts affirment que ce comportement viole les droits des créateurs et les conditions d'utilisation de YouTube, mais les entreprises d'IA semblent prêtes à tout pour glaner des données indispensables à la formation de leurs modèles d'IA, à un moment où les sources de données se tarissent.Une récente décision de justice concernant l'outil d'IA de génération de code Github Copilot stipule qu'il n'y a aucune infraction au droit d'auteur, du moins tant que le résultat des systèmes n'est pas identique au contenu original. Cette affaire fait partie d'un nombre croissant de litiges juridiques. Plusieurs recours collectifs intentés par des éditeurs et des auteurs contre des entreprises d'IA sont en rapport avec l'utilisation de livres comme données de formation des modèles. Des affaires similaires sont aussi en cours dans les secteurs de l'image et de la musique, et d'autres sont en train d'émerger dans le secteur de la vidéo.Sources : feuille de calcul interne de Runway Quel est votre avis sur le sujet ?Que pensez-vous de l'utilisation des vidéos YouTube dans la formation des modèles d'IA ?Cela relève-t-il de l'utilisation équitable ? Si oui, quels seraient les impacts sur les créateurs ?Pourquoi les entreprises enfreignent-elles délibérément les règles de YouTube pour récupérer les vidéos des créateurs ?Comment les créateurs de contenu peuvent-ils régir face à ce phénomène ?