Meta est une des plus grandes sociétés américaines de technologie qui conçoit des produits permettant aux gens de se connecter, de trouver des communautés et de développer des entreprises. Ses produits les plus populaires sont Facebook, Instagram et WhatsApp. La société s'est également lancée dans le domaine de l'intelligence artificielle (IA) avec sa famille de grands modèles de langage "Llama".
Récemment, Meta a annoncé interrompre son projet d'entraînement de ses modèles d'IA à l'aide des données des utilisateurs européens, mais qu'en est-il en vrai ? La Commission irlandaise de protection des données (DPC) avait demandé à Meta de retarder l'entraînement de ses grands modèles de langage (LLM) à l'aide de contenus publics partagés sur Facebook et Instagram. Meta s'est dit déçu, et affirmait qu'il s'agit d'un pas en arrière pour l'innovation européenne, la concurrence dans le développement de l'IA et des retards supplémentaires pour apporter les avantages de l'IA aux personnes en Europe.
"Nous sommes convaincus que notre approche est conforme aux lois et réglementations européennes. L’entraînement des modèles d’IA n'est pas propre à nos services, et nous sommes plus transparents que nombre de nos homologues du secteur. Si nous n'incluons pas d'informations locales, nous ne pourrons offrir aux gens qu'une expérience de second ordre. Cela signifie que nous ne sommes pas en mesure de lancer Meta AI en Europe pour le moment", déclarait Meta.
Face à cette situation et pour accélérer le développement de son IA, Meta a discrètement lancé un nouveau crawler pour parcourir l'internet et collecter des données en masse afin d'alimenter son modèle d'IA. Le crawler, appelé Meta-ExternalAgent, a été lancé en juillet 2024, selon trois entreprises qui suivent les web scrapers et les bots sur le web. Le robot automatisé copie essentiellement, ou "scrape", toutes les données affichées publiquement sur les sites web, par exemple le texte des articles d'actualité ou les conversations des groupes de discussion en ligne.
Meta lance discrètement un nouveau crawler sur Internet pour collecter des données d'entraînement de l'IA.
Un représentant de Dark Visitors, qui propose aux propriétaires de sites web un outil permettant de bloquer automatiquement tous les scrappers connus, a déclaré que Meta-ExternalAgent était analogue à GPTBot d'OpenAI, qui scrappe le web pour obtenir des données d'entraînement de l'IA. Deux autres entités impliquées dans le suivi des crawlers de sites web ont confirmé l'existence du robot et son utilisation pour recueillir des données d'entraînement de l'IA.
Meta, la société mère de Facebook, Instagram et Whatsapp, a mis à jour un site web d'entreprise pour les développeurs avec un onglet révélant l'existence du nouveau scraper à la fin du mois de juillet, selon un historique des versions trouvé grâce à l'Internet Archive. Outre la mise à jour de la page, Meta n'a pas annoncé publiquement le nouveau crawler.
Un porte-parole de Meta a déclaré que la société disposait d'un crawler sous un nom différent "depuis des années", bien que ce crawler, baptisé Facebook External Hit, "ait été utilisé à des fins différentes au fil du temps, comme le partage d'aperçus de liens".
"Comme d'autres entreprises, nous formons nos modèles d'intelligence artificielle générative sur des contenus accessibles au public en ligne", a déclaré le porte-parole. "Nous avons récemment mis à jour nos conseils concernant la meilleure façon pour les éditeurs d'exclure leurs domaines de l'exploration par les robots d'exploration de Meta liés à l'IA."
L'exploration de données web pour former des modèles d'IA est une pratique controversée qui a donné lieu à de nombreux procès intentés par des artistes, des écrivains et d'autres personnes, qui affirment que les sociétés d'IA ont utilisé leur contenu et leur propriété intellectuelle sans leur consentement. Certaines entreprises d'IA, comme OpenAI et Perplexity, ont conclu ces derniers mois des accords prévoyant le paiement des fournisseurs de contenu pour l'accès à leurs données.
Meta-ExternalAgent : un web crawler sous le radar
Alors que près de 25 % des sites web les plus populaires au monde bloquent désormais GPTBot, seuls 2 % d'entre eux bloquent le nouveau bot de Meta, selon les données de Dark Visitors.
Pour qu'un site web puisse tenter de bloquer un scraper, il doit déployer le fichier robots.txt, une ligne de code ajoutée à la base de code, afin de signaler à un bot de scraper qu'il doit ignorer les informations de ce site. Toutefois, le nom spécifique d'un bot crawler doit également être ajouté pour que le fichier robots.txt soit respecté. Il est difficile d'y parvenir si le nom n'a pas été ouvertement divulgué. L'opérateur d'un bot crawler peut également choisir d'ignorer le fichier robots.txt, qui n'est en aucun cas exécutoire ou juridiquement contraignant.
Ces scrapeurs sont utilisés pour extraire des quantités massives de données et de textes écrits du web, afin de les utiliser comme données d'entraînement pour les modèles génératifs d'IA, également appelés grands modèles de langage (LLM), et les outils connexes. Le Llama de Meta est l'un des plus grands LLM disponibles, et il alimente des outils tels que Meta AI, un chatbot IA qui apparaît maintenant sur diverses plateformes Meta. Bien que l'entreprise n'ait pas divulgué les données d'entraînement utilisées pour la dernière version du modèle, Llama 3, sa version initiale du modèle utilisait de vastes ensembles de données rassemblés par d'autres sources, comme Common Crawl.
Au début de l'année, Mark Zuckerberg, cofondateur et PDG de longue date de Meta, s'est vanté lors d'une conférence téléphonique sur les résultats que les plateformes sociales de son entreprise avaient accumulé un ensemble de données pour l'entraînement de l'IA qui était même "supérieur à Common Crawl", une entité qui a scrappé environ 3 milliards de pages web chaque mois depuis 2011.
Source : Fiche d'information sur les bots crawler de Meta (Dark Visitors)
Et vous ?
Pensez-vous que cette découverte est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
Meta prévoit d'utiliser vos données personnelles pour entraîner ses modèles d'IA sans demander de consentement, mais le groupe de défense NOYB demande aux autorités de l'Europe d'y mettre un terme
Les fichiers Robots.txt peuvent-ils réellement stopper les robots d'IA ? Au-delà de la question, bloquer les robots de l'IA pourrait être une victoire à court terme, mais un désastre à long terme
Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données