Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ?

Un rapport alerte sur une potentielle pénurie de données

Le 3 avril 2024 à 17:59, par Mathis Lucas

41PARTAGES

Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ?
Un rapport alerte sur une potentielle pénurie de données à l'avenir

Un récent rapport sur les évolutions dans le domaine de l'IA alerte sur un problème potentiel : Internet pourrait s'avérer trop petit pour répondre aux besoins des entreprises en matière de données destinées à l'entraînement des modèles. Le rapport suggère qu'une pénurie de données se profile à l'horizon, avec des conséquences dévastatrices pour les entreprises et un ralentissement l'innovation. Mais cette inquiétude n'est pas partagée par tous. Certains affirment qu'il reste de larges pans d'Internet encore peu exploités ou inexplorés, en particulier la vidéo et les données synthétiques. La disponibilité des données reste une préoccupation majeure pour le secteur.

L'intelligence artificielle est gourmande en données. Tous les aspects de l'IA - modèles d'apprentissage automatique, apprentissage continu, généralisation et analyses prédictives et descriptives - nécessitent de vastes ensembles de données. Plus les données sont diverses et complètes, plus l'IA est performante. C'est pourquoi les données sont souvent considérées comme le "carburant d'entraînement" de l'IA. Les progrès réalisés dans le domaine de l'IA ces dernières années ont été rendus possibles grâce aux données collectées ici et là sur Internet. Mais que se passerait-il si cette denrée précieuse venait à manquer à l'avenir ?

Selon un rapport publié récemment par le Wall Street Journal (WSJ), le problème pourrait se poser bien plus tôt qu'on ne le pense. La demande de données est de plus en plus importante, ce qui met à rude épreuve le réservoir de données publiques de qualité disponibles en ligne. Dans le même temps, certains propriétaires de banques de données bloquent l'accès à leurs ressources aux entreprises spécialisées dans l'IA. Le rapport explore la manière dont les entreprises spécialisées dans l'IA commencent à prendre en compte la pénurie potentielle de données sur lesquelles entraîner leurs prochains grands modèles de langage.

Tout d'abord, seule une partie des données en ligne est généralement adaptée à l'apprentissage de l'IA. La plupart des informations publiques sur le Web contiennent des fragments de phrases et d'autres défauts textuels qui peuvent empêcher l'IA de produire des réponses acceptables. Ensuite, les principaux organes d'information, les plateformes de médias sociaux et d'autres sources d'information ont restreint l'accès à leur contenu en raison de préoccupations liées aux droits d'auteur, à la protection de la vie privée et à la rémunération équitable. Enfin, les particuliers sont très peu enclins à partager leurs données privées.

Maintenant qu'Internet devient trop petit, certaines entreprises recherchent d'autres sources d'entraînement aux données, avec comme options des transcriptions de vidéos accessibles au public et même des données synthétiques générées à partir de moteurs de jeux en 3D ou de robots en laboratoire. D'autres entreprises explorent la possibilité d'utiliser des données générées par l'IA elle-même. Toutefois, l'utilisation de données générées par l'IA pour former d'autres modèles d'IA constitue un problème en soi : les risques d'hallucinations des modèles sont plus élevés. Cette approche pourrait à terme éloigner l'IA de la réalité.

En d'autres termes, les experts en IA affirment qu'une très forte dépendance à l'égard des données générées par l'IA conduit à ce qu'ils appellent "une consanguinité numérique". Cela pourrait à terme entraîner l'effondrement du modèle d'IA sur lui-même. Un groupe de chercheurs du Royaume-Uni et du Canada a étudié la question. Dans le rapport de l'étude, les chercheurs expliquent : « nous constatons que l'utilisation d'un contenu généré par un modèle d'IA dans la formation entraîne des défauts irréversibles dans les modèles qui en résultent ». En outre, Ilia Shumailov, l'un des principaux auteurs de cette étude, a ajouté :

« Au fil du temps, les erreurs dans les données générées s'accumulent et finissent par forcer les modèles qui apprennent à partir des données générées à percevoir la réalité de manière encore plus erronée. Nous avons été surpris d'observer la rapidité avec lequel l'effondrement du modèle se produit : les modèles peuvent rapidement oublier la plupart des données originales à partir desquelles ils ont appris ». Shumailov affirme que lorsqu'un modèle d'IA est exposé à davantage de données générées par l'IA, ses performances se dégradent. Cette approche ne semble donc pas être la solution idéale à une pénurie de données.

Des startups comme Dataology, fondée par Ari Morcos, ancien chercheur de Meta et de Google DeepMind, explorent des méthodes pour former des modèles expansifs avec moins de données et de ressources. Mais la plupart des grands acteurs s'appuient sur des approches non conventionnelles et controversées de la formation des données. Ainsi, OpenAI envisagerait d'entraîner GPT-5 à l'aide de transcriptions de vidéos YouTube accessibles au public. Le laboratoire d'IA est déjà critiqué pour avoir utilisé de telles vidéos pour entraîner Sora et pourrait faire l'objet de poursuites judiciaires de la part des créateurs de ces vidéos.

OpenAI et Anthropic prévoient de remédier à ce problème en développant des données synthétiques de qualité supérieure, bien que les spécificités de leurs méthodologies restent encore floues. Le mois dernier, lors de la présentation de son grand modèle de langage Claude 3, Anthropic a admis que le modèle a été entraîné sur des données que l'entreprise génère en interne. En outre, Jared Kaplan, scientifique en chef d'Anthropic, a déclaré qu'il existe également de bons cas d'utilisation pour les données synthétiques. Pour l'instant, Claude 3 affiche les meilleures performances sur les benchmarks d'évaluation des modèles d'IA.

Selon le rapport du WSJ, OpenAI a également discuté de la création d'un marché de données où les fournisseurs peuvent être payés pour fournir des contenus de qualité destinés à la formation des modèles d'IA. Google envisagerait une méthode similaire, bien que les chercheurs n'aient pas encore mis au point un système permettant de l'appliquer correctement. Malgré les prédictions selon lesquelles l'IA pourrait épuiser ses données d'entraînement utilisables dans les années à venir, certains critiques ont déclaré que des percées significatives pourraient atténuer ces craintes. La nature même de ces percées reste encore floue.

Les inquiétudes concernant la rareté des données surviennent alors que les utilisateurs se plaignent de la qualité des chatbots d'IA. Certains utilisateurs de GPT-4 ont rapporté que le modèle a de plus en plus du mal à suivre correctement les instructions et à répondre aux requêtes. Google a mis en pause la fonction de génération d'images par l'IA sur son modèle Gemini après que des utilisateurs se sont plaints qu'elle produisait des images historiquement inexactes des présidents des États-Unis. De plus, les modèles d'IA sont généralement enclins à halluciner de fausses informations qu'ils considèrent comme exactes.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous d'une éventuelle pénurie de données pour l'entraînement de l'IA ?

Les entreprises d'IA ont-elles pu réellement exploiter toutes les données utilisables de l'Internet ?

Ces craintes sont-elles justifiées ? Comment les entreprises peuvent-elles éviter une pénurie de données à l'avenir ?

L'approche consistant à entraîner l'IA sur plus de données pour plus de performances a-t-elle atteint ses limites ?

Voir aussi

La presse écrite veut être payée pour les articles utilisés pour alimenter l'outil d'IA ChatGPT, elle exige une part du marché qui devrait atteindre 1 300 millions de dollars d'ici à 2032

OpenAI justifie pourquoi les données collectées pour la formation des modèles d'IA constituent selon elle un usage loyal et non une infraction

Des chercheurs mettent en garde contre un "effondrement du modèle" lorsque l'IA s'entraîne sur du contenu généré par l'IA, ils affirment que cela pourrait à terme éloigner l'IA de la réalité

Vous avez lu gratuitement 360 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :