L'IA est déjà à court de données d'entraînement et les mines d'informations inexploitées des entreprises pourraient être le dernier espoir,

Selon le responsable des données chez Goldman Sachs

Le 4 octobre 2025 à 22:23, par Mathis Lucas

43PARTAGES

L'industrie de l'IA est confrontée à une pénurie critique de données d'entraînement de haute qualité. La raréfaction des données crée un goulot d'étranglement pour les progrès des grands modèles de langages (LLM). Elle induit également une dépendance accrue à l'égard des données synthétiques. Ce qui risque de submerger les modèles avec des résultats de mauvaise qualité, et influencer les futurs systèmes d'IA. Mais pour l'instant, les entreprises possèdent encore de vastes quantités de données propriétaires inexploitées, ce qui constitue une ressource importante pour le développement de l'IA en entreprise malgré la pénurie mondiale de données.

Les experts prédisent une pénurie de données de haute qualité depuis quelques années. Neema Raphael, responsable des données chez Goldman Sachs, est récemment revenu sur le problème, affirmant que l'industrie est déjà à court de données d'entraînement. Les grandes entreprises d’IA ont déjà épuisé « la majeure partie » des données humaines accessibles publiquement (textes, images, vidéos, conversations) utilisées pour entraîner leurs modèles.

« Nous sommes déjà à court de données », a déclaré Neema Raphael dans un épisode du podcast « Exchanges » de la banque publié le 30 septembre 2025. Neema Raphael a ajouté que cette pénurie de données d'entraînement pourrait déjà influencer la manière dont les nouveaux systèmes d'IA sont conçus.

Il a cité l'exemple chinois DeepSeek, affirmant qu'une hypothèse concernant ses coûts de développement supposés provenait de l'entraînement sur les résultats de modèles existants plutôt que sur des données entièrement nouvelles. La technique utilisée par DeepSeek est appelée la « distillation ». Elle consiste à transférer les connaissances d'un grand modèle à un modèle plus petit. DeepSeek a distillé des connaissances à partir des modèles d'OpenAI.

Les Big Tech désapprouvent cette technique. OpenAI a accusé DeepSeek de récolter indûment des données de son API à des fins de distillation de modèles. « Je pense que ce qui sera vraiment intéressant, c'est de voir comment les modèles précédents façonneront la prochaine itération du monde », a déclaré Neema Raphael.

Le recours aux données synthétiques : un risque d'effondrement du modèle

Le Web étant saturé, les développeurs se tournent vers les données synthétiques, c'est-à-dire les textes, images et codes générés par des machines. Cette approche offre un approvisionnement illimité. L'un des risques est l'effondrement du modèle, c'est-à-dire la dégradation des performances d'un système d'IA une fois qu'il a été entraîné sur ses propres données générées précédemment, ce qui conduit à la perte des nuances apprises précédemment.

En d'autres termes, l'utilisation de données d'entraînement synthétiques risque de submerger les modèles avec des résultats de mauvaise qualité ou des erreurs d'IA ; les erreurs s'accumulent et s'amplifient à chaque nouvelle génération. Le modèle finit par s'effondrer complètement après plusieurs générations.

Ses commentaires rejoignent d'autres avertissements similaires, notamment celui lancé en début d'année par Ilya Sutskever, cofondateur d'OpenAI. Il a suggéré que « l'ère du développement rapide de l'IA pourrait sans aucun doute prendre fin » une fois que toutes les données utiles en ligne auront été consommées.

Dans une étude publiée en 2024 dans Nature, des chercheurs de l'Université d'Oxford et de Cambridge ont mis en garde contre le risque d'effondrement des modèles d'IA lorsqu'ils sont formés sur des données générées par d'autres modèles. Les chercheurs ont souligné que l'utilisation sans discernement de contenus générés par l'IA entraîne des défauts irréversibles, qui ont une incidence sur les performances et l'équité de la prédiction des modèles.

Cependant, lorsqu'on a demandé à Neema Raphael si cela pourrait freiner, voire torpiller, le potentiel inexploité des développements à venir en matière d'IA, tels que les agents autonomes, le cadre de Goldman Sachs a répondu qu'il ne pense pas que cela constituerait un obstacle aux progrès futurs.

Les données propriétaires des entreprises : prochaine frontière de l'IA ?

Neema Raphael a déclaré qu'il ne pense pas que le manque de données de qualité constituerait une contrainte majeure, en partie parce que les entreprises disposent de réserves d'informations inexploitées. « D'un point de vue consommateur, il est intéressant de constater que nous assistons à une véritable explosion synthétique des données. Mais d'un point de vue entrepreneurial, il y a encore beaucoup à exploiter dans ce domaine », a-t-il expliqué.

Cela signifie que la véritable frontière n'est peut-être pas le Web ouvert, mais les ensembles de données propriétaires détenus par les entreprises. Des flux commerciaux aux interactions avec les clients, des entreprises comme Goldman Sachs disposent d'informations qui pourraient rendre les outils d'IA beaucoup plus précieux si elles étaient exploitées correctement. Selon Goldman Sachs, la quantité d'informations qui se trouve derrière les pare-feu des entreprises et piégée dans les référentiels de données est très importante pour « générer de la valeur commerciale ».

Cependant, cet optimisme doit être tempéré par des conclusions récentes selon lesquelles les entreprises américaines ont déjà investi jusqu'à 40 milliards de dollars dans des initiatives d'IA générative, sans résultat tangible ; que les agents d'IA autonomes se trompent la plupart du temps dans les tâches de bureau ; et que les systèmes d'IA ont besoin d'êtres humains pour les surveiller et corriger les erreurs qui se glissent dans leurs productions.

Par ailleurs, Neema Raphael a souligné que pour les entreprises, l'obstacle ne consiste pas seulement à trouver davantage de données, mais aussi à s'assurer que ces données sont exploitables. « Le défi consiste à comprendre les données, à comprendre le contexte commercial dans lequel elles s'inscrivent, puis à être capable de les normaliser d'une manière qui permette à l'entreprise de les exploiter de manière pertinente », a déclaré Neema Raphael.

L’émergence des modèles de monde : la clé de l'avenir de l'IA générative ?

Les progrès dans les grands modèles de langage (LLM) semblent ralentir. Les écarts de performances entre les derniers LLM du marché sont à peine remarquables malgré les sommes colossales englouties dans leur développement. Alors les entreprises commencent à se tourner vers une nouvelle une technologie dite « modèle de monde ». Les modèles de monde visent à naviguer dans le monde physique en apprenant à partir de vidéos et de données robotiques.

Le PDG de Google, Sundar Pichai, a prévenu en décembre 2024 que le développement de l'IA va commencer à ralentir. « Je pense que les progrès vont devenir plus difficiles, les fruits à portée de main ont disparu », a déclaré Sundar Pichai lors de l'événement The New York Times Dealbook. Les progrès en matière de performances ont considérablement ralenti depuis, suggérant que le développement de grands modèles de langage a atteint un plafond.

Bien que certains acteurs du secteur, à l'instar du PDG de Nvidia, Jensen Huang, rejettent l'idée selon laquelle l'IA générative se heurte à un mur, le reste de l'industrie est déjà la recherche de la clé du prochain grand bond en avant de l'IA. La solution pourrait résider dans ce qu'ils appellent « modèles de monde ».

Les « modèles de monde » sont conçus pour comprendre et simuler la réalité au-delà du texte. Ils s’appuient sur des données visuelles, physiques et interactives pour prédire comment un environnement évolue, comment des objets se déplacent ou comment des agents interagissent. Selon les experts du secteur, cela ouvre la voie à des applications dans la robotique, les véhicules autonomes, les jeux vidéo ou encore la simulation scientifique.

Les défis clés à relever et les perspectives de l'industrie de l'IA

Yann LeCun, considéré comme l'un des « parrains » de l'IA moderne, est l'un des plus fervents défenseurs de l'architecture des modèles de monde. Yann LeCun est un chercheur...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :