L'industrie de l'IA est confrontée à une pénurie critique de données d'entraînement de haute qualité. La raréfaction des données crée un goulot d'étranglement pour les progrès des grands modèles de langages (LLM). Elle induit également une dépendance accrue à l'égard des données synthétiques. Ce qui risque de submerger les modèles avec des résultats de mauvaise qualité, et influencer les futurs systèmes d'IA. Mais pour l'instant, les entreprises possèdent encore de vastes quantités de données propriétaires inexploitées, ce qui constitue une ressource importante pour le développement de l'IA en entreprise malgré la pénurie mondiale de données.Les experts prédisent une pénurie de données de haute qualité depuis quelques années. Neema Raphael, responsable des données chez Goldman Sachs, est récemment revenu sur le problème, affirmant que l'industrie est déjà à court de données d'entraînement. Les grandes entreprises d’IA ont déjà épuisé « la majeure partie » des données humaines accessibles publiquement (textes, images, vidéos, conversations) utilisées pour entraîner leurs modèles.
« Nous sommes déjà à court de données », a déclaré Neema Raphael dans un épisode du podcast « Exchanges » de la banque publié le 30 septembre 2025. Neema Raphael a ajouté que cette pénurie de données d'entraînement pourrait déjà influencer la manière dont les nouveaux systèmes d'IA sont conçus.
Il a cité l'exemple chinois DeepSeek, affirmant qu'une hypothèse concernant ses coûts de développement supposés provenait de l'entraînement sur les résultats de modèles existants plutôt que sur des données entièrement nouvelles. La technique utilisée par DeepSeek est appelée la « distillation ». Elle consiste à transférer les connaissances d'un grand modèle à un modèle plus petit. DeepSeek a distillé des connaissances à partir des modèles d'OpenAI.
Les Big Tech désapprouvent cette technique. OpenAI a accusé DeepSeek de récolter indûment des données de son API à des fins de distillation de modèles. « Je pense que ce qui sera vraiment intéressant, c'est de voir comment les modèles précédents façonneront la prochaine itération du monde », a déclaré Neema Raphael.
Le recours aux données synthétiques : un risque d'effondrement du modèle
Le Web étant saturé, les développeurs se tournent vers les données synthétiques, c'est-à-dire les textes, images et codes générés par des machines. Cette approche offre un approvisionnement illimité. L'un des risques est l'effondrement du modèle, c'est-à-dire la dégradation des performances d'un système d'IA une fois qu'il a été entraîné sur ses propres données générées précédemment, ce qui conduit à la perte des nuances apprises précédemment.
En d'autres termes, l'utilisation de données d'entraînement synthétiques risque de submerger les modèles avec des résultats de mauvaise qualité ou des erreurs d'IA ; les erreurs s'accumulent et s'amplifient à chaque nouvelle génération. Le modèle finit par s'effondrer complètement après plusieurs générations.
Ses commentaires rejoignent d'autres avertissements similaires, notamment celui lancé en début d'année par Ilya Sutskever, cofondateur d'OpenAI. Il a suggéré que « l'ère du développement rapide de l'IA pourrait sans aucun doute prendre fin » une fois que toutes les données utiles en ligne auront été consommées.
Dans une étude publiée en 2024 dans Nature, des chercheurs de l'Université d'Oxford et de Cambridge ont mis en garde contre le risque d'effondrement des modèles d'IA lorsqu'ils sont formés sur des données générées par d'autres modèles. Les chercheurs ont souligné que l'utilisation sans discernement de contenus générés par l'IA entraîne des défauts irréversibles, qui ont une incidence sur les performances et l'équité de la prédiction des modèles.
Cependant, lorsqu'on a demandé à Neema Raphael si cela pourrait freiner, voire torpiller, le potentiel inexploité des développements à venir en matière d'IA, tels que les agents autonomes, le cadre de Goldman Sachs a répondu qu'il ne pense pas que cela constituerait un obstacle aux progrès futurs.
Les données propriétaires des entreprises : prochaine frontière de l'IA ?
Neema Raphael a déclaré qu'il ne pense pas que le manque de données de qualité constituerait une contrainte majeure, en partie parce que les entreprises disposent de réserves d'informations inexploitées. « D'un point de vue consommateur, il est intéressant de constater que nous assistons à une véritable explosion synthétique des données. Mais d'un point de vue entrepreneurial, il y a encore beaucoup à...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.


et sa boule de Crystal que l'IA est ce qu'elle est
.


que ces IAs. Les jeunes
ne seront plus formés pour être des développeurs, mais des "prompteurs"
, et au final plus personne n'aura les compétences pour "valider" ce que produit l'IA. L'IA, c'est très "court-termisme". Mais un jour viendra où il faudra payer la note. C'est une question de temps...
Désolé, c'était plus fort que moi. Ce n'est pas en répétant 1000x une chose qu'elle devient vraie. Il faut séparer le problème pour mieux comprendre.