IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ?
Un rapport alerte sur une potentielle pénurie de données

Le , par Mathis Lucas

20PARTAGES

4  0 
Un récent rapport sur les évolutions dans le domaine de l'IA alerte sur un problème potentiel : Internet pourrait s'avérer trop petit pour répondre aux besoins des entreprises en matière de données destinées à l'entraînement des modèles. Le rapport suggère qu'une pénurie de données se profile à l'horizon, avec des conséquences dévastatrices pour les entreprises et un ralentissement l'innovation. Mais cette inquiétude n'est pas partagée par tous. Certains affirment qu'il reste de larges pans d'Internet encore peu exploités ou inexplorés, en particulier la vidéo et les données synthétiques. La disponibilité des données reste une préoccupation majeure pour le secteur.

L'intelligence artificielle est gourmande en données. Tous les aspects de l'IA - modèles d'apprentissage automatique, apprentissage continu, généralisation et analyses prédictives et descriptives - nécessitent de vastes ensembles de données. Plus les données sont diverses et complètes, plus l'IA est performante. C'est pourquoi les données sont souvent considérées comme le "carburant d'entraînement" de l'IA. Les progrès réalisés dans le domaine de l'IA ces dernières années ont été rendus possibles grâce aux données collectées ici et là sur Internet. Mais que se passerait-il si cette denrée précieuse venait à manquer à l'avenir ?

Selon un rapport publié récemment par le Wall Street Journal (WSJ), le problème pourrait se poser bien plus tôt qu'on ne le pense. La demande de données est de plus en plus importante, ce qui met à rude épreuve le réservoir de données publiques de qualité disponibles en ligne. Dans le même temps, certains propriétaires de banques de données bloquent l'accès à leurs ressources aux entreprises spécialisées dans l'IA. Le rapport explore la manière dont les entreprises spécialisées dans l'IA commencent à prendre en compte la pénurie potentielle de données sur lesquelles entraîner leurs prochains grands modèles de langage.


Tout d'abord, seule une partie des données en ligne est généralement adaptée à l'apprentissage de l'IA. La plupart des informations publiques sur le Web contiennent des fragments de phrases et d'autres défauts textuels qui peuvent empêcher l'IA de produire des réponses acceptables. Ensuite, les principaux organes d'information, les plateformes de médias sociaux et d'autres sources d'information ont restreint l'accès à leur contenu en raison de préoccupations liées aux droits d'auteur, à la protection de la vie privée et à la rémunération équitable. Enfin, les particuliers sont très peu enclins à partager leurs données privées.

Maintenant qu'Internet devient trop petit, certaines entreprises recherchent d'autres sources d'entraînement aux données, avec comme options des transcriptions de vidéos accessibles au public et même des données synthétiques générées à partir de moteurs de jeux en 3D ou de robots en laboratoire. D'autres entreprises explorent la possibilité d'utiliser des données générées par l'IA elle-même. Toutefois, l'utilisation de données générées par l'IA pour former d'autres modèles d'IA constitue un problème en soi : les risques d'hallucinations des modèles sont plus élevés. Cette approche pourrait à terme éloigner l'IA de la réalité.

En d'autres termes, les experts en IA affirment qu'une très forte dépendance à l'égard des données générées par l'IA conduit à ce qu'ils appellent "une consanguinité numérique". Cela pourrait à terme entraîner l'effondrement du modèle d'IA sur lui-même. Un groupe de chercheurs du Royaume-Uni et du Canada a étudié la question. Dans le rapport de l'étude, les chercheurs expliquent : « nous constatons que l'utilisation d'un contenu généré par un modèle d'IA dans la formation entraîne des défauts irréversibles dans les modèles qui en résultent ». En outre, Ilia Shumailov, l'un des principaux auteurs de cette étude, a ajouté :

« Au fil du temps, les erreurs dans les données générées s'accumulent et finissent par forcer les modèles qui apprennent à partir des données générées à percevoir la réalité de manière encore plus erronée. Nous avons été surpris d'observer la rapidité avec lequel l'effondrement du modèle se produit : les modèles peuvent rapidement oublier la plupart des données originales à partir desquelles ils ont appris ». Shumailov affirme que lorsqu'un modèle d'IA est exposé à davantage de données générées par l'IA, ses performances se dégradent. Cette approche ne semble donc pas être la solution idéale à une pénurie de données.

Des startups comme Dataology, fondée par Ari Morcos, ancien chercheur de Meta et de Google DeepMind, explorent des méthodes pour former des modèles expansifs avec moins de données et de ressources. Mais la plupart des grands acteurs s'appuient sur des approches non conventionnelles et controversées de la formation des données. Ainsi, OpenAI envisagerait d'entraîner GPT-5 à l'aide de transcriptions de vidéos YouTube accessibles au public. Le laboratoire d'IA est déjà critiqué pour avoir utilisé de telles vidéos pour entraîner Sora et pourrait faire l'objet de poursuites judiciaires de la part des créateurs de ces vidéos.

OpenAI et Anthropic prévoient de remédier à ce problème en développant des données synthétiques de qualité supérieure, bien que les spécificités de leurs méthodologies restent encore floues. Le mois dernier, lors de la présentation de son grand modèle de langage Claude 3, Anthropic a admis que le modèle a été entraîné sur des données que l'entreprise génère en interne. En outre, Jared Kaplan, scientifique en chef d'Anthropic, a déclaré qu'il existe également de bons cas d'utilisation pour les données synthétiques. Pour l'instant, Claude 3 affiche les meilleures performances sur les benchmarks d'évaluation des modèles d'IA.

Selon le rapport du WSJ, OpenAI a également discuté de la création d'un marché de données où les fournisseurs peuvent être payés pour fournir des contenus de qualité destinés à la formation des modèles d'IA. Google envisagerait une méthode similaire, bien que les chercheurs n'aient pas encore mis au point un système permettant de l'appliquer correctement. Malgré les prédictions selon lesquelles l'IA pourrait épuiser ses données d'entraînement utilisables dans les années à venir, certains critiques ont déclaré que des percées significatives pourraient atténuer ces craintes. La nature même de ces percées reste encore floue.

Les inquiétudes concernant la rareté des données surviennent alors que les utilisateurs se plaignent de la qualité des chatbots d'IA. Certains utilisateurs de GPT-4 ont rapporté que le modèle a de plus en plus du mal à suivre correctement les instructions et à répondre aux requêtes. Google a mis en pause la fonction de génération d'images par l'IA sur son modèle Gemini après que des utilisateurs se sont plaints qu'elle produisait des images historiquement inexactes des présidents des États-Unis. De plus, les modèles d'IA sont généralement enclins à halluciner de fausses informations qu'ils considèrent comme exactes.

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous d'une éventuelle pénurie de données pour l'entraînement de l'IA ?
Les entreprises d'IA ont-elles pu réellement exploiter toutes les données utilisables de l'Internet ?
Ces craintes sont-elles justifiées ? Comment les entreprises peuvent-elles éviter une pénurie de données à l'avenir ?
L'approche consistant à entraîner l'IA sur plus de données pour plus de performances a-t-elle atteint ses limites ?

Voir aussi

La presse écrite veut être payée pour les articles utilisés pour alimenter l'outil d'IA ChatGPT, elle exige une part du marché qui devrait atteindre 1 300 millions de dollars d'ici à 2032

OpenAI justifie pourquoi les données collectées pour la formation des modèles d'IA constituent selon elle un usage loyal et non une infraction

Des chercheurs mettent en garde contre un "effondrement du modèle" lorsque l'IA s'entraîne sur du contenu généré par l'IA, ils affirment que cela pourrait à terme éloigner l'IA de la réalité

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

9  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
4  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 08/04/2024 à 11:44
Personne se dit qu'en s'entrainant sur youtube un modele d'IA à plus de chambre de finir par ressembler au cousin dégénéré du moyen-âge qu'à un Leonard de Vinci 3.0 ?

L'IA entrainé à Pewdiepie c'est le début la fin des temps.
3  2 
Avatar de maxtal
Membre actif https://www.developpez.com
Le 10/04/2024 à 15:11
si ils viraient leurs brides idéologiques ça irait peut être déjà un peu plus loin
1  0 
Avatar de impopia
Membre régulier https://www.developpez.com
Le 13/04/2024 à 8:19
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble. Donc techniquement c'est une géante "violation des droits d'auteur", même s'il peut s'agir de contenu "libre" qui est utilisé. S'il n'y avait pas ce contenu libre et que tout était protégé par des droit d'auteur, pourrait-on parler d'IA du point de vue légal ?...
1  1 
Avatar de TJ1985
Membre chevronné https://www.developpez.com
Le 13/04/2024 à 8:38
Citation Envoyé par impopia Voir le message
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble.
Dans quelle mesure sommes-nous vraiment libres de nos créations, qu'est-ce qui nous distingue fondamentalement de ces systèmes, hormis le volume d'apprentissage ?
Sûr ce point, il faut reprendre les chiffres de Yann LeCun. Un gosse de quatre ans ridiculise en masse d'information acquise n'importe quel "grand modèle" d'aujourd'hui. Et il continue à apprendre à chaque instant, lui...
0  0 
Avatar de _toma_
Membre confirmé https://www.developpez.com
Le 24/10/2024 à 1:40
Youpi
0  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 24/10/2024 à 11:18
Vu le niveau du journalisme actuel autant abdiquer et refiler la rédaction des infomercial à l'IA. On verra alors le retour du journalisme artisanal qui cherche juste la vérité plutôt que la complaisance avec les pouvoirs en place...
0  0