IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les chercheurs avertissent que les industries de l'IA sont en train de submerger la science d'études inutiles,
Face à l'explosion des publications automatisées basées sur des données comme la NHANES

Le , par Bruno

99PARTAGES

6  0 
Le rapport de l’université du Surrey soulève une question cruciale : l’intégrité de la connaissance scientifique est compromise par la prolifération d’articles générés par l’IA, souvent superficiels et méthodologiquement fragiles. Ces « usines à papier », profitant de bases de données accessibles comme la NHANES, produisent en masse des études biaisées, privilégiant des analyses simplistes à un seul facteur pour des problèmes de santé complexes. Cette pratique, amplifiée depuis 2021, inonde les revues, y compris celles évaluées par les pairs et menace de polluer le corpus scientifique avec des conclusions trompeuses. Si l’évaluation par les pairs reste un rempart, son efficacité est mise à mal par le volume croissant de ces publications et les limites inhérentes au système (évaluateurs non spécialisés, manque de rigueur).

Cette crise révèle aussi des enjeux systémiques : la marchandisation de la recherche, illustrée par des revues prédatrices, et l’instrumentalisation des données par certains acteurs (comme la Chine, devenue majoritaire dans ces publications). Les solutions proposées, vigilance accrue des éditeurs, encadrement des accès aux données, pointent vers une nécessaire réforme. Cependant, elles se heurtent à un paradoxe : l’IA, outil potentiel d’innovation, devient un vecteur de désinformation lorsque détournée par des logiques productivistes ou idéologiques. Ce phénomène s’inscrit dans un paysage plus large où le « slop » IA brouille les frontières entre réalité et fiction, exigeant une réponse collective pour préserver la crédibilité de la science.



Cette pratique connaît une croissance exponentielle depuis 2021, submergeant les revues scientifiques y compris celles soumises à évaluation par les pairs. Alors que seulement quatre articles de ce type étaient publiés annuellement entre 2014 et 2021, leur nombre est passé à 33 en 2022, 82 en 2023, et atteignait déjà 190 à la mi-octobre 2024. Cette inflation soudaine met en lumière les limites du système actuel d'évaluation scientifique, dont les mécanismes de contrôle apparaissent dépassés face à ce déluge.

L'étude révèle également un changement notable dans la géographie de ces publications. La part des chercheurs chinois parmi les auteurs principaux est passée de 8% avant 2021 à 92% entre 2021 et 2024. Cette concentration géographique, combinée à la prédominance des approches monofactorielles, accroît le risque de pollution du corpus scientifique par des conclusions erronées, particulièrement pour des sujets complexes comme la dépression ou les maladies cardiovasculaires.

Matt Spick, coauteur de l'étude, dénonce ces « fictions scientifiques » qui, sous couvert de données publiques, contournent les exigences méthodologiques fondamentales. « Ces articles ont l'apparence de la science mais ne résistent pas à un examen rigoureux », explique-t-il, pointant du doigt la combinaison dangereuse entre l'accès facilité aux bases de données et les capacités des grands modèles de langage. Cette situation engorge les revues scientifiques et dépasse les capacités des évaluateurs, menaçant à terme la crédibilité de l'ensemble de la recherche.

Monétisation, dragage de données et IA : vers une crise de la rigueur scientifique

Le phénomène s'inscrit dans un contexte plus large de marchandisation de la recherche scientifique, où certaines revues prédatrices monnayent la publication sans garantir la qualité des travaux. Les chercheurs identifient deux pratiques particulièrement préoccupantes : l'utilisation systématique d'analyses monofactorielles inadaptées à des problèmes complexes, et le « dragage » de données consistant à sélectionner arbitrairement des sous-ensembles pour confirmer des hypothèses préétablies. Le « dragage de données » est une pratique statistique qui consiste à explorer et analyser un ensemble de données de manière répétée, sans hypothèse préétablie, afin de trouver des corrélations ou des modèles qui pourraient sembler significatifs, mais qui en réalité seraient simplement le résultat du hasard.

Les entreprises spécialisées dans la falsification scientifique se multiplient, produisant des articles sur commande contre rémunération. Grâce aux avancées de l’intelligence artificielle (IA), ces contenus sont de plus en plus difficiles à détecter. Des outils sophistiqués permettent en effet de générer automatiquement du texte et des images convaincants, imitant le style et les données de véritables publications.

Face à ce risque, plusieurs grands éditeurs scientifiques ont pris des mesures. Certains ont interdit ou limité l’usage de ChatGPT dans les articles soumis, craignant l’insertion de contenus erronés ou plagiés dans la littérature académique. Tandis que quelques chercheurs ont tenté de désigner le chatbot comme coauteur, des revues comme Science ont choisi d’interdire toute utilisation directe de son texte dans les manuscrits. Springer Nature, de son côté, accepte l’assistance de l’IA pour la rédaction, mais impose une transparence totale sur son usage et rejette l’idée de lui attribuer la qualité d’auteur.

Ces décisions interviennent alors que le débat sur la place de l’IA dans la production intellectuelle s’intensifie, notamment après les controverses liées à son emploi dans les médias comme CNET. De nombreux experts estiment que ChatGPT pourrait bouleverser durablement le secteur éditorial, en particulier dans les domaines facilement automatisables comme le journalisme sportif ou financier. Ce chatbot, développé par OpenAI, est capable de rédiger des textes complexes à partir de sources accessibles en ligne, posant de nouveaux défis en matière d’authenticité et de fiabilité.

« Les organisations informelles, voire illégales, capables de produire de faux articles avec des données de plus en plus crédibles vont proliférer grâce à l’IA », alerte Jennifer Byrne, biologiste moléculaire et spécialiste de l’intégrité scientifique à l’Université de Sydney.

Face à cette situation, l'équipe du Surrey propose plusieurs mesures correctives. Elles incluent un renforcement de la vigilance des éditeurs, un meilleur encadrement de l'accès aux données, et l'obligation de justifier toute analyse partielle des jeux de données. Ces propositions visent à rétablir des garde-fous sans pour autant entraver l'innovation ou restreindre indûment l'accès aux données.

Ce phénomène illustre le paradoxe de l'IA dans la recherche : outil potentiel d'avancées majeures, elle devient aussi un vecteur de désinformation lorsqu'elle est détournée par des logiques productivistes. La situation appelle une réponse collective de la communauté scientifique pour préserver les fondements mêmes de la connaissance, alors que les frontières entre recherche authentique et "science-fiction" deviennent de plus en plus floues.

L’impact des API et des outils d’analyse standardisés sur la recherche basée sur NHANES

La quantité de données biologiques à la disposition des chercheurs a considérablement augmenté ces dernières années, ce qui a multiplié les possibilités de recherche axée sur les données. À mesure que davantage d'informations deviennent disponibles dans des formats prêts pour l'intelligence artificielle, la recherche, lorsqu'elle est effectuée conformément aux meilleures pratiques - devrait devenir plus rapide et plus reproductible. La grande disponibilité de ces ensembles de données peut toutefois poser de nouveaux problèmes, en facilitant la production de manuscrits de bout en bout, à grande échelle, avec l'aide de l'IA. Il s'agit d'une pratique qui peut être adoptée par les usines à papier, définies par le groupe de travail United2Act Research comme des organisations clandestines qui fournissent des manuscrits de mauvaise qualité ou fabriqués à des clients payants.

L'ancienneté de la NHANES a conduit à la création de bibliothèques R et Python qui fournissent, entre autres, des outils automatisés de recherche, d'extraction et d'analyse, offrant des flux de travail standardisés et améliorant la reproductibilité. Ces outils, ainsi que d'autres environnements de codage et bibliothèques largement utilisés, peuvent contribuer de manière significative à la production rapide de résultats et aux publications qui s'ensuivent. La capacité des chercheurs à automatiser le processus d'extraction des données par le biais d'une interface de programmation d'application (API ; conformément aux lignes directrices FAIR selon lesquelles les données doivent pouvoir être récupérées par identifiant à l'aide d'un protocole de communication normalisé), permet le transfert des données directement vers des environnements d'apprentissage automatique, ce qui facilite l'exploration rapide et complète des données.


La possibilité d'extraire des données via une API directement dans des environnements d'apprentissage automatique tels que R ou Python peut transformer la productivité, le nombre d'hypothèses pouvant être testées n'étant limité que par l'accès informatique, mais cela peut aussi comporter des risques. L'accent mis sur les analyses à facteur unique peut être particulièrement problématique, étant donné la nature multifactorielle de nombreuses maladies, ainsi que la difficulté de différencier les prédicteurs qui sont spécifiques à un état de santé de ceux qui sont communs à différents types de maladies.

En outre, la possibilité de générer un grand nombre de modèles d'apprentissage automatique permet d'étudier rapidement et a posteriori d'autres hypothèses, au cas où la principale hypothèse a priori ne serait pas confirmée (une forme d'émission d'hypothèses après que les résultats sont connus, ou HARKing). Grâce à l'accès facile à l'informatique, il est possible d'effectuer une recherche étendue pour toute combinaison d'indicateur, d'état de santé, de cohorte et de fenêtre temporelle qui produit une valeur p faible. Si le dragage des données est un phénomène bien décrit, les pipelines d'accès direct à l'IA peuvent rendre les pipelines de recherche basés sur des formules plus productifs qu'ils ne l'étaient auparavant. Ce gain de productivité devrait être particulièrement intéressant pour les papeteries.

Les résultats de la stratégie de recherche systématique visant à identifier les articles de recherche associative dérivés de NHANES et publiés au cours de la dernière décennie sont présentés ci-dessous :


Vers une gouvernance éthique de l’accès aux données scientifiques à l’ère de l’IA

L'étude de l'université du Surrey souligne que la multiplication des recherches basées sur des analyses à facteur unique accroît significativement le risque d'introduire des conclusions erronées dans la littérature scientifique. Cette approche réductionniste, appliquée à des phénomènes complexes, fausse la compréhension de problèmes de santé multifactoriels comme la dépression ou les maladies cardiovasculaires, pourtant reconnus comme résultant de multiples causes interdépendantes.
Face à cette dérive, les chercheurs proposent plusieurs mesures correctives. Ils recommandent notamment que les comités de rédaction considèrent systématiquement les études monofactorielles sur des sujets complexes comme des signaux d'alerte nécessitant un examen particulièrement rigoureux. Cette vigilance accrue permettrait d'identifier plus facilement les travaux problématiques avant publication.

Le rapport préconise également un meilleur encadrement de l'accès aux bases de données scientifiques. L'instauration de clés API individuelles et de numéros d'application, à l'image du système déjà mis en place par la UK Biobank, pourrait limiter les pratiques de dragage de données. Chaque publication devrait ainsi inclure un identifiant vérifiable attestant d'un usage légitime des données.

Une autre proposition consiste à imposer l'analyse de l'ensemble des données disponibles, sauf justification méthodologique solide pour se limiter à un sous-ensemble. Cette mesure viserait à prévenir les biais de sélection qui faussent souvent les résultats des études générées massivement. « Notre objectif n'est pas de restreindre l'accès aux données ou d'interdire l'usage de l'IA, mais d'instaurer des garde-fous essentiels », précise Tulsi Suchak, auteur principal de l'étude.

La situation n'est pas sans précédent. L'an dernier, l'éditeur Wiley avait déjà dû retirer 19 revues scientifiques de sa filiale Hindawi, compromises dans la publication massive d'articles produits par des usines à papier utilisant l'IA. Ce cas illustre l'ampleur du phénomène et la nécessité d'une réponse coordonnée de la communauté scientifique...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de J_P_P
Membre régulier https://www.developpez.com
Le 29/05/2025 à 13:32
Certains demandent un droit d'accès gratuit aux données pour "entrainer" leurs IA,
en contrepartie, je demande un accès gratuit et illimité à tous les systèmes d'IA pour
"équilibrer" les choses.
Si une peine ne mérite pas salaire, aucune peine ne le doit !
7  0 
Avatar de dlandelle
Membre du Club https://www.developpez.com
Le 18/05/2025 à 8:04
Le mot intelligence est usurpé car le mot signifie comprendre (inter ligere).
Or la machine ne comprend strictement rien, elle mime.
En revanche elle est orientable par le prompt et elle trouve les arguments à tordre pour arriver à la conclusion voulue (boulot fait auparavant manuellement pas la franc-maçonnerie.
La guerre annoncée par macron avec le covid n'est pas terminée : 100 000 morts par an en plus que la moyenne depuis 2022 selon l'INSEE (données brutes https://www.insee.fr/fr/information/4190491).
L'IA sert de cover story à la propagande de guerre que plus aucun humain ne veut assumer, car le génocide médicalisé donne des idées de ressortir la guillotine. Et demains l'IA enverra des mobilisations pour aller sauver l'Ukraine sans armes...
3  0 
Avatar de Gluups
Membre expert https://www.developpez.com
Le 27/05/2025 à 15:17
Forcément. Une bulle spéculative qui explose, ça a toujours des conséquences.

Une industrie qui déclare qu'elle ne peut pas exister sans en vampiriser une autre, aussi.
5  2 
Avatar de Gazeld
Membre régulier https://www.developpez.com
Le 14/05/2025 à 22:29
Citation Envoyé par Gluups Voir le message
Ah il fallait être né, dans les années 80, pour savoir de quoi je parle.

Mais je t'accorde que le concept de gauche est tout ce qu'il y a de plus relatif.

Souviens-toi qu'un président nous a dit être ennemi de la finance. Après ça, avoir les idées claires, comment dire ...
Je suis de 74... Donc justement, tu connais comme moi une gauche qui a été plus 'vraie' (au moins pendant 3 ans, pour ne parler que de ceux qui ont eu l'exercice du pouvoir). A une époque où les mesures 'mitterrandiennes' étaient tout à fait normales sous un gouvernement socialiste, là où une ligne économique semblable de nos jours est qualifiée d'extrême-gauche par les médias mainstream !

Mais bon, on s'est bien compris
Reste à savoir si on veut continuer à galvauder ce mot (ou d'autres) pour mettre tout le monde dans le même sac (et dans quel but)...
Enfin donc on ne peut pas accuser via ce mot vague sans préciser qui et l'époque (Hollande est un très bon exemple). C'est comme désigner la Chine actuelle comme communiste alors qu'elle n'en a pas grand chose en réalité.
2  0 
Avatar de Gluups
Membre expert https://www.developpez.com
Le 27/05/2025 à 14:53
Citation Envoyé par Mathis Lucas Voir le message
Nick Clegg affirme que demander une autorisation d'utilisation aux titulaires de droits d'auteur « tuerait » l'industrie de l'IA
faisant écho à OpenAI qui réclame un accès illimité aux œuvres protégées
Certes.

Il y a une question qui fait vraiment mystère : en quoi serait-ce une mauvaise chose ?
5  3 
Avatar de calvaire
Expert éminent https://www.developpez.com
Le 27/05/2025 à 15:38
Citation Envoyé par Gluups Voir le message
Certes.

Il y a une question qui fait vraiment mystère : en quoi serait-ce une mauvaise chose ?
l'ia apporte un énorme gain en productivité dans pleins de domaine.
pour 10 dev, on en a besoin plus que de 7-8, pour 10 graphistes pareilles...etc.

les entreprises et pays qui n'utiliseront pas l'ia vont perdre en productivités.
Si toi entreprise européenne respecte de droit d'auteur, ce ne sera pas le cas des entreprises chinoise/usa, et ces boites vont profiter d'un boost énorme productivités.

Dans une compétition mondial et féroce c'est pas possible de rater le train de l'ia, c'est une question de survie pour les grande puissance.

Donc à moins d'un accord mondial sur le respect du droit d'auteur pour l'entrainement des llm, pour l'UE je ne sais pas, mais pour le usa et la chine, le droit d'auteur va partir à la poubelle.
Et si l'ue veut jouer le chevalier blanc juste et bon, elle se fera bouffer comme d'habitude, enfin elle est déjà bouffé cela dit, elle a déjà raté le train de l'ia, mistral c'est un nain en comparaison des géants américains et chinois.

Qu'on se comprennent bien, je suis pas favorable pour bafouer le droit d'auteur, mais je suis réaliste, je sais que les chinois vont pas se gêner pour leurs modèles nationaux et feront profiter leurs entreprises des meilleurs modèles possible.

les chinois ou la russie n'en ont rien a foutre d'entrainer leurs modèles sur des œuvres occidentales copyrighté.
Et je ne pense pas que Trump prennent partis pour les auteurs au detriement de Xai et openai, et pire encore de se faire devancer par la chine. Il fera tous pour que jamais les chinois les rattrapent dans la compétition dans l'ia. J'ai bien tous, les centrales nucléaires a gogos, des datacenter massif en Alaska au milieu de la glace si il le faut, que sais je encore.

Nvidia en est d'ailleurs bien embêté en ce moment avec ces 4090D
5  3 
Avatar de shenron666
Expert confirmé https://www.developpez.com
Le 28/05/2025 à 9:05
c'est le môdèle économique de l'IA qu'il faut revoir
les auteurs ne peuvent voir leur travail volé sciemment et légalement
plus d'auteurs, plus de données pour l'IA et l'humanité stagnera
3  1 
Avatar de Gluups
Membre expert https://www.developpez.com
Le 27/05/2025 à 16:04
Bon, OK, alors on n'aura plus d'auteurs.

Avec quoi on va faire tourner l'IA, alors ?
6  5 
Avatar de Gluups
Membre expert https://www.developpez.com
Le 29/05/2025 à 17:44
Citation Envoyé par totolehero777 Voir le message
J'ai un peu testé ChatGPT, si on lui demande de coder qq chose puis de modifier son code pour changer le comportement ça finit souvent par faire des bugs. N'empêche ce qu'il fait est souvent pas mal mais je le verrais plus comme un compagnon / prof qui a réponse à tout (avec quand même souvent des petites erreurs quand ça devient trop précis)
Sur Qwant, d'office on a d'abord la réponse du moteur de recherche, avant les réponses dont est issue la réponse du moteur. Pour formater un tableau pour le rendre publiable dans un forum il fallait s'inspirer de trois requêtes. La première donnait en gros la structure du programme et l'ouverture du fichier, la deuxième adaptait à la syntaxe HTML, j'ai oublié pourquoi il fallait une troisième.

Donc il restait un peu de boulot à faire pour adapter, pour autant c'est vrai que le résultat est plus rapidement exploitable qu'une documentation qu'il faut consulter en plusieurs langues à cause des erreurs de traduction, si grosses que j'hésite à les appeler des erreurs, et qui rechigne à fournir des exemples de programmation, et vous laisse découvrir quoi mettre dans les paramètres et sous quelle forme.
En gros, on attaque assez rapidement le débogage. Avoir déjà pratiqué dans le passé la technologie proposée à la deuxième requête aide grandement à se plonger dans la mise en œuvre.

Pour le moment je dirais que pomper bêtement reste une démarche bête, avec un risque pas nul de donner un résultat bête.

Il n'en demeure pas moins que des réactions bêtes en matière politique ne nous mettent pas à l'abri d'un résultat bête. Qu'une bonne majorité d'électeurs ne semble pas avoir une traitre idée de ce que j'appelle un résultat bête en matière politique.
1  0 
Avatar de tontonCD
Membre actif https://www.developpez.com
Le 30/05/2025 à 16:51
J'espère bien que l'on va «tuer » l'industrie de l'IA. Bientôt plus personne n'aura besoin de personne.
1  0