
selon Sholto David, spécialiste de l'image scientifique
Les outils d’intelligence artificielle peuvent souvent repérer plus d’images dupliquées dans les documents qu’un spécialiste humain. Sholto David, un biologiste indépendant de Pontypridd, au Royaume-Uni, a passé plusieurs mois à examiner des centaines d’articles d’une revue, à la recherche d’images dupliquées. Il a ensuite passé les mêmes articles au crible d’un outil d’intelligence artificielle (IA). Travaillant à une vitesse deux à trois fois supérieure à celle de David, le logiciel a trouvé la quasi-totalité des 63 articles suspects qu’il avait identifiés - et 41 qu’il avait manqués.
Les résultats de cette étude interviennent alors que les éditeurs universitaires sont confrontés au problème de la manipulation d’images dans les articles scientifiques. Dans une étude réalisée en 2016, Elisabeth Bik et ses collègues ont indiqué que près de 4 % des articles qu’elle avait scannés visuellement dans 40 revues de sciences biomédicales contenaient des images dupliquées de manière inappropriée. Avec plus de 2,5 millions de manuscrits scientifiques publiés chaque année, plus de 35 000 articles (de 2009 à 2016) risquent d'être rétractés après publication en raison de la duplication, de la manipulation ou du plagiat d'images.
En fait, le pourcentage de manuscrits signalés pour des problèmes liés à l'image varie de 20 à 35 %. Cela signifie qu'il y a des centaines de milliers d'articles publiés avec des problèmes d'image chaque année ! Chaque erreur peut avoir des conséquences néfastes pour toutes les parties concernées, même si elle peut être corrigée après publication.
Les dommages causés par une rétractation après publication - y compris les enquêtes et les frais juridiques - sont estimés à plus d'un million de dollars par article. Sholto David, spécialiste de l'image scientifique, tient un blog sur la manipulation d'images dans les documents de recherche, un passe-temps qui lui a permis de découvrir de nombreux cas de fraude scientifique. Mais les autres scientifiques « sont encore un peu dans l'ignorance de l'ampleur du problème », déclare Sholto David. Il a donc décidé qu'il avait besoin de données.
Toutes les manipulations d'images ne sont pas effectuées dans un but malveillant. Les auteurs peuvent modifier des images par accident, pour des raisons esthétiques ou pour rendre une figure plus compréhensible. Mais les revues et d'autres organismes aimeraient repérer les images dont les modifications dépassent les limites, quelle que soit la motivation des auteurs. Ils se tournent désormais vers l'IA pour obtenir de l'aide.
Les avantages des logiciels d'intégrité des images
L'automatisation du processus d'examen des images permet aux utilisateurs de vérifier les images avant l'examen par les pairs et la publication. Cela garantit la crédibilité de toutes les recherches et protège la réputation de toutes les parties concernées. La vérification proactive de l'intégrité des images réduit également le risque d'enquêtes coûteuses et de rétractations après la publication. Investir dans Proofig permet à la communauté scientifique d'économiser des millions qu'elle peut ensuite investir dans d'autres recherches.
Quelque 200 universités, éditeurs et sociétés scientifiques utilisent déjà Imagetwin, l'outil que David a utilisé pour son étude. Le logiciel compare les images d'un article avec plus de 25 millions d'images provenant d'autres publications - la plus grande base de données de ce type dans le monde de l'intégrité de l'image, selon les développeurs d'Imagetwin.
Imagetwin est un logiciel basé sur l'IA qui permet de détecter les problèmes d'intégrité dans les figures d'articles scientifiques. Il détecte les manipulations inappropriées et les duplications dans de nombreux types de figures, y compris les blots (western blots), les images de microscopie et les photographies lumineuses. Détection du plagiat : les utilisateurs peuvent découvrir si une figure a été réutilisée dans plusieurs articles en consultant leur base de données contenant plus de 21 millions d'images. Les utilisateurs peuvent détecter les doublons et la manipulation de données dans les articles.
- Après s'être connecté à l’interface web d'Imagetwin, l'analyse d'un article est simple.
- sélectionnez un PDF ou plusieurs fichiers d'images tels que JPG, PNG, GIF et bien d'autres ;
- d'une simple pression sur un bouton, le contenu sélectionné est numérisé par un algorithme basé sur l'intelligence artificielle ;
- les résultats sont présentés dans l'interface web.
Imagetwin est un complément puissant au processus d'évaluation par les pairs. Tous les types de problèmes d'intégrité sont automatiquement détectés et peuvent être rapidement vérifiés par un évaluateur.
Imagetwin et Proofig : deux outils d’IA innovants pour analyser les images dans les documents de recherche
Bik utilise régulièrement Imagetwin pour compléter ses propres compétences et le qualifie d' « outil standard », même si elle souligne que l'IA a des points faibles et des points forts - par exemple, elle peut rater des doublons dans des images peu contrastées. Elle et David bénéficient tous deux d'un accès gratuit au logiciel d'ImageTwin AI, la société viennoise qui a développé Imagetwin, et font part de leurs commentaires aux développeurs.
Selon les spécialistes, l'intérêt d'Imagetwin réside en partie dans le fait qu'il recherche les duplications de deux manières. Le logiciel crée « une sorte d'empreinte digitale » pour chaque image d'un article, explique Patrick Starke, l'un de ses développeurs. Il scanne ensuite l'ensemble du papier à la recherche de répétitions de cette empreinte. Il analyse également sa vaste base de données pour voir si cette empreinte apparaît dans des documents antérieurs - un processus qui ne prend que cinq à dix secondes.
La vérification automatisée des images pour les publications scientifiques, alimentée par l'IA, est approuvée par les plus grands chercheurs, éditeurs et instituts de recherche du monde. Certains éditeurs se sont tournés vers d'autres outils d'IA. Les revues publiées par l'American Association for Cancer Research à Philadelphie, en Pennsylvanie, filtrent les articles à l'aide de l'outil d'IA Proofig. Frontiers à Lausanne, en Suisse, a développé son propre logiciel pour vérifier les articles de sa famille de revues.
Proofig AI peut détecter automatiquement de multiples sources d'images : bandes de Western blot, microscopies (confocale, lumière et électronique), FACS, plaques, souris, images in-vitro et in-vivo. Proofig serait le seul outil qui détecte les problèmes liés aux images FACS. La communauté scientifique peut utiliser cette technologie pour vérifier de manière proactive les images à n'importe quel stade du processus de rédaction ou de publication.
« Des dommages importants sont causés par la duplication d'images, même lorsqu'il s'agit d'erreurs innocentes. C'est pourquoi je suis heureux d'offrir à mon département la tranquillité d'esprit que procure le fait de savoir que les images de nos manuscrits ont été correctement vérifiées avant publication à l'aide de Proofig, et que seuls les manuscrits ne comportant aucune erreur seront publiés », Professeur Ofer Mandelboim, Chef du département d'immunologie et de recherche sur le cancer, Faculté de médecine de l'Université hébraïque, Israël.
Pour son étude, David a passé au crible plus de 700 articles contenant des images pertinentes et publiés entre 2014 et 2023 dans Toxicology Reports, une revue qu'il a choisie en partie parce qu'elle contient beaucoup d'images et en partie parce qu'en 2021, l'éditeur de la revue, Elsevier à Amsterdam, a ajouté une expression d'inquiétude à un numéro spécial entier de la revue.
Après avoir vérifié visuellement les articles, David a testé l'IA et a constaté qu'elle fonctionnait « beaucoup plus rapidement que si je regardais attentivement les images pendant longtemps », bien qu'elle ait omis quatre articles qu'il avait signalés. Au total, environ 16 % des articles analysés comportant des images pertinentes présentaient des doublons.
C'est beaucoup plus que les 4 % calculés par Bik, mais elle estime que le chiffre de David n'est pas surprenant. Dans son analyse, les revues individuelles présentaient des doublons dans une proportion allant de 0,3 % à 12 % de leurs articles, les revues à fort impact ayant tendance à avoir moins de doublons.
Il est « tout à fait plausible » que 16 % des images d'une revue contiennent des doublons, reconnaît Jana Christopher, analyste de l'intégrité des images chez FEBS Press à Heidelberg, en Allemagne, qui dispose d'un accès gratuit à Imagetwin et l'utilise avec d'autres logiciels. Dans le cadre de son travail d'examen des articles avant leur publication, Jana Christopher signale environ un tiers d'entre eux en vue d'un examen plus approfondi.
Bik estime qu'Imagetwin est particulièrement utile pour les « figures complexes comportant de nombreux panneaux ». Il permet de numériser presque instantanément des images qu'elle aurait mis plus d'une demi-heure à disséquer elle-même. « C'est vraiment bien d'avoir un logiciel comme deuxième paire d'yeux », reconnaît Christopher. Mais comme Bik, elle estime qu'Imagetwin a ses faiblesses. « Je trouve souvent d'autres [problèmes] qui ne sont pas des duplications et même des duplications que le logiciel n'a pas signalées », explique Mme Christopher.
Selon Christopher, l'objectif final est d'intégrer des outils d'IA tels dans le processus d'évaluation des articles, de la m[/problèmes]...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.