L'étiquetage des données d'entrainement est une étape chronophage mais très importante dans la construction de modèles d'apprentissage supervisé. Pour obtenir rapidement des résultats et à moindre coût, les entreprises font donc souvent à appel des « crowd workers ». Mais avec la montée en puissance des IA génératives, une proportion importante de ces travailleurs indépendants externalisent leur travail à des IA. C'est ce que révèle du moins une étude réalisée par une équipe de chercheurs de l'École polytechnique fédérale de Lausanne (EPFL). Cette pratique pourrait introduire davantage d'erreurs dans des modèles déjà sujets aux erreurs.
Les « crowd workers » sont des individus qui participent à des tâches ou des projets en ligne via des plateformes de crowdsourcing. Ces travailleurs sont souvent des personnes indépendantes et dispersées géographiquement, et ils contribuent à diverses tâches telles que la collecte de données, l'étiquetage de contenu, la traduction, entre autres. etc.
Les entreprises ayant recours à ces travailleurs y trouvent comme avantages la flexibilité, la rapidité d'exécution des tâches, la possibilité d'accéder à un grand nombre de travailleurs dans le monde entier et à des coûts généralement plus bas par rapport à l'embauche d'employés à temps plein. Mais cela n'est pas toujours sans risque : la coordination, la qualité du travail, la gestion de la confidentialité et de la sécurité des données... sont, entre autres, les défis auxquels les entreprises doivent souvent faire face.
Les entreprises développant des IA peuvent faire appel à ces personnes pour effectuer des tâches difficiles à automatiser, telles que l'annotation de données, afin de collecter des données fiables pour entraîner les modèles d'intelligence artificielle. Mais selon une étude récente, voulant augmenter leur productivité et donc leurs revenus, de nombreux individus rémunérés pour former des modèles d'intelligence artificielle (IA) externalisent eux-mêmes leur travail à d'autres IA.
Pour arriver à cette conclusion, les chercheurs de l'École polytechnique fédérale de Lausanne (EPFL) ont engagé 44 personnes sur la plateforme de travail indépendant Amazon Mechanical Turk pour résumer 16 extraits d'articles de recherche médicale. Ensuite, ils ont analysé leurs réponses à l'aide d'un modèle d'IA qu'ils avaient formé eux-mêmes et qui cherche des signaux caractéristiques de contenus fournis par ChatGPT, tels que le manque de variété dans le choix des mots. Ils ont également extrait les frappes au clavier des travailleurs afin de déterminer s'ils avaient copié-collé leurs réponses, ce qui indiquerait qu'ils les avaient générées ailleurs.
Cette expérience leur a permis de déduire qu'entre 33 % et 46 % des travailleurs avaient utilisé des modèles d'IA tels que ChatGPT d'OpenAI. Selon les auteurs de l'étude, ce pourcentage est susceptible d'augmenter encore à mesure que ChatGPT et d'autres systèmes d'IA deviennent plus puissants et plus facilement accessibles.
Bien entendu, la tâche confiée aux crowd workers consistait à résumer des extraits d'articles ; une tâche plutôt classique pour les IA génératives. Mais cela donne une idée de la tendance de ces travailleurs indépendants à recourir aux outils d'IA pour exécuter rapidement leurs missions et maximiser leurs revenus ; ce qui devrait interpeller les différents acteurs.
« Je pense que la communauté de l'IA devra examiner de près les tâches les plus susceptibles d'être automatisées et trouver des moyens de prévenir cela », déclare Robert West, professeur assistant à l'EPFL et coauteur de l'étude.
L'utilisation de données générées par l'IA pour former l'IA pourrait introduire davantage d'erreurs dans des modèles déjà sujets aux erreurs. Les grands modèles de langage (GML) présentent régulièrement des informations fausses comme des faits. Si ces modèles génèrent des sorties incorrectes qui sont ensuite utilisées pour former d'autres modèles d'IA, les erreurs peuvent être absorbées par ces modèles et amplifiées au fil du temps, rendant de plus en plus difficile la détermination de leur origine, explique Ilia Shumailov, chercheur en informatique à l'Université d'Oxford, qui n'a pas participé au projet. « Le problème, lorsque vous utilisez des données artificielles, c'est que vous acquérez les erreurs provenant des incompréhensions des modèles et des erreurs statistiques », explique-t-il. « Vous devez vous assurer que vos erreurs ne biaisent pas la sortie d'autres modèles, et il n'y a pas de moyen simple de le faire. »
A travers leur étude, les chercheurs de l'EPFL mettent en évidence la nécessité de trouver de nouvelles façons de vérifier si les données ont été produites par des humains ou par une IA. « Bien que la généralisation à d'autres tâches moins adaptées aux grands modèles de langage (GML) soit incertaine, nos résultats appellent les plateformes, les chercheurs et les crowd workers à trouver de nouvelles façons de garantir que les données humaines restent humaines, peut-être en utilisant la méthodologie proposée [dans notre étude] comme un tremplin », lit-on dans le rapport de leur étude.
Ils veulent également attirer l'attention des entreprises technologiques sur leur tendance à s'appuyer sur des travailleurs indépendants pour effectuer le travail essentiel de nettoyage des données alimentant les systèmes d'IA.
La méthodologie utilisée pour arriver à ces conclusions ne fait toutefois pas l'unanimité parmi les lecteurs.
« Cet article est totalement absurde. Les chercheurs ont utilisé un détecteur de ChatGPT qui, comme nous l'avons constaté maintes et maintes fois dans le milieu universitaire, ne fonctionne pas », écrit un internaute. « Cette étude est totalement infondée. Ironiquement, il s'agit d'un article sur les dangers d'utiliser l'IA pour former l'IA, basé sur une étude qui a utilisé l'IA pour détecter l'IA », dit-il.
Oui, les détecteurs ChatGPT ne fonctionnent peut-être pas, mais cela ne devrait pas remettre en question l'étude selon d'autres personnes. Ces dernières précisent en effet que le détecteur ChatGPT développé par les chercheurs n'étaient pas le seul élément qui leur a permis d'identifier ceux ayant externalisé leur travail à l'IA. Il y a aussi un élément important : l'extraction des frappes de clavier.
« Selon l'article, les chercheurs n'ont pas simplement utilisé le détecteur [ChatGPT] », répond un autre lecteur. « Ils ont également extrait les frappes au clavier des travailleurs afin de déterminer s'ils avaient copié-collé leurs réponses, ce qui indiquerait qu'ils les avaient générées ailleurs. Donc, bien que je ne sache pas encore si l'article est absurde, je sais que votre réaction immédiate l'est », dit-il.
Cela dit, a-t-on vraiment besoin d'une étude pour révéler que les crowd workers, dans leurs conditions de travail parfois difficiles, vont à externaliser n'importe quelle tâche à l'IA si cela est possible ?
L'étude a été partagée sur arXiv et, précisons-le, n'a pas encore fait l'objet d'une évaluation par les pairs.
Sources : MIT Technology Review, Rapport de la recherche
Et vous ?
Que pensez-vous des résultats de cette étude et de la méthodologie utilisée ?
A-t-on vraiment besoin d'une étude pour arriver à cette conclusion ?
Voir aussi
43 % des entreprises réaliseront des entretiens d'embauche menés par l'IA d'ici 2024 et 1 entreprise sur 7 laissera l'IA prendre les décisions finales concernant les candidats, d'après ResumeBuilder
52 % des professionnels de la recherche en ligne pensent que l'IA jouera un rôle important dans l'obtention des résultats de recherche, selon une enquête de Lucidworks
Plus de deux tiers des salariés soutiennent l'IA générative pour améliorer le travail, la technologie leur permettrait d'économiser cinq heures par semaine en moyenne, selon une enquête de Salesforce
92 % des développeurs utiliseraient des outils d'intelligence artificielle selon une enquête de GitHub auprès des développeurs
Une proportion importante de personnes payées pour étiqueter les données d'IA externaliserait leur travail à des IA
Selon une étude menée par des chercheurs de l'EPFL
Une proportion importante de personnes payées pour étiqueter les données d'IA externaliserait leur travail à des IA
Selon une étude menée par des chercheurs de l'EPFL
Le , par Michael Guilloux
Une erreur dans cette actualité ? Signalez-nous-la !