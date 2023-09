Dans le domaine de l'IA, ou de l'apprentissage automatique en particulier, l'étiquetage de données est le processus d'identification des données brutes (images, fichiers texte, vidéos, etc.) et l'ajout d'une ou plusieurs étiquettes significatives et informatives pour fournir un contexte afin qu'un modèle d'apprentissage automatique puisse apprendre à partir de ces données. Ainsi, les étiquettes peuvent indiquer si une photo contient un oiseau ou une voiture, si une radiographie contient une tumeur, etc. L'étiquetage des données est nécessaire pour divers cas d'utilisation, dont la vision par ordinateur, le traitement du langage naturel et la reconnaissance vocale.Cela dit, il est perçu comme une tâche ingrate et mal payée et de nombreux travailleurs sont réticents à le faire. Les entreprises font généralement appel à des travailleurs des pays du Sud pour étiqueter leurs ensembles de données. Ils sont recrutés par les contractants des grandes entreprises et sont généralement payés à moins de 2 $ par heure. Mais en Finlande, la barrière de la langue a posé un problème pour trouver des travailleurs parlant le finnois. C'est pourquoi certaines startups finlandaises ont commencé à collaborer avec le système pénitentiaire pour qu'il leur fournisse une main-d'œuvre bon marché tout en préparant "les détenus au monde numérique".L'une de ces détenues, surnommée Marmelade, passe ses journées dans une pièce sans fenêtre avec un ordinateur portable. Elle est payée 1,54 € par heure pour lire des textes relatifs à l'immobilier et répondre à des questions à ce sujet. Dans un récent rapport de Wired, Marmelade affirme qu'elle trouve son travail un peu ennuyeux et ne sait pas trop à quoi il sert. En réalité, sans le savoir, elle entraîne un grand modèle de langage appartenant à une startup locale appelée Metroc. En effet, l'entreprise met au point un moteur de recherche destiné à aider les entreprises de construction à rechercher et trouver des projets de construction nouvellement approuvés.Ainsi, le rôle des prisonniers consiste à étiqueter les données pour aider le modèle d'IA de Metroc à comprendre les indices contenus dans les articles de presse et les documents municipaux concernant les projets de construction à venir. Le modèle doit être capable de faire la différence entre un projet d'hôpital qui a déjà fait appel à un architecte ou à un poseur de fenêtres, par exemple, et des projets qui pourraient encore faire l'objet d'un recrutement. Marmelade répond à des questions telles que : « le paragraphe précédent fait-il référence à un immeuble ? Le paragraphe précédent fait-il référence à une décision immobilière plutôt qu'à une demande ? ».En s'appuyant sur le programme finlandais du travail pénitentiaire, Metroc obtient des travailleurs bon marché parlant le finnois. Parallèlement, le système pénitentiaire peut offrir aux détenus un emploi qui, selon lui, les prépare au monde du travail numérique après leur libération. Toutefois, l'utilisation de prisonniers pour former des modèles d'IA crée des parallèles difficiles avec le type de main-d'œuvre mal payée et parfois exploitée qui a souvent existé en aval dans le domaine de la technologie. OpenAI, Apple, Google, Meta sont autant d'entreprises qui ont recours à cette approche pour réduire les coûts. Mais en Finlande, le projet a reçu un large soutien.« Il y a cette idée globale de ce qu'est le travail des données. Et puis il y a ce qui se passe en Finlande, qui est très différent si on y regarde de près », explique Tuukka Lehtiniemi, chercheur à l'université d'Helsinki, qui a étudié le travail des données dans les prisons finlandaises. Marmelade a été emprisonnée pour six ans et lorsqu'elle est arrivée en prison, elle a d'abord commencé par effectuer des tâches telles que le ménage, la lessive ou la couture de leurs propres vêtements. Pour un travail de six heures, elles recevaient environ 6 euros (6,50 dollars). Mais Marmelade a déclaré avoir cessé ces travaux parce qu'ils étaient fastidieux et pénibles.« Je trouvais cela très fatigant », dit-elle. Par la suite, un conseiller de la prison lui a suggéré d'essayer le travail sur l'IA. Marmelade a déclaré qu'elle a été séduite par les courtes périodes de travail de trois heures, et que l'argent était mieux que rien. (La générosité du système social finlandais en matière d'allocations de chômage n'incite guère les Finlandais à s'inscrire sur des sites de travail à la tâche faiblement rémunérée comme le Mechanical Turk d'Amazon.) « Mechanical Turk n'avait pas beaucoup de travailleurs parlant finnois », explique Jussi Virnala, PDG de Metroc. En outre, les outils de traduction automatique ne sont toujours pas adaptés au finnois.La langue ne compterait que 5 millions de locuteurs natifs. On ne sait pas exactement dans quelle mesure l'étiquetage de données offre aux détenus des compétences transférables au travail après la prison. Tuomas Rasila, cofondateur de Vainu, une autre société d'indexation de données qui a fait appel à des prisonniers pendant un an, admet qu'il ne dispose d'aucune preuve. « Le projet n'a pas duré assez longtemps pour recueillir des données. Je pense que le fait de demander à des personnes qui peuvent se sentir en dehors de la société de former l'aspect le plus high-tech d'une société moderne est une idée qui donne du pouvoir », a-t-il déclaré.Cependant, d'autres considèrent que cette nouvelle forme de travail en prison s'inscrit dans une course problématique à la main-d'œuvre bon marché qui sous-tend la révolution de l'IA. « L'idée selon lequel nous nous dirigeons vers une société entièrement automatisée, plus pratique et plus efficace, tend à occulter le fait qu'un grand nombre de ces systèmes sont alimentés par des personnes humaines », déclare Amos Toh, chercheur principal spécialisé dans l'IA à Human Rights Watch. Davantage d'entreprises se tournent vers des personnes qui ont peu d'autres options : les réfugiés, les travailleurs des pays à faible économie et les prisonniers.Toh est également sceptique sur le fait que l'étiquetage de données peut aider les détenus à acquérir des compétences numériques. « Il existe de nombreuses façons pour les détenus de se perfectionner, par exemple en obtenant des certificats et en participant à des programmes d'enseignement supérieur. Mais je suis sceptique quant au fait que l'étiquetage de données pour une entreprise à un euro par heure conduise à une progression significative », explique-t-il. Selon le rapport de Wired, Metroc, qui paie les prisonniers à 1,54 € par heure, a récemment fait une levée de fonds d'environ 2 millions d'euros pour poursuivre le développement de son modèle d'IA.En Finlande, on a le sentiment que le projet sur les prisons n'est qu'un début. Mais certains craignent qu'il ne crée un précédent qui permettrait d'introduire dans les prisons des types d'étiquetage de données plus controversés, comme la modération des contenus violents. « Même si les données étiquetées en Finlande ne sont pas controversées pour l'instant, nous devons réfléchir au précédent que cela crée. Qu'est-ce qui empêche les entreprises de confier l'étiquetage des données relatives à des contenus traumatisants et peu recommandables à des détenus, surtout si elles y voient un réservoir de main-d'œuvre inexploité ? », s'interroge Toh.Il n'est pas certain non plus que les conditions de travail dans les prisons finlandaises - qui mettent l'accent sur la réinsertion - puissent être reproduites dans d'autres pays où l'approche de la justice est moins progressiste. Les entreprises spécialisées dans l'IA auront de plus en plus besoin de main-d'œuvre pour travailler sur leurs ensembles de données, ce qui les obligera à rechercher des travailleurs de plus en plus inhabituels pour suivre le rythme. Alors que Metroc prépare son expansion dans les pays nordiques et dans d'autres langues que le finnois, Virnala réfléchit à la possibilité d'étendre le projet de travail dans les prisons à d'autres pays.« C'est quelque chose que nous devons explorer », dit-il. Virnala semble ne pas se soucier du fait que le projet de l'étiquetage de données dans les prisons n'est peut-être pas reproductible ailleurs. En outre, Metroc semble appliquer une politique stricte de réduction des coûts, comme OpenAI. Cette année, un rapport a révélé que la startup d'IA de San Francisco a fait appel à une société d'externalisation qui emploie des travailleurs à la chaîne au Kenya, en Ouganda et en Inde. Selon le rapport, le contractant d'OpenAI aurait payé ces travailleurs à moins de deux dollars par heure pour étiqueter des données et rendre ChatGPT moins toxique.Quel est votre avis sur le sujet ?Que pensez-vous de l'utilisation des prisonniers pour étiqueter les données d'entraînement de l'IA ?Selon vous, cette approche est-elle conforme à l'éthique ? Quelles sont les préoccupations qu'elle pose ?Cette approche pourrait-elle conduire à des biais dans les données d'entraînement des modèles d'IA ?Cette initiative permet-elle réellement aux détenus d'acquérir des compétences transférables au travail après la prison ?