Les grands laboratoires d'intelligence artificielle ne se contentent plus de moissonner le texte du Web ou de sous-traiter l'annotation de données à des armées de travailleurs mal payés. Désormais, ils veulent capturer quelque chose de plus insaisissable : la spontanéité humaine, l'émotion authentique, le jeu de scène. Handshake AI, l'une des principales entreprises de fourniture de données d'entraînement, recrute des comédiens d'improvisation pour alimenter les modèles multimodaux de demain en interactions aussi vraies que possible. Derrière la promesse alléchante de 74 dollars de l'heure se cache une réalité plus complexe et une question fondamentale sur ce que l'IA cherche réellement à reproduire de l'humanité.L'offre d'emploi est formulée avec soin, presque avec séduction. Handshake AI invite des acteurs, des improvisateurs et des artistes à rejoindre un projet d'improvisation rémunéré, en collaboration avec « l'un des grands laboratoires d'IA ». Les candidats retenus se verront appariés avec d'autres interprètes, en vidéo, autour de scénarios libres et ouverts. Les sessions sont non scénarisées ; les participants improvisent des scènes, explorent des personnages et réagissent naturellement à l'instant, avec une grande latitude pour façonner le déroulement de chaque interaction.
Les critères de sélection sont révélateurs : le poste exige une « conscience émotionnelle », définie comme la capacité à reconnaître, exprimer et moduler les émotions d'une manière qui paraisse authentique et humaine, ainsi qu'une « cohérence » permettant de maintenir la voix et la logique émotionnelle d'un personnage tout au long d'une scène. En d'autres termes, les laboratoires d'IA ne cherchent pas des doublures bon marché : ils veulent des artisans de l'émotion humaine.
La rémunération affichée, 74 dollars de l'heure, est présentée comme compatible avec la vie d'un artiste : le poste est décrit comme « facile à combiner avec des auditions, des cours ou des répétitions ». Mais les apparences sont trompeuses.
La mécanique de l'industrie des données d'entraînement
Pour comprendre la portée de cette initiative, il faut replacer Handshake AI dans son contexte. L'entreprise, basée à San Francisco, a élargi son activité initiale, une plateforme d'emploi ciblant les jeunes professionnels, vers le secteur de l'étiquetage de données pour l'IA. Elle fait partie d'une constellation de startups qui rémunèrent des centaines de milliers de contractants dans le monde entier pour filtrer, classer et entraîner les réponses des grands modèles d'IA. Ses concurrents directs s'appellent Mercor et Scale AI.
La demande de données d'entraînement adressée à Handshake a triplé à l'été 2025, et la société a dépassé un rythme annuel de 150 millions de dollars en novembre. La croissance est vertigineuse, et l'entreprise recrute à tout va pour y répondre. Les opportunités de travail en freelance sur la plateforme vont de 75 dollars de l'heure pour les ingénieurs logiciels et les comédiens d'improvisation à 175 dollars pour les banquiers d'investissement, et 300 dollars ou plus pour ceux qui détiennent un doctorat ou un diplôme de médecine.
La logique sous-jacente est celle de la « rugosité » des modèles d'IA : les modèles sont souvent décrits comme « irréguliers » (excellents sur des tâches complexes, mais défaillants sur des tâches apparemment simples). Les entreprises d'IA cherchent à colmater ces brèches avec des données spécialisées, et des sociétés comme Handshake ont ajusté leur offre en conséquence, en recrutant des professionnels dans une grande variété de secteurs.
L'émotion : le nouveau front de l'IA multimodale
Pourquoi des comédiens, et pourquoi maintenant ? La réponse tient à l'évolution des modèles eux-mêmes. Les sessions d'improvisation visent à produire des exemples d'interactions humaines riches en tonalité et en émotion, qui pourraient être utilisés pour entraîner les IA vocales à paraître moins robotiques. Ces efforts pourraient, à terme, rendre les assistants conversationnels capables de détecter et de répondre aux signaux émotionnels des utilisateurs de manière plus naturelle.
Les grands laboratoires ont massivement investi dans des modèles « multimodaux », capables non seulement de générer du texte, des images ou des vidéos, mais aussi de dialoguer par la voix avec des inflexions réalistes. ChatGPT a mis à jour ses...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.