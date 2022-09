La synthèse d'images s'est avérée populaire (et très controversée ) récemment sur les réseaux sociaux et dans les communautés artistiques en ligne. Des outils comme Stable Diffusion et DALL-E 2 permettent aux utilisateurs de créer des images de presque tout ce qu'ils peuvent imaginer en saisissant une description textuelle appelée "invite". En 2021, la société technologique chinoise Baidu a mis au point son propre modèle de synthèse d'images appelé ERNIE-ViLG. Avec ERNIE-ViLG, vous pouvez générer des images qui capturent la spécificité culturelle de la Chine. Elle produirait de meilleures images que DALL-E 2 ou d'autres IA occidentales du même type.Lorsqu'une version de démonstration du logiciel a été publiée fin août, les utilisateurs ont rapidement constaté que certains mots, qu'il s'agisse de la mention explicite du nom de dirigeants politiques ou de mots potentiellement controversés uniquement dans un contexte politique, étaient qualifiés de "sensibles" et empêché de générer un quelconque résultat. Il semblerait que le système sophistiqué de censure en ligne de la Chine se soit étendu à la dernière tendance en matière d'IA. Selon un rapport de test publié par le MIT Technology Review, il n'est pas rare que des IA similaires empêchent les utilisateurs de générer certains types de contenu.DALL-E 2 interdit les contenus sexuels, les visages de personnalités publiques ou les images de traitements médicaux. Mais le cas d'ERNIE-ViLG souligne la question de savoir où se situe exactement la limite entre modération et censure politique. Selon les données techniques fournies par Baidu, le modèle ERNIE-ViLG fait partie de Wenxin, un projet à grande échelle de traitement du langage naturel (NLP) mené par Baidu. Il a été entraîné sur un ensemble de données de 145 millions de paires image-texte et contient 10 milliards de paramètres. ERNIE-ViLG dispose d'un ensemble de données d'apprentissage plus petit que celui de DALL-E 2 (650 millions de paires) et de Stable Diffusion (2,3 milliards de paires).Mais il contient plus de paramètres que ces derniers (DALL-E 2 a 3,5 milliards de paramètres et Stable Diffusion en a 890 millions). Le rapport indique que la principale différence entre ERNIE-ViLG et les modèles occidentaux est que celui développé par Baidu comprend les invites écrites en chinois et est moins susceptible de faire des erreurs lorsqu'il s'agit de mots culturellement spécifiques. Par exemple, après la publication du modèle en août, un créateur de vidéos chinois a comparé les résultats de différents modèles pour des invites comprenant des personnages historiques chinois, des célébrités de la culture pop et de la nourriture.Il a constaté qu'ERNIE-ViLG produisait des images plus précises que DALL-E 2 ou Stable Diffusion. Après sa sortie, ERNIE-ViLG a en outre été adoptée par les membres de la communauté des animateurs japonais. Ils ont constaté que l'IA pouvait générer des dessins d'anime plus satisfaisants que les autres modèles, probablement parce qu'il incluait davantage d'anime dans ses données d'entraînement. Mais contrairement à DALL-E 2 (développé par OpenAI) ou à Stable Diffusion, ERNIE-ViLG n'a pas donné des explications sur sa politique de modération du contenu, et Baidu a refusé de faire des commentaires pour cette histoire.Lorsque la démo d'ERNIE-ViLG a été publiée pour la première fois sur Hugging Face, une communauté internationale de l'IA, les utilisateurs qui saisissaient certains mots recevaient le message "mots sensibles trouvés. Veuillez entrer à nouveau", ce qui était un aveu étonnamment honnête sur le mécanisme de filtrage. Cependant, depuis au moins le 12 septembre, le message se lit comme suit : "le contenu saisi ne répond pas aux règles pertinentes. Veuillez réessayer après l'avoir ajusté". Les tests ont révélé que plusieurs mots chinois ont été bloqués, dont des noms de dirigeants politiques chinois très en vue comme Xi Jinping et Mao Zedong.D'autres termes pouvant être considérés comme politiquement sensibles ont également été bloqués, notamment : "révolution" et "escalader les murs" (une métaphore pour l'utilisation d'un service VPN en Chine) et le nom du fondateur et PDG de Baidu, Yanhong (Robin) Li. Si des mots comme "démocratie" et "gouvernement" sont autorisés, les invites qui les combinent avec d'autres mots, comme "démocratie Moyen-Orient" ou "gouvernement britannique", sont bloquées. La place Tiananmen à Pékin ne figure pas non plus dans ERNIE-ViLG, probablement en raison de son association avec le massacre de Tiananmen, un récit fortement censuré en Chine.La Chine n'est pas la seule à se heurter à des restrictions en matière de synthèse d'images, même si, jusqu'à présent, ces restrictions ont pris une forme différente de la censure d'État. Dans le cas de DALL-E 2, la politique de contenu d'OpenAI restreint certaines formes de contenu telles que la nudité, la violence et le contenu politique. Mais il s'agit d'un choix volontaire de la part d'OpenAI, et non d'une pression gouvernementale. Midjourney filtre également volontairement certains contenus par mot-clé. Stable Diffusion, de Stability AI, basé à Londres, est livré avec un "filtre de sécurité" intégré qui peut être désactivé en raison de sa nature open source.Ainsi, presque tout est possible avec ce modèle, selon l'endroit où vous l'exécutez. Le responsable de Stability AI, Emad Mostaque, a notamment déclaré vouloir éviter la censure des modèles de synthèse d'images par les gouvernements ou les entreprises. « Je pense que les gens devraient être libres de faire ce qu'ils pensent être le mieux pour créer ces modèles et services », a-t-il écrit dans une réponse à un AMA sur Reddit la semaine dernière. Il est difficile de savoir si Baidu censure son modèle ERNIE-ViLG volontairement pour éviter d'éventuels problèmes avec le gouvernement chinois ou s'il répond à une réglementation potentielle.Dans ce dernier cas, la censure intégrée à ERNIE-ViLG pourrait correspondre à une réglementation gouvernementale concernant les deepfakes proposée au début de l'année. En janvier, le gouvernement chinois a proposé une nouvelle réglementation interdisant toute forme de contenu généré par l'IA qui "met en danger la sécurité nationale et la stabilité sociale", ce qui couvrirait les IA comme ERNIE-ViLG. Selon les critiques, ce qui pourrait être utile dans le cas d'ERNIE-ViLG, c'est que Baidu publie un document expliquant les décisions de modération.Malgré la censure intégrée, le modèle ERNIE-ViLG de Baidu devrait rester un acteur important dans le développement des systèmes de synthèse d'images à grande échelle. L'émergence de modèles d'IA formés sur des ensembles de données linguistiques spécifiques compense certaines des limites des modèles courants basés sur l'anglais. Elle aidera particulièrement les utilisateurs qui ont besoin d'une IA comprenant la langue chinoise et capable de générer des images précises en conséquence.Tout comme les plateformes chinoises de médias sociaux ont prospéré en dépit d'une censure rigoureuse, ERNIE-ViLG et d'autres modèles d'IA chinoises pourraient finir par connaître la même expérience : ils sont trop utiles pour être abandonnés. Dans la Chine d'aujourd'hui, les entreprises de médias sociaux disposent généralement de listes exclusives de mots sensibles, établies à partir des instructions du gouvernement et de leurs propres décisions opérationnelles. Cela signifie que le filtre utilisé par ERNIE-ViLG est susceptible de différer de celui utilisé par WeChat, propriété du Tencent, ou par Weibo, qui est exploité par Sina Corporation.Sources : ERNIE-ViLG ( 1 2 ), le projet Wenxin Quel est votre avis sur le sujet ?Que pensez-vous du modèle d'IA ERNIE-ViLG de Baidu ?Que pensez-vous de la censure intégrée au modèle ERNIE-ViLG ?Selon vous, s'agit-il d'une bonne ou d'une mauvaise chose ? Pourquoi ?