Stability AI fait l'objet fait face à des réactions négatives en raison de ce que les utilisateurs considèrent comme une régression des capacités" de son modèle Stable Diffusion 3 (SD3). Selon les rapports publiés par les utilisateurs sur les sites communautaires comme Reddit, la dernière mise à jour de Stable Diffusion 3, publiée mercredi, permet de générer facilement des abominations visuelles sauvages et anatomiquement incorrectes. Stability AI a présenté cette mise à jour de l'IA comme son "modèle de génération d'images le plus sophistiqué à ce jour". Toutefois, selon les utilisateurs, la société se trompe probablement à ce sujet.
Taking a look at people testing out Stable Diffusion 3 and tbh this goes hard. pic.twitter.com/Ii7bHqmX9Y
— Max Woolf (@minimaxir) June 12, 2024
Un fil de discussion sur Reddit, intitulé "Cette version est-elle censée être une blague ? [SD3-2B]", détaille les échecs spectaculaires de SD3 Medium à générer des images des êtres humains, en particulier les membres du corps humain comme les mains et les pieds. Un autre fil de discussion, intitulé "Pourquoi SD3 est-il si mauvais pour générer des filles allongées sur l'herbe ?", expose des problèmes similaires. Selon le rapport d'un utilisateur, lors de son interaction avec l'IA, elle s'est révélée incapable de générer des images normales d'un être humain et ne renvoyait que d'horribles assemblages membres incohérents et mutilés.
« Je n'ai pas été en mesure de générer une seule image décente en dehors des exemples proposés. J'ai essayé des invites très descriptives, mais sans succès. Même une image basique comme "photographie d'une personne faisant la sieste dans un salon" conduit à des monstruosités dignes de Cronenberg », a écrit l'utilisateur. Un autre utilisateur irrité a ajouté : « ce serait drôle si ce n'était pas aussi déprimant ». Des utilisateurs du fil de discussion ont indiqué qu'ils étaient parvenus à générer des humains d'apparence normale, mais il semble que ces personnes soient une petite minorité. Ce qui suscite plusieurs inquiétudes.
Exemple d'une image générée par Stable Diffusion 3 Medium
« Il n'y a pas si longtemps, Stable Diffusion rivalisait avec Midjourney. Au moins, nos ensembles de données étaient sûrs et éthiques », a écrit un autre utilisateur. Une requête "femme allongée sur une plage" aurait abouti au résultat ci-dessous (dans le billet X), tandis que d'autres utilisateurs ont partagé des images bâclées de femmes avec un corps mutilé et des mains abîmées. Dans un autre fil de discussion, les utilisateurs ayant demandé à l'IA de générer des photos de femmes allongées dans l'herbe ont reçu à plusieurs reprises des images cauchemardesques de créatures ayant parfois la forme d'un pouce étiré.
Les échecs de Stable Diffusion 3 suggèrent que l'IA des difficultés avec les figures humanoïdes. Comme l'ont signalé les Redditors dans les différents fils de discussion, d'autres invites produisent des résultats parfaitement corrects. Les utilisateurs attribuent les échecs du modèle à l'insistance de Stability IA à filtrer le contenu pour adultes (également appelé NSFW (not safe for work)) des données d'entraînement de son modèle qui apprennent au modèle à générer des images. « Croyez-le ou non, mais le fait de censurer fortement un modèle d'IA peut avoir un impact négatif sur l'anatomie humaine », a écrit un utilisateur.
Exemple d'une image générée par Stable Diffusion 3 Medium
En effet, chaque fois qu'un utilisateur demande un concept qui n'est pas bien représenté dans l'ensemble de données d'entraînement du modèle d'IA, le modèle de synthèse d'images confabule sa meilleure interprétation de ce que l'utilisateur demande. Et parfois, cela peut être complètement terrifiant. Stable Diffusion 2.0, publiée en 2022, a connu des problèmes similaires en ce qui concerne la représentation des humains, et les chercheurs en IA ont découvert que la censure des contenus pour adultes contenant de la nudité pouvait sérieusement entraver la capacité d'un modèle d'IA à générer une anatomie humaine précise.
À l'époque, Stability AI a fait marche arrière avec Stable Diffusion 2.1 et Stable Diffusion XL, récupérant certaines capacités perdues en filtrant fortement le contenu NSFW. La société a annoncé Stable Diffusion 3.0 en février, et a prévu de le rendre disponible en différentes tailles de modèles. La publication de mercredi concerne la version "Medium", qui est un modèle à 2 milliards de paramètres. En plus d'être disponibles sur Hugging Face, les poids peuvent aussi être expérimentés via la plateforme de la startup. Les poids peuvent être téléchargés et utilisés gratuitement, mais sous une licence non commerciale uniquement.
Exemple d'une image générée par Stable Diffusion 3 Medium
Peu après l'annonce de février, des retards dans le lancement de Stable Diffusion 3.0 ont fait naître des rumeurs selon lesquelles le lancement était retardé en raison de problèmes techniques ou d'une mauvaise gestion. Stability AI s'est récemment retrouvée en mauvaise posture avec la démission de son fondateur et PDG, Emad Mostaque suivie d'une série de licenciements. Juste avant cela, trois ingénieurs clés (Robin Rombach, Andreas Blattmann et Dominik Lorenz) ont quitté l'entreprise. Et ses problèmes remontent encore plus loin, puisque la nouvelle de la situation financière désastreuse de l'entreprise perdure depuis 2023.
Pour certains fans de Stable Diffusion, les échecs de Stable Diffusion 3 Medium sont une manifestation visuelle de la mauvaise gestion de l'entreprise et un signe évident de l'effondrement des choses. Bien que l'entreprise n'ait pas déposé le bilan, certains utilisateurs ont fait des blagues sombres sur cette possibilité après avoir vu Stable Diffusion 3 Medium. « Je suppose qu'ils peuvent maintenant faire faillite d'une manière sûre et éthique [sic] », a écrit un utilisateur.
La formation de l'IA sur des images sans contenu pornographique présente un problème pour les entreprises d'IA comme Stability AI. Le porno occupe une grande partie d'Internet. Dans le même temps, la formation sur du matériel NSFW récupéré sur le Web pose une série de problèmes de sécurité et d'éthique très sérieux.
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des monstruosités générées par Stable Diffusion 3 Medium ?
Partagez-vous l'avis selon lequel le problème est lié à la censure des images à caractère pornographique ?
Que pensez-vous des rumeurs sur la mauvaise gestion de l'entreprise et sur sa situation financière désastreuses ?
Les mauvaises performances du nouveau modèle Stable Diffusion sont-elles liées à la situation délicate que traverse l'entreprise ?
Voir aussi
Stable Diffusion 3.0 présente une nouvelle architecture de transformateur de diffusion pour réinventer l'IA de conversion texte-image, afin d'offrir une qualité d'image et des performances améliorées
Stable Diffusion de Stability AI serait le modèle d'IA le plus important de tous les temps, contrairement à GPT-3 et DALL-E 2, il apporte des applications du monde réel ouvertes pour les utilisateur
Stability AI annonce la version 2.0 de Stable Diffusion, le modèle d'IA de diffusion d'image, il améliore le modèle texte-image OpenCLIP et apporte le modèle profondeur-image