Schuhmann a voulu offrir une alternative aux bases de données propriétaires des grandes entreprises technologiques, qu’il craignait de voir monopoliser le secteur de l’IA. Avec son équipe, il a collecté et annoté plus de 5 milliards d’images provenant de diverses sources, comme Flickr, Wikimedia ou Reddit. Il a mis ces données à la disposition de tous sur son site web et sur GitHub.
Son travail a été utilisé par des entreprises comme Google, Stability AI et Midjourney pour développer leurs propres modèles d’IA générative, qui ont connu un succès fulgurant, mais aussi des controverses juridiques et éthiques. Schuhmann se dit indifférent à ces problèmes et se concentre sur sa mission de proposer les données pour l’IA.
LAION c’est aussi une organisation à but non lucratif qui fournit des données, des outils et des modèles pour libérer la recherche en apprentissage automatique. Elle a été créée par Christoph Schuhmann, un professeur de lycée allemand qui a été impressionné par les capacités de DALL-E, le modèle d’IA générative d’OpenAI. Elle collabore également avec le Jülich Supercomputing Centre et l’équipe Open CLIP pour reproduire les résultats d’OpenAI avec CLIP, un autre modèle d’IA générative qui associe des images et des textes.
Stability AI est une entreprise qui se spécialise dans l’IA générative
Stability AI est une entreprise qui se spécialise dans l’IA générative, c’est-à-dire l’IA capable de créer des contenus originaux à partir de données existantes. Stability AI propose plusieurs produits et services basés sur ses modèles d’IA générative, notamment :
- Stable Diffusion : un modèle qui génère des images à partir de descriptions textuelles, comme « un chat vert avec des ailes » ou « une pizza au chocolat ». Stable Diffusion est un modèle open source, ce qui signifie qu’il est accessible et modifiable par tout le monde. Stability AI a lancé la première version de Stable Diffusion en 2021, en collaboration avec OpenAI, et a ensuite développé la version 2.0 en 2022. Stable Diffusion a été utilisé par de nombreuses applications populaires, comme DreamStudio, Lensa, Wonder ou NightCafe ;
- DreamStudio : une application qui permet de créer des designs originaux à partir de textes ou de croquis, en utilisant Stable Diffusion. DreamStudio est destiné aux créateurs professionnels ou amateurs qui veulent explorer leur créativité et réaliser leurs idées facilement ;
- Platform API : une interface de programmation qui permet aux développeurs d’utiliser Stable Diffusion et d’autres modèles de Stability AI dans leurs propres applications. Platform API offre une grande flexibilité et une haute performance pour intégrer l’IA générative dans divers domaines ;
- Photoshop Plugin : un plugin qui permet d’utiliser Stable Diffusion directement dans Photoshop, le logiciel de retouche d’images le plus populaire. Le plugin permet de générer et d’éditer des images à partir de textes ou de croquis, sans quitter Photoshop ;
- Blender Plugin : un plugin qui permet d’utiliser Stable Diffusion et d’autres modèles de Stability AI dans Blender, le logiciel de modélisation 3D le plus populaire. Le plugin permet de générer des textures, des vidéos ou des effets spéciaux à partir de textes ou de rendus 3D, sans quitter Blender.
Stability AI se présente comme la première entreprise d’IA générative open source au monde. Elle revendique une communauté de plus de 140 000 développeurs et sept hubs de recherche dans le monde entier. Elle s’appuie sur un partenariat avec Amazon Web Services, qui lui fournit le cinquième plus grand superordinateur du monde, l’Ezra-1 UltraCluster. Elle affirme que sa mission est de maximiser l’accessibilité de l’IA moderne pour inspirer la créativité et l’innovation mondiales.
Midjourney, un outil d’IA générative qui crée des images à partir de textes
Midjourney est un outil d’intelligence artificielle (IA) générative qui permet de créer des images à partir de descriptions textuelles. Par exemple, si on lui demande de générer une image d’un « chien bleu avec des lunettes », il va produire une image correspondant à cette requête. L’outil d’IA est basé sur un modèle d’IA appelé Stable Diffusion. Il est accessible au grand public via un serveur Discord, où il suffit de taper la commande “/imagine” suivie du texte désiré pour obtenir une image générée par l’IA.
Midjourney offre aussi une interface de programmation (API) qui permet aux développeurs d’intégrer Midjourney et d’autres modèles de Stability AI dans leurs propres applications. Enfin, Midjourney dispose de plugins pour Photoshop et Blender, qui permettent d’utiliser Midjourney directement dans ces logiciels populaires.
Les modèles de Christoph Schuhmann, le professeur de lycée allemand qui est à l’origine de LAION, sont capables de créer des images numériques à partir de descriptions textuelles, comme un chat vert avec des ailes ou une pizza au chocolat.
Ils ont connu un essor spectaculaire depuis la fin de l’année 2022, avec le lancement de produits comme Google’s Imagen, Stability AI’s Stable Diffusion ou Midjourney’s Midjourney. Ces produits ont suscité l’admiration du public et des investisseurs, mais aussi des critiques et des procès pour violation du droit d’auteur, sans parler des questions éthiques et sociales soulevées par la manipulation des images.
Schuhmann, qui enseigne la physique et l’informatique dans un lycée de Hambourg, a commencé à s’intéresser à l’IA générative en 2021, après avoir découvert DALL-E, le modèle d’OpenAI qui a été le premier à démontrer les capacités impressionnantes de cette technologie. Il a rejoint un serveur Discord où il a rencontré d’autres passionnés d’IA, et ensemble, ils ont décidé de créer une base de données ouverte et gratuite pour permettre à quiconque de développer ses propres modèles d’IA générative.
Ils ont nommé leur projet LAION, pour “Large-scale AI Open Network”. Leur objectif était de contrer la tendance des grandes entreprises technologiques à garder leurs données secrètes et à monopoliser le secteur de l’IA. “J’ai tout de suite compris que si cela est centralisé à une, deux ou trois entreprises, cela aura de très mauvais effets pour la société”, dit Schuhmann.
Pour constituer leur base de données, Schuhmann et son équipe ont collecté des images provenant de diverses sources sur internet, comme Flickr, Wikimedia ou Reddit. Ils ont ensuite annoté ces images avec des descriptions textuelles en utilisant des outils automatiques ou manuels. Ils ont mis ces données à la disposition du public sur leur site web et sur GitHub, sans demander aucune rétribution. Ils ont travaillé bénévolement pendant des mois, avec une seule donation ponctuelle en 2021. Aujourd’hui, LAION compte plus de 5 milliards d’images et de légendes, ce qui en fait la plus grande base de données du genre.
Le travail de Schuhmann n’est pas passé inaperçu. Plusieurs entreprises ont utilisé LAION pour entraîner leurs propres modèles d’IA générative, comme Google, Stability AI ou Midjourney. Ces entreprises ont connu un succès fulgurant avec leurs produits, qui ont attiré l’attention des médias et des consommateurs. Mais elles ont aussi fait face à des problèmes juridiques et éthiques. Par exemple, Stability AI et Midjourney ont été poursuivies en justice par des artistes et des photographes qui accusent ces entreprises d’avoir utilisé leurs œuvres sans leur consentement ni leur rémunération.
De plus, des critiques ont dénoncé le fait que les bases de données utilisées par ces entreprises contiennent des images violentes, sexuelles ou problématiques, qui peuvent introduire des biais dans les modèles d’IA générative et avoir des conséquences négatives sur la société.
Schuhmann se dit indifférent à ces controverses. Il affirme qu’il n’est pas responsable de l’utilisation qui est faite de ses données, et qu’il se contente de les libérer pour le bien commun. Il dit qu’il ne cherche pas à gagner de l’argent ni à se faire connaître avec son projet. Il vit modestement dans une maison en banlieue de Hambourg, où il a écrit “LAION” sur sa boîte aux lettres. Il consacre son temps libre à son projet.
Source : LAION
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi :
Stable Diffusion de Stability AI serait le modèle d'IA le plus important de tous les temps, contrairement à GPT-3 et DALL-E 2, il apporte des applications du monde réel ouvertes pour les utilisateurs
Stability AI annonce la version 2.0 de Stable Diffusion, le modèle d'IA de diffusion d'image, il améliore le modèle texte-image OpenCLIP et apporte le modèle profondeur-image