La société d'intelligence artificielle OpenAI développe des modèles qui améliorent la vision par ordinateur et d'autres cas d'utilisation de l'IA. Après la sortie de GPT-3, son modèle de traitement du langage naturel, en mai dernier, OpenAI annonce ce mois DALL-E, un nouveau modèle d'IA qui dessine des images à partir de textes ou, si vous préférez, un réseau de neurones qui crée des images à partir de légendes de texte. Avec environ 12 milliards de paramètres, DALL-E est basé sur GPT-3 et est capable de créer des images réalistes d'animaux, d'objets ou de scènes.Qu'est-ce que DALL-E et quelles sont ses caractéristiques et potentialités ?
GPT-3 (Pre-training Transformer 3) est un modèle de traitement du langage naturel développé par OpenAI. Il a été annoncé en mai 2020 et ouvert aux utilisateurs via une API en juillet. Il est actuellement le plus gros modèle de langage jamais entraîné avec 175 milliards de paramètres. GPT-3 a montré que le langage peut être utilisé pour ordonner à un grand réseau de neurones d'effectuer diverses tâches de génération de texte. Le modèle GPT a montré que le même type de réseau neuronal peut également être utilisé pour générer des images de haute précision, d'où le lancement de DALL-E.
DALL-E, annoncé il y a quelques jours, est une version de GPT-3 avec 12 milliards de paramètres, formée pour générer des images à partir de descriptions de texte, en utilisant un ensemble de données de paires texte-image. En effet, comme GPT-3, DALL-E est un modèle de langage de transformation. Il reçoit à la fois le texte et l'image sous la forme d'un flux de données unique contenant jusqu'à 1280 jetons, et est entraîné en utilisant le maximum de probabilité pour générer tous les jetons, les uns après les autres. Cette procédure d'apprentissage permet dans un premier temps à DALL-E de générer une image à partir de zéro.
Ensuite, elle lui permet aussi de régénérer toute région rectangulaire d'une image existante qui s'étend jusqu'au coin inférieur droit, d'une manière qui est cohérente avec l'invite textuelle. Il peut également dessiner des concepts aléatoires et absurdes et imaginer des objets qui n'existent probablement pas, comme "l'illustration d'un bébé radis daikon dans un tutu qui promène un chien". Il y a toutes sortes de combinaisons bizarres avec lesquelles vous pouvez jouer en cliquant sur les différentes options du menu déroulant pour choisir des mots individuels dans l'invite de texte des exemples sur le blogue d'OpenAI.
Le laboratoire de recherche en intelligence artificielle reste pour l'instant silencieux sur la plupart des détails techniques de DALL-E, et a déclaré qu'il prévoyait d'en révéler davantage dans un prochain article universitaire. En outre, bien que DALL-E n'en est qu'à ses débuts, certains pensent qu'il a le potentiel de perturber les industries créatives. Si un outil comme DALL-E était disponible dans le commerce, à quoi ressemblerait l'avenir pour les designers, les illustrateurs, les artistes et les photographes si une machine pouvait faire le même travail plus rapidement ?
OpenAI est conscient de l'impact que DALL-E pourrait avoir sur l'économie mondiale et promet de faire de plus profondes analyses à l'avenir avant de publier un tel modèle. « Nous reconnaissons que le travail impliquant des modèles générateurs a le potentiel d'avoir des impacts sociétaux importants et larges », a déclaré OpenAI. À l'avenir, nous prévoyons d'analyser comment des modèles comme DALL-E sont liés à des questions sociétales, dont l'impact économique sur certains processus de travail et professions, le potentiel de biais dans les résultats des modèles, et les défis éthiques à plus long terme qu'implique cette technologie ».
DALL-E d'OpenAI ne signifie-t-il pas la mort de l'art humain pour toujours ?
Luba Elliott, conservatrice et chercheuse à Creative AI, un laboratoire qui se concentre sur l'intersection de l'IA et de la créativité, a déclaré à The Register que : « si DALL-E pourrait certainement avoir son utilité en tant que produit commercial, il y aurait toujours de la place pour l'art créé par l'homme ». « À condition qu'il puisse générer des images très réalistes sur toute la ligne, il pourrait concurrencer Shutterstock ou Getty Images pour certains cas d'utilisation, en fonction bien sûr du coût par image et de la facilité de génération », a-t-elle commencé par expliquer.
« Ces cas d'utilisation pourraient inclure des images pour des articles et des billets de blogue, où l'accent est mis sur l'écriture et où l'image est là en comme remplissage de contenu. En ce qui concerne les photographes et les artistes, cela dépend du type de travail qu'ils font. Les illustrateurs et les photographes de stock pourraient bien perdre du travail au profit de tels outils, mais nous sommes encore loin de remplacer les photographes d'art et les artistes par un style et une vision créative distincts. En effet, à ce stade, les machines peinent à la fois à trouver et à exécuter des idées vraiment nouvelles », a-t-elle ajouté.
Selon elle, la production des machines est souvent fortement basée sur des données de formation du passé et devient intéressante lorsqu'un artiste humain la façonne et lui donne un sens. Pour rappel, Shutterstock est un microstock qui offre des photographies et des clips sans redevance,...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.