OpenAI lance Point-E, une IA qui génère des modèles 3D à partir d'invites textuelles,

Mais elle soulève des préoccupations en ce qui concerne ses données d'apprentissage

Le 26 décembre 2022 à 00:15, par Bill Fassinou

313PARTAGES

OpenAI lance Point-E, une IA qui génère des modèles 3D à partir d'invites textuelles
mais elle soulève des préoccupations en ce qui concerne ses données d'apprentissage

OpenAI a étendu les capacités de son logiciel de conversion de texte en image de deux à trois dimensions avec le lancement de Point-E, une IA qui génère des images en 3D à partir d'invites textuelles. Selon un document publié avec la base de code, Point-E ne nécessite pas un ordinateur haut de gamme pour fonctionner et peut générer un modèle en moins de deux minutes avec un seul GPU Nvidia V100. Par exemple, avec une directive textuelle telle que "un cône de signalisation", Point-E produit un nuage de points à faible résolution - un ensemble de points dans l'espace - qui ressemble à un cône de signalisation.

Les générateurs de modèles 3D pourraient être la prochaine percée qui prendra d'assaut le monde de l'IA. OpenAI a été très actif cette année. L'entreprise a fait parler d'elle pour ses deux grands projets : Dall-E 2 et ChatGPT. Entre ces deux plateformes massives d'intelligence artificielle, l'entreprise a contribué à générer des images et de longues séries de textes à partir d'une simple invite textuelle. Aujourd'hui, la société est déjà de retour avec un troisième concept, qu'elle a publié juste avant Noël pour piquer l'intérêt de tous. Ce troisième concept, baptisé Point-E, suit un schéma similaire, créant du contenu 3D à partir de simples invites.

Annoncé dans un document de recherche publié par l'équipe d'OpenAI, Point-E fonctionne en deux temps : d'abord en utilisant une IA de conversion de texte en image pour convertir votre demande verbale en une image, puis en utilisant une seconde fonction pour transformer cette image en un modèle 3D. Point-E est open source et le code source est disponible sur Github. Néanmoins, il pourrait être un peu compliqué à essayer, car les utilisateurs devront être moyennement familiers avec les outils de ligne de commande, et le système doit avoir Python, contrairement à ChatGPT, où les utilisateurs peuvent s'inscrire sur un site Web et tester ses capacités.

Point-E ne crée pas d'objets 3D au sens traditionnel du terme. Il génère plutôt des nuages de points, c'est-à-dire des ensembles discrets de points de données dans l'espace qui représentent une forme 3D - d'où l'abréviation effrontée. (Le "E" de Point-E est l'abréviation de "efficiency", car elle est ostensiblement plus rapide que les approches précédentes de génération d'objets 3D). Selon les développeurs, les nuages de points sont plus faciles à synthétiser d'un point de vue informatique, mais ils ne rendent pas compte de la forme ou de la texture fine d'un objet, ce qui constitue une limitation majeure de Point-E actuellement.

Pour contourner cette limitation, l'équipe de Point-E a formé un système d'IA supplémentaire pour convertir les nuages de point de Point-E en maillages. (Les maillages - les collections de sommets, d'arêtes et de faces qui définissent un objet - sont couramment utilisés dans la modélisation et la conception 3D). Mais les chercheurs notent dans leur article que le modèle peut parfois manquer certaines parties des objets, ce qui donne des formes en blocs ou déformées. En dehors du modèle de génération de maillage, qui est autonome, Point-E se compose de deux modèles : un modèle texte-image et un modèle image-3D.

Le modèle texte-image, similaire aux systèmes de génération d'œuvres d'art d'art comme DALL-E 2 et Stable Diffusion, a été entraîné sur des images étiquetées pour comprendre les associations entre les mots et les concepts visuels. Le modèle image-3D, quant à lui, a été alimenté par un ensemble d'images associées à des objets 3D afin d'apprendre à traduire efficacement les deux. Lorsqu'il reçoit un texte d'invite - par exemple, "un engrenage imprimable en 3D, un engrenage unique de 7 cm de diamètre et 1 cm d'épaisseur" - le modèle texte-image de Point-E génère un objet synthétique rendu qui est transmis au modèle image-à-3D.

Ce dernier génère ensuite un nuage de points. Après avoir entraîné les modèles sur un ensemble de données de "plusieurs millions" d'objets 3D et de métadonnées associées, Point-E a pu produire des nuages de points colorés qui correspondaient fréquemment aux invites textuelles, indiquent les chercheurs d'OpenAI. Ce n'est pas parfait - le modèle image-3D de Point-E ne parvient pas toujours à comprendre l'image du modèle texte-image, ce qui donne une forme qui ne correspond pas à l'invite textuelle. Il n'en reste pas moins qu'il est beaucoup plus rapide que l'état de l'art précédent, du moins selon l'équipe d'OpenAI.

Le résultat est loin d'atteindre la qualité d'un rendu 3D commercial dans un film ou un jeu vidéo. Mais il n'est pas censé l'être. Une fois introduits dans une application 3D comme Blender, ils peuvent être transformés en maillages texturés qui ressemblent davantage à l'imagerie 3D habituelle. « Bien que notre méthode n'est pas encore à la hauteur de l'état de l'art en termes de qualité d'échantillonnage, elle est d’un à deux ordres de grandeur plus rapide, ce qui constitue un compromis pratique pour certains cas d'utilisation », expliquent les chercheurs d'OpenAI dans le document décrivant le projet.

Ils estiment que Point-E pourrait être utilisé pour fabriquer des objets du monde réel, par exemple par impression 3D. Avec le modèle supplémentaire de conversion de maillage, le système pourrait, une fois qu'il sera un peu plus perfectionné, trouver sa place dans les flux de travail de développement de jeux et d'animations. À terme, le projet pourrait aboutir à la création rapide de modèles 3D à la demande. En outre, les chercheurs notent qu'en poursuivant les travaux, il pourrait rendre la création de mondes virtuels plus facile et plus accessible à ceux qui n'ont pas de compétences professionnelles en graphisme 3D.

Les modèles 3D sont largement utilisés dans le cinéma et la télévision, la décoration intérieure, l'architecture et divers domaines scientifiques. Les architectes s'en servent pour faire faire la démonstration des bâtiments et des paysages proposés, par exemple, tandis que les ingénieurs s'appuient sur les modèles pour concevoir de nouveaux appareils, véhicules et structures. Cependant, la création de modèles 3D prend généralement du temps, entre plusieurs heures et plusieurs jours. Une IA comme Point-E pourrait changer cela si les problèmes sont un jour résolus, et permettre à OpenAI de réaliser un bénéfice respectable.

Il existe d'autres problèmes potentiels qui doivent être résolus. Par exemple, comme DALL-E, Point-E devrait contenir des biais hérités de son ensemble de données d'entraînement. Et cet ensemble de données - plusieurs millions de modèles 3D et de métadonnées associées dont la provenance n'est pas précisée - est livré sans aucune garantie que les modèles sources ont été utilisés avec la permission ou conformément aux conditions de licence applicables. Cela pourrait s'avérer être un gros casse-tête, sur le plan juridique. Un problème a déjà été signalé sur le dépôt GitHub de Point-E pour demander plus d'informations sur l'ensemble de données.

La question est de savoir quels types de litiges en matière de propriété intellectuelle pourraient survenir à terme. Il existe un marché important pour les modèles 3D, avec plusieurs places de marché en ligne, dont CGStudio et CreativeMarket, qui permettent aux artistes de vendre le contenu qu'ils ont créé. Si Point-E se répand et que ses modèles se retrouvent sur les marchés, les modélistes pourraient protester, en rappelant que l'IA générative moderne emprunte beaucoup à ses données d'apprentissage - des modèles 3D existants, dans le cas de Point-E.

Comme DALL-E 2, Point-E ne crédite ni ne cite aucun des artistes qui auraient pu influencer ses générations. L'attitude cavalière de la communauté de l'IA concernant la formation de modèles d'apprentissage automatique utilisant le travail d'autrui sans autorisation explicite a déjà alimenté une plainte pour infraction contre Github Copilot, un service qui suggère du code de programmation aux développeurs en utilisant le modèle Codex d'OpenAI. Les modèles texte-image pourraient être testés de la même manière au fur et à mesure de leur commercialisation.

OpenAI est peut-être la dernière entreprise à se lancer dans le domaine des générateurs d'objets 3D, mais, comme nous l'avons déjà dit, elle n'est certainement pas la première. Au début de cette année, Google a lancé DreamFusion, une version étendue de Dream Fields, un système de génération d'objets 3D que la société a dévoilé en 2021. Contrairement à Dream Fields, DreamFusion ne nécessite aucune formation préalable, ce qui signifie qu'il peut générer des représentations 3D d'objets sans données 3D.

Sources : Référentiel GitHub de Point-E, Point-E (PDF)

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous du modèle Point-E d'OpenAI ?

Selon vous, quels sont les problèmes juridiques qu'il pose ?

Voir aussi

ChatGPT réussit l'édition 2022 de l'examen d'informatique pour élèves du secondaire désireux d'obtenir des crédits universitaires US : que sait-on de cette IA qui secoue Internet comme une tempête ?

Dall-E 2 permet de générer des images à partir de quelques mots, mais le produit est-il votre ? Votre illustration numérique générée par l'IA pourrait ne pas être protégée par le droit d'auteur

Stable Diffusion de Stability AI serait le modèle d'IA le plus important de tous les temps, contrairement à GPT-3 et DALL-E 2, il apporte des applications du monde réel ouvertes pour les utilisateur

Vous avez lu gratuitement 23 643 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI lance Point-E, une IA qui génère des modèles 3D à partir d'invites textuelles,

Mais elle soulève des préoccupations en ce qui concerne ses données d'apprentissage

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

OpenAI lance Point-E, une IA qui génère des modèles 3D à partir d'invites textuelles, Mais elle soulève des préoccupations en ce qui concerne ses données d'apprentissage

OpenAI lance Point-E, une IA qui génère des modèles 3D à partir d'invites textuelles,

Mais elle soulève des préoccupations en ce qui concerne ses données d'apprentissage