IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI lance Point-E, une IA qui génère des modèles 3D à partir d'invites textuelles,
Mais elle soulève des préoccupations en ce qui concerne ses données d'apprentissage

Le , par Bill Fassinou

239PARTAGES

2  0 
OpenAI a étendu les capacités de son logiciel de conversion de texte en image de deux à trois dimensions avec le lancement de Point-E, une IA qui génère des images en 3D à partir d'invites textuelles. Selon un document publié avec la base de code, Point-E ne nécessite pas un ordinateur haut de gamme pour fonctionner et peut générer un modèle en moins de deux minutes avec un seul GPU Nvidia V100. Par exemple, avec une directive textuelle telle que "un cône de signalisation", Point-E produit un nuage de points à faible résolution - un ensemble de points dans l'espace - qui ressemble à un cône de signalisation.

Les générateurs de modèles 3D pourraient être la prochaine percée qui prendra d'assaut le monde de l'IA. OpenAI a été très actif cette année. L'entreprise a fait parler d'elle pour ses deux grands projets : Dall-E 2 et ChatGPT. Entre ces deux plateformes massives d'intelligence artificielle, l'entreprise a contribué à générer des images et de longues séries de textes à partir d'une simple invite textuelle. Aujourd'hui, la société est déjà de retour avec un troisième concept, qu'elle a publié juste avant Noël pour piquer l'intérêt de tous. Ce troisième concept, baptisé Point-E, suit un schéma similaire, créant du contenu 3D à partir de simples invites.

Annoncé dans un document de recherche publié par l'équipe d'OpenAI, Point-E fonctionne en deux temps : d'abord en utilisant une IA de conversion de texte en image pour convertir votre demande verbale en une image, puis en utilisant une seconde fonction pour transformer cette image en un modèle 3D. Point-E est open source et le code source est disponible sur Github. Néanmoins, il pourrait être un peu compliqué à essayer, car les utilisateurs devront être moyennement familiers avec les outils de ligne de commande, et le système doit avoir Python, contrairement à ChatGPT, où les utilisateurs peuvent s'inscrire sur un site Web et tester ses capacités.



Point-E ne crée pas d'objets 3D au sens traditionnel du terme. Il génère plutôt des nuages de points, c'est-à-dire des ensembles discrets de points de données dans l'espace qui représentent une forme 3D - d'où l'abréviation effrontée. (Le "E" de Point-E est l'abréviation de "efficiency", car elle est ostensiblement plus rapide que les approches précédentes de génération d'objets 3D). Selon les développeurs, les nuages de points sont plus faciles à synthétiser d'un point de vue informatique, mais ils ne rendent pas compte de la forme ou de la texture fine d'un objet, ce qui constitue une limitation majeure de Point-E actuellement.

Pour contourner cette limitation, l'équipe de Point-E a formé un système d'IA supplémentaire pour convertir les nuages de point de Point-E en maillages. (Les maillages - les collections de sommets, d'arêtes et de faces qui définissent un objet - sont couramment utilisés dans la modélisation et la conception 3D). Mais les chercheurs notent dans leur article que le modèle peut parfois manquer certaines parties des objets, ce qui donne des formes en blocs ou déformées. En dehors du modèle de génération de maillage, qui est autonome, Point-E se compose de deux modèles : un modèle texte-image et un modèle image-3D.

Le modèle texte-image, similaire aux systèmes de génération d'œuvres d'art d'art comme DALL-E 2 et Stable Diffusion, a été entraîné sur des images étiquetées pour comprendre les associations entre les mots et les concepts visuels. Le modèle image-3D, quant à lui, a été alimenté par un ensemble d'images associées à des objets 3D afin d'apprendre à traduire efficacement les deux. Lorsqu'il reçoit un texte d'invite - par exemple, "un engrenage imprimable en 3D, un engrenage unique de 7 cm de diamètre et 1 cm d'épaisseur" - le modèle texte-image de Point-E génère un objet synthétique rendu qui est transmis au modèle image-à-3D.

Ce dernier génère ensuite un nuage de points. Après avoir entraîné les modèles sur un ensemble de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !