IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Flux, une nouvelle IA générative texte-image open-source avec 12 milliards de paramètres, bat Midjourney, Stable Diffusion 3 et Auraflow
Par Black Forest Labs, l'équipe de l'original Stable Diffusion

Le , par Jade Emy

85PARTAGES

5  0 
Black Forest Labs, l'équipe qui a développé l'original Stable Diffusion, présente Flux, une nouvelle IA générative texte-image open-source avec 12 milliards de paramètres. Lors de tests comparatifs, Black Forest Labs a confirmé que Flux bat les modèles Midjourney, Stable Diffusion 3 et Auraflow.

Un modèle texte-image est un modèle d'apprentissage automatique qui prend en entrée une description en langage naturel et produit une image correspondant à cette description. En 2022, les résultats des modèles texte-image de pointe, tels que DALL-E 2 d'OpenAI, Imagen de Google Brain, Stable Diffusion de Stability AI et Midjourney, ont commencé à être considérés comme approchant la qualité des photographies réelles et de l'art dessiné par l'homme.

Les modèles texte-image combinent généralement un modèle de langage, qui transforme le texte d'entrée en une représentation latente, et un modèle d'image génératif, qui produit une image conditionnée par cette représentation. Les modèles les plus efficaces ont généralement été entraînés sur des quantités massives d'images et de données textuelles récupérées sur le web.

Black Forest Labs, l'équipe qui a contribué au développement du modèle original Stable Diffusion, a lancé Flux, un modèle texte-image open-source. Avec un nombre impressionnant de 12 milliards de paramètres, Flux peut produire des images qui rivalisent avec celles de Midjourney, et peut-être même avec n'importe quel autre modèle actuellement disponible, qu'il soit à code source ouvert ou fermé.

Flux se décline en trois variantes : Flux Dev, qui est open-source avec une licence non commerciale pour le développement communautaire ; Flux Schnell, qui est une version plus rapide, distillée et fonctionnant jusqu'à dix fois plus vite, disponible sous une licence Apache 2 ; et le modèle haut de gamme, Flux Pro, qui est une version à source fermée disponible via une API.


Lors de tests comparatifs, Black Forest Labs affirme que ses modèles Flux ont établi de nouvelles normes en matière de synthèse d'images, surpassant des modèles tels que Midjourney v6.0, Dall-E 3 (HD) et Stable Diffusion 3 Ultra en termes de qualité visuelle, de suivi, de variabilité de la taille et de l'aspect, de typographie et de diversité des résultats. Les tableaux de Black Forest Labs affirment que ses modèles Pro et Dev sont les meilleurs générateurs d'images à ce jour, et que son modèle Schnell, moins puissant, se classe entre Midjourney v5 et Ideogram.

Les utilisateurs de petits GPU n'ont cependant pas de chance. Les modèles open-source pèsent environ 23 Go, ce qui signifie qu'il faudrait probablement près de 24 Go de VRAM pour les faire fonctionner jusqu'à ce qu'une version quantifiée soit publiée, si tant est qu'elle le soit un jour. Malgré tout, il semble que les utilisateurs de GPUS dotés de 6 et 8 Go de VRAM devront bientôt dire adieu au plaisir de tester de nouveaux modèles d'IA.

Cependant, Black Forest s'est associé à Fal AI, les développeurs du modèle open-source Auraflow, pour prendre en charge les générations sur le cloud. Les modèles peuvent également être testés gratuitement sur Replicate.com. Une fois que les utilisateurs ont atteint leur quota quotidien, il en coûte 1 $ pour générer 33 images avec Flux Pro ou 333 avec Flux Schell.

Il s'agit d'un meilleur rapport qualité-prix que Midjourney ou Ideogram. Le plan de base de Midjourney coûte 96 $ par an et permet aux utilisateurs de générer environ 200 images par mois, soit environ 25 images par dollar. Le plan de base d'Ideogram coûte 84 dollars par an et permet de générer jusqu'à 400 images par mois, soit 50 images par dollar.


Voici l'annonce de Black Forest Labs :

Aujourd'hui, nous sommes heureux d'annoncer le lancement de Black Forest Labs. Profondément ancrée dans la communauté de recherche en IA générative, notre mission est de développer et de faire progresser les modèles d'apprentissage génératif profond de pointe pour les médias tels que les images et les vidéos, et de repousser les limites de la créativité, de l'efficacité et de la diversité. Nous pensons que l'IA générative sera un élément fondamental de toutes les technologies futures. En mettant nos modèles à la disposition d'un large public, nous voulons en faire profiter tout le monde, éduquer le public et renforcer la confiance dans la sécurité de ces modèles. Nous sommes déterminés à construire la norme industrielle pour les médias génératifs. Aujourd'hui, comme première étape vers cet objectif, nous publions la suite de modèles FLUX.1 qui repousse les frontières de la synthèse texte-image.

L'équipe Black Forest

Nous sommes une équipe d'éminents chercheurs et ingénieurs en intelligence artificielle ayant une expérience exceptionnelle dans le développement de modèles d'intelligence artificielle générative dans des environnements académiques, industriels et open-source. Nos innovations incluent la création de VQGAN et Latent Diffusion, les modèles Stable Diffusion pour la génération d'images et de vidéos (Stable Diffusion XL, Stable Video Diffusion, Rectified Flow Transformers), et Adversarial Diffusion Distillation pour la synthèse d'images ultra-rapide et en temps réel.

Nous sommes convaincus que des modèles largement accessibles favorisent non seulement l'innovation et la collaboration au sein de la communauté des chercheurs et des universités, mais qu'ils augmentent également la transparence, ce qui est essentiel pour la confiance et l'adoption à grande échelle. Notre équipe s'efforce de développer des technologies de la plus haute qualité et de les rendre accessibles au plus grand nombre.

Financement

Nous sommes heureux d'annoncer la clôture réussie de notre série de financement d'amorçage de 31 millions de dollars. Ce tour de table a été mené par notre principal investisseur, Andreessen Horowitz, avec la participation notable des investisseurs providentiels Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila et Vladlen Koltun, ainsi que d'autres experts renommés dans la recherche sur l'IA et la création d'entreprises. Nous avons reçu des investissements de suivi de General Catalyst et de MätchVC pour nous soutenir dans notre mission qui consiste à mettre l'IA de pointe européenne à la portée de tous dans le monde entier.

En outre, nous avons le plaisir d'annoncer la composition de notre comité consultatif, qui comprend Michael Ovitz, fort de sa vaste expérience dans le secteur de la création de contenu, et le professeur Matthias Bethge, pionnier du transfert de style neuronal et expert de premier plan dans la recherche européenne ouverte en matière d'intelligence artificielle.

Voici les détails des modèles annoncés par Black Forest Labs :

Présentation de la famille de modèles FLUX.1

D'après Black Forest Labs, la famille de modèles texte-image FLUX.1 définit un nouvel état de l'art en matière de détails d'image, d'adhésion rapide, de diversité de style et de complexité de scène pour la synthèse texte-image. Afin de trouver un équilibre entre l'accessibilité et les capacités des modèles, FLUX.1 se décline en trois variantes : FLUX.1 [pro], FLUX.1 [dev] et FLUX.1 [schnell]

  • FLUX.1 [pro] : Le meilleur de FLUX.1, offrant une génération d'images à la pointe de la performance avec un suivi rapide, une qualité visuelle, des détails d'image et une diversité de sortie de premier ordre.
  • FLUX.1 [dev] : FLUX.1 [dev] est un modèle à poids ouvert, distillé avec des conseils pour des applications non commerciales. Directement dérivé de FLUX.1 [pro], FLUX.1 [dev] permet d'obtenir une qualité similaire et des capacités d'adhésion rapide, tout en étant plus efficace qu'un modèle standard de même taille.
  • FLUX.1 [schnell] : notre modèle le plus rapide est conçu pour le développement local et l'utilisation personnelle. FLUX.1 [schnell] est disponible sous une licence Apache2.0.



Modèles d'écoulement alimentés par transformateur à l'échelle

Tous les modèles publics FLUX.1 sont basés sur une architecture hybride de blocs de transformateurs de diffusion multimodaux et parallèles et mis à l'échelle de 12B paramètres. Black Forest Labs améliore les modèles de diffusion précédents en s'appuyant sur l'appariement des flux, une méthode générale et conceptuellement simple pour l'apprentissage de modèles génératifs, dont la diffusion...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !