Apple a récemment présenté sa dernière avancée dans le domaine de l'édition d'images avec le lancement de MGIE, un modèle alimenté par l'intelligence artificielle. MGIE, acronyme de "Machine Generated Image Enhancer", illustre l'engagement d'Apple à réinventer l'approche de l'amélioration et de la manipulation d'images par les utilisateurs. Ce modèle d'IA de pointe vise à offrir des fonctionnalités inégalées en matière de retouche photo, en promettant une expérience utilisateur fluide et intuitive. Apple aspire à fournir des outils puissants pour stimuler la créativité tout en garantissant la simplicité et l'efficacité du processus de retouche d'images avec MGIE. La sortie de ce modèle marque une avancée significative à l'intersection de la technologie et de la manipulation de contenu visuel, consolidant la position d'Apple en tant que pionnier de l'innovation dans l'industrie technologique.Le modèle, baptisé MGIE permet aux utilisateurs de modifier des images en se basant sur des instructions formulées en langage naturel. Cette technologie exploite des modèles de langage multimodaux à grande échelle (MLLM), fusionnant différentes sources d'informations telles que le texte, les photos et les vidéos, afin de comprendre et de générer un langage similaire à celui humain. Bien que des études antérieures aient démontré des résultats prometteurs dans la compréhension et la génération d'images via les MLLM, leur mise en œuvre à grande échelle n'avait pas encore été réalisée.
Le MGIE a été dévoilé lors de la Conférence Internationale sur les Représentations d'Apprentissage 2024. Il met en lumière la manière dont le MGIE peut améliorer les mesures automatiques et les évaluations humaines, tout en maintenant une efficacité d'inférence compétitive. L'utilisation d'instructions pour la retouche d'images renforce le contrôle et la souplesse de la manipulation d'images, en permettant des commandes naturelles sans avoir recours à des descriptions complexes ou à des masques régionaux. L'étude approfondie évalue divers aspects de la modification d'images, de l'approche similaire à Photoshop à l'optimisation globale de la photo et à la retouche locale, soulignant l'importance des instructions expressives dans cette méthode d'édition.
Aperçu de l'édition d'images guidée par le MLLM (MGIE), qui utilise le MLLM pour améliorer l'édition d'images basée sur des instructions. MGIE apprend à coder des instructions expressives concises et fournit des conseils explicites liés à la vision pour atteindre l'objectif visé. Le modèle de diffusion forme conjointement et apprend l'édition d'images avec l'imagination latente qu'il a suscitée de front et de manière tendue et montrent que le module est respectivement entraînable et gelé.
Apple travaille en coulisses sur ses fonctions assistées par l'IA depuis un certain temps déjà. En janvier, un code dans la version bêta 17.4 d'iOS a suggéré qu'Apple travaillait sur une nouvelle version de Siri alimentée par l'IA. Apple a lancé en fin d'année dernière une série d'outils d'apprentissage automatique gratuits, marquant un changement dans son approche traditionnellement conservatrice en matière d'IA. L'équipe de recherche sur l'apprentissage automatique a publié le framework MLX et la bibliothèque de modèles MLX Data, conçus pour fonctionner efficacement sur les puces Apple Silicon. Ces outils, inspirés par des frameworks tels que PyTorch et Jax, sont accessibles via des référentiels open-source comme GitHub et PyPI. Bien que faciles à utiliser, ils offrent une puissance suffisante pour entraîner des modèles d'IA avancés. Malgré l'accent sur l'apprentissage automatique, Apple évite toujours le terme "IA" dans ses présentations et semble se concentrer davantage sur des modèles fondamentaux pour ses services.
Le fait que MLX soit installé sur Apple Silicon est également important, étant donné que les processeurs d'Apple sont désormais présents dans tous ses produits, y compris le Mac, l'iPhone et l'iPad. L'utilisation du GPU, du CPU et, éventuellement, du moteur neuronal sur ces puces pourrait se traduire par l'exécution sur l'appareil de modèles de ML (pour la protection de la vie privée) avec des performances que d'autres processeurs ne peuvent pas égaler, du moins en ce qui concerne les appareils de pointe.
L'action Apple a été malmenée ces derniers temps, en partie parce que les analystes ont clamé haut et fort que la société était en retard sur Meta, Google et Microsoft en matière de mise en œuvre de l'IA générative. On ne comprend pas très bien pourquoi ce n'était pas un problème quand il ne s'agissait pas d'abord d'un téléphone portable, d'une tablette, d'une smartwatch ou d'un casque VR, mais que c'est le cas avec l'IA générative.
Peut-être pour dissuader ces analystes, le PDG d'Apple, Tim Cook, a récemment déclaré qu'Apple consacrait « énormément de temps et d'efforts » aux fonctions d'IA qui seront annoncées dans les mois à venir. Il a également indiqué qu'Apple travaillait en interne sur l'IA générative.
Les nouvelles armes d'Apple dans la course a l'IA
Apple utilise l'apprentissage automatique pour améliorer la qualité des photos prises avec l'iPhone, suggérer du contenu et des applications pertinents aux utilisateurs, alimenter les fonctionnalités de recherche intelligente dans ses divers logiciels, faciliter la détection de la paume de la main pour les utilisateurs de l'accessoire Pencil de l'iPad, et bien d'autres applications encore.
La stratégie d'Apple semble viser à rendre l'apprentissage automatique plus accessible en fournissant des outils performants aux chercheurs sur l'ensemble de ses produits équipés d'Apple Silicon. Bien que des concurrents tels qu'OpenAI aient également réalisé des progrès, il est encore trop tôt pour conclure si Apple est en retard dans la course à l'IA. La société se concentre actuellement sur l'équipement des chercheurs avec des outils puissants et aspire à traduire ces avancées en solutions d'IA pratiques pour le grand public.
L'initiative d'Apple de lancer discrètement des outils d...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.