Le modèle, baptisé MGIE permet aux utilisateurs de modifier des images en se basant sur des instructions formulées en langage naturel. Cette technologie exploite des modèles de langage multimodaux à grande échelle (MLLM), fusionnant différentes sources d'informations telles que le texte, les photos et les vidéos, afin de comprendre et de générer un langage similaire à celui humain. Bien que des études antérieures aient démontré des résultats prometteurs dans la compréhension et la génération d'images via les MLLM, leur mise en œuvre à grande échelle n'avait pas encore été réalisée.
Le MGIE a été dévoilé lors de la Conférence Internationale sur les Représentations d'Apprentissage 2024. Il met en lumière la manière dont le MGIE peut améliorer les mesures automatiques et les évaluations humaines, tout en maintenant une efficacité d'inférence compétitive. L'utilisation d'instructions pour la retouche d'images renforce le contrôle et la souplesse de la manipulation d'images, en permettant des commandes naturelles sans avoir recours à des descriptions complexes ou à des masques régionaux. L'étude approfondie évalue divers aspects de la modification d'images, de l'approche similaire à Photoshop à l'optimisation globale de la photo et à la retouche locale, soulignant l'importance des instructions expressives dans cette méthode d'édition.
Aperçu de l'édition d'images guidée par le MLLM (MGIE), qui utilise le MLLM pour améliorer l'édition d'images basée sur des instructions. MGIE apprend à coder des instructions expressives concises et fournit des conseils explicites liés à la vision pour atteindre l'objectif visé. Le modèle de diffusion forme conjointement et apprend l'édition d'images avec l'imagination latente qu'il a suscitée de front et de manière tendue et montrent que le module est respectivement entraînable et gelé.
Apple travaille en coulisses sur ses fonctions assistées par l'IA depuis un certain temps déjà. En janvier, un code dans la version bêta 17.4 d'iOS a suggéré qu'Apple travaillait sur une nouvelle version de Siri alimentée par l'IA. Apple a lancé en fin d'année dernière une série d'outils d'apprentissage automatique gratuits, marquant un changement dans son approche traditionnellement conservatrice en matière d'IA. L'équipe de recherche sur l'apprentissage automatique a publié le framework MLX et la bibliothèque de modèles MLX Data, conçus pour fonctionner efficacement sur les puces Apple Silicon. Ces outils, inspirés par des frameworks tels que PyTorch et Jax, sont accessibles via des référentiels open-source comme GitHub et PyPI. Bien que faciles à utiliser, ils offrent une puissance suffisante pour entraîner des modèles d'IA avancés. Malgré l'accent sur l'apprentissage automatique, Apple évite toujours le terme "IA" dans ses présentations et semble se concentrer davantage sur des modèles fondamentaux pour ses services.
Le fait que MLX soit installé sur Apple Silicon est également important, étant donné que les processeurs d'Apple sont désormais présents dans tous ses produits, y compris le Mac, l'iPhone et l'iPad. L'utilisation du GPU, du CPU et, éventuellement, du moteur neuronal sur ces puces pourrait se traduire par l'exécution sur l'appareil de modèles de ML (pour la protection de la vie privée) avec des performances que d'autres processeurs ne peuvent pas égaler, du moins en ce qui concerne les appareils de pointe.
L'action Apple a été malmenée ces derniers temps, en partie parce que les analystes ont clamé haut et fort que la société était en retard sur Meta, Google et Microsoft en matière de mise en œuvre de l'IA générative. On ne comprend pas très bien pourquoi ce n'était pas un problème quand il ne s'agissait pas d'abord d'un téléphone portable, d'une tablette, d'une smartwatch ou d'un casque VR, mais que c'est le cas avec l'IA générative.
Peut-être pour dissuader ces analystes, le PDG d'Apple, Tim Cook, a récemment déclaré qu'Apple consacrait « énormément de temps et d'efforts » aux fonctions d'IA qui seront annoncées dans les mois à venir. Il a également indiqué qu'Apple travaillait en interne sur l'IA générative.
Les nouvelles armes d'Apple dans la course a l'IA
Apple utilise l'apprentissage automatique pour améliorer la qualité des photos prises avec l'iPhone, suggérer du contenu et des applications pertinents aux utilisateurs, alimenter les fonctionnalités de recherche intelligente dans ses divers logiciels, faciliter la détection de la paume de la main pour les utilisateurs de l'accessoire Pencil de l'iPad, et bien d'autres applications encore.
La stratégie d'Apple semble viser à rendre l'apprentissage automatique plus accessible en fournissant des outils performants aux chercheurs sur l'ensemble de ses produits équipés d'Apple Silicon. Bien que des concurrents tels qu'OpenAI aient également réalisé des progrès, il est encore trop tôt pour conclure si Apple est en retard dans la course à l'IA. La société se concentre actuellement sur l'équipement des chercheurs avec des outils puissants et aspire à traduire ces avancées en solutions d'IA pratiques pour le grand public.
L'initiative d'Apple de lancer discrètement des outils d'apprentissage automatique gratuits, notamment le framework MLX et la bibliothèque de modèles MLX Data, représente un changement significatif dans sa stratégie d'IA. Cette approche témoigne d'une ouverture accrue envers la communauté des développeurs et d'une volonté de partager des ressources qui étaient auparavant plus restreintes. La conception de ces outils, inspirée par des frameworks bien établis comme PyTorch et Jax, reflète une approche pragmatique qui capitalise sur des solutions éprouvées.
La disponibilité via des référentiels open-source tels que GitHub et PyPI représente une décision judicieuse, facilitant l'adoption et la collaboration au sein de la communauté. La compatibilité avec les puces Apple Silicon souligne l'engagement envers l'optimisation matérielle, offrant potentiellement des performances améliorées sur l'ensemble des produits de la marque.
Cependant, le choix délibéré d'éviter le terme "IA" dans les présentations d'Apple peut être interprété de différentes manières. D'un côté, cela pourrait refléter une stratégie visant à se distancer des connotations parfois alarmistes associées à l'intelligence artificielle. D'un autre côté, cela pourrait être perçu comme une hésitation à s'engager pleinement dans le discours sur l'IA, soulevant ainsi des questions sur la vision globale d'Apple dans ce domaine.
Apple peine à devenir une puissance en matière d'intelligence artificielle
Apple peine à s'imposer dans le secteur de l'IA. Les défis incluent la collecte de données, en contradiction avec la protection de la vie privée d'Apple, et la réticence à partager des résultats de recherche, nuisant au recrutement de talents. Les annonces récentes, axées sur l'apprentissage automatique, démontrent les efforts d'Apple pour se positionner dans l'IA, mais la concurrence et les enjeux culturels posent des défis importants. Apple cherche à diversifier son portefeuille face au ralentissement des ventes d'iPhone, mais le chemin vers le leadership en IA semble complexe.
La programmation de l'IA exige un niveau de collecte et d'exploitation des données qui va à l'encontre de l'approche rigoureuse d'Apple en matière de protection de la vie privée, ainsi que de son positionnement en tant qu'entreprise qui n'établit pas de profil des consommateurs. En outre, le penchant d'Apple pour le secret a rendu l'entreprise moins attrayante aux yeux des recrues vedettes potentielles, qui proviennent des meilleurs départements d'informatique du monde et sont attirées par les entreprises qui publient les résultats de leurs recherches.
« L'intelligence artificielle n'est pas dans l'ADN d'Apple », a déclaré Gene Munster, investisseur en capital-risque et analyste d'Apple. « Ils comprennent qu'à l'avenir, toutes les entreprises deviendront des entreprises d'intelligence artificielle, et ils se trouvent dans une situation particulièrement difficile. » Lors d’une conférence annuelle des développeurs d'Apple, les efforts de l'entreprise pour devenir une puissance de l'IA ont été mis en évidence lorsque les dirigeants ont lancé un nouveau haut-parleur intelligent autonome et ont vanté les mérites de fonctionnalités destinées à renforcer les capacités de Siri et à alimenter les applications d'IA sur les produits Apple.
« L'apprentissage automatique (machine learning) - un terme à la mode dans le domaine de l'IA qui décrit une forme d'analyse de données informatiques et de modélisation statistique ultra-rapide et complexe - a été répété tout au long de la présentation durant deux demi-heures, faite devant un public d'environ 6 000 développeurs. Siri utilisera l'apprentissage automatique pour prédire l'heure d'un trajet matinal, ou pour analyser les actualités sur les voyages pendant que vous les lisez sur le navigateur Safari de l'entreprise et suggérer ensuite des activités connexes, telles que la réservation d'un billet.
Elle utilisera l'apprentissage automatique pour parler avec vous et vous aider à trier votre musique grâce à un nouvel appareil domotique à 349 dollars, le HomePod. Elle organisera automatiquement vos photos dans des albums, comme « 2e anniversaire », sans que vous lui donniez le moindre contexte sur les photos. Il y avait même un nouveau kit d'outils logiciels, Core ML, qui permettra de traiter plus rapidement de grandes quantités de données collectées lors d'applications d'apprentissage automatique. (Il est six fois plus rapide que le processeur d'intelligence artificielle concurrent de Google, a déclaré un dirigeant).
Selon certains analystes, Apple se retrouve dans une position désavantageuse, car elle tente de prendre la tête dans un domaine où elle a pris du retard et où cet effort va à l'encontre des aspects fondamentaux de la culture du secret de l'entreprise.
« Il s'agit d'un changement important pour Apple », a déclaré Daniel Gross, un ancien cadre d'Apple qui s'est concentré sur l'intelligence artificielle. « En interne, l'accent est mis sur la construction de produits de qualité, et non sur la publication d'articles. » Des années après le lancement de l'iPhone, Apple est à la recherche d'un autre produit à succès susceptible de le remplacer. Les ventes de l'iPhone ont propulsé Apple au rang d'entreprise la plus précieuse au monde.
L'équilibre délicat d'Apple entre avancées en IA et engagement envers la vie privée
Aujourd'hui, Apple s'efforce de rattraper son retard. En 2021, Apple a engagé Samy Bengio, un chercheur de renom en intelligence artificielle qui occupait auparavant un poste chez Google. Il s'agissait du dernier ajout à une série de dirigeants et d'experts éminents en IA en provenance de Google que la société californienne a attirés. Bengio avait quitté le géant de la recherche au milieu de turbulences dans son département de recherche en intelligence artificielle.
L'ancien chercheur émérite de Google a été nommé à la tête d'une nouvelle unité de recherche sur l'IA chez Apple, sous la direction de John Giannandrea, vice-président senior de l'apprentissage automatique et de la stratégie d'IA. Giannandrea avait précédemment dirigé le département d'IA chez Google avant de rejoindre Apple en 2018.
Alors qu'Apple commençait à adopter l'intelligence artificielle sur l'iPhone, la société a entrepris un vaste projet de protection de la vie privée. Ce projet s'est inspiré d'un concept universitaire appelé « confidentialité différentielle » et l'a appliqué aux applications d'intelligence artificielle sur l'iPhone. La protection différentielle de la vie privée consiste à insérer du bruit - ou de mauvaises informations - dans de bonnes données afin d'embrouiller les personnes extérieures qui essaieraient de se concentrer sur les dossiers d'un individu. Par exemple, pour que le logiciel Apple puisse regrouper les photos de votre chien dans un seul album, il doit collecter de nombreuses photos de vos chiens.
Apple collecte ces images, mais pas avant d'avoir chiffré les données qu'elles contiennent et de les avoir brouillées avec d'autres données, de sorte que si quelqu'un essayait de récupérer l'ensemble des données d'origine, il ne pourrait pas savoir ce qui est lié à un seul utilisateur, affirme l'entreprise. Cette technique est considérée comme une meilleure protection de la vie privée que d'autres méthodes, telles que l'utilisation de formules mathématiques pour rendre les profils d'utilisateurs anonymes.
L'importance accordée par Apple à la protection de la vie privée a peut-être ralenti l'entreprise dans la conception de certains produits, a déclaré Gross, mais la confiance des consommateurs en serait la contrepartie. « Apple s'imprègne d'un élément supplémentaire de science très dure et le fait pour essayer de préserver votre vie privée », a-t-il déclaré. « Je pense que Google et Facebook devront répondre à un monde où un produit similaire offert préserve mieux la vie privée. »
Source : Apple (1, 2)
Et vous ?
Quel est votre avis sur le sujet ?
Comment Apple pourra-t-elle concilier le développement de MGIE avec son engagement envers la protection de la vie privée, étant donné que la retouche d'images basée sur l'IA implique souvent la manipulation de données sensibles ?
Voir aussi :
Apple vient de lancer discrètement une série de nouveaux outils d'apprentissage automatique, une révolution silencieuse ou un coup de marketing ?
Un responsable de l'IA de Google est passé chez Apple, suite au licenciement de ses collègues, il travaillera sous la direction de John Giannandrea, qui a également quitté Google pour Apple