Les chercheurs d'Apple ont présenté "Keyframer", un nouvel outil d'intelligence artificielle (IA) qui utilise de grands modèles de langage (LLM) pour animer des images statiques à partir d'invites en langage naturel. Ce développement marque une avancée significative dans l'intégration de l'IA dans le processus créatif et pourrait anticiper des fonctionnalités pour les futurs produits Apple tels que l'iPad Pro et le Vision Pro. Le document de recherche, intitulé « Keyframer : Empowering Animation Design using Large Language Models », explore l'application des LLM à l'animation, soulignant les défis de décrire efficacement le mouvement en langage naturel. Keyframer permet aux utilisateurs de générer du code d'animation CSS à partir d'une image SVG statique et d'une invite, offrant ainsi une approche itérative pour affiner les animations. Bien que soulignant les préoccupations liées à la perte de contrôle créatif, Keyframer vise à concilier l'incitation et l'édition pour rendre l'animation plus accessible à un large éventail de créateurs. Les implications de Keyframer vont au-delà de l'amélioration des outils d'animation, suggérant un changement culturel où l'IA devient une composante intégrante de l'expérience créative humaine, annonçant peut-être une nouvelle ère où les frontières entre le créateur et la création deviennent plus fluides grâce à l'intelligence artificielle.
Nouvelles strategies d'apple en intelligence artificielle avec samy bengio et le modele MGIE
Apple a embauché Samy Bengio, un éminent chercheur en IA qui travaillait auparavant chez Google. L’ancien scientifique distingué de Google n'est que le dernier en date d'une série d'éminents dirigeants et travailleurs de l'IA qu'Apple a recrutés chez Google. Ce dernier a quitté le géant de la recherche au milieu des troubles dans son département de recherche en intelligence artificielle. Bengio devrait diriger une nouvelle unité de recherche sur l'IA chez Apple sous la direction de John Giannandrea, vice-président senior de l'apprentissage automatique et de la stratégie d'IA. Giannandrea dirigeait auparavant le département d'IA chez Google avant de sauter le navire pour débuter chez Apple en 2018.
Apple utilise l'apprentissage automatique pour améliorer la qualité des photos prises avec l'iPhone, faire apparaître des suggestions de contenu et d'applications que les utilisateurs pourraient vouloir utiliser, alimenter les fonctions de recherche intelligente dans ses différentes offres logicielles, aider à la réjection de la paume de la main pour les utilisateurs qui écrivent avec l'accessoire Pencil de l'iPad, et bien plus encore.
Apple a également lancé discrètement une série d'outils d'apprentissage automatique gratuits, marquant un changement dans son approche traditionnellement conservatrice en matière d'IA. L'équipe de recherche sur l'apprentissage automatique a publié le framework MLX et la bibliothèque de modèles MLX Data, conçus pour fonctionner efficacement sur les puces Apple Silicon. Ces outils, inspirés par des frameworks tels que PyTorch et Jax, sont accessibles via des référentiels open-source comme GitHub et PyPI. Bien que faciles à utiliser, ils offrent une puissance suffisante pour entraîner des modèles d'IA avancés. Malgré l'accent sur l'apprentissage automatique, Apple évite toujours le terme "IA" dans ses présentations et semble se concentrer davantage sur des modèles fondamentaux pour ses services.
Il est crucial de noter que le déploiement de MLX sur Apple Silicon revêt une grande importance, étant donné que les processeurs d'Apple équipent désormais tous ses produits, y compris le Mac, l'iPhone et l'iPad. En exploitant le GPU, le CPU et éventuellement le moteur neuronal intégrés à ces puces, Apple pourrait permettre l'exécution sur l'appareil de modèles d'apprentissage automatique, préservant ainsi la vie privée, avec des performances inégalées par d'autres processeurs, notamment sur les appareils haut de gamme.
Apple semble s'efforcer de démocratiser l'apprentissage automatique en fournissant des outils puissants aux chercheurs, étendant cette initiative à l'ensemble de ses produits équipés d'Apple Silicon. Malgré les avancées notables de concurrents tels qu'OpenAI, il reste prématuré de juger si Apple est en retard dans la course à l'IA. La société met l'accent sur l'équipement des chercheurs avec des outils performants, visant à traduire ces efforts en solutions d'IA pratiques pour le grand public. Apple a dévoilé sa dernière innovation dans le domaine de l'édition d'images avec le lancement de MGIE, un modèle propulsé par l'intelligence artificielle.
MGIE, abréviation de "Machine Generated Image Enhancer", reflète l'engagement d'Apple à repenser l'approche de l'amélioration et de la manipulation d'images par les utilisateurs. Cette technologie de pointe en matière d'IA vise à offrir des fonctionnalités de retouche photo inégalées, promettant une expérience utilisateur fluide et intuitive. Apple cherche à fournir des outils puissants pour stimuler la créativité tout en garantissant la simplicité et l'efficacité du processus de retouche d'images avec MGIE. La sortie de ce modèle représente une avancée significative à la croisée de la technologie et de la manipulation de contenu visuel, consolidant la position d'Apple en tant que pionnier de l'innovation dans l'industrie technologique.
Le modèle, nommé MGIE, permet aux utilisateurs de modifier des images en se basant sur des instructions formulées en langage naturel. Cette technologie exploite des modèles de langage multimodaux à grande échelle (MLLM), fusionnant différentes sources d'informations telles que le texte, les photos et les vidéos, afin de comprendre et de générer un langage similaire à celui humain. Bien que des études antérieures aient démontré des résultats prometteurs dans la compréhension et la génération d'images via les MLLM, leur mise en œuvre à grande échelle n'avait pas encore été réalisée.
Le MGIE a été présenté lors de la Conférence Internationale sur les Représentations d'Apprentissage 2024. Il met en avant la manière dont le MGIE peut améliorer les mesures automatiques et les évaluations humaines, tout en maintenant une efficacité d'inférence compétitive. L'utilisation d'instructions pour la retouche d'images renforce le contrôle et la souplesse de la manipulation d'images, permettant des commandes naturelles sans avoir recours à des descriptions complexes ou à des masques régionaux. L'étude approfondie évalue divers aspects de la modification d'images, de l'approche similaire à Photoshop à l'optimisation globale de la photo et à la retouche locale, soulignant l'importance des instructions expressives dans cette méthode d'édition.
La conception d'animations simplifiée avec l'IA et les modèles multimodaux
Au cours des dernières années, des chercheurs ont élaboré des outils de conception basés sur les modèles de langage multimodaux (MLM) dans divers domaines, tels que la conception visuelle, l'écriture créative, et la modélisation 3D. L'utilisation d'extraits de langage descriptif offre le potentiel de réduire l'expertise technique nécessaire à la création d'artefacts de conception, offrant ainsi aux novices des opportunités pédagogiques pour améliorer leurs compétences en matière de conception. Cependant, bien que les stratégies d'incitation pour les générateurs de texte à image aient été largement étudiées dans des travaux antérieurs, la transférabilité de ces stratégies dans de nouveaux domaines reste incertaine, et des recherches sont nécessaires pour comprendre les besoins spécifiques à chaque domaine.
Dans ce document, nous appliquons les MLM à un domaine peu exploré, celui de la conception d'animations. L'utilisation des MLM dans ce contexte peut être particulièrement fructueuse, car la création d'animations nécessite une diversité de compétences techniques, allant de l'application des principes de conception des mouvements pour une communication visuelle convaincante à l'exécution et à la mise en œuvre d'animations codées dans la production (comme dans la publicité, les jeux et les interfaces utilisateur). Par conséquent, le travail d'animation implique souvent divers intervenants...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.