Keyframer permet aux utilisateurs de générer du code d'animation CSS à partir d'une image SVG statique et d'une invite, offrant ainsi une approche itérative pour affiner les animations. Bien que soulignant les préoccupations liées à la perte de contrôle créatif, Keyframer vise à concilier l'incitation et l'édition pour rendre l'animation plus accessible à un large éventail de créateurs. Les implications de Keyframer vont au-delà de l'amélioration des outils d'animation, suggérant un changement culturel où l'IA devient une composante intégrante de l'expérience créative humaine, annonçant peut-être une nouvelle ère où les frontières entre le créateur et la création deviennent plus fluides grâce à l'intelligence artificielle.
Nouvelles strategies d'apple en intelligence artificielle avec samy bengio et le modele MGIE
Apple a embauché Samy Bengio, un éminent chercheur en IA qui travaillait auparavant chez Google. L’ancien scientifique distingué de Google n'est que le dernier en date d'une série d'éminents dirigeants et travailleurs de l'IA qu'Apple a recrutés chez Google. Ce dernier a quitté le géant de la recherche au milieu des troubles dans son département de recherche en intelligence artificielle. Bengio devrait diriger une nouvelle unité de recherche sur l'IA chez Apple sous la direction de John Giannandrea, vice-président senior de l'apprentissage automatique et de la stratégie d'IA. Giannandrea dirigeait auparavant le département d'IA chez Google avant de sauter le navire pour débuter chez Apple en 2018.
Apple utilise l'apprentissage automatique pour améliorer la qualité des photos prises avec l'iPhone, faire apparaître des suggestions de contenu et d'applications que les utilisateurs pourraient vouloir utiliser, alimenter les fonctions de recherche intelligente dans ses différentes offres logicielles, aider à la réjection de la paume de la main pour les utilisateurs qui écrivent avec l'accessoire Pencil de l'iPad, et bien plus encore.
Apple a également lancé discrètement une série d'outils d'apprentissage automatique gratuits, marquant un changement dans son approche traditionnellement conservatrice en matière d'IA. L'équipe de recherche sur l'apprentissage automatique a publié le framework MLX et la bibliothèque de modèles MLX Data, conçus pour fonctionner efficacement sur les puces Apple Silicon. Ces outils, inspirés par des frameworks tels que PyTorch et Jax, sont accessibles via des référentiels open-source comme GitHub et PyPI. Bien que faciles à utiliser, ils offrent une puissance suffisante pour entraîner des modèles d'IA avancés. Malgré l'accent sur l'apprentissage automatique, Apple évite toujours le terme "IA" dans ses présentations et semble se concentrer davantage sur des modèles fondamentaux pour ses services.
Il est crucial de noter que le déploiement de MLX sur Apple Silicon revêt une grande importance, étant donné que les processeurs d'Apple équipent désormais tous ses produits, y compris le Mac, l'iPhone et l'iPad. En exploitant le GPU, le CPU et éventuellement le moteur neuronal intégrés à ces puces, Apple pourrait permettre l'exécution sur l'appareil de modèles d'apprentissage automatique, préservant ainsi la vie privée, avec des performances inégalées par d'autres processeurs, notamment sur les appareils haut de gamme.
Apple semble s'efforcer de démocratiser l'apprentissage automatique en fournissant des outils puissants aux chercheurs, étendant cette initiative à l'ensemble de ses produits équipés d'Apple Silicon. Malgré les avancées notables de concurrents tels qu'OpenAI, il reste prématuré de juger si Apple est en retard dans la course à l'IA. La société met l'accent sur l'équipement des chercheurs avec des outils performants, visant à traduire ces efforts en solutions d'IA pratiques pour le grand public. Apple a dévoilé sa dernière innovation dans le domaine de l'édition d'images avec le lancement de MGIE, un modèle propulsé par l'intelligence artificielle.
MGIE, abréviation de "Machine Generated Image Enhancer", reflète l'engagement d'Apple à repenser l'approche de l'amélioration et de la manipulation d'images par les utilisateurs. Cette technologie de pointe en matière d'IA vise à offrir des fonctionnalités de retouche photo inégalées, promettant une expérience utilisateur fluide et intuitive. Apple cherche à fournir des outils puissants pour stimuler la créativité tout en garantissant la simplicité et l'efficacité du processus de retouche d'images avec MGIE. La sortie de ce modèle représente une avancée significative à la croisée de la technologie et de la manipulation de contenu visuel, consolidant la position d'Apple en tant que pionnier de l'innovation dans l'industrie technologique.
Le modèle, nommé MGIE, permet aux utilisateurs de modifier des images en se basant sur des instructions formulées en langage naturel. Cette technologie exploite des modèles de langage multimodaux à grande échelle (MLLM), fusionnant différentes sources d'informations telles que le texte, les photos et les vidéos, afin de comprendre et de générer un langage similaire à celui humain. Bien que des études antérieures aient démontré des résultats prometteurs dans la compréhension et la génération d'images via les MLLM, leur mise en œuvre à grande échelle n'avait pas encore été réalisée.
Le MGIE a été présenté lors de la Conférence Internationale sur les Représentations d'Apprentissage 2024. Il met en avant la manière dont le MGIE peut améliorer les mesures automatiques et les évaluations humaines, tout en maintenant une efficacité d'inférence compétitive. L'utilisation d'instructions pour la retouche d'images renforce le contrôle et la souplesse de la manipulation d'images, permettant des commandes naturelles sans avoir recours à des descriptions complexes ou à des masques régionaux. L'étude approfondie évalue divers aspects de la modification d'images, de l'approche similaire à Photoshop à l'optimisation globale de la photo et à la retouche locale, soulignant l'importance des instructions expressives dans cette méthode d'édition.
La conception d'animations simplifiée avec l'IA et les modèles multimodaux
Au cours des dernières années, des chercheurs ont élaboré des outils de conception basés sur les modèles de langage multimodaux (MLM) dans divers domaines, tels que la conception visuelle, l'écriture créative, et la modélisation 3D. L'utilisation d'extraits de langage descriptif offre le potentiel de réduire l'expertise technique nécessaire à la création d'artefacts de conception, offrant ainsi aux novices des opportunités pédagogiques pour améliorer leurs compétences en matière de conception. Cependant, bien que les stratégies d'incitation pour les générateurs de texte à image aient été largement étudiées dans des travaux antérieurs, la transférabilité de ces stratégies dans de nouveaux domaines reste incertaine, et des recherches sont nécessaires pour comprendre les besoins spécifiques à chaque domaine.
Dans ce document, nous appliquons les MLM à un domaine peu exploré, celui de la conception d'animations. L'utilisation des MLM dans ce contexte peut être particulièrement fructueuse, car la création d'animations nécessite une diversité de compétences techniques, allant de l'application des principes de conception des mouvements pour une communication visuelle convaincante à l'exécution et à la mise en œuvre d'animations codées dans la production (comme dans la publicité, les jeux et les interfaces utilisateur). Par conséquent, le travail d'animation implique souvent divers intervenants tels que des concepteurs de mouvements, des artistes techniques et des ingénieurs en logiciels.
Alors que les interfaces d'incitation à la prise de vue unique sont courantes dans les systèmes commerciaux de conversion du texte en images tels que Dall-E1 et Midjourney2, nous estimons que les animations exigent un ensemble plus complexe de considérations, telles que la synchronisation et la coordination, qui sont difficiles à spécifier de manière exhaustive dans une incitation unique. Dans ce contexte, nous avons combiné des principes de conception émergents pour la promotion linguistique d'objets de conception avec les capacités de génération de codes de LLM pour créer un nouvel outil d'animation alimenté par l'IA appelé Keyframer.
Avec Keyframer, les utilisateurs peuvent créer des illustrations animées à partir d'images statiques via des instructions en langage naturel. En utilisant GPT-4, Keyframer génère un code d'animation CSS pour animer un graphique vectoriel scalable (SVG) en entrée. Pour aider l'utilisateur à affiner les conceptions générées, Keyframer propose plusieurs types d'édition permettant de modifier directement les animations générées. De plus, les utilisateurs peuvent questionner leurs conceptions par le biais d'une incitation séquentielle et demander des variantes au MLL pour indiquer de nouvelles orientations en matière de conception. Grâce à ces fonctionnalités, Keyframer permet aux utilisateurs d'explorer et d'ajuster leurs objectifs de conception de manière itérative grâce à des actions combinées d'incitation et d'édition.
Keyframer représente un outil de prototypage d'animation impulsé par un modèle de langage multimodal (MLL), facilitant la génération d'animations à partir d'images statiques au format SVG. Les utilisateurs ont la possibilité d'itérer sur leur conception en ajoutant des éléments, tout en éditant les codes ou les propriétés d'animation CSS générés par le MLL. De plus, ils peuvent solliciter des variables de conception pour soutenir leur processus d'idéation et d'exploration. Bien que les grands modèles de langage (LLM) aient le potentiel d'influencer divers domaines créatifs, l'application des LLM à l'animation demeure peu explorée, introduisant de nouveaux défis, notamment en ce qui concerne la manière dont les utilisateurs peuvent décrire efficacement les émotions dans un langage naturel.
L'introduction de MLL comme ChatGPT4 a favorisé une augmentation sans précédent des efforts commerciaux et de recherche visant à explorer leur application dans les champs de conception. Muller et al. soutiennent que l'IA générative introduit de nouveaux défis dans le domaine de l'IHM « en raison de la nature imprévisible et incertaine de l'espace de conception », avec de nombreuses questions en suspens sur la manière de concevoir, d'utiliser les expériences qui peuvent faciliter efficacement le travail créatif. L'utilisation d'une entrée en langage naturel offre la possibilité d'abaisser la barrière d'accès à la pratique créative, tandis que les paradigmes d'interface de la cocréation avec l'IA sont proposés dans des domaines tels que la conception graphique, le développement de logiciels, l'informatique créative, l'UIdesign, l'écriture et la musique.
Un défi courant dans les outils d'IA générative basés sur le langage naturel est de développer des stratégies d'incitation efficaces pour diriger la sortie générée. Aujourd'hui, les magasins d'incitation nécessitent beaucoup d'essais et d'erreurs, avec un manque de contrôles significatifs pour les utilisateurs. Les efforts actuels visant à définir des stratégies d'incitation se concentrent en grande partie sur les générateurs de contexte à image qui tendent à employer des approches à une prise de vue, où le seul moyen pour l'utilisateur d'accéder à l'image est d'éviter l'incitation textuelle (bien que les chercheurs explorent également l'entrée multimodale avec des images et des interfaces de peinture pour vérifier des régions sélectionnées.
Plusieurs taxonomies de suggestions ont été proposées, avec des communautés d'art génératif utilisant des modificateurs spécifiant le style artistique (par exemple, "cubisme" et la qualité (par exemple, "lauréat d'un prix", ainsi qu'avec des communautés d'art génératif utilisant des modificateurs spécifiant le style artistique (par exemple, "cubisme" et la qualité (par exemple, "lauréat d'un prix", De même, Chiouetal distingue entre les mots-clés "opérationnels" qui spécifient des référentiels concrets et les mots-clés "conceptuels" utilisant des modificateurs abstraits qui sont plus susceptibles de conduire à des résultats inattendus.
Les recherches émergentes sur les graphiques vectoriels évolutifs (SVG) générés par la MLL suggèrent une voie prometteuse vers la combinaison d'ensembles de haute qualité créés par des concepteurs pour un style visuel cohérent. Les premiers travaux sur l'application de LLM à la création de contenus animés ont apparu dans le cadre d'une aide à la création pour p5js5 et d'une génération de vidéos avec des outils comme RunwayML6.
Toutefois, les recherches explorant l'IA générative pour la création d'animations à partir d'ensembles d'images existants ont été peu explorées ; ce processus est le plus étroitement aligné sur les pratiques professionnelles actuelles, dans lesquelles les animations sont créées à partir d'ensembles créés par des concepteurs visuels. Des recherches sont nécessaires pour déterminer si les animations peuvent nécessiter d'autres stratégies d'incitation, comparées à la génération d'images par le texte, ou pour déterminer dans quelle mesure les LML peuvent être plus efficaces que la génération d'animations tout court.
Les générateurs d'images commerciaux tels que Dall-E7 et Midjourney8 présentent souvent aux utilisateurs une sortie visuelle polie avec seulement une poignée de mots-clés ; cependant, cela peut conduire les utilisateurs à s'engager dans une direction unique de conception avant d'explorer pleinement les alternatives.
Présenter aux utilisateurs plusieurs options s'est avéré utile pour les aider à surmonter les blocages créatifs dans leur processus, à s'exprimer comme et à vérifier la qualité de la production générée. Dans le contexte de la génération de codes, d'autres travaux connexes ont établi une distinction similaire entre deux cas de figure pour les MLL : le soutien à l'"exploration", lorsque l'utilisateur n'est pas sûr de ce qu'il veut créer pour l'instant, et l'"accélération", lorsque la tâche est bien définie et que l'utilisateur souhaite que le MLL l'aide à trouver une solution plus rapidement.
Dans ce travail, nous nous intéressons à la manière dont la suggestion d'animations peut se comparer à la littérature existante sur la suggestion dans des domaines tels que la génération d'images et la prose. En outre, nous examinons comment l'intégration des variantes de conception peut aider à soutenir les processus d'adaptation et, en fin de compte, à promouvoir l'adaptation de la conception.
Exploration des modèles de langage multimodaux (MLM)
Au cours des dernières années, des chercheurs ont élaboré des outils de conception basés sur les modèles de langage multimodaux (MLM) dans divers domaines, tels que la conception visuelle, l'écriture créative, et la modélisation 3D. L'utilisation d'extraits de langage descriptif offre le potentiel de réduire l'expertise technique nécessaire à la création d'artefacts de conception, offrant ainsi aux novices des opportunités pédagogiques pour améliorer leurs compétences en matière de conception. Cependant, bien que les stratégies d'incitation pour les générateurs de texte à image aient été largement étudiées dans des travaux antérieurs, la transférabilité de ces stratégies dans de nouveaux domaines reste incertaine, et des recherches sont nécessaires pour comprendre les besoins spécifiques à chaque domaine.
Dans ce document, nous appliquons les MLM à un domaine peu exploré, celui de la conception d'animations. L'utilisation des MLM dans ce contexte peut être particulièrement fructueuse, car la création d'animations nécessite une diversité de compétences techniques, allant de l'application des principes de conception des mouvements pour une communication visuelle convaincante à l'exécution et à la mise en œuvre d'animations codées dans la production (comme dans la publicité, les jeux et les interfaces utilisateur). Par conséquent, le travail d'animation implique souvent divers intervenants tels que des concepteurs de mouvements, des artistes techniques et des ingénieurs en logiciels.
Alors que les interfaces d'incitation à la prise de vue unique sont courantes dans les systèmes commerciaux de conversion du texte en images tels que Dall-E1 et Midjourney2, nous estimons que les animations exigent un ensemble plus complexe de considérations, telles que la synchronisation et la coordination, qui sont difficiles à spécifier de manière exhaustive dans une incitation unique. Dans ce contexte, Apple a combiné des principes de conception émergents pour la promotion linguistique d'objets de conception avec les capacités de génération de codes de LLM pour créer le nouvel outil d'animation alimenté par l'IA appelé Keyframer.
Avec Keyframer, les utilisateurs peuvent créer des illustrations animées à partir d'images statiques via des instructions en langage naturel. En utilisant GPT-4, Keyframer génère un code d'animation CSS pour animer un graphique vectoriel scalable (SVG) en entrée. Pour aider l'utilisateur à affiner les conceptions générées, Keyframer propose plusieurs types d'édition permettant de modifier directement les animations générées. De plus, les utilisateurs peuvent questionner leurs conceptions par le biais d'une incitation séquentielle et demander des variantes au MLL pour indiquer de nouvelles orientations en matière de conception. Grâce à ces fonctionnalités, Keyframer permet aux utilisateurs d'explorer et d'ajuster leurs objectifs de conception de manière itérative grâce à des actions combinées d'incitation et d'édition.
Apple accélère ses initiatives en intelligence artificielle pour rattraper son retard
Apple prend des mesures significatives pour combler son retard dans le domaine de l'intelligence artificielle en mettant en place une équipe de recherche renforcée, comprenant le chercheur de renom Samy Bengio, anciennement chez Google. Bengio dirige une nouvelle unité de recherche sur l'IA, supervisée par John Giannandrea, vice-président senior de l'apprentissage automatique et de la stratégie d'IA chez Apple.
La société californienne, bien que tardive dans l'adoption de l'IA sur l'iPhone, a entrepris des efforts considérables pour protéger la vie privée des utilisateurs. Inspirée par le concept universitaire de "confidentialité différentielle", Apple applique cette approche aux applications d'IA sur l'iPhone. La confidentialité différentielle implique l'ajout délibéré de bruit ou de mauvaises informations aux données afin de préserver la confidentialité des utilisateurs. Par exemple, pour organiser des photos d'animaux de compagnie, Apple collecte et chiffre les données, les brouillant avec d'autres informations pour garantir une protection optimale de la vie privée. Bien que cette approche puisse avoir ralenti le processus de conception de produits, elle renforce la confiance des consommateurs.
Apple vise également à rattraper son retard en fournissant des outils puissants aux chercheurs, dont le framework MLX, la bibliothèque de modèles MLX Data, et le modèle MGIE alimenté par l'IA. Ces avancées témoignent de l'équilibre délicat d'Apple entre les progrès en IA et son engagement envers la vie privée, soulignant son engagement à offrir des solutions innovantes tout en préservant la confidentialité des utilisateurs.
Source : Vidéo
Et vous ?
Quel est votre avis sur le sujet ?
Comment Apple pourra-t-elle concilier le développement de Keyframer avec son engagement envers la protection de la vie privée, étant donné que la retouche le travail sur l'IA implique souvent la manipulation de données sensibles ?
Voir aussi :
Apple vient de lancer discrètement une série de nouveaux outils d'apprentissage automatique, une révolution silencieuse ou un coup de marketing ?
Un responsable de l'IA de Google est passé chez Apple, suite au licenciement de ses collègues, il travaillera sous la direction de John Giannandrea, qui a également quitté Google pour Apple
Apple lance MGIE, un modèle de retouche d'images basé sur l'IA, cherchant à rattraper son retard dans un secteur où ses efforts compromettent la confidentialité, valeur clé de sa culture d'entreprise