Le moins que l'on puisse dire, c'est que l'avancée d'Apple en matière d'IA a été lente, surtout si on la compare aux développements rapides qui ont lieu chez ses concurrents, à savoir Microsoft et Google. Alors que Samsung, Google et même Nothing proposent une pléthore de fonctions d'IA sur leurs appareils respectifs, les iPhones sont restés à l'écart, Apple devant rattraper son retard dans la course à l'IA. Toutefois, Apple s'efforce activement de progresser et a récemment discuté avec des sociétés comme Google et OpenAI d'un éventuel accord qui permettrait d'utiliser leurs modèles d'IA sur les iPhones, mais cet accord est encore en cours d'élaboration.
Apple publie quatre modèles d'IA en code source libre
Il y a huit modèles OpenELM au total - quatre pré-entraînés et quatre adaptés aux instructions - couvrant différentes tailles de paramètres entre 270 millions et 3 milliards de paramètres (se référant aux connexions entre les neurones artificiels dans un LLM, et plus de paramètres dénotent généralement une plus grande performance et plus de capacités, bien que ce ne soit pas toujours le cas).
Si le préapprentissage permet à un LLM de produire un texte cohérent et potentiellement utile, il s'agit principalement d'un exercice prédictif, tandis que le réglage des instructions permet d'obtenir des résultats plus pertinents en réponse à des demandes spécifiques d'un utilisateur. Le préapprentissage peut avoir pour conséquence qu'un modèle essaie simplement de compléter l'invite avec du texte supplémentaire, par exemple en répondant à l'invite de l'utilisateur « apprenez-moi à faire du pain » avec le texte « dans un four domestique » plutôt qu'avec de véritables instructions étape par étape, ce qui serait plus facile à réaliser grâce au réglage des instructions.
Selon l'article publié sur HuggingFace, la famille de modèles d'IA est connue sous le nom de « Open-source Efficient Language Models » ou OpenELM. Ces modèles ont été conçus pour effectuer efficacement de petites tâches, telles que la rédaction d'e-mails. Apple indique qu'OpenELM a été entraîné sur des ensembles de données accessibles au public à l'aide de la bibliothèque CoreNet, qui comprend RefinedWeb, PILE dédupliqué, un sous-ensemble de RedPajama et un sous-ensemble de Dolma v1.6, soit un total d'environ 1,8 trillion (1 billion étant 1 000 milliards) de tokens. Il a été publié avec quatre paramètres : 70 millions, 450 millions, 1,1 milliard et 3 milliards.
Les paramètres, qui sont des mesures cruciales dans les modèles d'IA, déterminent l'étendue des variables dont le modèle peut tirer des enseignements au cours des processus de prise de décision. La publication d'OpenELM par Apple vise à contribuer à la communauté de la recherche ouverte en donnant accès à des modèles de langage de pointe et en encourageant l'innovation et la collaboration dans la recherche sur l'IA. L'incursion d'Apple dans l'IA ne se limite pas à la publication d'OpenELM. L'entreprise explore activement les applications de l'IA, comme en témoigne le développement de frameworks tels que MLX pour optimiser les performances de l'IA sur les appareils alimentés au silicium d'Apple.
Ce qu'il faut retenir des caractéristiques d’OpenELM :
- Différentes tailles de paramètres : la famille OpenELM comprend huit modèles au total, répartis en quatre pré-entraînés et quatre ajustés aux instructions. Ils couvrent différentes tailles de paramètres, allant de 270 millions à 3 milliards de paramètres. Plus de paramètres ne signifient pas toujours de meilleures performances, mais dans ce cas, OpenELM parvient à offrir une précision accrue.
- Technique de mise à l’échelle par couche : OpenELM utilise une technique appelée mise à l’échelle par couche pour allouer les paramètres de manière plus efficace dans le modèle de transformation. Contrairement à un modèle où chaque couche possède le même ensemble de paramètres, les couches du transformateur d’OpenELM ont des configurations et des paramètres différents. Le résultat est une meilleure précision, comme le montrent les tests de référence.
- Entraînement sur des ensembles de données variés : OpenELM a été pré-entraîné à l’aide du jeu de données RedPajama provenant de GitHub, ainsi que d’une multitude de livres, d’articles Wikipedia, de publications StackExchange et d’articles ArXiv. Le modèle a également utilisé le jeu de données Dolma provenant de Reddit, Wikibooks et Project Gutenberg.
Une performance respectable, mais pas à la pointe de la technologie
En termes de performances, les résultats d'OpenLLM communiqués par Apple montrent que les modèles sont assez performants, en particulier la variante d'instruction à 450 millions de paramètres.
En outre, la variante OpenELM de 1,1 milliard de paramètres « surpasse OLMo, qui a 1,2 milliard de paramètres, de 2,36 % tout en nécessitant 2 fois moins de jetons de pré-entraînement ». OLMo est le modèle de langage de grande taille de l'Allen Institute for AI (AI2), récemment publié en tant que « modèle de langage de grande taille à code source ouvert ».
Sur le benchmark ARC-C, conçu pour tester les connaissances et les capacités de raisonnement, la variante pré-entraînée d'OpenELM-3B a obtenu une précision de 42,24 %. En revanche, sur MMLU et HellaSwag, elle a obtenu respectivement 26,76 % et 73,28 %.
Un utilisateur qui a commencé à tester la famille de modèles a fait remarquer qu'il s'agissait d'un « modèle solide mais très aligné », ce qui signifie que ses réponses ne sont pas très créatives et qu'elles ne risquent pas de s'aventurer en territoire NSFW. Pour mémoire, NSFW (sigle de l'anglais not safe for work) est un tag utilisé dans les espaces de discussion publics, tels que les forums, les blogues ou les médias sociaux pour identifier les liens pointant vers du contenu (texte, image, vidéo, son) potentiellement choquant, afin de prévenir les internautes qu'ils pourraient ne pas vouloir le consulter s'ils se trouvent dans un environnement inapproprié. Il peut s'agir de la nudité, de la pornographie, de la violence, du gore, des grossièretés, des discours de haine ou toute autre idéologie extrémiste.
La Phi-3 Mini de Microsoft, récemment introduite et dotée de 3,8 milliards de paramètres et d'une longueur de contexte de 4k, est actuellement en tête dans ce domaine.
Selon des statistiques récemment partagées, il a obtenu un score de 84,9 % sur le test ARC-C à 10 essais, de 68,8 % sur le test MMLU à 5 essais et de 76,7 % sur le test HellaSwag à 5 essais.
Il sera intéressant de voir comment la communauté, qui est déjà enthousiasmée par la démarche open-source d'Apple, la mettra en œuvre dans différentes applications.
La poussée d'Apple en matière d'IA
Le fabricant de l'iPhone expérimente l'IA depuis un certain temps déjà. L'année dernière, il a lancé un framework d'apprentissage automatique appelé MLX qui permet aux modèles d'IA de mieux fonctionner sur ses appareils alimentés par Apple Silicon. Il a également lancé un outil d'édition d'images appelé MLLM-Guided Image Editing (MGIE).
Le mois dernier, il a été révélé que les chercheurs d'Apple avaient fait une percée en matière d'entraînement des modèles d'IA sur du texte et des images. Un article de recherche sur ce sujet a été publié le 14 mars. Intitulé « MM1 : Methods, Analysis & Insights from Multimodal LLM Pre-training", il démontre comment l'utilisation de plusieurs architectures pour les données et les modèles d'entraînement peut permettre d'obtenir des résultats de pointe sur plusieurs points de référence.
Apple travaillerait également sur son propre modèle de grand langage (LLM), au cœur duquel se trouve un nouveau framework connu sous le nom d'Ajax, qui pourrait donner naissance à une application de type ChatGPT, surnommée « AppleGPT ». La collaboration entre les différents départements d'Apple, tels que l'ingénierie logicielle, l'apprentissage automatique et l'ingénierie du cloud, serait en cours pour faire de ce projet LLM une réalité.
La publication de la famille de modèles d'IA OpenELM brosse certainement un tableau intriguant du développement de l'IA chez Apple. Toutefois, étant donné qu'aucun modèle fondamental n'a encore été publié, il faudra attendre un certain temps avant que les appareils Apple, tels que l'iPhone et le Mac, puissent enfin en tirer parti.
Si la publication des modèles OpenELM est le signe d'une évolution prometteuse dans le paysage de l'IA d'Apple, la pleine réalisation des capacités d'IA sur des appareils tels que l'iPhone et le Mac pourrait nécessiter un travail de fond supplémentaire. Néanmoins, les efforts continus d'Apple soulignent son engagement à faire progresser la technologie de l'IA et à améliorer les expériences des utilisateurs dans l'ensemble de son écosystème.
Sources : OpenELM Instruct Models, OpenELM:An Efficient Language Model Family with Open-source Training and Inference Framework, quatre modèles OpenELM pré-entraînés, quatre modèles adaptés aux instructions
Et vous ?
Quelle est votre opinion sur l’ouverture d’Apple concernant OpenELM ? Pensez-vous que cela marque un pas significatif pour l’entreprise dans le domaine de l’intelligence artificielle ?
Avez-vous déjà utilisé des modèles d’IA légers sur vos appareils ? Si oui, quels sont vos retours d’expérience ?
Comment voyez-vous l’avenir des modèles d’IA sur les appareils ? Pensez-vous que nous verrons davantage de modèles open source conçus pour fonctionner localement ?
Quelles autres applications aimeriez-vous voir pour des modèles d’IA comme OpenELM ? Y a-t-il des domaines spécifiques où vous pensez que ces modèles pourraient être particulièrement utiles ?