
Le moins que l'on puisse dire, c'est que l'avancée d'Apple en matière d'IA a été lente, surtout si on la compare aux développements rapides qui ont lieu chez ses concurrents, à savoir Microsoft et Google. Alors que Samsung, Google et même Nothing proposent une pléthore de fonctions d'IA sur leurs appareils respectifs, les iPhones sont restés à l'écart, Apple devant rattraper son retard dans la course à l'IA. Toutefois, Apple s'efforce activement de progresser et a récemment discuté avec des sociétés comme Google et OpenAI d'un éventuel accord qui permettrait d'utiliser leurs modèles d'IA sur les iPhones, mais cet accord est encore en cours d'élaboration.
Apple publie quatre modèles d'IA en code source libre
Il y a huit modèles OpenELM au total - quatre pré-entraînés et quatre adaptés aux instructions - couvrant différentes tailles de paramètres entre 270 millions et 3 milliards de paramètres (se référant aux connexions entre les neurones artificiels dans un LLM, et plus de paramètres dénotent généralement une plus grande performance et plus de capacités, bien que ce ne soit pas toujours le cas).
Si le préapprentissage permet à un LLM de produire un texte cohérent et potentiellement utile, il s'agit principalement d'un exercice prédictif, tandis que le réglage des instructions permet d'obtenir des résultats plus pertinents en réponse à des demandes spécifiques d'un utilisateur. Le préapprentissage peut avoir pour conséquence qu'un modèle essaie simplement de compléter l'invite avec du texte supplémentaire, par exemple en répondant à l'invite de l'utilisateur « apprenez-moi à faire du pain » avec le texte « dans un four domestique » plutôt qu'avec de véritables instructions étape par étape, ce qui serait plus facile à réaliser grâce au réglage des instructions.
Selon l'article publié sur HuggingFace, la famille de modèles d'IA est connue sous le nom de « Open-source Efficient Language Models » ou OpenELM. Ces modèles ont été conçus pour effectuer efficacement de petites tâches, telles que la rédaction d'e-mails. Apple indique qu'OpenELM a été entraîné sur des ensembles de données accessibles au public à l'aide de la bibliothèque CoreNet, qui comprend RefinedWeb, PILE dédupliqué, un sous-ensemble de RedPajama et un sous-ensemble de Dolma v1.6, soit un total d'environ 1,8 trillion (1 billion étant 1 000 milliards) de tokens. Il a été publié avec quatre paramètres : 70 millions, 450 millions, 1,1 milliard et 3 milliards.
Les paramètres, qui sont des mesures cruciales dans les modèles d'IA, déterminent l'étendue des variables dont le modèle peut tirer des enseignements au cours des processus de prise de décision. La publication d'OpenELM par Apple vise à contribuer à la communauté de la recherche ouverte en donnant accès à des modèles de langage de pointe et en encourageant l'innovation et la collaboration dans la recherche sur l'IA. L'incursion d'Apple dans l'IA ne se limite pas à la publication d'OpenELM. L'entreprise explore activement les applications de l'IA, comme en témoigne le développement de frameworks tels que MLX pour optimiser les performances de l'IA sur les appareils alimentés au silicium d'Apple.
Ce qu'il faut retenir des caractéristiques d’OpenELM :
- Différentes tailles de paramètres : la famille OpenELM comprend huit modèles au total, répartis en quatre pré-entraînés et quatre ajustés aux instructions. Ils couvrent différentes tailles de paramètres, allant de 270 millions à 3 milliards de paramètres. Plus de paramètres ne signifient pas toujours de meilleures performances, mais dans ce cas, OpenELM parvient à offrir une précision accrue.
- Technique de mise à l’échelle par couche : OpenELM utilise une technique appelée mise à l’échelle par couche pour allouer les paramètres de manière plus efficace dans le modèle de transformation. Contrairement à un modèle où chaque couche possède le même ensemble de paramètres, les couches du transformateur d’OpenELM ont des configurations et des paramètres différents. Le résultat est une meilleure précision, comme le montrent les tests de référence.
- Entraînement sur des ensembles de données variés : OpenELM a été pré-entraîné à l’aide du jeu de données RedPajama provenant de GitHub, ainsi que d’une multitude de livres, d’articles Wikipedia, de publications StackExchange et d’articles ArXiv. Le modèle a également utilisé le jeu de données Dolma provenant de Reddit, Wikibooks et Project Gutenberg.
Une performance respectable, mais pas à la pointe de la technologie
En termes de performances, les résultats d'OpenLLM communiqués par Apple montrent que les modèles sont assez performants, en particulier la variante d'instruction à 450 millions de paramètres.
En outre, la variante OpenELM de 1,1 milliard de paramètres « surpasse OLMo, qui a 1,2 milliard de paramètres, de 2,36 % tout en nécessitant 2 fois moins de jetons de pré-entraînement ». OLMo est le modèle de langage de grande taille de l'Allen Institute for AI (AI2), récemment publié en tant que « modèle de langage de grande taille à code source ouvert ».
Sur le benchmark ARC-C, conçu pour tester les connaissances et les capacités de raisonnement, la variante pré-entraînée d'OpenELM-3B a obtenu une précision de 42,24 %. En revanche, sur MMLU et HellaSwag, elle a obtenu respectivement 26,76 % et 73,28 %.
Un utilisateur qui a commencé à tester la famille de modèles a fait remarquer qu'il s'agissait d'un « modèle solide mais très aligné », ce qui signifie que ses réponses ne sont pas très créatives et qu'elles ne risquent pas de s'aventurer en territoire NSFW. Pour mémoire, NSFW (sigle de l'anglais not safe for work) est un tag utilisé dans les espaces de discussion publics, tels que les forums, les blogues ou les médias sociaux pour identifier les liens pointant vers du contenu (texte, image, vidéo, son) potentiellement choquant, afin de prévenir les internautes qu'ils pourraient ne pas vouloir le consulter s'ils se trouvent dans un environnement inapproprié. Il peut s'agir de la nudité, de la pornographie, de la violence, du gore, des grossièretés, des discours de haine ou toute autre idéologie extrémiste.
La Phi-3 Mini de Microsoft, récemment introduite et dotée de 3,8 milliards de paramètres et d'une longueur de contexte de 4k, est actuellement en tête dans ce domaine.
Selon des statistiques récemment partagées, il a obtenu un score de 84,9 % sur le test ARC-C à 10 essais, de 68,8 % sur le test MMLU à 5 essais et de 76,7 % sur le test HellaSwag à 5 essais.
Il sera intéressant de voir comment la communauté, qui est déjà enthousiasmée par la démarche open-source d'Apple, la mettra en œuvre dans différentes applications.
La poussée d'Apple en matière d'IA
Le fabricant de l'iPhone expérimente l'IA depuis un certain temps déjà. L'année dernière, il a lancé un framework d...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.