
Les grands modèles de langage (Large Language Models ou LLM), comme ceux développés par OpenAI, Google et Anthropic, se sont considérablement améliorés. Ces systèmes sont désormais capables de générer du texte cohérent, de répondre à des questions complexes, de générer du code et même de le « traduire » dans un autre langage.
Dans l'édition 2023 du State of AI, les auteurs mettent en avant les percées technologiques dans le domaine de la recherche en IA. Passons en revue quelques éléments.
Les petites entreprises (avec de bonnes données) peuvent-elles rivaliser avec les grandes ?
Dans un travail encore largement exploratoire, des chercheurs de Microsoft ont montré que lorsque de petits modèles de langage (SLM) sont entraînés avec des ensembles de données très spécialisés, ils peuvent rivaliser avec des modèles 50 fois plus grands. Ils ont également constaté que les neurones de ces modèles sont plus faciles à interpréter.
L'une des hypothèses expliquant pourquoi les petits modèles ne sont souvent pas aussi performants que les grands, même pour des tâches précises, est qu'ils sont « dépassés » lorsqu'ils sont entraînés sur des ensembles de données très vastes et non répertoriés.
Avec l'aide de GPT-3.5 et GPT-4, les chercheurs ont généré TinyStories, un ensemble de données synthétiques composé d'histoires courtes très simples mais qui intègrent la grammaire anglaise et les règles générales de raisonnement. Ils ont ensuite formé des SLM sur TinyStories et ont montré que GPT-4 (qui a été utilisé comme outil d'évaluation) préférait les histoires générées par un SLM 28M (28 millions de paramètres) à celles générées par GPT-XL 1.5B (1,5 milliard de paramètres).
Dans un autre travail du même groupe, les chercheurs ont sélectionné un ensemble de données de 7B tokens comprenant du code de haute qualité et des manuels et exercices synthétiques générés par GPT-3.5. Ils ont ensuite entraîné plusieurs SLM sur cet ensemble de données, y compris le modèle phi-1 à 1,3 milliard de paramètres, qui, selon eux, est le seul modèle à moins de 10 milliards de paramètres à atteindre >50 % sur HumanEval. Ils ont depuis publié la version améliorée phi-1.5.
IA et médecine : de la détection à la découverte de traitements
L’IA redéfinit la médecine en permettant des avancées dans la détection précoce de maladies et l'identification de traitements.
Par exemple, le rapport a parlé de la conception de systèmes cliniques inspirés du monde réel pour l'analyse automatisée d'images médicales

Le rapport souligne également l’impact potentiel de l’IA dans la recherche médicale. Des modèles génératifs comme AlphaFold, développé par DeepMind, pourraient révolutionner la biologie computationnelle en prédisant la structure des protéines avec une précision inédite. Ces avancées permettront de réduire drastiquement le temps et les coûts associés à la découverte de nouvelles molécules thérapeutiques, ouvrant la voie à des traitements plus efficaces et mieux ciblés.

Le rapport State of AI 2023 insiste sur l’impact de l’IA dans l’industrie, où l’automatisation des processus de production et d’analyse des données permet des gains de productivité significatifs. Dans le secteur manufacturier, par exemple, des modèles d’IA sont capables de détecter des anomalies de production et d’anticiper des pannes d’équipement grâce à la maintenance prédictive. Cela réduit les interruptions de la chaîne de production, diminue les coûts et améliore la qualité des produits.
L’IA facilite également la gestion des chaînes d'approvisionnement, un domaine particulièrement complexe, surtout dans un contexte mondial instable. Grâce aux algorithmes d'apprentissage automatique, les entreprises peuvent prédire les ruptures de stock et optimiser les flux logistiques pour mieux répondre à la demande. Cependant, le rapport met en garde contre les risques liés à une automatisation excessive qui pourrait réduire les opportunités d’emploi pour certains types de postes.
AlphaZero de DeepMind dispose d'une version pour l'optimisation de code de bas niveau
DeepMind a lancé AlphaDev, un agent de RL profond basé sur AlphaZero qui optimise le code Assembly de bas niveau utilisé pour transformer le code de haut niveau (par exemple en C++ ou Python) en code binaire lisible par la machine. Grâce à de simples suppressions et modifications d'un algorithme existant, AlphaDev a trouvé une méthode qui accélère le tri de petites séquences jusqu'à 70 %.
AlphaZero a été utilisé pour atteindre des niveaux surhumains aux échecs, au Go et au shogi, ou même pour améliorer la conception des puces.
AlphaDev reformule l'optimisation de code comme un problème RL : à l'instant t, l'état est une représentation de l'algorithme généré, de la mémoire et des registres ; l'agent écrit alors de nouvelles instructions ou en supprime de nouvelles ; sa récompense dépend à la fois de la correction et de la latence
Dans l'article présentant AlphaDev, les chercheurs ont expliqué qu'il s'agit d'un système d'intelligence artificielle qui utilise l'apprentissage par renforcement pour découvrir des algorithmes informatiques améliorés, surpassant ceux affinés par les scientifiques et les ingénieurs pendant des décennies.
AlphaDev a découvert un algorithme plus rapide pour le tri, une méthode permettant d'ordonner les données. Des milliards de personnes utilisent ces algorithmes tous les jours sans s'en rendre compte. Ils sont à la base de tout, du classement des résultats de recherche en ligne et des messages sociaux à la manière dont les données sont traitées sur les ordinateurs et les téléphones. La création de meilleurs algorithmes grâce à l'IA transformera la façon dont nous programmons les ordinateurs et aura un impact sur tous les aspects de notre société de plus en plus numérique[...].
AlphaDev a découvert des algorithmes de tri plus rapides en partant de zéro plutôt qu'en affinant des algorithmes existants, et a commencé à chercher là où la plupart des humains ne vont pas : dans les instructions d'assemblage de l'ordinateur.
Les instructions d'assemblage sont utilisées pour créer un code binaire que les ordinateurs mettent en œuvre. Alors que les développeurs écrivent dans des langages de codage tels que le C++, connus sous le nom de langages de haut niveau, ils doivent être traduits en instructions d'assemblage de « bas niveau » pour que les ordinateurs puissent les comprendre.
AlphaDev a découvert des algorithmes de tri plus rapides en partant de zéro plutôt qu'en affinant des algorithmes existants, et a commencé à chercher là où la plupart des humains ne vont pas : dans les instructions d'assemblage de l'ordinateur.
Les instructions d'assemblage sont utilisées pour créer un code binaire que les ordinateurs mettent en œuvre. Alors que les développeurs écrivent dans des langages de codage tels que le C++, connus sous le nom de langages de haut niveau, ils doivent être traduits en instructions d'assemblage de « bas niveau » pour que les ordinateurs puissent les comprendre.
[B]IA Générative : création de contenu et...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.