Cette année a été marquée par d'incroyables progrès dans le domaine de la recherche sur l'intelligence artificielle (IA) et de ses applications pratiques. Google fait le bilan de ce qu'il a accompli dans le domaine de l'IA durant cette année, 2023.Alors que les recherches en cours poussent l'IA encore plus loin, voici ce que Google a publiée en janvier de cette année sur ces perspectives, intitulée "Pourquoi nous nous concentrons sur l'IA (et dans quel but)" :
Nous sommes déterminés à jouer un rôle de premier plan et à établir la norme en matière de développement et d'expédition d'applications utiles et bénéfiques, en appliquant des principes éthiques fondés sur les valeurs humaines et en faisant évoluer nos approches à mesure que nous tirons des enseignements de la recherche, de l'expérience, des utilisateurs et de l'ensemble de la communauté.
Nous sommes également convaincus que la réussite de l'IA - qui implique pour nous d'innover et de fournir des avantages largement accessibles aux personnes et à la société, tout en atténuant ses risques - doit être un effort collectif auquel nous participons avec d'autres, notamment les chercheurs, les développeurs, les utilisateurs (particuliers, entreprises et autres organisations), les gouvernements, les organismes de réglementation et les citoyens.
Nous sommes convaincus que les innovations basées sur l'IA que nous nous efforçons de développer et de fournir de manière audacieuse et responsable sont utiles, convaincantes et ont le potentiel d'aider et d'améliorer la vie des gens partout dans le monde - c'est ce qui nous motive.
Nous sommes également convaincus que la réussite de l'IA - qui implique pour nous d'innover et de fournir des avantages largement accessibles aux personnes et à la société, tout en atténuant ses risques - doit être un effort collectif auquel nous participons avec d'autres, notamment les chercheurs, les développeurs, les utilisateurs (particuliers, entreprises et autres organisations), les gouvernements, les organismes de réglementation et les citoyens.
Nous sommes convaincus que les innovations basées sur l'IA que nous nous efforçons de développer et de fournir de manière audacieuse et responsable sont utiles, convaincantes et ont le potentiel d'aider et d'améliorer la vie des gens partout dans le monde - c'est ce qui nous motive.
Avancées dans les produits et les technologies
C'est l'année où l'IA générative a capté l'attention du monde entier, en créant des images, de la musique, des histoires et en engageant des conversations sur tout ce qui est imaginable, à un niveau de créativité et à une vitesse presque invraisemblable il y a quelques années.
En février, Google a lancé Bard, un outil pour explorer des idées créatives et expliquer les choses simplement. Il peut générer du texte, traduire des langues, rédiger différents types de contenus créatifs, etc.
En mai, les résultats de mois et d'années de travail fondamental et appliqué ont été annoncés sur la scène de Google I/O. Il s'agit principalement de PaLM 2, un grand modèle de langage (LLM) qui associe une mise à l'échelle informatique optimale, un mélange amélioré d'ensembles de données et une architecture de modèle permettant d'exceller dans les tâches de raisonnement avancées.
En affinant PaLM 2 et en l'adaptant à différents objectifs, Google a pu l'intégrer à de nombreux produits et fonctionnalités, notamment :
- Une mise à jour de Bard, qui a permis d'offrir des capacités multilingues. Depuis son lancement initial, Bard est désormais disponible dans plus de 40 langues et plus de 230 pays et territoires. Grâce aux extensions, Bard peut trouver et afficher des informations pertinentes à partir d'outils Google utilisés quotidiennement, tels que Gmail, Google Maps, YouTube et bien d'autres encore.
- Search Generative Experience (SGE), qui utilise les LLM pour réimaginer à la fois la manière d'organiser l'information et d'aider les gens à y naviguer, en créant un modèle d'interaction plus fluide et conversationnel pour notre produit de recherche principal. Ce travail a permis d'étendre l'expérience du moteur de recherche, principalement axée sur la recherche d'informations, à quelque chose de beaucoup plus vaste - capable de récupérer, de synthétiser, de générer de la créativité et de poursuivre des recherches antérieures - tout en continuant à servir de point de connexion entre les utilisateurs et le contenu web qu'ils recherchent.
- MusicLM, un modèle texte-musique basé sur AudioLM et MuLAN, qui peut créer de la musique à partir de textes, de fredonnements, d'images ou de vidéos, ainsi que des accompagnements musicaux pour le chant.
- Duet AI, le collaborateur doté d'une intelligence artificielle qui assiste les utilisateurs lorsqu'ils utilisent Google Workspace et Google Cloud. Duet AI dans Google Workspace, par exemple, aide les utilisateurs à écrire, à créer des images, à analyser des feuilles de calcul, à rédiger et à résumer des e-mails et des messages de chat, ainsi qu'à résumer des réunions. Duet AI dans Google Cloud aide les utilisateurs à coder, déployer, mettre à l'échelle et surveiller les applications, ainsi qu'à identifier et accélérer la résolution des menaces de cybersécurité.
- Et bien d'autres développements encore.
En juin, après la sortie l'année dernière du modèle de génération de texte à partir d'images Imagen, Google a lancé Imagen Editor, qui permet d'utiliser des masques de région et des invites en langage naturel pour éditer de manière interactive des images génératives afin d'offrir un contrôle beaucoup plus précis sur les résultats du modèle.
Plus tard dans l'année, Google a lancé Imagen 2, qui améliore les résultats grâce à un modèle esthétique d'image spécialisé basé sur les préférences humaines pour des qualités telles qu'un bon éclairage, un bon cadrage, une bonne exposition et une bonne netteté.
En octobre, Google a lancé une fonctionnalité qui aide les gens à s'entraîner à parler et à améliorer leurs compétences linguistiques. La technologie clé qui a permis cette fonctionnalité est un nouveau modèle d'apprentissage profond développé en collaboration avec l'équipe de Google Translate, appelé Deep Aligner. Ce nouveau modèle unique a permis d'améliorer considérablement la qualité de l'alignement dans toutes les paires de langues testées, réduisant le taux d'erreur d'alignement moyen de 25 % à 5 % par rapport aux approches d'alignement basées sur des modèles de Markov cachés (HMM).
En novembre, en partenariat avec YouTube, Google a annoncé Lyria, le modèle de génération de musique par IA le plus avancé à ce jour. Googlee a lancé deux expériences conçues pour ouvrir un nouveau terrain de jeu à la créativité, DreamTrack et les outils d'IA musicale, conformément aux principes de YouTube en matière de partenariat avec l'industrie musicale sur la technologie de l'IA.
En décembre, Google a lancé Gemini. Gemini a été conçu pour être multimodal dès le départ, qu'il s'agisse de texte, de son, d'images ou de vidéos. La famille initiale de modèles Gemini se décline en trois tailles différentes : Nano, Pro et Ultra. Les modèles Nano sont les modèles les plus petits et les plus efficaces pour alimenter les expériences sur appareil dans des produits tels que Pixel. Le modèle Pro est très performant et idéal pour la mise à l'échelle d'un large éventail de tâches. Le modèle Ultra est le modèle le plus grand et le plus performant pour les tâches très complexes.
Dans un rapport technique sur les modèles Gemini, Google a montré que les performances de Gemini Ultra dépassent les résultats actuels de l'état de l'art sur 30 des 32 repères académiques largement utilisés dans la recherche et le développement du LLM. Avec un score de 90,04 %, Gemini Ultra a été le premier modèle à surpasser les experts humains sur MMLU, et a atteint un score de 59,4 % sur le nouveau benchmark MMMU.
S'appuyant sur AlphaCode, le premier système d'IA à atteindre le niveau du concurrent médian en programmation compétitive, Google a introduit AlphaCode 2 alimenté par une version spécialisée de Gemini. Évalué sur la même plateforme que l'AlphaCode original, Google a constaté qu'AlphaCode 2 résolvait 1,7 fois plus de problèmes et obtenait des résultats supérieurs à ceux de 85 % des participants à la compétition.
Dans le même temps, Bard a bénéficié de sa plus grande amélioration grâce à l'utilisation du modèle Gemini Pro, ce qui l'a rendu beaucoup plus performant en matière de compréhension, de résumé, de raisonnement, de codage et de planification. Dans six des huit points de référence, Gemini Pro a surpassé GPT-3.5, notamment dans MMLU, l'une des principales normes de mesure des grands modèles d'IA, et GSM8K, qui mesure le raisonnement mathématique à l'école primaire. Gemini Ultra sera disponible à Bard au début de l'année prochaine par l'intermédiaire de Bard Advanced, une nouvelle expérience de pointe en matière d'IA.
Gemini Pro est également disponible sur Vertex AI, la plateforme d'IA de bout en bout de Google Cloud qui permet aux développeurs de créer des applications capables de traiter des informations sous forme de texte, de code, d'images et de vidéos. Gemini Pro a également été mis à disposition dans AI Studio en décembre.
Pour illustrer au mieux certaines des capacités de Gemini, Google a produit une série de courtes vidéos expliquant comment Gemini peut :
- Découvrir la littérature scientifique
- Exceller dans la programmation compétitive
- Traiter et comprendre des données audio brutes
- Expliquer le raisonnement mathématique et physique
- Raisonner sur l'intention de l'utilisateur pour générer des expériences sur mesure
Recherche en ML/AI
Outre les avancées en matière de produits et de technologies, Google a également réalisé un certain nombre de progrès importants dans les domaines plus larges de l'apprentissage automatique et de la recherche en IA.
Au cœur des modèles d'apprentissage automatique les plus avancés se trouve l'architecture de modèle Transformer, développée par les chercheurs de Google en 2017. Développée à l'origine pour le langage, elle s'est avérée utile dans des domaines aussi variés que la vision par ordinateur, l'audio, la génomique, le repliement des protéines, etc. Cette année, les travaux de Google sur la mise à l'échelle des transformateurs de vision ont démontré des résultats de pointe dans une grande variété de tâches de vision, et ont également été utiles pour construire des robots plus performants.
Pour accroître la polyvalence des modèles, il faut pouvoir effectuer des raisonnements de plus haut niveau et à plusieurs étapes. Cette année, Google a abordé cet objectif en suivant plusieurs pistes de recherche. Par exemple, l'incitation algorithmique est une nouvelle méthode qui apprend aux modèles de langage à raisonner en leur montrant une séquence d'étapes algorithmiques que le modèle peut ensuite appliquer dans de nouveaux contextes. Cette approche permet d'améliorer la précision d'un test de référence en mathématiques au collège, qui passe de 25,9 % à 61,1 %.
Dans le domaine de la réponse aux questions visuelles, en collaboration avec des chercheurs de l'université de Berkeley, Google a montré comment on pouvait mieux répondre à des questions visuelles complexes ("La voiture est-elle à droite du cheval ?"
Google utilise actuellement un modèle général qui comprend de nombreux aspects du cycle de vie du développement logiciel pour générer automatiquement des commentaires de révision de code, répondre aux commentaires de révision de code, faire des suggestions d'amélioration des performances pour des morceaux de code (en apprenant de tels changements dans d'autres contextes), corriger le code en réponse à des erreurs de compilation, et bien d'autres choses encore.
Dans le cadre d'une collaboration de recherche pluriannuelle avec l'équipe de Google Maps, ils ont pu mettre à l'échelle l'apprentissage par renforcement inverse et l'appliquer au problème mondial de l'amélioration des suggestions d'itinéraires pour plus d'un milliard d'utilisateurs. Les travaux ont abouti à une amélioration relative de 16 à 24 % du taux global de correspondance des itinéraires, ce qui permet de garantir que les itinéraires sont mieux alignés sur les préférences des utilisateurs.
Google continue également à travailler sur des techniques visant à améliorer les performances d'inférence des modèles d'apprentissage automatique. Dans le cadre des travaux sur les approches d'élagage des connexions dans les réseaux neuronaux, ils ont pu concevoir un algorithme d'approximation du problème de sélection du meilleur sous-ensemble, difficile à résoudre sur le plan informatique, qui permet d'élaguer 70 % des arêtes d'un modèle de classification d'images tout en conservant la quasi-totalité de la précision du modèle d'origine.
Dans le cadre des travaux sur l'accélération des modèles de diffusion sur appareil, Google a également pu appliquer une série d'optimisations aux mécanismes d'attention, aux noyaux de convolution et à la fusion d'opérations afin de rendre pratique l'exécution de modèles de génération d'images de haute qualité sur appareil ; par exemple, en permettant de générer "une image photoréaliste et haute résolution d'un adorable chiot avec des fleurs environnantes" en seulement 12 secondes sur un smartphone.
Les progrès réalisés dans le domaine des modèles linguistiques et multimodaux capables ont également profité aux efforts de recherche en robotique de Google. Ils ont combiné des modèles de langage, de vision et de contrôle robotique entraînés séparément dans PaLM-E, un modèle multimodal incarné pour la robotique, et Robotic Transformer 2 (RT-2), un nouveau modèle vision-langage-action (VLA) qui apprend à partir de données web et robotiques, et traduit ces connaissances en instructions généralisées pour le contrôle robotique.
En outre, Google a montré comment le langage peut également être utilisé pour contrôler la démarche des robots quadrupèdes et a exploré l'utilisation du langage pour aider à formuler des fonctions de récompense plus explicites afin de combler le fossé entre le langage humain et les actions robotiques. Ensuite, dans Barkour, ils ont évalué les limites de l'agilité des robots quadrupèdes.
Algorithmes et optimisation
La conception d'algorithmes efficaces, robustes et évolutifs reste une priorité pour Google. Cette année, leurs travaux ont porté sur les algorithmes appliqués et évolutifs, les algorithmes de marché, l'efficacité et l'optimisation des systèmes et la protection de la vie privée.
Google a présenté AlphaDev, un système d'IA qui utilise l'apprentissage par renforcement pour découvrir des algorithmes informatiques améliorés. AlphaDev a découvert un algorithme plus rapide pour le tri, une méthode pour ordonner les données, qui a conduit à des améliorations dans la bibliothèque de tri LLVM libc++ qui étaient jusqu'à 70 % plus rapides pour les séquences plus courtes et environ 1,7 % plus rapides pour les séquences de plus de 250 000 éléments.
Google a développé un nouveau modèle pour prédire les propriétés des grands graphes, ce qui permet d'estimer les performances des grands programmes. Ils ont publié un nouvel ensemble de données, TPUGraphs, pour accélérer la recherche ouverte dans ce domaine, et ils ont montré comment on peut utiliser la ML moderne pour améliorer l'efficacité de la ML.
Google a développé un nouvel algorithme d'équilibrage de charge pour distribuer les requêtes à un serveur, appelé Prequal, qui minimise une combinaison de requêtes en vol et estime la latence. Les déploiements sur plusieurs systèmes ont permis d'économiser de manière significative l'unité centrale, la latence et la mémoire vive. Ils ont également conçu un nouveau cadre d'analyse pour le problème classique de la mise en cache avec des réservations de capacité.
Google a amélioré l'état de l'art en matière de regroupement et d'algorithmes de graphes en développant de nouvelles techniques pour le calcul de la coupe minimale, le regroupement approximatif des corrélations et le regroupement massivement parallèle des graphes. En outre, ils ont introduit TeraHAC, un nouvel algorithme de clustering hiérarchique pour les graphes à mille milliards d'arêtes, conçu un algorithme de clustering de texte pour une meilleure évolutivité tout en maintenant...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.