Alors que les recherches en cours poussent l'IA encore plus loin, voici ce que Google a publiée en janvier de cette année sur ces perspectives, intitulée "Pourquoi nous nous concentrons sur l'IA (et dans quel but)" :
Nous sommes déterminés à jouer un rôle de premier plan et à établir la norme en matière de développement et d'expédition d'applications utiles et bénéfiques, en appliquant des principes éthiques fondés sur les valeurs humaines et en faisant évoluer nos approches à mesure que nous tirons des enseignements de la recherche, de l'expérience, des utilisateurs et de l'ensemble de la communauté.
Nous sommes également convaincus que la réussite de l'IA - qui implique pour nous d'innover et de fournir des avantages largement accessibles aux personnes et à la société, tout en atténuant ses risques - doit être un effort collectif auquel nous participons avec d'autres, notamment les chercheurs, les développeurs, les utilisateurs (particuliers, entreprises et autres organisations), les gouvernements, les organismes de réglementation et les citoyens.
Nous sommes convaincus que les innovations basées sur l'IA que nous nous efforçons de développer et de fournir de manière audacieuse et responsable sont utiles, convaincantes et ont le potentiel d'aider et d'améliorer la vie des gens partout dans le monde - c'est ce qui nous motive.
Nous sommes également convaincus que la réussite de l'IA - qui implique pour nous d'innover et de fournir des avantages largement accessibles aux personnes et à la société, tout en atténuant ses risques - doit être un effort collectif auquel nous participons avec d'autres, notamment les chercheurs, les développeurs, les utilisateurs (particuliers, entreprises et autres organisations), les gouvernements, les organismes de réglementation et les citoyens.
Nous sommes convaincus que les innovations basées sur l'IA que nous nous efforçons de développer et de fournir de manière audacieuse et responsable sont utiles, convaincantes et ont le potentiel d'aider et d'améliorer la vie des gens partout dans le monde - c'est ce qui nous motive.
Avancées dans les produits et les technologies
C'est l'année où l'IA générative a capté l'attention du monde entier, en créant des images, de la musique, des histoires et en engageant des conversations sur tout ce qui est imaginable, à un niveau de créativité et à une vitesse presque invraisemblable il y a quelques années.
En février, Google a lancé Bard, un outil pour explorer des idées créatives et expliquer les choses simplement. Il peut générer du texte, traduire des langues, rédiger différents types de contenus créatifs, etc.
En mai, les résultats de mois et d'années de travail fondamental et appliqué ont été annoncés sur la scène de Google I/O. Il s'agit principalement de PaLM 2, un grand modèle de langage (LLM) qui associe une mise à l'échelle informatique optimale, un mélange amélioré d'ensembles de données et une architecture de modèle permettant d'exceller dans les tâches de raisonnement avancées.
En affinant PaLM 2 et en l'adaptant à différents objectifs, Google a pu l'intégrer à de nombreux produits et fonctionnalités, notamment :
- Une mise à jour de Bard, qui a permis d'offrir des capacités multilingues. Depuis son lancement initial, Bard est désormais disponible dans plus de 40 langues et plus de 230 pays et territoires. Grâce aux extensions, Bard peut trouver et afficher des informations pertinentes à partir d'outils Google utilisés quotidiennement, tels que Gmail, Google Maps, YouTube et bien d'autres encore.
- Search Generative Experience (SGE), qui utilise les LLM pour réimaginer à la fois la manière d'organiser l'information et d'aider les gens à y naviguer, en créant un modèle d'interaction plus fluide et conversationnel pour notre produit de recherche principal. Ce travail a permis d'étendre l'expérience du moteur de recherche, principalement axée sur la recherche d'informations, à quelque chose de beaucoup plus vaste - capable de récupérer, de synthétiser, de générer de la créativité et de poursuivre des recherches antérieures - tout en continuant à servir de point de connexion entre les utilisateurs et le contenu web qu'ils recherchent.
- MusicLM, un modèle texte-musique basé sur AudioLM et MuLAN, qui peut créer de la musique à partir de textes, de fredonnements, d'images ou de vidéos, ainsi que des accompagnements musicaux pour le chant.
- Duet AI, le collaborateur doté d'une intelligence artificielle qui assiste les utilisateurs lorsqu'ils utilisent Google Workspace et Google Cloud. Duet AI dans Google Workspace, par exemple, aide les utilisateurs à écrire, à créer des images, à analyser des feuilles de calcul, à rédiger et à résumer des e-mails et des messages de chat, ainsi qu'à résumer des réunions. Duet AI dans Google Cloud aide les utilisateurs à coder, déployer, mettre à l'échelle et surveiller les applications, ainsi qu'à identifier et accélérer la résolution des menaces de cybersécurité.
- Et bien d'autres développements encore.
En juin, après la sortie l'année dernière du modèle de génération de texte à partir d'images Imagen, Google a lancé Imagen Editor, qui permet d'utiliser des masques de région et des invites en langage naturel pour éditer de manière interactive des images génératives afin d'offrir un contrôle beaucoup plus précis sur les résultats du modèle.
Plus tard dans l'année, Google a lancé Imagen 2, qui améliore les résultats grâce à un modèle esthétique d'image spécialisé basé sur les préférences humaines pour des qualités telles qu'un bon éclairage, un bon cadrage, une bonne exposition et une bonne netteté.
En octobre, Google a lancé une fonctionnalité qui aide les gens à s'entraîner à parler et à améliorer leurs compétences linguistiques. La technologie clé qui a permis cette fonctionnalité est un nouveau modèle d'apprentissage profond développé en collaboration avec l'équipe de Google Translate, appelé Deep Aligner. Ce nouveau modèle unique a permis d'améliorer considérablement la qualité de l'alignement dans toutes les paires de langues testées, réduisant le taux d'erreur d'alignement moyen de 25 % à 5 % par rapport aux approches d'alignement basées sur des modèles de Markov cachés (HMM).
En novembre, en partenariat avec YouTube, Google a annoncé Lyria, le modèle de génération de musique par IA le plus avancé à ce jour. Googlee a lancé deux expériences conçues pour ouvrir un nouveau terrain de jeu à la créativité, DreamTrack et les outils d'IA musicale, conformément aux principes de YouTube en matière de partenariat avec l'industrie musicale sur la technologie de l'IA.
En décembre, Google a lancé Gemini. Gemini a été conçu pour être multimodal dès le départ, qu'il s'agisse de texte, de son, d'images ou de vidéos. La famille initiale de modèles Gemini se décline en trois tailles différentes : Nano, Pro et Ultra. Les modèles Nano sont les modèles les plus petits et les plus efficaces pour alimenter les expériences sur appareil dans des produits tels que Pixel. Le modèle Pro est très performant et idéal pour la mise à l'échelle d'un large éventail de tâches. Le modèle Ultra est le modèle le plus grand et le plus performant pour les tâches très complexes.
Dans un rapport technique sur les modèles Gemini, Google a montré que les performances de Gemini Ultra dépassent les résultats actuels de l'état de l'art sur 30 des 32 repères académiques largement utilisés dans la recherche et le développement du LLM. Avec un score de 90,04 %, Gemini Ultra a été le premier modèle à surpasser les experts humains sur MMLU, et a atteint un score de 59,4 % sur le nouveau benchmark MMMU.
S'appuyant sur AlphaCode, le premier système d'IA à atteindre le niveau du concurrent médian en programmation compétitive, Google a introduit AlphaCode 2 alimenté par une version spécialisée de Gemini. Évalué sur la même plateforme que l'AlphaCode original, Google a constaté qu'AlphaCode 2 résolvait 1,7 fois plus de problèmes et obtenait des résultats supérieurs à ceux de 85 % des participants à la compétition.
Dans le même temps, Bard a bénéficié de sa plus grande amélioration grâce à l'utilisation du modèle Gemini Pro, ce qui l'a rendu beaucoup plus performant en matière de compréhension, de résumé, de raisonnement, de codage et de planification. Dans six des huit points de référence, Gemini Pro a surpassé GPT-3.5, notamment dans MMLU, l'une des principales normes de mesure des grands modèles d'IA, et GSM8K, qui mesure le raisonnement mathématique à l'école primaire. Gemini Ultra sera disponible à Bard au début de l'année prochaine par l'intermédiaire de Bard Advanced, une nouvelle expérience de pointe en matière d'IA.
Gemini Pro est également disponible sur Vertex AI, la plateforme d'IA de bout en bout de Google Cloud qui permet aux développeurs de créer des applications capables de traiter des informations sous forme de texte, de code, d'images et de vidéos. Gemini Pro a également été mis à disposition dans AI Studio en décembre.
Pour illustrer au mieux certaines des capacités de Gemini, Google a produit une série de courtes vidéos expliquant comment Gemini peut :
- Découvrir la littérature scientifique
- Exceller dans la programmation compétitive
- Traiter et comprendre des données audio brutes
- Expliquer le raisonnement mathématique et physique
- Raisonner sur l'intention de l'utilisateur pour générer des expériences sur mesure
Recherche en ML/AI
Outre les avancées en matière de produits et de technologies, Google a également réalisé un certain nombre de progrès importants dans les domaines plus larges de l'apprentissage automatique et de la recherche en IA.
Au cœur des modèles d'apprentissage automatique les plus avancés se trouve l'architecture de modèle Transformer, développée par les chercheurs de Google en 2017. Développée à l'origine pour le langage, elle s'est avérée utile dans des domaines aussi variés que la vision par ordinateur, l'audio, la génomique, le repliement des protéines, etc. Cette année, les travaux de Google sur la mise à l'échelle des transformateurs de vision ont démontré des résultats de pointe dans une grande variété de tâches de vision, et ont également été utiles pour construire des robots plus performants.
Pour accroître la polyvalence des modèles, il faut pouvoir effectuer des raisonnements de plus haut niveau et à plusieurs étapes. Cette année, Google a abordé cet objectif en suivant plusieurs pistes de recherche. Par exemple, l'incitation algorithmique est une nouvelle méthode qui apprend aux modèles de langage à raisonner en leur montrant une séquence d'étapes algorithmiques que le modèle peut ensuite appliquer dans de nouveaux contextes. Cette approche permet d'améliorer la précision d'un test de référence en mathématiques au collège, qui passe de 25,9 % à 61,1 %.
Dans le domaine de la réponse aux questions visuelles, en collaboration avec des chercheurs de l'université de Berkeley, Google a montré comment on pouvait mieux répondre à des questions visuelles complexes ("La voiture est-elle à droite du cheval ?" en combinant un modèle visuel avec un modèle de langage entraîné à répondre à des questions visuelles en synthétisant un programme pour effectuer un raisonnement en plusieurs étapes.
Google utilise actuellement un modèle général qui comprend de nombreux aspects du cycle de vie du développement logiciel pour générer automatiquement des commentaires de révision de code, répondre aux commentaires de révision de code, faire des suggestions d'amélioration des performances pour des morceaux de code (en apprenant de tels changements dans d'autres contextes), corriger le code en réponse à des erreurs de compilation, et bien d'autres choses encore.
Dans le cadre d'une collaboration de recherche pluriannuelle avec l'équipe de Google Maps, ils ont pu mettre à l'échelle l'apprentissage par renforcement inverse et l'appliquer au problème mondial de l'amélioration des suggestions d'itinéraires pour plus d'un milliard d'utilisateurs. Les travaux ont abouti à une amélioration relative de 16 à 24 % du taux global de correspondance des itinéraires, ce qui permet de garantir que les itinéraires sont mieux alignés sur les préférences des utilisateurs.
Google continue également à travailler sur des techniques visant à améliorer les performances d'inférence des modèles d'apprentissage automatique. Dans le cadre des travaux sur les approches d'élagage des connexions dans les réseaux neuronaux, ils ont pu concevoir un algorithme d'approximation du problème de sélection du meilleur sous-ensemble, difficile à résoudre sur le plan informatique, qui permet d'élaguer 70 % des arêtes d'un modèle de classification d'images tout en conservant la quasi-totalité de la précision du modèle d'origine.
Dans le cadre des travaux sur l'accélération des modèles de diffusion sur appareil, Google a également pu appliquer une série d'optimisations aux mécanismes d'attention, aux noyaux de convolution et à la fusion d'opérations afin de rendre pratique l'exécution de modèles de génération d'images de haute qualité sur appareil ; par exemple, en permettant de générer "une image photoréaliste et haute résolution d'un adorable chiot avec des fleurs environnantes" en seulement 12 secondes sur un smartphone.
Les progrès réalisés dans le domaine des modèles linguistiques et multimodaux capables ont également profité aux efforts de recherche en robotique de Google. Ils ont combiné des modèles de langage, de vision et de contrôle robotique entraînés séparément dans PaLM-E, un modèle multimodal incarné pour la robotique, et Robotic Transformer 2 (RT-2), un nouveau modèle vision-langage-action (VLA) qui apprend à partir de données web et robotiques, et traduit ces connaissances en instructions généralisées pour le contrôle robotique.
En outre, Google a montré comment le langage peut également être utilisé pour contrôler la démarche des robots quadrupèdes et a exploré l'utilisation du langage pour aider à formuler des fonctions de récompense plus explicites afin de combler le fossé entre le langage humain et les actions robotiques. Ensuite, dans Barkour, ils ont évalué les limites de l'agilité des robots quadrupèdes.
Algorithmes et optimisation
La conception d'algorithmes efficaces, robustes et évolutifs reste une priorité pour Google. Cette année, leurs travaux ont porté sur les algorithmes appliqués et évolutifs, les algorithmes de marché, l'efficacité et l'optimisation des systèmes et la protection de la vie privée.
Google a présenté AlphaDev, un système d'IA qui utilise l'apprentissage par renforcement pour découvrir des algorithmes informatiques améliorés. AlphaDev a découvert un algorithme plus rapide pour le tri, une méthode pour ordonner les données, qui a conduit à des améliorations dans la bibliothèque de tri LLVM libc++ qui étaient jusqu'à 70 % plus rapides pour les séquences plus courtes et environ 1,7 % plus rapides pour les séquences de plus de 250 000 éléments.
Google a développé un nouveau modèle pour prédire les propriétés des grands graphes, ce qui permet d'estimer les performances des grands programmes. Ils ont publié un nouvel ensemble de données, TPUGraphs, pour accélérer la recherche ouverte dans ce domaine, et ils ont montré comment on peut utiliser la ML moderne pour améliorer l'efficacité de la ML.
Google a développé un nouvel algorithme d'équilibrage de charge pour distribuer les requêtes à un serveur, appelé Prequal, qui minimise une combinaison de requêtes en vol et estime la latence. Les déploiements sur plusieurs systèmes ont permis d'économiser de manière significative l'unité centrale, la latence et la mémoire vive. Ils ont également conçu un nouveau cadre d'analyse pour le problème classique de la mise en cache avec des réservations de capacité.
Google a amélioré l'état de l'art en matière de regroupement et d'algorithmes de graphes en développant de nouvelles techniques pour le calcul de la coupe minimale, le regroupement approximatif des corrélations et le regroupement massivement parallèle des graphes. En outre, ils ont introduit TeraHAC, un nouvel algorithme de clustering hiérarchique pour les graphes à mille milliards d'arêtes, conçu un algorithme de clustering de texte pour une meilleure évolutivité tout en maintenant la qualité, et conçu l'algorithme le plus efficace pour l'approximation de la distance de Chamfer, la fonction de similarité standard pour les modèles de multi-encastrement, offrant des accélérations >50× par rapport aux algorithmes exacts hautement optimisés et s'étendant à des milliards de points.
Google a continué à optimiser les grands modèles d'intégration (LEM), qui alimentent un grand nombre de nos produits de base et de nos systèmes de recommandation. Parmi les nouvelles techniques, citons Unified Embedding pour les représentations de caractéristiques éprouvées dans les systèmes de ML à l'échelle du web et Sequential Attention, qui utilise des mécanismes d'attention pour découvrir des architectures de modèle clairsemées de haute qualité au cours de la formation.
Au-delà des systèmes d'enchères automatiques, Google a également étudié la conception d'enchères dans d'autres contextes complexes, tels que les mécanismes d'achat multiple, les enchères pour les soumissionnaires hétérogènes, les conceptions de contrats et les algorithmes d'enchères en ligne robustes et innovants. Motivés par l'application de l'IA générative dans la création collaborative (par exemple, la publicité conjointe pour les annonceurs), ils ont proposé un nouveau modèle d'enchère symbolique dans lequel les LLMs enchérissent pour avoir de l'influence dans la création collaborative de l'IA. Enfin, ils montrent comment atténuer les effets de la personnalisation dans la conception expérimentale, qui, par exemple, peut entraîner une dérive des recommandations au fil du temps.
Le Chrome Privacy Sandbox, une collaboration pluriannuelle entre Google Research et Chrome, a lancé publiquement plusieurs API, notamment pour Protected Audience, Topics et Attribution Reporting. Il s'agit d'une étape importante dans la protection de la vie privée des utilisateurs, tout en soutenant l'écosystème ouvert et libre du web. Ces efforts ont été facilités par la recherche fondamentale sur le risque de réidentification, le calcul de flux privé, l'optimisation des plafonds et des budgets de protection de la vie privée, l'agrégation hiérarchique et les modèles d'apprentissage avec confidentialité des étiquettes.
Science et société
Dans un avenir relativement proche, il est tout à fait possible que l'IA appliquée aux problèmes scientifiques puisse accélérer le taux de découverte dans certains domaines de 10× ou 100×, voire plus, et conduire à des avancées majeures dans divers domaines tels que la bio-ingénierie, la science des matériaux, les prévisions météorologiques, les prévisions climatiques, les neurosciences, la médecine génétique et les soins de santé.
Durabilité et changement climatique
Dans le cadre du projet Green Light, Google s'est associésà 13 villes du monde entier pour améliorer la fluidité du trafic aux intersections et réduire les émissions liées aux arrêts et aux départs. Les premiers chiffres de ces partenariats indiquent un potentiel de réduction de 30 % des arrêts et de 10 % des émissions.
Dans le cadre des travaux sur les traînées de condensation, Google a analysé des données météorologiques à grande échelle, des images satellites historiques et des vols antérieurs. Ils ont formé un modèle d'IA pour prédire où se forment les traînées de condensation et réorienter les avions en conséquence. En partenariat avec American Airlines et Breakthrough Energy, ils ont utilisé ce système pour réduire les traînées de condensation de 54 %.
Google développe également de nouvelles approches technologiques pour aider les communautés à faire face aux effets du changement climatique. Par exemple, ils ont étendu la couverture de leurs prévisions d'inondations à 80 pays, ce qui a un impact direct sur plus de 460 millions de personnes. Ils ont lancé un certain nombre d'efforts de recherche pour aider à atténuer le danger croissant des incendies de forêt, notamment le suivi en temps réel des limites des incendies de forêt à l'aide de l'imagerie satellitaire, et des travaux qui améliorent les plans d'évacuation d'urgence pour les communautés menacées par des incendies de forêt qui se propagent rapidement. Dans le cadre de leur partenariat avec American Forests, les données issues du projet Tree Canopy sont utilisées dans leur plateforme Tree Equity Score, qui aide les communautés à identifier les inégalités d'accès aux arbres et à y remédier.
Enfin, Google a continué à développer de meilleurs modèles de prévision météorologique à plus long terme. En améliorant MetNet et MetNet-2, dans le cadre des travaux de cette année sur MetNet-3, ils surpassent désormais les simulations météorologiques numériques traditionnelles jusqu'à vingt-quatre heures. Dans le domaine des prévisions météorologiques mondiales à moyen terme, les travaux sur GraphCast ont montré une précision de prévision nettement supérieure, jusqu'à dix jours, à celle de HRES, la prévision déterministe opérationnelle la plus précise, produite par le Centre européen pour les prévisions météorologiques à moyen terme (CEPMMT). En collaboration avec le CEPMMT, ils ont publié WeatherBench-2, une référence pour l'évaluation de la précision des prévisions météorologiques dans un cadre commun.
Santé et sciences de la vie
Le potentiel de l'IA pour améliorer considérablement les processus dans le domaine de la santé est considérable. Notre modèle Med-PaLM initial a été le premier modèle capable d'obtenir la note de passage à l'examen d'aptitude médicale aux États-Unis. Notre modèle Med-PaLM 2, plus récent, s'est encore amélioré de 19 %, atteignant une précision de 86,5 % au niveau de l'expert. Ces modèles Med-PaLM sont basés sur le langage, permettent aux cliniciens de poser des questions et d'avoir un dialogue sur des conditions médicales complexes, et sont disponibles pour les organisations de soins de santé dans le cadre de MedLM via Google Cloud.
De la même manière que les modèles linguistiques généraux de Google évoluent pour prendre en charge de multiples modalités, ils ont récemment présenté des recherches sur une version multimodale de Med-PaLM capable d'interpréter des images médicales, des données textuelles et d'autres modalités, décrivant une voie pour réaliser le potentiel passionnant des modèles d'IA pour aider à faire progresser les soins cliniques dans le monde réel.
Google a également travaillé sur la meilleure façon d'exploiter les modèles d'IA dans les flux de travail cliniques. Ils ont montré que le couplage de l'apprentissage profond avec des méthodes d'interprétabilité peut apporter de nouvelles connaissances aux cliniciens. Ils ont également montré que l'apprentissage auto-supervisé, en tenant compte de la confidentialité, de la sécurité, de l'équité et de l'éthique, peut réduire la quantité de données dépersonnalisées nécessaires pour former des modèles d'imagerie médicale cliniquement pertinents de 3× à 100×, réduisant ainsi les obstacles à l'adoption de modèles dans des contextes cliniques réels. Ils ont également lancé une plateforme de collecte de données mobiles open source pour les personnes atteintes de maladies chroniques afin de fournir des outils à la communauté pour qu'elle puisse réaliser ses propres études.
Les systèmes d'IA peuvent également découvrir des signaux et des biomarqueurs totalement nouveaux dans des formes existantes de données médicales. Dans le cadre de travaux sur les nouveaux biomarqueurs découverts dans les images rétiniennes, Google a démontré qu'un certain nombre de biomarqueurs systémiques couvrant plusieurs systèmes organiques (par exemple, les reins, le sang, le foie) peuvent être prédits à partir de photos de l'œil extérieur. Dans d'autres travaux, ils ont montré que la combinaison d'images rétiniennes et d'informations génomiques permet d'identifier certains facteurs sous-jacents du vieillissement.
Dans le domaine de la génomique, Google a collaboré avec 119 scientifiques de 60 institutions pour créer une nouvelle carte du génome humain, ou pangénome. Ce pangénome plus équitable représente mieux la diversité génomique des populations mondiales. S'appuyant sur son travail révolutionnaire AlphaFold, son travail sur AlphaMissense cette année fournit un catalogue de prédictions pour 89% des 71 millions de variants faux-sens possibles comme étant soit probablement pathogènes, soit probablement bénins.
Google a également fait le point sur les progrès réalisés en vue de la prochaine génération d'AlphaFold. Le dernier modèle peut désormais générer des prédictions pour presque toutes les molécules de la banque de données des protéines (PDB), atteignant fréquemment une précision atomique. Cela permet de mieux comprendre et d'améliorer considérablement la précision dans plusieurs classes de biomolécules clés, notamment les ligands (petites molécules), les protéines, les acides nucléiques (ADN et ARN) et ceux qui contiennent des modifications post-traductionnelles (PTM).
Dans le domaine des neurosciences, Google a annoncé une nouvelle collaboration avec Harvard, Princeton, le NIH et d'autres organismes pour cartographier un cerveau de souris entier à une résolution synaptique, en commençant par une première phase qui se concentrera sur la formation hippocampique - la zone du cerveau responsable de la formation de la mémoire, de la navigation spatiale et d'autres fonctions importantes.
Informatique quantique
Les ordinateurs quantiques ont le potentiel de résoudre de grands problèmes concrets dans les domaines de la science et de l'industrie. Mais pour réaliser ce potentiel, ils doivent être beaucoup plus grands qu'ils ne le sont aujourd'hui et accomplir de manière fiable des tâches qui ne peuvent pas être réalisées par des ordinateurs classiques.
Cette année, Google a franchi une étape importante vers le développement d'un ordinateur quantique utile à grande échelle. Son avancée est la première démonstration de la correction quantique des erreurs, qui montre qu'il est possible de réduire les erreurs tout en augmentant le nombre de qubits. Pour permettre des applications dans le monde réel, ces blocs de construction de qubits doivent fonctionner de manière plus fiable, en réduisant le taux d'erreur de ~1 sur 103 généralement observé aujourd'hui, à ~1 sur 108.
Recherche sur l'IA responsable
Conception responsable
L'IA générative a un impact transformateur dans un large éventail de domaines, notamment les soins de santé, l'éducation, la sécurité, l'énergie, les transports, la fabrication et le divertissement. Compte tenu de ces avancées, l'importance de concevoir des technologies conformes à nos principes en matière d'IA reste une priorité absolue. Google a également publié récemment des études de cas sur les pratiques émergentes en matière d'IA centrée sur la société. Enfin, dans son rapport annuel sur l'état d'avancement des principes de l'IA, Google explique en détail comment ses recherches sur l'IA responsable sont intégrées dans les produits et les processus de gestion des risques.
La conception proactive de l'IA responsable commence par l'identification et la documentation des dommages potentiels. Par exemple, Google a récemment introduit un cadre contextuel à trois niveaux pour évaluer de manière exhaustive les risques sociaux et éthiques des systèmes d'IA. Lors de la conception du modèle, les inconvénients peuvent être atténués par l'utilisation d'ensembles de données responsables.
Google travaille en partenariat avec l'université Howard pour créer des ensembles de données de haute qualité sur l'anglais afro-américain (AAE) afin d'améliorer nos produits et de les rendre plus efficaces pour un plus grand nombre de personnes. Ses recherches sur la représentation culturelle inclusive à l'échelle mondiale et sa publication de l'échelle Monk Skin Tone renforcent notre engagement en faveur d'une représentation équitable de tous les peuples. Les connaissances que Google acquiert et les techniques développées aident non seulement à améliorer son propre modèle, mais aussi à réaliser des études à grande échelle sur la représentation dans les médias populaires afin d'informer et d'inspirer la création de contenus plus inclusifs dans le monde entier.
Avec les progrès réalisés dans les modèles d'images génératives, la représentation juste et inclusive des personnes reste une priorité absolue. Dans le pipeline de développement, Google s'efforce d'amplifier les voix sous-représentées et de mieux intégrer la connaissance du contexte social. Ils traitent de manière proactive les préjudices et les biais potentiels à l'aide de classificateurs et de filtres, d'une analyse minutieuse des ensembles de données et de mesures d'atténuation dans le modèle, telles que le réglage fin, le raisonnement, l'incitation à quelques essais, l'augmentation des données et le décodage contrôlé, et les recherches ont montré que l'IA générative permet de développer des classificateurs de sécurité de meilleure qualité avec beaucoup moins de données. Ils ont également mis au point un moyen puissant de mieux ajuster les modèles avec moins de données, ce qui permet aux développeurs de mieux maîtriser les défis liés à la responsabilité dans le domaine de l'IA générative.
Google a développé de nouvelles méthodes d'explicabilité de pointe pour identifier le rôle des données d'apprentissage sur les comportements des modèles. En combinant les méthodes d'attribution des données d'entraînement avec des classificateurs agiles, ils ont découvert qu'on peut identifier les exemples d'entraînement mal étiquetés. Il est ainsi possible de réduire le bruit dans les données d'apprentissage, ce qui permet d'améliorer considérablement la précision des modèles.
Google a lancé plusieurs initiatives visant à améliorer la sécurité et la transparence du contenu en ligne. Par exemple, ils ont introduit SynthID, un outil permettant de filigraner et d'identifier les images générées par l'IA. SynthID est imperceptible à l'œil humain, ne compromet pas la qualité de l'image et permet au filigrane de rester détectable, même après des modifications telles que l'ajout de filtres, la modification des couleurs et l'enregistrement avec divers systèmes de compression avec perte.
Google a également lancé "À propos de cette image" pour aider les internautes à évaluer la crédibilité des images, en affichant des informations telles que l'historique d'une image, la façon dont elle est utilisée sur d'autres pages et les métadonnées disponibles à son sujet. Enfin, ils ont exploré les méthodes de sécurité développées dans d'autres domaines, en nous inspirant de situations établies où la tolérance au risque est faible.
La protection de la vie privée reste un aspect essentiel de l'engagement de Google en faveur d'une IA responsable. Ils ont continué à améliorer leur algorithme d'apprentissage préservant la vie privée DP-FTRL, développé l'algorithme DP-Alternating Minimization (DP-AM) pour permettre des recommandations personnalisées avec une protection rigoureuse de la vie privée, et défini un nouveau paradigme général pour réduire les coûts de protection de la vie privée pour de nombreuses tâches d'agrégation et d'apprentissage. Ils ont également proposé un schéma d'audit des systèmes d'apprentissage automatique différentiellement privés.
En ce qui concerne les applications, Google a démontré que le DP-SGD offre une solution pratique dans le régime de réglage fin des grands modèles et que les images générées par les modèles de diffusion DP sont utiles pour toute une série de tâches en aval. Ils ont proposé un nouvel algorithme pour l'entraînement DP de grands modèles d'intégration qui permet un entraînement efficace sur les TPU sans compromettre la précision.
Google a également fait équipe avec un large groupe de chercheurs universitaires et industriels pour organiser le premier défi de désapprentissage des machines afin de répondre au scénario dans lequel les images d'apprentissage sont oubliées pour protéger la vie privée ou les droits des individus. Ils ont partagé un mécanisme de mémorisation extractible et des systèmes participatifs qui permettent aux utilisateurs de mieux contrôler leurs données sensibles.
Google a continué à élargir le plus grand corpus d'enregistrements de discours atypiques au monde à plus d'un million d'énoncés dans le cadre du projet Euphonia, ce qui a permis d'entraîner un modèle universel de discours pour mieux reconnaître le discours atypique de 37 % sur des bancs d'essai du monde réel.
Google a également mis au point un système de recommandation de livres audio pour les étudiants souffrant de troubles de la lecture tels que la dyslexie.
Tests contradictoires
Les travaux sur les tests contradictoires ont permis de faire entendre la voix de communautés historiquement marginalisées. Google s'est associé à des groupes tels que l'Equitable AI Research Round Table (EARR) pour s'assurer la représentation des diverses communautés qui utilisent ses modèles et l'engagement avec les utilisateurs externes à identifier les préjudices potentiels dans les résultats des modèles génératifs.
Google a mis en place une équipe rouge Google AI dédiée à l'évaluation des modèles et des produits d'IA en termes de sécurité, de protection de la vie privée et de risques d'abus. Ils ont montré que des attaques telles que l'"empoisonnement" ou les exemples adverses peuvent être appliquées aux modèles de production et mettre en évidence des risques supplémentaires tels que la mémorisation dans les modèles génératifs d'images et de textes. Ils ont également démontré que la défense contre de telles attaques peut s'avérer difficile, car le simple fait d'appliquer des défenses peut entraîner d'autres fuites de sécurité et de confidentialité. Ils ont également introduit l'évaluation des modèles pour les risques extrêmes, tels que les cybercapacités offensives ou les fortes capacités de manipulation.
Démocratiser l'IA grâce aux outils et à l'éducation
Tout en faisant progresser l'état de l'art en matière de ML et d'IA, Google veux également s'assurer que les gens peuvent comprendre et appliquer l'IA à des problèmes spécifiques. Ils ont lancé MakerSuite (aujourd'hui Google AI Studio), un outil en ligne qui permet aux développeurs d'IA d'itérer et de créer rapidement des applications légères basées sur l'IA. Pour aider les ingénieurs en IA à mieux comprendre et déboguer l'IA, ils ont lancé LIT 1.0, un débogueur open-source de pointe pour les modèles d'apprentissage automatique.
Colab, l'outil qui aide les développeurs et les étudiants à accéder à de puissantes ressources informatiques directement dans leur navigateur web, a dépassé les 10 millions d'utilisateurs. Google vient d'ajouter gratuitement l'assistance au code alimentée par l'IA pour tous les utilisateurs, faisant de Colab une expérience encore plus utile et intégrée dans les flux de données et de ML.
Pour garantir que l'IA produise des connaissances exactes lorsqu'elle est utilisée, Google a aussi récemment introduit FunSearch, une nouvelle approche qui génère des connaissances vérifiables en sciences mathématiques à l'aide de méthodes évolutionnaires et de grands modèles de langage.
Pour les ingénieurs en IA et les concepteurs de produits, Google met à jour le guide People + AI avec les meilleures pratiques en matière d'IA générative, et continue à concevoir AI Explorables, qui comprend comment et pourquoi les modèles font parfois des prédictions incorrectes en toute confiance.
Engagement communautaire
Google continue à faire progresser les domaines de l'IA et de l'informatique en publiant une grande partie de nos travaux, en participant à des conférences et en les organisant. Ils ont publié plus de 500 articles depuis le début de l'année et sommes très présents à des conférences telles que ICML (voir les articles de Google Research et Google DeepMind), ICLR (Google Research, Google DeepMind), NeurIPS (Google Research, Google DeepMind), ICCV, CVPR, ACL, CHI et Interspeech. Ils s'efforcent également de soutenir les chercheurs du monde entier, en participant à des événements tels que Deep Learning Indaba et Khipu, en soutenant des bourses de doctorat en Amérique latine, etc. Ils ont également travaillé avec des partenaires issus de 33 laboratoires universitaires pour mettre en commun les données de 22 types de robots différents et créer l'ensemble de données Open X-Embodiment et le modèle RT-X afin de mieux faire progresser le développement de l'IA responsable.
Google a été le fer de lance d'un effort à l'échelle de l'industrie pour développer des critères de sécurité de l'IA sous l'égide de l'organisation de normalisation MLCommons, avec la participation de plusieurs acteurs majeurs dans le domaine de l'IA générative, dont OpenAI, Anthropic, Microsoft, Meta, Hugging Face, et bien d'autres encore. Avec d'autres acteurs du secteur, ils ont nous également cofondé le Frontier Model Forum (FMF), qui vise à garantir un développement sûr et responsable des modèles d'IA d'avant-garde. Avec ses partenaires du FMF et d'autres organisations philanthropiques, ils ont lancé un fonds de 10 millions de dollars pour la sécurité de l'IA afin de faire avancer la recherche sur le développement continu des outils permettant à la société de tester et d'évaluer efficacement les modèles d'IA les plus performants.
En partenariat étroit avec Google.org, ils ont collaboré avec les Nations unies pour créer l'UN Data Commons for the Sustainable Development Goals, un outil qui suit les mesures des 17 objectifs de développement durable, et ils ont soutenu des projets d'ONG, d'institutions universitaires et d'entreprises sociales sur l'utilisation de l'IA pour accélérer les progrès en matière d'objectifs de développement durable.
Vision d'avenir
À mesure que les modèles multimodaux gagneront en capacité, ils permettront aux gens de faire des progrès incroyables dans des domaines allant de la science à l'éducation, en passant par des domaines de connaissance entièrement nouveaux.
Les progrès se poursuivent à un rythme soutenu et, au fur et à mesure que l'année avance et que les produits et les recherches de Google progressent également, les gens trouveront des utilisations créatives de l'IA plus nombreuses et plus intéressantes.
En faisant le bilan de cette année, Google conclut en rappelant ses mots en début d'année :
Si elle est poursuivie avec audace et de manière responsable, nous pensons que l'IA peut être une technologie fondamentale qui transforme la vie des gens partout dans le monde - c'est ce qui nous enthousiasme !
Source : Google
Et vous ?
Pensez-vous que ce bilan 2023 de Google est crédible ou pertinent ?
Quel est votre avis sur le sujet ?
Voir aussi :
La course à l'IA s'intensifie : Google annonce PaLM 2, sa réponse à GPT-4, selon Google, le PaLM 2 pourrait coder, traduire et « raisonner » d'une manière plus performante que le GPT-4
Google lance Gemini Pro. Son modèle d'IA est accessible pour les développeurs et les entreprises via Google AI Studio et Vertex AI, mais sa tarification fait déjà l'objet de critiques
Google I/O 2023 : l'IA est désormais omniprésente dans les produits phares de Google. L'entreprise présente ses dernières innovations en matière de technologie, d'IA, de cloud computing