Ils ont constaté que les fournisseurs ne respectent pas les exigences de transparence du projet de loi, notamment en ce qui concerne les données, le calcul et le déploiement de leurs modèles. Les chercheurs du Centre de recherche sur les modèles de fondation de l’université Stanford recommandent aux décideurs politiques de renforcer la transparence dans l’écosystème des modèles de fondation, qui ont un impact croissant sur la société.
L’Institut de Stanford pour l’intelligence artificielle centrée sur l’homme (HAI) a lancé le Centre de recherche sur les modèles de fondation (CRFM), une initiative interdisciplinaire qui vise à faire progresser la recherche, le développement et le déploiement de modèles de fondation.
Les modèles de fondation comme ChatGPT ont un impact profond sur la société avec leurs performances impressionnantes, leurs dangers potentiels, leur diffusion rapide, leur adoption massive et leur débat permanent. En même temps, l’Union européenne (UE) finalise sa loi sur l’IA, qui sera la première réglementation mondiale de l’IA. Le projet de loi a été approuvé par le Parlement européen avec 499 voix pour, 28 voix contre et 93 abstentions. Le projet de loi impose des obligations spécifiques aux fournisseurs de modèles de fondation tels qu’OpenAI et Google.
Évaluation de la conformité des fournisseurs de modèles de fondation avec le projet de loi de l'UE sur l'IA
Selon le Centre de recherche sur les modèles de fondation, les fournisseurs de modèles de base divulguent rarement des informations adéquates concernant les données, le calcul et le déploiement de leurs modèles, ainsi que les principales caractéristiques des modèles eux-mêmes. En particulier, les fournisseurs de modèles de base ne respectent généralement pas les projets d'exigences visant à décrire l'utilisation de données de formation protégées par des droits d'auteur, le matériel utilisé et les émissions produites lors de la formation, ainsi que la manière dont ils évaluent et testent les modèles.
Par conséquent, le CRFM recommande aux décideurs politiques de donner la priorité à la transparence, en s'appuyant sur les exigences de la loi sur l'IA. « Notre évaluation démontre qu'il est actuellement possible pour les fournisseurs de modèles de base de se conformer à la loi sur l'IA et que la divulgation des informations relatives au développement, à l'utilisation et aux performances des modèles de base améliorerait la transparence dans l'ensemble de l'écosystème », déclare le CRFM.
Qu'est-ce qu'un modèle de fondation ?
Ces dernières années, les chercheurs ont réussi à construire des systèmes d'IA capables d'apprendre à partir de milliers, voire de millions, d'exemples pour nous aider à mieux comprendre notre monde ou à trouver de nouvelles solutions à des problèmes difficiles. Ces modèles à grande échelle ont donné naissance à des systèmes capables de comprendre ce que nous disons ou écrivons, comme les programmes de traitement et de compréhension du langage naturel que nous utilisons tous les jours, qu'il s'agisse d'assistants numériques ou de programmes de conversion de la parole en texte.
D'autres systèmes, formés sur des éléments tels que l'ensemble des œuvres d'artistes célèbres ou tous les manuels de chimie existants, nous ont permis de construire des modèles génératifs capables de créer de nouvelles œuvres d'art basées sur ces styles, ou de nouvelles idées de composés basées sur l'histoire de la recherche chimique.
Bien que de nombreux nouveaux systèmes d'IA aident à résoudre toutes sortes de problèmes du monde réel, la création et le déploiement de chaque nouveau système nécessitent souvent beaucoup de temps et de ressources. Pour chaque nouvelle application, vous devez vous assurer qu'il existe un vaste ensemble de données bien étiquetées pour la tâche spécifique à laquelle vous souhaitez vous attaquer. Si l'ensemble de données n'existait pas, il faudrait que des personnes passent des centaines ou des milliers d'heures à trouver et à étiqueter des images, des textes ou des graphiques appropriés pour l'ensemble de données.
Le modèle d'IA doit ensuite apprendre à reconnaître tout ce qui se trouve dans l'ensemble de données, puis il peut être appliqué au cas d'utilisation que vous avez, de la reconnaissance du langage à la génération de nouvelles molécules pour la découverte de médicaments. La formation d'un grand modèle de traitement du langage naturel, par exemple, a à peu près la même empreinte carbone que l'utilisation de cinq voitures pendant toute leur durée de vie.
La prochaine vague d'IA vise à remplacer les modèles spécifiques à une tâche qui ont dominé le paysage de l'IA jusqu'à présent. L'avenir est aux modèles formés sur un large ensemble de données non étiquetées qui peuvent être utilisées pour différentes tâches, avec une mise au point minimale. C'est ce que l'on appelle les modèles de fondation, un terme popularisé pour la première fois par l’HAI du Stanford Institute. « Nous avons vu les premières lueurs du potentiel des modèles de fondation dans les mondes de l'imagerie et du langage. Les premiers exemples de modèles, comme GPT-3, BERT ou DALL-E 2, ont montré ce qu'il était possible de faire », IBM.
Ce qui fait de ces nouveaux systèmes des modèles de fondation, c'est que, comme leur nom l'indique, ils peuvent servir de fondation à de nombreuses applications du modèle d'IA. Grâce à l'apprentissage auto-supervisé et à l'apprentissage par transfert, le modèle peut appliquer les informations qu'il a apprises sur une situation à une autre. Bien que la quantité de données soit considérablement plus importante que celle dont une personne moyenne a besoin pour transférer sa compréhension d'une tâche à une autre, le résultat final est relativement similaire : vous apprenez à conduire une voiture, par exemple, et sans trop d'efforts, vous pouvez conduire la plupart des autres voitures - ou même un camion ou un bus.
L’écart entre les modèles de fondation et la loi sur l’IA : pourquoi la transparence est essentielle
Les modèles de fondation sont au cœur du discours mondial sur l'IA : le paradigme technologique émergent a un impact concret et croissant sur l'économie, la politique et la société. Parallèlement, la loi européenne sur l'IA est l'initiative réglementaire la plus importante en matière d'IA dans le monde aujourd'hui. La loi imposera non seulement des exigences en matière d'IA dans l'UE, qui compte 450 millions d'habitants, mais créera également un précédent pour la réglementation de l'IA dans le monde entier (l'effet Bruxelles).
Les décideurs politiques du monde entier s'inspirent déjà de la loi sur l'IA, et les entreprises multinationales pourraient modifier leurs pratiques mondiales afin de maintenir un processus unique de développement de l'IA. La manière dont nous réglementons les modèles de fondation structurera la chaîne d'approvisionnement numérique au sens large et façonnera l'impact sociétal de la technologie.
Les publications de modèles de fondation sont généralement devenues moins transparentes, comme en témoignent les principales publications de ces derniers mois. Les rapports sur le GPT-4 d'OpenAI et le PaLM 2 de Google indiquent ouvertement qu'ils ne font pas état de nombreux aspects pertinents concernant les données et le calcul. Le document sur le GPT-4 indique que « compte tenu du paysage concurrentiel et des implications pour la sécurité des modèles à grande échelle tels que le GPT-4, ce rapport ne contient aucun détail supplémentaire sur l'architecture (y compris la taille du modèle), le matériel, le calcul d'entraînement, la construction de l'ensemble de données, la méthode d'entraînement ou d'autres éléments similaires ».
Selon le CRFM, une transparence suffisante pour satisfaire aux exigences de la loi en matière de données, de calcul et d'autres facteurs devrait être commercialement possible si les fournisseurs de modèles de fondations prennent collectivement des mesures résultant de normes ou de réglementations sectorielles.
La loi sur l'IA est toujours en discussion et sera finalisée lors du prochain dialogue entre la Commission européenne, le Conseil et le Parlement. Les fournisseurs de modèles de fondation ont également des obligations en vertu des dispositions de la loi sur l'IA qui ne concernent pas uniquement les modèles de base, par exemple lorsque leurs modèles de base sont intégrés dans des systèmes d'IA à haut risque. Par conséquent, les évaluations pourraient diverger de la conformité des fournisseurs de modèles de fondation à la version finale de la loi sur l'IA.
L'adoption et l'application de la loi européenne sur l'IA entraîneront des changements positifs importants dans l'écosystème des modèles de fondation. Selon le CRFM, le respect par les fournisseurs de modèles de fondation des exigences relatives aux droits d'auteur, à l'énergie, aux risques et à l'évaluation est particulièrement faible, ce qui indique les domaines dans lesquels les fournisseurs de modèles peuvent s'améliorer.
Sources : CRFM
Et vous ?
Les conclusions du CRFM sur les modèles de fondation sont-elles pertinentes ?
Selon vous, quels sont les avantages et les inconvénients de la transparence comme priorité pour responsabiliser les fournisseurs de modèles de fondation ?
À votre avis, quels sont les risques et les opportunités liés à la réglementation des modèles de fondation au niveau mondial ?
Comment les fournisseurs de modèles de fondation peuvent-ils s’adapter aux exigences du projet de loi de l’UE sur l’IA tout en préservant leur innovation et leur compétitivité ?
Voir aussi :
L'UE vote pour interdire l'IA dans la surveillance biométrique et exiger la divulgation des systèmes d'IA, le projet de loi de l'UE sur l'IA se durcit, mais reste ouvert à la négociation
Un groupe de consommateurs demandent à l'UE d'enquêter d'urgence sur les risques liés à l'IA générative et d'appliquer la législation existante pour protéger les consommateurs
Data Act : l'UE s'accorde sur des règles de protection des données face aux grandes enseignes du numérique, les entreprises les critiquent et un groupe paneuropéen de consommateurs affiche sa déception