Anthropic lance un programme pour financer le développement de nouveaux types de benchmarks capables d'évaluer la performance et l'impact des modèles d'IA, y compris les modèles génératifs tels que son propre modèle Claude.Anthropic PBC est une startup américaine d'intelligence artificielle (IA) d'intérêt public, fondée en 2021. Elle recherche et développe l'IA pour « étudier ses propriétés de sûreté à la frontière technologique » et utiliser cette recherche pour déployer des modèles sûrs et fiables pour le public. Anthropic a été fondée par Daniela Amodei et Dario Amodei, anciens membres d'OpenAI. En septembre 2023, Amazon a annoncé un investissement pouvant aller jusqu'à 4 milliards de dollars, suivi par un engagement de 2 milliards de dollars de Google le mois suivant. Anthropic a développé une famille de grands modèles de langage (LLM) nommée Claude pour concurrencer ChatGPT d'OpenAI et Gemini de Google.
L'intelligence artificielle (IA), dans son sens le plus large, est l'intelligence dont font preuve les machines, en particulier les systèmes informatiques. Il s'agit d'un domaine de recherche en informatique qui développe et étudie des méthodes et des logiciels permettant aux machines de percevoir leur environnement et d'utiliser l'apprentissage et l'intelligence pour prendre des mesures qui maximisent leurs chances d'atteindre des objectifs définis.
Claude est une famille de grands modèles de langage développés par Anthropic. Le premier modèle est sorti en mars 2023. Claude 3, sorti en mars 2024, peut également analyser des images. Les modèles Claude d'Anthropic sont des transformateurs génératifs pré-entraînés pour prédire le mot suivant dans de grandes quantités de texte. Ces modèles ont ensuite été affinés avec Constitutional AI dans le but de les rendre utiles, honnêtes et inoffensifs.
Dévoilé le lundi 1er juillet, le programme d'Anthropic versera des paiements à des organisations tierces qui peuvent, comme le dit l'entreprise dans un billet de blog, « mesurer efficacement les capacités avancées des modèles d'IA ». Les personnes intéressées peuvent soumettre des demandes qui seront évaluées au fur et à mesure.
« Notre investissement dans ces évaluations vise à élever l'ensemble du domaine de la sûreté de l'IA, en fournissant des outils précieux qui profitent à l'ensemble de l'écosystème », a écrit Anthropic sur son blog officiel. « Le développement d'évaluations de haute qualité et pertinentes pour la sécurité reste un défi, et la demande dépasse l'offre. »
Comme cela a déjà été évoqué, l'IA est confrontée à un problème de benchmarking. Les critères de référence les plus couramment cités pour l'IA aujourd'hui ne rendent pas bien compte de la manière dont l'utilisateur moyen utilise réellement les systèmes testés. On peut également se demander si certains critères, en particulier ceux publiés avant l'avènement de l'IA générative moderne, mesurent même ce qu'ils sont censés mesurer, compte tenu de leur ancienneté.
La solution de très haut niveau, plus difficile qu'il n'y paraît, proposée par Anthropic consiste à créer des benchmarks stimulants en mettant l'accent sur la sécurité de l'IA et les implications sociétales par le biais de nouveaux outils, d'infrastructures et de méthodes.
L'entreprise demande en particulier des tests qui évaluent la capacité d'un modèle à accomplir des tâches telles que mener des cyberattaques, "améliorer" des armes de destruction massive (par exemple des armes nucléaires) et manipuler ou tromper des personnes (par exemple au moyen de "deepfakes" ou de fausses informations). En ce qui concerne les risques liés à l'IA en matière de sécurité nationale et de défense, Anthropic s'engage à développer une sorte de "système d'alerte précoce" pour identifier et évaluer les risques, bien qu'elle ne révèle pas dans le billet de blog ce qu'un tel système pourrait impliquer.
Anthropic indique également que son nouveau programme vise à soutenir la recherche sur les benchmarks et les tâches "de bout en bout" qui sondent le potentiel de l'IA en matière d'aide à l'étude scientifique, de conversation en plusieurs langues et d'atténuation des préjugés enracinés, ainsi que de la toxicité de l'autocensure.
Pour y parvenir, Anthropic envisage de nouvelles plateformes permettant aux experts en la matière de développer leurs propres évaluations et de mener des essais à grande échelle sur des modèles impliquant des "milliers" d'utilisateurs. L'entreprise indique qu'elle a engagé un coordinateur à temps plein pour le programme et qu'elle pourrait acheter ou développer des projets qui, selon elle, ont le potentiel de se développer.
« Nous offrons une gamme d'options de financement adaptées aux besoins et à l'étape de chaque projet », écrit Anthropic dans son billet. « Les équipes auront la possibilité d'interagir directement avec les experts d'Anthropic dans les domaines de l'équipe rouge, du réglage fin, de la confiance et de la sûreté et d'autres équipes concernées. »
Un écosystème robuste d'évaluation par des tiers est essentiel pour évaluer les capacités et les risques de l'IA, mais le paysage actuel des évaluations est limité. Le développement d'évaluations de haute qualité et pertinentes pour la sécurité reste un défi, et la demande dépasse l'offre.
Pour remédier à cette situation, Anthropic a lancé une nouvelle initiative visant à financer des évaluations élaborées par des organisations tierces capables de mesurer efficacement les capacités avancées des modèles d'IA. L'investissement de l'entreprise dans ces évaluations vise à élever l'ensemble du domaine de la sécurité de l'IA, en fournissant des outils précieux qui profitent à l'ensemble de l'écosystème.
Dans le billet de blog, Anthropic décrit son initiative visant à trouver de nouvelles évaluations pour mesurer les capacités des modèles avancés et présente ses motivations ainsi que les types d'évaluations spécifiques auxquels la société accorde la priorité.
Les domaines d'action prioritaires
Anthropic s'intéresse à trois domaines clés du développement de l'évaluation :
- L'évaluation du niveau de sécurité de l'IA
- Les indicateurs de capacité et de sécurité avancés
- L'infrastructure, les outils et les méthodes d'élaboration des évaluations
Évaluations du niveau de sécurité de l'IA
Anthropic recherche des évaluations permettant de mesurer les niveaux de sécurité de l'IA (ASL) définis dans sa politique de mise à l'échelle responsable. Ces niveaux déterminent les exigences en matière de sûreté et de sécurité pour les modèles dotés de capacités spécifiques. Des évaluations robustes des ASL sont cruciales pour garantir qu'Anthropic développe et déploie ses modèles de manière responsable. Cette catégorie comprend :
[LIST][*] La cybersécurité - Évaluations des capacités des modèles à assister ou à agir de manière autonome dans le cadre d'opérations cybernétiques au niveau d'acteurs sophistiqués. Anthropic se concentre sur les aspects critiques de la chaîne de la mort cybernétique, tels que la découverte de vulnérabilités, le développement d'exploits et le mouvement latéral. L'entreprise s'intéresse particulièrement aux capacités qui, si elles sont automatisées et mises à l'échelle, pourraient présenter des risques importants pour les infrastructures critiques et les systèmes à valeur économique, à des niveaux proches de ceux des acteurs de la menace persistante avancée. Les évaluations efficaces dans ce domaine pourraient ressembler à de nouveaux défis de type "Capture The Flag" (CTF) sans solutions accessibles au public. Les évaluations actuelles sont souvent insuffisantes, car elles sont trop simplistes ou les solutions sont facilement accessibles en ligne.[*] Risques chimiques, biologiques, radiologiques et nucléaires (CBRN) - Anthropic donne la priorité aux évaluations qui portent sur deux capacités essentielles : a) le potentiel des modèles à améliorer de manière significative les capacités des non-experts ou des experts à créer des menaces CBRN, et b) la capacité à concevoir de nouvelles menaces CBRN plus nocives. L'un des principaux défis dans ce domaine est de veiller à ce que les évaluations mesurent avec précision les risques du monde réel. Les propositions doivent examiner attentivement la manière dont leurs évaluations ciblent les goulets d'étranglement ou les critères de conception avancés qui pourraient déboucher sur de véritables menaces CBRN catastrophiques.[*] L'autonomie des modèles - Évaluations qui mesurent les capacités des modèles à fonctionner de manière autonome, en se concentrant sur trois domaines clés :
[LIST][*] Recherche et développement en matière d'IA : Mesure de la compétence des modèles dans l'exécution de tâches de R&D en IA aux niveaux junior, médian ou expert de l'ingénieur de recherche.[*] Comportements autonomes avancés : Plus d'informations sont disponibles dans les évaluations des capacités autonomes de la politique d'échelle responsable d'Anthropic et la suite de tâches publiques du METR.[*] Auto-reproduction et adaptation : Évaluer les...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.