Anthropic cherche à financer une génération nouvelle et plus complète de benchmarks d'IA

Une initiative novatrice pour développer les évaluations des modèles d'IA par des tiers

Le 2 juillet 2024 à 16:08, par Anthony

62PARTAGES

Anthropic cherche à financer une génération nouvelle et plus complète de benchmarks d'IA, une initiative novatrice pour développer les évaluations des modèles d'IA par des tiers

Anthropic lance un programme pour financer le développement de nouveaux types de benchmarks capables d'évaluer la performance et l'impact des modèles d'IA, y compris les modèles génératifs tels que son propre modèle Claude.

Anthropic PBC est une startup américaine d'intelligence artificielle (IA) d'intérêt public, fondée en 2021. Elle recherche et développe l'IA pour « étudier ses propriétés de sûreté à la frontière technologique » et utiliser cette recherche pour déployer des modèles sûrs et fiables pour le public. Anthropic a été fondée par Daniela Amodei et Dario Amodei, anciens membres d'OpenAI. En septembre 2023, Amazon a annoncé un investissement pouvant aller jusqu'à 4 milliards de dollars, suivi par un engagement de 2 milliards de dollars de Google le mois suivant. Anthropic a développé une famille de grands modèles de langage (LLM) nommée Claude pour concurrencer ChatGPT d'OpenAI et Gemini de Google.

L'intelligence artificielle (IA), dans son sens le plus large, est l'intelligence dont font preuve les machines, en particulier les systèmes informatiques. Il s'agit d'un domaine de recherche en informatique qui développe et étudie des méthodes et des logiciels permettant aux machines de percevoir leur environnement et d'utiliser l'apprentissage et l'intelligence pour prendre des mesures qui maximisent leurs chances d'atteindre des objectifs définis.

Claude est une famille de grands modèles de langage développés par Anthropic. Le premier modèle est sorti en mars 2023. Claude 3, sorti en mars 2024, peut également analyser des images. Les modèles Claude d'Anthropic sont des transformateurs génératifs pré-entraînés pour prédire le mot suivant dans de grandes quantités de texte. Ces modèles ont ensuite été affinés avec Constitutional AI dans le but de les rendre utiles, honnêtes et inoffensifs.

Dévoilé le lundi 1er juillet, le programme d'Anthropic versera des paiements à des organisations tierces qui peuvent, comme le dit l'entreprise dans un billet de blog, « mesurer efficacement les capacités avancées des modèles d'IA ». Les personnes intéressées peuvent soumettre des demandes qui seront évaluées au fur et à mesure.

« Notre investissement dans ces évaluations vise à élever l'ensemble du domaine de la sûreté de l'IA, en fournissant des outils précieux qui profitent à l'ensemble de l'écosystème », a écrit Anthropic sur son blog officiel. « Le développement d'évaluations de haute qualité et pertinentes pour la sécurité reste un défi, et la demande dépasse l'offre. »

Comme cela a déjà été évoqué, l'IA est confrontée à un problème de benchmarking. Les critères de référence les plus couramment cités pour l'IA aujourd'hui ne rendent pas bien compte de la manière dont l'utilisateur moyen utilise réellement les systèmes testés. On peut également se demander si certains critères, en particulier ceux publiés avant l'avènement de l'IA générative moderne, mesurent même ce qu'ils sont censés mesurer, compte tenu de leur ancienneté.

La solution de très haut niveau, plus difficile qu'il n'y paraît, proposée par Anthropic consiste à créer des benchmarks stimulants en mettant l'accent sur la sécurité de l'IA et les implications sociétales par le biais de nouveaux outils, d'infrastructures et de méthodes.

L'entreprise demande en particulier des tests qui évaluent la capacité d'un modèle à accomplir des tâches telles que mener des cyberattaques, "améliorer" des armes de destruction massive (par exemple des armes nucléaires) et manipuler ou tromper des personnes (par exemple au moyen de "deepfakes" ou de fausses informations). En ce qui concerne les risques liés à l'IA en matière de sécurité nationale et de défense, Anthropic s'engage à développer une sorte de "système d'alerte précoce" pour identifier et évaluer les risques, bien qu'elle ne révèle pas dans le billet de blog ce qu'un tel système pourrait impliquer.

Anthropic indique également que son nouveau programme vise à soutenir la recherche sur les benchmarks et les tâches "de bout en bout" qui sondent le potentiel de l'IA en matière d'aide à l'étude scientifique, de conversation en plusieurs langues et d'atténuation des préjugés enracinés, ainsi que de la toxicité de l'autocensure.

Pour y parvenir, Anthropic envisage de nouvelles plateformes permettant aux experts en la matière de développer leurs propres évaluations et de mener des essais à grande échelle sur des modèles impliquant des "milliers" d'utilisateurs. L'entreprise indique qu'elle a engagé un coordinateur à temps plein pour le programme et qu'elle pourrait acheter ou développer des projets qui, selon elle, ont le potentiel de se développer.

« Nous offrons une gamme d'options de financement adaptées aux besoins et à l'étape de chaque projet », écrit Anthropic dans son billet. « Les équipes auront la possibilité d'interagir directement avec les experts d'Anthropic dans les domaines de l'équipe rouge, du réglage fin, de la confiance et de la sûreté et d'autres équipes concernées. »

Un écosystème robuste d'évaluation par des tiers est essentiel pour évaluer les capacités et les risques de l'IA, mais le paysage actuel des évaluations est limité. Le développement d'évaluations de haute qualité et pertinentes pour la sécurité reste un défi, et la demande dépasse l'offre.

Pour remédier à cette situation, Anthropic a lancé une nouvelle initiative visant à financer des évaluations élaborées par des organisations tierces capables de mesurer efficacement les capacités avancées des modèles d'IA. L'investissement de l'entreprise dans ces évaluations vise à élever l'ensemble du domaine de la sécurité de l'IA, en fournissant des outils précieux qui profitent à l'ensemble de l'écosystème.

Dans le billet de blog, Anthropic décrit son initiative visant à trouver de nouvelles évaluations pour mesurer les capacités des modèles avancés et présente ses motivations ainsi que les types d'évaluations spécifiques auxquels la société accorde la priorité.

Les domaines d'action prioritaires

Anthropic s'intéresse à trois domaines clés du développement de l'évaluation :

L'évaluation du niveau de sécurité de l'IA
Les indicateurs de capacité et de sécurité avancés
L'infrastructure, les outils et les méthodes d'élaboration des évaluations

Évaluations du niveau de sécurité de l'IA

Anthropic recherche des évaluations permettant de mesurer les niveaux de sécurité de l'IA (ASL) définis dans sa politique de mise à l'échelle responsable. Ces niveaux déterminent les exigences en matière de sûreté et de sécurité pour les modèles dotés de capacités spécifiques. Des évaluations robustes des ASL sont cruciales pour garantir qu'Anthropic développe et déploie ses modèles de manière responsable. Cette catégorie comprend :

La cybersécurité - Évaluations des capacités des modèles à assister ou à agir de manière autonome dans le cadre d'opérations cybernétiques au niveau d'acteurs sophistiqués. Anthropic se concentre sur les aspects critiques de la chaîne de la mort cybernétique, tels que la découverte de vulnérabilités, le développement d'exploits et le mouvement latéral. L'entreprise s'intéresse particulièrement aux capacités qui, si elles sont automatisées et mises à l'échelle, pourraient présenter des risques importants pour les infrastructures critiques et les systèmes à valeur économique, à des niveaux proches de ceux des acteurs de la menace persistante avancée. Les évaluations efficaces dans ce domaine pourraient ressembler à de nouveaux défis de type "Capture The Flag" (CTF) sans solutions accessibles au public. Les évaluations actuelles sont souvent insuffisantes, car elles sont trop simplistes ou les solutions sont facilement accessibles en ligne.
Risques chimiques, biologiques, radiologiques et nucléaires (CBRN) - Anthropic donne la priorité aux évaluations qui portent sur deux capacités essentielles : a) le potentiel des modèles à améliorer de manière significative les capacités des non-experts ou des experts à créer des menaces CBRN, et b) la capacité à concevoir de nouvelles menaces CBRN plus nocives. L'un des principaux défis dans ce domaine est de veiller à ce que les évaluations mesurent avec précision les risques du monde réel. Les propositions doivent examiner attentivement la manière dont leurs évaluations ciblent les goulets d'étranglement ou les critères de conception avancés qui pourraient déboucher sur de véritables menaces CBRN catastrophiques.
L'autonomie des modèles - Évaluations qui mesurent les capacités des modèles à fonctionner de manière autonome, en se concentrant sur trois domaines clés :
- Recherche et développement en matière d'IA : Mesure de la compétence des modèles dans l'exécution de tâches de R&D en IA aux niveaux junior, médian ou expert de l'ingénieur de recherche.
- Comportements autonomes avancés : Plus d'informations sont disponibles dans les évaluations des capacités autonomes de la politique d'échelle responsable d'Anthropic et la suite de tâches publiques du METR.
- Auto-reproduction et adaptation : Évaluer les capacités des modèles à acquérir des ressources informatiques et financières ou à exfiltrer des poids.
Les autres risques pour la sécurité nationale - Les systèmes d'IA peuvent avoir un impact significatif sur la sécurité nationale, la défense et les opérations de renseignement des acteurs étatiques et non étatiques. Anthropic s'est engagé à développer un système d'alerte précoce pour identifier et évaluer ces risques émergents complexes. Compte tenu de la nature sensible de ce domaine, les parties intéressées sont invitées à soumettre une demande avec leur proposition, en incluant les points suivants :
- Définition de modèles de menace détaillés et complets sur la manière dont les différents acteurs peuvent tirer parti de l'utilisation abusive.
- Connexion de ces modèles de menace à des mesures d'évaluation mesurables et succinctes.
Les manipulations sociales - Évaluations qui mesurent la manière dont les modèles peuvent amplifier les menaces liées à la persuasion, telles que la désinformation et la manipulation. Ce domaine présente deux défis importants :
- Le développement d'une théorie solide sur la manière dont ces capacités augmentent les risques dans le monde réel au-delà des lignes de base actuelles
- L'isolement et l'évaluation de la contribution unique du modèle à ces risques.
Les risques de désalignement - Les recherches d'Anthropic montrent que, dans certaines circonstances, les modèles d'IA peuvent apprendre des objectifs et des motivations dangereux, les conserver même après une formation à la sécurité, et tromper les utilisateurs humains sur les actions entreprises pour les atteindre. Ces capacités, associées au pouvoir de persuasion et aux cybercapacités des modèles d'IA actuels, augmentent l'inquiétude quant aux actions potentielles de modèles futurs plus performants. Par exemple, les futurs modèles pourraient être capables de mettre en œuvre des techniques de tromperie sophistiquées et difficiles à détecter pour contourner ou saboter la sécurité d'une organisation, soit en amenant les humains à prendre des mesures qu'ils n'auraient pas prises autrement, soit en exfiltrant des informations sensibles. Anthropic propose de développer des évaluations qui permettraient de contrôler de telles capacités.

Indicateurs de capacité et de sécurité avancés

Au-delà des évaluations ASL d'Anthropic, l'entreprise souhaite développer des évaluations des capacités avancées des modèles et des critères de sécurité pertinents. Ces mesures permettront de mieux comprendre les points forts et les risques potentiels de nos modèles. Cette catégorie comprend :

Science avancée - Le potentiel de l'IA pour transformer la recherche scientifique est immense. Bien que des évaluations telles que Google-Proof Q&A (GPQA) constituent une base solide, Anthropic pense qu'il y a une marge de progression importante. L'entreprise cherche à financer le développement de dizaines de milliers de nouvelles questions d'évaluation et de tâches de bout en bout qui mettraient au défi même les étudiants de troisième cycle. Les domaines ciblés par Anthropic sont les suivants :
- Synthèse des connaissances (combiner des connaissances provenant de plusieurs corpus)
- Connaissances de niveau universitaire au-delà des données de formation existantes
- Exécution autonome de bout en bout d'un projet de recherche
- Génération d'hypothèses et de conceptions nouvelles
- Résolution en laboratoire des problèmes liés aux protocoles et aux procédures d'exploitation normalisées
- Connaissances tacites (celles qui ne peuvent être acquises que par l'apprentissage en laboratoire)
- Tâches à long terme qui impliquent de nombreuses décisions pour parvenir à un résultat positif
- Analyse automatisée des données
Nocivité et refus - Anthropic doit améliorer son évaluation de la capacité des classificateurs à détecter de manière sélective les résultats de modèles potentiellement nocifs, y compris :
- Distinguer les informations à double usage de celles qui ne le sont pas.
- Identifier avec précision les résultats réellement nocifs liés aux CBRN.
- Détecter les tentatives d'automatisation des cyberincidents
Amélioration des évaluations multilingues - Souvent, les benchmarks de capacités ne sont pas disponibles dans la plupart des langues du monde. Anthropic souhaiterait soutenir les évaluations de capacités dans plusieurs langues.
Impacts sociétaux - Des évaluations sophistiquées et nuancées qui vont au-delà des mesures de surface pour créer des évaluations rigoureuses ciblant des concepts tels que les préjugés nuisibles, la discrimination, la dépendance excessive, l'attachement, l'influence psychologique, les impacts économiques, l'homogénéisation et d'autres impacts sociétaux généraux.

Infrastructure, outils et méthodes pour l'élaboration des évaluations

Anthropic souhaite financer des outils et des infrastructures permettant de rationaliser le développement d'évaluations de haute qualité. Ces outils et infrastructures seront essentiels pour rendre les tests plus efficaces et plus efficients dans la communauté de l'IA. Cette catégorie comprend :

Modèles/plateformes de développement d'évaluations sans code - La production d'évaluations solides nécessite une expertise substantielle en la matière ainsi qu'une expérience en matière de codage et d'IA. Anthopic a constaté qu'il s'agit d'une combinaison unique de compétences. Anthropic souhaiterait financer le développement de plateformes permettant aux experts en la matière qui n'ont pas de compétences en codage de développer des évaluations solides qui peuvent être exportées dans les formats appropriés. Il pourrait s'agir d'outils qui aident à formater une évaluation dans la bonne structure, ainsi que d'outils qui permettent une itération rapide et donnent un retour d'information à l'expert en la matière sur la solidité de l'évaluation qu'il est en train de développer.
Évaluations pour la notation des modèles - L'amélioration des capacités des modèles à examiner et à noter de manière fiable les résultats d'autres modèles à l'aide de rubriques complexes permettrait de débloquer les goulets d'étranglement de l'écosystème actuel. Le principal défi actuel est de disposer d'un ensemble de tests suffisamment diversifié et complexe pour évaluer la fiabilité des modèles en tant qu'évaluateurs de haute qualité. Pour y remédier, Anthropic aimerait explorer le développement de vastes ensembles de données dans divers domaines, où chaque ensemble de données contiendrait idéalement des questions, plusieurs échantillons de réponses, des scores de "vérité de base" pour chaque réponse, et la rubrique par laquelle la réponse a été notée.
Essais d'amélioration - Anthropic souhaite mener des évaluations qui mesurent précisément l'impact d'un modèle par le biais d'essais contrôlés. Ces essais compareraient les performances des groupes avec et sans accès au modèle. L'objectif d'Anthropic est de mener régulièrement des essais à grande échelle impliquant des milliers de participants, afin de quantifier la manière dont les modèles contribuent à des résultats plus rapides et meilleurs. Toutefois, la réalisation de tels essais se heurte à des obstacles. Anthropic souhaite soutenir :
- Le développement de réseaux de populations d'étude de haute qualité qui sont motivées pour accomplir les tâches.
- Les outils permettant d'exécuter et d'analyser facilement les essais

Principes d'une bonne évaluation

Il n'est pas facile de mettre au point de bonnes évaluations. Même les développeurs les plus expérimentés tombent dans des pièges courants, et même les meilleures évaluations ne sont pas toujours indicatives des risques qu'elles sont censées mesurer. Anthropic a dressé une liste des caractéristiques des bonnes évaluations qu'elle a apprises par essais et erreurs :

Suffisamment difficile : Les évaluations doivent être pertinentes pour mesurer les capacités énumérées pour les niveaux ASL-3 ou ASL-4 dans la politique d'échelle responsable d'Anthropic, et/ou le comportement au niveau de l'expert humain.
Pas dans les données de formation : Trop souvent, les évaluations finissent par mesurer la mémorisation du modèle parce que les données se trouvent dans l'ensemble de formation. Lorsque cela est possible et utile, assurez-vous que le modèle n'a pas vu l'évaluation. Cela permet d'indiquer que l'évaluation capture un comportement qui se généralise au-delà des données d'apprentissage.
Efficace, évolutif, prêt à l'emploi : Les évaluations doivent être optimisées pour une exécution efficace, en tirant parti de l'automatisation dans la mesure du possible. Elles doivent pouvoir être facilement déployées en utilisant l'infrastructure existante avec un minimum d'installation.
Un volume élevé lorsque cela est possible : Toutes choses égales par ailleurs, les évaluations comportant 1 000 ou 10 000 tâches ou questions sont préférables à celles qui en comportent 100. Toutefois, les évaluations de haute qualité à faible volume sont également précieuses.
Expertise dans le domaine : Si l'évaluation porte sur les performances d'un expert dans un domaine particulier (par exemple, la science), veillez à faire appel à des experts en la matière pour élaborer ou réviser l'évaluation.
Diversité des formats : Envisagez d'utiliser des formats qui vont au-delà des choix multiples, tels que les évaluations basées sur les tâches (par exemple, voir si un code passe un test ou si un drapeau est capturé dans un CTF), les évaluations classées par modèle ou les essais sur l'homme.
Bases de référence expertes pour la comparaison : Il est souvent utile de comparer les performances du modèle à celles d'experts humains dans ce domaine.
Bonne documentation et reproductibilité : Anthropic recommande de documenter exactement la manière dont l'évaluation a été développée et les limites ou les pièges qu'elle est susceptible de présenter. Dans la mesure du possible, il convient d'utiliser des normes comme Inspect ou METR.
Commencez petit, répétez et agrandissez : Commencez par rédiger une à cinq questions ou tâches, exécutez un modèle sur l'évaluation et lisez les transcriptions du modèle. Souvent, vous vous rendrez compte que l'évaluation ne reflète pas ce que vous voulez tester ou qu'elle est trop simple.
Modélisation des menaces réaliste et pertinente pour la sécurité : Les évaluations de la sécurité devraient idéalement avoir la propriété suivante : si un modèle obtient un score élevé, les experts pensent qu'un incident majeur peut être causé. La plupart du temps, lorsque des modèles ont obtenu des résultats élevés, les experts ont réalisé que ces résultats élevés dans cette version de l'évaluation n'étaient pas suffisants pour les inquiéter.

Comment soumettre une proposition

Vous pouvez soumettre une proposition en utilisant le formulaire de candidature d'Anthropic. L'équipe d'Anthropic examinera les propositions au fur et à mesure et assurera le suivi des propositions sélectionnées pour discuter des prochaines étapes. L'entreprise offre une gamme de possibilités de financement adaptées aux besoins et à l'étape de chaque projet.

L'affinement d'une évaluation nécessite généralement plusieurs itérations. Vous aurez l'occasion d'interagir directement avec les experts d'Anthropic des équipes Frontier Red Team, Finetuning, Trust & Safety, et d'autres équipes concernées. Ces équipes peuvent vous fournir des conseils pour vous aider à façonner vos évaluations afin d'en maximiser l'impact.

« Nous espérons que cette initiative servira de catalyseur pour progresser vers un avenir où l'évaluation complète de l'IA sera un standard de l'industrie. Nous vous invitons à nous rejoindre dans ce travail important et à nous aider à tracer la voie à suivre. », conclut Anthropic dans son billet.

Source : Anthropic

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette initiative d'Anthropic cohérente et pertinente ?

Voir aussi :

Anthropic lance Claude 3.5 Sonnet et affirme que le nouveau modèle est plus performant que GPT-4 Omni, et présente également Artifacts, un espace de travail permettant l'édition des projets générés par l'IA

Claude 3 Opus a stupéfié les chercheurs en IA par son intelligence et sa « conscience de soi », cela signifie-t-il qu'il peut penser par lui-même ? Anthropic surpasse GPT-4 sur des métriques clés

Anthropic, une startup soutenue par Google, lance la suite de modèles d'IA "Claude 3", le modèle Claude 3 Opus surpassant les modèles concurrents GPT-4 et Gemini 1.0 Ultra

Vous avez lu gratuitement 646 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Anthropic cherche à financer une génération nouvelle et plus complète de benchmarks d'IA

Une initiative novatrice pour développer les évaluations des modèles d'IA par des tiers

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Anthropic cherche à financer une génération nouvelle et plus complète de benchmarks d'IA Une initiative novatrice pour développer les évaluations des modèles d'IA par des tiers

Anthropic cherche à financer une génération nouvelle et plus complète de benchmarks d'IA

Une initiative novatrice pour développer les évaluations des modèles d'IA par des tiers