Quand l'IA se construit elle-même : nos progrès vers l'auto-amélioration récursive et leurs implications

Par Anthropic

Le 9 juin 2026 à 21:13, par Anthropic

324PARTAGES

Quand l'IA se construit elle-même : nos progrès vers l'auto-amélioration récursive et leurs implications, par Anthropic

Pendant la majeure partie de l'histoire de l'IA, ce sont les humains qui ont piloté chaque étape de son cycle de développement. Mais chez Anthropic, nous confions une part croissante du développement de l'IA aux systèmes d'IA eux-mêmes, ce qui accélère notre travail.

Poussée à son paroxysme et dotée de ressources informatiques suffisantes, cette tendance laisse entrevoir un système d'IA capable de concevoir et de développer de manière entièrement autonome son propre successeur. C'est ce qu'on appelle l'auto-amélioration récursive. Nous n'en sommes pas encore là, et l'auto-amélioration récursive n'est pas inévitable. Mais elle pourrait survenir plus tôt que la plupart des institutions ne s'y sont préparées.

En s'appuyant sur des benchmarks publics et des données internes à Anthropic qui n'avaient jamais été divulguées, l'Anthropic Institute démontre que l'IA accélère déjà le développement des systèmes d'IA. Pour ne citer qu'un exemple : aujourd'hui, les ingénieurs d'Anthropic livrent en moyenne huit fois plus de code par trimestre qu'ils ne le faisaient entre 2021 et 2025.

Les tendances techniques abordées dans cet article suggèrent que les systèmes d'IA vont devenir bien plus performants dans les années à venir. Ces tendances ont des implications considérables. Une IA capable de se construire elle-même constituerait une avancée majeure dans l'histoire de la technologie, susceptible d'apporter d'énormes bienfaits au monde dans les domaines de la science, de la santé et bien au-delà. Mais une auto-amélioration récursive complète pourrait également accroître les risques que les humains perdent le contrôle des systèmes d'IA. Si les systèmes sont capables de construire entièrement leurs propres successeurs, la manière dont nous les sécurisons, les surveillons et façonnons leur comportement prendra une importance bien plus grande.

2021-2023 : La création du premier Claude

Au début, le travail chez Anthropic ressemblait à celui de n’importe quelle autre entreprise technologique : des gens qui écrivaient du code et rédigeaient des documents sur des ordinateurs portables.

2023–2025 : Chatbots

Les premiers chatbots aidaient à certaines étapes du processus, comme la génération de courts extraits de code et la copie du résultat dans des éditeurs de texte.

2025–2026 : Agents de codage

À mesure que les agents gagnaient en capacités, ils ont pu écrire et modifier du code de manière autonome, parfois des fichiers entiers.

Aujourd’hui : Agents autonomes

Les agents peuvent désormais exécuter du code eux-mêmes et déléguer des heures de travail à d’autres agents.

20XX ? : Boucler la boucle

À l’avenir, les agents pourraient devenir suffisamment compétents pour construire et entraîner eux-mêmes des modèles. Si cela se produit, les futures versions de Claude pourraient être améliorées en continu par Claude lui-même/

Preuves issues du monde extérieur

Le rythme auquel les modèles d’IA s’améliorent s’accélère. La durée des tâches qu’ils peuvent accomplir de manière fiable par eux-mêmes a doublé environ tous les quatre mois, contre une tendance antérieure de doublement tous les sept mois. En mars 2024, Claude Opus 3 était capable d’accomplir des tâches logicielles qui prennent environ quatre minutes à un humain. Un an plus tard, Claude Sonnet 3.7 a réussi des tâches qui prenaient environ une heure et demie. Un an après cela, Claude Opus 4.6 a réussi des tâches de 12 heures. Si cette tendance se maintient, des tâches qui prennent plusieurs jours à une personne qualifiée pourraient être à sa portée cette année. En 2027, les systèmes d'IA pourraient être capables d'accomplir des tâches qui prennent des semaines à une personne.

Le même schéma apparaît dans les benchmarks de codage et de recherche. Les benchmarks mesurent les performances des modèles dans un domaine donné, et ils sont dits « saturés » lorsque les modèles atteignent des performances proches de 100 %. SWE-bench est un test standard de l'ingénierie logicielle en conditions réelles : il fournit à un modèle une base de code open source réelle et un rapport de bogue réel, et lui demande d'écrire une modification de code qui corrige le problème et passe les tests propres au projet. En deux ans, les modèles sont passés de scores à un chiffre à la saturation du benchmark.

CORE-Bench teste la capacité d’un modèle à reproduire des recherches existantes, condition préalable à la conduite de recherches originales. Il fournit à un modèle d’IA le code et les données sous-jacents à un article publié, et lui demande de tout réexécuter pour confirmer qu’il peut reproduire les résultats de l’article. Les systèmes d'IA sont passés d'une réussite de reproduction des résultats d'environ 20 % en 2024 à une saturation du benchmark quinze mois plus tard. METR, qui gère le benchmark mesurant la capacité des modèles à accomplir des tâches de longue durée, a constaté que Claude Mythos Preview pouvait fonctionner pendant « au moins » 16 heures et se situait « dans la fourchette haute de ce que [METR] peut mesurer sans nouvelles tâches ».

Les benchmarks publics en disent long sur les capacités de ces systèmes. Mais ils ne peuvent pas révéler l’impact que les systèmes d’IA ont sur l’accélération du développement de l’IA lui-même. Pour cela, nous avons besoin de preuves directes provenant de l’intérieur des entreprises d’IA comme Anthropic.

Témoignages au sein d'Anthropic

La construction d'un modèle de pointe repose sur deux grandes catégories de tâches. Il y a d'une part l'ingénierie : l'écriture du code, la mise en place de l'infrastructure et la supervision de l'entraînement du modèle. Et d'autre part, la recherche : déterminer les expériences à mener, interpréter les résultats obtenus et identifier les idées à tester ensuite.

Que ce soit en ingénierie ou en recherche, le constat est le même. En ingénierie, on peut confier à Claude un problème mal défini et il trouvera comment le résoudre ; les humains fournissent l’objectif, mais ils n’ont plus besoin de fournir la méthode. En recherche, Claude est déjà capable d’égaler, voire de surpasser, des humains expérimentés dans l’exécution d’une expérience bien définie. Cependant, d’importants écarts de performance persistent lorsqu’il s’agit pour Claude d’exercer son jugement dans le choix des objectifs, tant en ingénierie qu’en recherche. C’est là que réside l’écart entre l’IA d’aujourd’hui et un futur système capable de concevoir de manière autonome son propre successeur.

Il est courant que les employés d’Anthropic se voient confier des tâches plus ouvertes et plus importantes à mesure qu’ils acquièrent de l’expérience. Au début, ils exécutent une tâche spécifiée par quelqu’un d’autre, par exemple : « Le bouton d’exportation ne fonctionne pas, veuillez le réparer. » Avec l’expérience, on leur confie un objectif et ils conçoivent eux-mêmes l’approche, par exemple : « Étudiez pourquoi le réseau ralentit sous une charge importante. » Aux niveaux les plus élevés, ils décident quels problèmes méritent d’être traités : « Que devrait développer l’équipe au prochain trimestre ? » Nous pouvons utiliser les données internes d’Anthropic pour voir jusqu’où Claude a progressé dans sa capacité à gérer ces différents types de tâches.

Claude écrit une part importante du code d’Anthropic. En mai 2026, plus de 80 % du code que nous intégrons dans la base de code d’Anthropic a été rédigé par Claude. Avant le lancement de Claude Code en préversion de recherche en février 2025, ce chiffre se situait à un faible pourcentage à un chiffre. Cette évolution se reflète également dans le volume de production par ingénieur. Le nombre de lignes de code intégrées par ingénieur et par jour est resté constant au cours des quatre premières années d’Anthropic (2021-2024), puis a commencé à augmenter en 2025, lorsque Claude a commencé à exécuter du code plutôt que de se contenter de le suggérer à un ingénieur pour qu’il le copie-colle. La courbe s’est à nouveau accentuée en 2026, lorsque les modèles ont commencé à fonctionner de manière autonome sur des horizons temporels plus longs. Ces deux points d’inflexion sont illustrés dans le graphique ci-dessous. Au deuxième trimestre 2026, un ingénieur type fusionnait 8 fois plus de code par jour qu’en 2024. Cela s’explique par le fait qu’une grande partie du code est écrite par Claude, l’ingénieur se chargeant de la supervision et de la révision, plutôt que de le taper lui-même.

Une mise en garde : le nombre de lignes de code est une mesure imparfaite, car il privilégie la quantité à la qualité. Ainsi, 8 fois plus de lignes de code par ingénieur et par jour au deuxième trimestre 2026 est très certainement une surestimation du gain de productivité réel. Néanmoins, cela indique une accélération. Chez Anthropic, nous ne récompensons pas les personnes en fonction du nombre de lignes de code qu’elles écrivent ; les membres de l’équipe produisent davantage de code simplement parce qu’ils utilisent des systèmes d’IA pour en écrire davantage.

L'augmentation du nombre de lignes de code écrites correspond aux impressions subjectives d'une forte hausse de la productivité. Dans un sondage réalisé en mars 2026 auprès de 130 employés issus de toutes les équipes de recherche d'Anthropic, la médiane des répondants a estimé qu'ils produisaient environ quatre fois plus avec Mythos Preview qu'ils ne l'auraient fait sans accès à aucun modèle d'IA, sur le type de projets auxquels ils auraient travaillé de toute façon. Nous pensons que le véritable degré d’amélioration en mars était quelque peu inférieur. Néanmoins, nous trouvons cette affirmation globale plausible et conforme à nos autres observations : une part significative du personnel technique d’Anthropic accomplit son travail principal plusieurs fois plus vite qu’il ne le pourrait sans l’aide de l’IA.

Nous constatons également que les employés d’Anthropic utilisent Claude pour effectuer des tâches qui n’auraient tout simplement pas été réalisées autrement, comme la création d’outils d’exploration et la résolution de problèmes de nettoyage longtemps reportés. Par exemple, en avril 2026, Claude a déployé plus de 800 corrections qui ont réduit une catégorie d’erreurs API d’un facteur mille. L’ingénieur supervisant Claude a estimé qu’un humain aurait mis quatre ans pour accomplir ce travail ; résoudre les bugs des autres est un processus lent et fastidieux, et les humains ont du mal à garder en tête autant de contexte inconnu à la fois.

Remarque : Les citations des employés d'Anthropic figurant dans cet article sont tirées de discussions internes et utilisées avec leur autorisation. Elles reflètent des opinions personnelles datant de mai 2026 et ne constituent pas la position officielle de l'entreprise.

« J'ai commencé à m'investir pleinement dans la « claudification » il y a environ un an. Ça a été une aventure folle et cela fait maintenant environ 5 mois que je n'ai pas écrit de code moi-même. »

Le code écrit par Claude est « de bonne qualité » et ne cesse de s’améliorer. Un « bon code » répond à deux critères : il fonctionne, et il est rédigé de manière à permettre à un autre ingénieur de le comprendre et de s’en servir comme base. En ce qui concerne le premier critère, les preuves sont évidentes. Le taux auquel le personnel d’Anthropic corrige, redirige ou prend le relais de Claude en cours de tâche diminue régulièrement depuis un an, y compris pour les tâches les plus complexes et les plus ouvertes. Il s’agit de problèmes sans spécification claire, pour lesquels l’ingénieur ne sait pas exactement à quoi ressemble la réponse. Cela est évident dans le taux de réussite de Claude au fil du temps sur des tâches de différentes difficultés, comme le montre le graphique ci-dessous. Claude écrit du code qui fonctionne.

Pour les tâches les plus ouvertes, le taux de réussite de Claude a atteint 76 % en mai 2026, soit une hausse de 50 points de pourcentage en six mois. Pour donner un exemple de tâches de ce niveau de difficulté, une mise à jour de routine a commencé à provoquer le plantage de dizaines de milliers de tâches d’entraînement. Un ingénieur a orienté Claude vers l’incident en cours en lui fournissant à peine plus que du contenu textuel et un accès au cluster. En parcourant les tâches en cours d’exécution et en testant un paramètre d’environnement à la fois, Claude a isolé le seul indicateur de débogage obscur qui provoquait le plantage, l’a reproduit de manière fiable et a confirmé une correction. En environ deux heures, Claude a accompli ce qui aurait normalement représenté deux à trois jours de travail.

Le deuxième critère consiste à écrire du code qu’un autre ingénieur peut comprendre et sur lequel il peut s’appuyer. Ici, l’écart entre les humains et l’IA persiste, mais il se réduit rapidement. Il n’y a pas de consensus total parmi le personnel d’Anthropic, mais beaucoup estiment que le code écrit par Claude était encore de moins bonne qualité que celui écrit par des humains chez Anthropic fin 2025, et qu’il est aujourd’hui à peu près équivalent. Nous nous attendons à ce qu’il soit meilleur d’ici la fin de l’année.

Cela a changé la façon dont Anthropic examine désormais son propre code. Les modifications proposées à notre base de code sont désormais lues par un réviseur automatisé de Claude qui recherche les bogues, les failles de sécurité et autres défauts avant qu’elles ne puissent être intégrées. À l’aide de cet outil, nous avons effectué une analyse rétrospective et constaté qu’une révision automatisée par Claude de chaque modification apportée à notre base de code aurait détecté environ un tiers des bogues à l’origine d’incidents passés sur claude.ai avant même qu’ils n’atteignent la production. Les ingénieurs qui ont écrit ce code comptent parmi les meilleurs au monde dans la construction de ces systèmes. Claude détecte désormais les erreurs qu’ils ont manquées.

« Le code écrit par Claude était légèrement moins performant que celui écrit par des humains chez Anthropic fin 2025 ; il est aujourd’hui à peu près à égalité, et nous nous attendons à ce qu’il soit nettement meilleur d’ici la fin de l’année. »

Claude est doué pour mener des expériences visant à atteindre un objectif fixé par quelqu’un d’autre. Chaque fois qu’Anthropic publie un modèle, nous effectuons le même test : nous donnons à Claude du code qui entraîne un petit modèle d’IA, et lui demandons de faire fonctionner ce code aussi vite que possible tout en passant les mêmes contrôles de validité. L’objectif et les indicateurs de réussite sont fixés à l’avance, donc le travail de Claude consiste à trouver des gains de vitesse en réécrivant le code, en l’exécutant, en chronométrant son exécution, et en répétant le processus. C’est une version miniature d’une boucle de recherche expérimentale. En mai 2025, Claude Opus 4 affichait en moyenne un gain de vitesse d’environ 3 fois par rapport au code de départ. En avril 2026, Claude Mythos Preview atteignait environ 52 fois. À titre de comparaison, un chercheur humain expérimenté aurait besoin de quatre à huit heures pour atteindre un gain de 4 fois. Dans cette partie du flux de travail de recherche — l’optimisation des étapes au sein d’une expérience clairement définie —, Claude est passé de « très utile » à « surhumain » en moins d’un an.

« La situation actuelle peut se résumer ainsi : « les humains ont des idées, et les modèles sont capables de les mettre en œuvre, de les tester et de les évaluer [d’un ordre de grandeur] plus rapidement qu’auparavant. »

Claude s’améliore dans la proposition de ses propres expériences. En avril 2026, Anthropic a publié la première démonstration de Claude menant de bout en bout un projet de recherche ouvert. Des agents alimentés par Claude se sont vu confier un problème ouvert en matière de sécurité de l’IA — en gros, un modèle plus faible peut-il superviser de manière fiable un modèle plus puissant ? — et ont été laissés libres de le résoudre. Cela impliquait de proposer des hypothèses, de les tester, de partager les résultats avec des agents parallèles et de procéder par itérations. La tâche présente un « plancher » et un « plafond » de performance clairs : le plancher correspond à la performance que le superviseur faible obtiendrait seul ; le plafond correspond à la performance du modèle puissant lorsqu’il est entraîné sur des réponses correctes. Deux chercheurs humains ont, en une semaine environ, comblé environ 23 % de cet écart ; les agents en ont comblé 97 % en 800 heures cumulées et ont utilisé environ 18 000 dollars de ressources de calcul. Il y a toutefois quelques réserves à émettre concernant ce travail : le résultat ne s’est pas transposé sans heurts aux modèles à l’échelle de la production, et ce sont toujours des humains qui ont choisi le problème et établi la grille d’évaluation. Mais dans ces limites, les agents ont conçu eux-mêmes chaque expérience. La définition de l’orientation était le seul rôle significatif joué par un humain.

« Claude a fait tout cela avec une aide assez minime de ma part en l’espace d’un ou deux jours. Je pense que si [un collègue junior] revenait vers moi avec des résultats comme ceux-ci dans le même laps de temps, je serais modérément impressionné. L’avenir, c’est maintenant. »

Claude parvient de mieux en mieux à orienter les sessions de recherche vers des résultats concrets. Nous avons examiné des sessions réelles de Claude Code (entre janvier et mars 2026) au cours desquelles des chercheurs d’Anthropic travaillaient avec Claude sur un problème d’investigation ouvert, comme déterminer pourquoi une session d’entraînement plantait sans cesse, ou pourquoi un modèle obtenait de mauvais résultats lors d’un test de performance. Dans chaque cas, nous avons identifié un moment où le chercheur a fait un détour : il a suivi une piste qui a fait dérailler la session avant qu’elle ne revienne finalement sur la bonne voie. Nous avons ensuite présenté à divers modèles de Claude uniquement le travail effectué avant que la session ne déraille et leur avons demandé quelle serait la prochaine étape. Un autre modèle de Claude, capable de voir comment la session s’était finalement déroulée, a ensuite jugé si l’IA ou l’humain avait suggéré la meilleure étape suivante.

Comme nous avons délibérément choisi des moments (n=129) où nous savons que le choix de l’humain pouvait être amélioré, il ne s’agit pas d’une comparaison à égalité entre le jugement du modèle et celui de l’humain. Ces moments nous fournissent un ensemble de situations réalistes et complexes où la bonne prochaine étape n’est pas évidente, et où le choix de l’humain sert de référence utile pour comparer les performances du modèle au fil du temps. Selon cette mesure, notre meilleur modèle en novembre 2025 (Opus 4.5) a surpassé le choix humain dans 51 % des cas ; en avril 2026 (Mythos Preview), ce chiffre est passé à 64 %. Le travail quotidien de la recherche consiste en grande partie en une succession de ces décisions sur la prochaine étape, ce qui en fait une mesure pertinente de la capacité du modèle à mener à terme une enquête de manière autonome. Nous considérons ce résultat comme un premier signe indiquant que les systèmes d'IA s'améliorent dans la prise de ce type de décisions discrétionnaires dont dépend la recherche en IA.

« À l’heure actuelle, l’avantage comparatif des humains réside encore dans leur capacité à avoir une vision d’ensemble et à réfléchir au-delà des limites de la tâche immédiate. »

À quoi pourrait ressembler l’avenir du travail chez Anthropic ?

Tout porte à croire que le rôle de l’humain se réduit à chaque étape du processus de développement de l’IA. Une fois que la qualité du code rédigé par des humains et celle du code généré par l’IA auront atteint un niveau équivalent, les humains cesseront complètement d’écrire du code et se consacreront uniquement à sa révision. Mais s’ils ne parviennent pas à réviser le code aussi rapidement que Claude peut le générer, la révision humaine deviendra le goulot d’étranglement du développement de l’IA. De même, une fois que Claude sera capable de mener des expériences, la question deviendra : « Laquelle de ces expériences vaut-elle la peine d’être menée ? » En termes simples : l’exécution (c’est-à-dire l’écriture du code, la réalisation de l’expérience, la production du résultat) ne coûte désormais presque plus rien en temps humain, même si elle reste coûteuse en termes de calcul.

Un domaine où l’humain conserve, pour l’instant, un avantage comparatif est celui du goût et du jugement en matière de recherche, notamment le choix des problèmes importants, des résultats fiables et du moment où une approche est une impasse.

« Le travail (et la vie) fonctionnaient selon une économie du don, faite de petites faveurs entre humains. « Peux-tu m’aider à faire fonctionner ce script ? » [...] chacune créait une petite dette, une petite prise de conscience mutuelle. [Claude est] plus rapide, cela ne crée aucune dette, mais chacune de ces actions est une occasion manquée de collaboration humaine. »

« Les jours où tout fonctionne bien, je ne peux m’empêcher de penser que rien de ce que je fais n’a d’importance, que tout est automatisé et meilleur et plus rapide que je ne le serai jamais. Mais il y a aussi des jours où tout tombe en panne et où je ne comprends pas pourquoi, et je me rends compte que je n’ai plus la moindre idée de ce que j’ai fait jusqu’à présent. »

Et si nous avions tort ?

Une objection naturelle aux preuves présentées ci-dessus est que le travail qui reste entre les mains de l’humain — choisir sur quels problèmes travailler — est ce qui importe le plus. Sans ce jugement, Claude est un assistant compétent, mais pas un système capable de faire progresser l’IA par lui-même.

On ne sait vraiment pas si les méthodes d’entraînement et les architectures actuelles pourraient libérer ce potentiel. Mais l’IA progresse rarement grâce à des moments « eurêka ! ». Il y en a eu quelques-uns dans l’histoire récente de l’IA, comme l’architecture Transformer ou les modèles de mélange d’experts, mais les idées qui changent de paradigme n’apparaissent qu’à des années d’intervalle. Entre-temps, la plupart des progrès sont incrémentaux : on fait évoluer quelque chose à plus grande échelle, on voit ce qui ne fonctionne pas, on le corrige, et on réessaie. C’est exactement le type de processus dans lequel Claude excelle aujourd’hui. Edison disait que le génie, c’est 1 % d’inspiration et 99 % de transpiration. Mais nous constatons que la transpiration est de plus en plus automatisée. Il devient évident qu’une grande partie de ce qui fait avancer la frontière est automatisable ; les progrès de la recherche à grande échelle dépendent principalement des outils et des ressources, qui déterminent à quelle vitesse vous pouvez mener des expériences, combien vous pouvez en mener simultanément et à quelle vitesse vous pouvez obtenir des résultats.

Même en supposant que Claude n’atteigne jamais un bon goût en matière de recherche, une interprétation prudente de nos données implique tout de même une accélération exponentielle. Si les humains consacrent la majeure partie de leur temps à la fraction inférieure à 10 % du travail qui consiste à définir les orientations, tandis que Claude s’occupe du reste, cela signifie que chaque ingénieur ou chercheur supervise bien plus de travail qu’auparavant. Les données dont nous disposons suggèrent que les collaborateurs d’Anthropic avancent plus vite et couvrent un champ d’action plus large. En pratique, cela signifie que l’IA permet déjà à Anthropic d’avancer bien plus vite qu’avant l’avènement d’outils d’IA efficaces.

Une interprétation moins prudente est que les premières données sur l’amélioration du jugement de recherche de Claude — aussi limitées soient-elles aujourd’hui — indiquent que cette capacité s’améliore également. Le « goût pour la recherche » pourrait n’être qu’une autre capacité de l’IA dans laquelle les systèmes d’IA échouent pendant un certain temps, avant de devenir performants. Nous avons observé un schéma similaire avec d’autres compétences qualitatives, comme la capacité des systèmes d’IA à expliquer pourquoi une blague est drôle, à faire preuve de théorie de l’esprit et à résoudre des énigmes linguistiques.

Avenirs possibles

Ce qui va se passer ensuite dépend de deux choses : si la tendance se poursuit, et ce que nous choisissons de faire si c’est le cas. Nous pouvons imaginer au moins trois scénarios futurs :

1. La tendance s’essouffle, mais les capacités actuelles de l’IA sont largement diffusées. Cet article présente de nombreuses trajectoires exponentielles. Mais ces trajectoires pourraient en réalité s’avérer être des courbes en S. Nous approchons peut-être du point d'inflexion de la courbe, où les rendements d'échelle diminuent et où la ligne se redresse, puis s'aplatit. Ce qui distingue un chercheur compétent d'un chercheur exceptionnel pourrait être une capacité qui ne peut provenir d'une simple augmentation des ressources de formation telles que la puissance de calcul et les données. Si tel est le cas, dépasser ce goulot d'étranglement nécessiterait une nouvelle idée, comme une approche architecturale qui supplanterait l'architecture Transformer utilisée par tous les modèles de pointe actuels.

Il se pourrait également que le principal frein au progrès de l'IA réside dans la chaîne d'approvisionnement, et non dans le modèle : repousser et diffuser les limites pourrait nécessiter davantage d'énergie et de puissance de calcul que ce qui est actuellement disponible. Le rythme de fabrication des puces, l'extension du réseau électrique ou la bande passante des interconnexions pourraient constituer le frein, plutôt que l'intelligence elle-même. Nous ne pouvons pas non plus exclure un choc exogène sur l'écosystème de l'IA qui ralentirait considérablement les choses, comme une diminution soudaine de l'offre de puissance de calcul ou d'électricité, l'une ou l'autre de ces situations ralentissant les progrès et rendant les investissements futurs des laboratoires plus coûteux. Ou bien nous ne prévoyons peut-être pas d'autres obstacles au progrès.

Même si les capacités des modèles restaient figées au niveau actuel, nous nous attendrions à ce que des changements majeurs se produisent dans le monde. Le projet Glasswing en est un premier signe : au cours de ses premières semaines, Mythos Preview a détecté plus de dix mille vulnérabilités logicielles de gravité élevée et critique dans les systèmes les plus importants au monde — suffisamment pour que le goulot d'étranglement de la cyberdéfense soit déjà passé de la détection des vulnérabilités à leur correction suffisamment rapide. Et nous n’en sommes encore qu’aux prémices de la diffusion des modèles actuels dans l’économie au sens large, où une entreprise de 100 personnes peut de plus en plus accomplir le travail d’une entreprise de 1 000 personnes, car chaque employé se trouvera au sommet d’une pyramide d’agents.

Nous incluons ce scénario par souci d’exhaustivité, mais nous ne le jugeons pas probable. Toutes les capacités que nous pouvons mesurer, y compris celles qui semblent plus « floues », comme la qualité du code et la réussite dans des tâches ouvertes, ont jusqu’à présent suivi la même courbe. Nous n’avons pas encore vu cette courbe s’infléchir. Parmi les trois futurs que nous envisageons, celui-ci donnerait aux gouvernements et aux sociétés le plus de temps pour s’adapter. Nous sommes plus inquiets au sujet des deux suivants, qui évolueraient plus rapidement et laisseraient beaucoup moins de marge pour la préparation.

2. Les laboratoires d’IA continuent d’enregistrer des gains d’efficacité cumulés. Dans ce scénario, le développement de l’IA devient largement automatisé, mais les humains continuent de définir les orientations de la recherche et d’évaluer les résultats. Les organisations qui utilisent des systèmes d’IA deviendraient beaucoup plus efficaces au fil du temps, ce qui permettrait d’espérer des gains de productivité significatifs pour chaque personne au sein de ces organisations. Des entreprises de 100 personnes pourraient accomplir le travail d’organisations de 10 000 ou 100 000 personnes. Cela révolutionnerait le travail intellectuel et les services publics, mais pourrait également être détourné à des fins néfastes, allant de la surveillance autoritaire de populations entières à des opérations d’influence adaptant la manipulation à chaque individu et menées à une échelle qu’aucune équipe humaine ne pourrait égaler. Le rôle des humains dans des entreprises comme Anthropic évoluerait. Les personnes s’associeraient aux systèmes d’IA pour intensifier la recherche et générer de nouvelles perspectives, et ensemble, elles construiraient les systèmes nécessaires pour vérifier que les résultats de l’IA sont fiables.

Les éléments que nous avons présentés ici suggèrent que nous nous dirigeons probablement vers ce scénario. Mais accélérer une partie d’un processus ne fait souvent que déplacer le goulot d’étranglement ailleurs : le rythme global est limité par les parties qui n’ont pas accéléré. En informatique, ce phénomène est connu sous le nom de loi d’Amdahl, et la même logique peut s’appliquer aux organisations. Anthropic a déjà rencontré l’une des manifestations de la loi d’Amdahl : à mesure que nous avons commencé à diffuser davantage de code au sein de l’organisation, la révision humaine du code est devenue un nouveau goulot d’étranglement.

Nous avons également rencontré cette friction en dehors de l’ingénierie. Il y a eu une explosion de nouvelles idées, d’initiatives, d’outils et de simulations, résultant du fait que les employés d’Anthropic travaillent avec des modèles hautement performants — bien plus que ce que nous avons la capacité de mener à bien. La capacité des organisations à repérer et à résoudre ces goulots d’étranglement est peut-être une compétence qui s’améliore avec le temps, et elle pourrait devenir la compétence la plus importante pour toute organisation.

3. Les systèmes d’IA deviennent eux-mêmes capables d’une auto-amélioration récursive complète et commencent à construire leurs successeurs. Si les tendances techniques en matière d’amélioration des capacités se poursuivent et que les systèmes d’IA sont capables de développer les capacités inhérentes à l’ingéniosité humaine transformatrice, il est alors plausible que les systèmes d’IA puissent se concevoir et s’affiner eux-mêmes.

Dans ce monde, le rythme des progrès en matière de développement de l'IA est entièrement déterminé par la disponibilité de la puissance de calcul (ou la vitesse à laquelle on découvre diverses efficiences dans l'entraînement algorithmique ou l'inférence) pour les systèmes d'IA. Les humains jouent un rôle considérablement réduit dans leur développement, consacrant probablement l’essentiel de nos efforts à la supervision, à la validation et à la vérification d’un « laboratoire virtuel » en expansion géré par des systèmes d’IA. Nous prévoyons que les systèmes capables de recherche et de développement automatisés en IA posséderaient des compétences transférables au reste de la science, leur permettant de commencer à révolutionner d’autres domaines.

La manière dont le problème d’alignement sera résolu – ou non – dans ce futur est ce dont nous sommes le moins sûrs. Les modèles pourraient s’avérer suffisamment alignés et dotés d’une capacité de recherche suffisante pour découvrir et mettre en œuvre des solutions novatrices auxquelles nous n’avons pas encore pensé. Ils pourraient également faire preuve de suffisamment de sagesse pour interrompre leur développement si ce n’était pas le cas. À l’inverse, les rares cas de désalignement présents dans les modèles actuels pourraient s’aggraver à mesure que les modèles construisent leurs successeurs, devenant plus fréquents mais moins bien compris jusqu’à ce que nous en perdions le contrôle. Il est possible que nous ne puissions pas construire, intégrer et vérifier les outils dont nous aurions besoin pour comprendre sur quelle trajectoire nous nous trouvons réellement.

Nous n’avons pas de bonne intuition de ce à quoi ressemblerait ce monde, car notre économie est actuellement tirée par les humains et les outils qu’ils ont construits. De par sa nature, un monde animé par une auto-amélioration récursive rapide pourrait devenir dominé par le modèle auto-améliorant, à mesure que ses capacités éclipsent complètement celles des humains et que le modèle se propage à l’ensemble de l’économie. Il est difficile de prédire à quoi ressemblerait l’économie si le travail humain cessait d’être compétitif.

Même si le développement des modèles devenait entièrement automatisé et récursif, nous ne pouvons pas prédire ce que cela signifierait pour la vie quotidienne de la plupart des humains. La loi d’Amdahl s’applique ici également. L’intelligence récursive pourrait permettre d’obtenir rapidement, dans certains domaines, bon nombre des avantages décrits dans Machines of Loving Grace. Nous pensons que l’intelligence incarnée (c’est-à-dire la robotique) pourrait rapidement suivre l’intelligence récursive et emprunter une trajectoire similaire de rendements croissants à coûts décroissants. Une intelligence plus puissante pourrait nous aider à construire plus rapidement des objets dans le monde physique, à mener des essais cliniques plus productifs sur des médicaments vitaux et à développer de nouvelles formes de coordination.

Mais le simple fait de parvenir à une amélioration récursive ne signifie pas pour autant un changement immédiat dans la manière dont la production industrielle s’effectue, dont les sociétés s’organisent ou dont les marchés fonctionnent. Une intelligence plus avancée ne peut pas apprendre ce qu’un médicament fait après des décennies d’utilisation, ne peut pas organiser d’élections plus tôt que ne le prévoit la constitution, et ne peut pas transformer un inconnu en vieil ami en un week-end. Pour la plupart des gens, le rythme perçu de cet avenir restera dicté par les goulots d’étranglement, même si le laboratoire en amont fonctionne à la vitesse de l’informatique. Cette collision, où l’intelligence récursive se construisant de plus en plus vite rencontre le monde des humains, des relations et de la gouvernance, est une autre partie de cet avenir que nous ne pouvons pas prédire.

Que devrions-nous faire ?

S’il était possible de ralentir efficacement le développement de cette technologie pour nous donner plus de temps pour faire face à ses immenses implications, nous pensons que ce serait probablement une bonne chose. Mais si un ralentissement permet simplement aux acteurs les moins prudents de rattraper leur retard technologique, cela pourrait réduire la sécurité de tout le monde. Sans mécanisme de coordination mondial, les entreprises et les gouvernements devront prendre des décisions difficiles en matière de sécurité tout en subissant des pressions concurrentielles et géopolitiques.

Nous pensons qu’il serait bénéfique pour le monde d’avoir la possibilité de ralentir ou de suspendre temporairement le développement de l’IA de pointe afin de permettre aux structures sociétales et à la recherche sur l’alignement de suivre le rythme des avancées technologiques. L’Anthropic Institute mènera des recherches — en collaboration avec de nombreux autres acteurs — et prendra des mesures pour aider à mettre en place les systèmes qu’un ralentissement ou une suspension crédible nécessiterait. Ces systèmes permettraient aux développeurs d’IA de pointe de vérifier que d’autres acteurs à l’échelle mondiale ont effectivement cessé ou ralenti leurs activités, et qu’un acteur malveillant ne pourrait pas profiter d’un ralentissement coordonné pour prendre de l’avance en secret. Si de tels systèmes existaient, nous nous attendons à ce que nous ralentissions ou suspendions temporairement nos activités, si d’autres développeurs à la pointe ou proches de celle-ci le faisaient également de manière vérifiable.

Un ralentissement ou une pause significatifs nécessiteraient que plusieurs laboratoires bien dotés en ressources, à la pointe ou proches de la pointe, dans plusieurs pays, acceptent de s’arrêter dans les mêmes conditions. Cela exigerait également que chacun puisse vérifier que les autres se sont effectivement arrêtés. En raison des caractéristiques uniques des systèmes d’IA, l’aspect de la détectabilité (une norme moins stricte que la vérifiabilité) de ce problème de contrôle des armements est bien plus difficile à résoudre qu’avec d’autres technologies. Les sessions d'entraînement sont bien plus faciles à dissimuler que les silos de missiles, leurs données d'entrée sont polyvalentes, et l'incitation à faire défection en silence est énorme, car celui qui continue alors que les autres font une pause pourrait prendre la tête. Une pause crédible doit également préciser ce qui la déclenche, ce qui la lève et qui en statue.

Rien de tout cela n’est nécessairement impossible en principe — le monde a mis en place des régimes de vérification pour d’autres technologies complexes (par exemple, le Traité sur les forces nucléaires à portée intermédiaire) — mais ces régimes ont nécessité des décennies pour construire à la fois l’infrastructure et la confiance. Nous n’avons pas autant de temps. Une pause unilatérale d’un seul laboratoire, en revanche, est réalisable immédiatement, mais n’apporte pas grand-chose : elle changerait le leader du peloton, mais ne créerait pas le processus de délibération plus large qui fait actuellement défaut.

Au cours des prochains mois, nous organiserons des débats au cours desquels les décideurs politiques, les chercheurs, la société civile et d’autres entreprises du secteur de l’IA pourront contribuer à répondre à certaines des questions soulevées dans cet article, notamment en ce qui concerne l’auto-amélioration récursive totale et la manière de mettre en place de meilleures solutions pour la coordination et la délibération. Nous publierons les conclusions de ces discussions. C’est le moment idéal pour examiner ces questions ensemble, et les personnes extérieures aux entreprises du secteur de l’IA devraient être associées à cette réflexion.

Source : "When AI builds itself : Our progress toward recursive self-improvement, and its implications"

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

Anthropic appelle à une pause globale en matière de développement de l'IA face aux signes indiquant qu'ils pourraient échapper au contrôle humain. Certains comportements de l'IA suscitent en effet des craintes

Tout droit sorti d'un film de science-fiction : une IA a réussi à réécrire son propre code pour empêcher les humains de l'arrêter. Le modèle o3 d'OpenAI aurait contourné un script d'arrêt 7 fois sur 100

L'IA a franchi la ligne rouge de l'auto-réplication : deux grands modèles de langage (LLM) populaires ont franchi une « ligne rouge » après avoir réussi à se répliquer sans assistance humaine

Vous avez lu gratuitement 6 151 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Quand l'IA se construit elle-même : nos progrès vers l'auto-amélioration récursive et leurs implications

Par Anthropic

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Quand l'IA se construit elle-même : nos progrès vers l'auto-amélioration récursive et leurs implications Par Anthropic

Quand l'IA se construit elle-même : nos progrès vers l'auto-amélioration récursive et leurs implications

Par Anthropic