IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Nous sommes dans l'ère des « gentlemen scientifiques » de la recherche en IA
Par Sean Goedecke

Le , par Sean Goedecke

31PARTAGES

3  0 
Nous sommes dans l'ère des « gentlemen scientifiques » de la recherche en IA, par Sean Goedecke

De nombreuses découvertes scientifiques ont été faites par des amateurs. William Herschel, qui a découvert Uranus, était compositeur et organiste. Antoine Lavoisier, qui a jeté les bases de la chimie moderne, était homme politique.

Dans un sens, c'est une évidence. Le métier de « scientifique professionnel » n'est apparu qu'au XIXe siècle, donc toutes les découvertes antérieures à cette époque devaient logiquement provenir d'amateurs, puisqu'il n'existait alors que des scientifiques amateurs. Mais cela reflète également le fait que tout domaine de connaissance devient plus complexe avec le temps.

Au début d'un domaine scientifique, les découvertes sont simples : « l'air a un poids », « la lumière blanche peut être dispersée en différentes couleurs à travers un prisme », « la masse d'un objet brûlé est identique à sa masse d'origine », etc. La manière dont vous faites ces découvertes est également simple : observer le mercure dans un long tube en verre, tenir un prisme devant une source lumineuse, peser un bocal scellé avant et après l'avoir incinéré, etc.

Le prix Nobel de physique 2025 vient d'être décerné « pour la découverte de l'effet tunnel macroscopique en mécanique quantique et de la quantification de l'énergie dans un circuit électrique ». Le communiqué de presse tente vaillamment de rendre cette découverte compréhensible pour le profane, mais elle est clairement beaucoup plus compliquée que les exemples que j'ai cités ci-dessus. Même comprendre les termes utilisés nécessiterait des années d'études sérieuses. Si vous voulez remporter le prix Nobel de physique 2026, vous devez être physicien : pas un musicien qui s'intéresse à la physique ou un politicien qui s'adonne à la physique pendant son temps libre. Vous devez être complètement immergé dans le monde de la physique.

La recherche en IA n'est pas comme ça. Nous en sommes encore aux « débuts de la science ».

À ce stade, un lecteur critique pourrait se poser deux questions. Comment puis-je affirmer cela alors que de nombreux articles sur l'IA ressemblent à ça ? Ou encore, comment puis-je affirmer cela alors que le domaine de la recherche en IA existe depuis des décennies et est activement poursuivi par de nombreux scientifiques professionnels sérieux ?

Les découvertes issues de la recherche en IA peuvent être trompeusement simples

Tout d'abord, parce que les découvertes issues de la recherche en IA sont souvent plus simples qu'elles n'en ont l'air. Cette dynamique est familière à tout ingénieur logiciel qui s'est déjà assis pour essayer de lire un ou deux articles : les mathématiques qui semblent effrayantes contiennent souvent une idée qui serait triviale à exprimer en cinq lignes de code. Elle est écrite de cette manière parce que (a) les chercheurs sont plus à l'aise avec les mathématiques et ne les trouvent donc pas intimidantes, et (b) les mathématiques sont la lingua franca de la recherche universitaire, car les chercheurs aiment écrire à des lecteurs lointains pour qui la syntaxe Python peut être aussi peu familière que le COBOL l'est pour nous.

Prenons l'exemple de l'optimisation des politiques relatives aux groupes, ou GRPO, présentée dans un article de DeepSeek publié en 2024. Elle a eu une influence considérable sur l'apprentissage par renforcement (qui a lui-même été le moteur de l'amélioration des capacités des LLM au cours de l'année dernière). Je vais essayer d'expliquer l'idée générale.

Lorsque vous entraînez un modèle avec l'apprentissage par renforcement, vous pouvez naïvement récompenser le succès et punir l'échec (par exemple, la proximité du modèle par rapport à la bonne réponse dans un problème mathématique). Le problème est que ce signal ne fonctionne pas pour les problèmes difficiles. Vous ne savez pas si le modèle « fonctionne bien » sans connaître la difficulté du problème mathématique, ce qui est en soi une évaluation qualitative difficile. L'état de l'art précédent consistait à entraîner un « modèle critique » qui effectue pour vous cette évaluation « le modèle fonctionne-t-il bien ? ». Bien sûr, cela soulève toute une série de nouveaux problèmes : le modèle critique est difficile à entraîner et à vérifier, son exécution dans la boucle d'entraînement nécessite beaucoup plus de puissance de calcul, etc.

C'est là qu'intervient le GRPO. Au lieu d'un modèle critique, vous évaluez les performances du modèle en lui faisant essayer le problème plusieurs fois et en calculant ses performances moyennes. Vous renforcez ensuite les tentatives du modèle qui étaient supérieures à la moyenne et punissez celles qui étaient inférieures à la moyenne. Cela vous donne un bon signal même sur des invites très difficiles, et c'est beaucoup plus rapide que d'utiliser un modèle critique. Les mathématiques présentées dans l'article semblent assez redoutables, mais l'idée elle-même est étonnamment simple. Il n'est pas nécessaire d'être un chercheur professionnel en IA pour y avoir pensé.

La recherche en IA porte sur les nouveaux LLM, pas sur les anciennes idées

En fait, le GRPO n'est pas nécessairement une idée si nouvelle. La normalisation de la « base de référence » pour le RL fait l'objet de discussions depuis 1992 (section 8.3), et l'idée d'utiliser les propres résultats du modèle pour définir cette base de référence a été démontrée avec succès en 2016. Alors, qu'a-t-on réellement découvert en 2024 ? Je ne pense pas qu'il s'agisse uniquement de l'idée de « calculer la moyenne des résultats du modèle pour déterminer une base de référence RL ». Je pense que c'est le fait que cette idée fonctionne également très bien sur les LLM.

D'après ce que je peux en juger, il s'agit d'une tendance constante dans la recherche sur l'IA. La plupart des grandes idées ne sont ni nouvelles ni particulièrement complexes. Il s'agit généralement d'idées anciennes ou d'astuces simples, appliquées pour la première fois à des modèles linguistiques de grande envergure. Pourquoi en est-il ainsi ? Si l'apprentissage profond n'était pas un sujet intéressant pour les scientifiques amateurs il y a dix ans, pourquoi l'avènement des LLM changerait-il la donne ?

Questions scientifiques faciles et moteur à élastiques

Supposons que quelqu'un découvre qu'une voiture à élastiques, comme celles que l'on voit dans les concours scientifiques, peut produire autant de puissance qu'un véritable moteur à combustion, à condition de tremper les élastiques dans du sirop d'érable au préalable. Cela provoquerait sans surprise une révolution dans le domaine de l'ingénierie automobile (et dans bien d'autres domaines). Mais je pense que cela « ramènerait » également les progrès scientifiques à l'époque des « gentlemen scientifiques », où l'on pouvait s'adonner à cette activité de manière productive comme passe-temps.

Bien sûr, les vrais scientifiques ne manqueraient pas de mener de véritables expériences sur ce nouveau phénomène. Cependant, il y aurait également environ un million de questions faciles à répondre. Cela fonctionne-t-il avec tous les types de sirop d'érable ? Que se passe-t-il si on le laisse tremper plus longtemps ? Que se passe-t-il si on y ajoute des substances similaires au sirop d'érable ? Il ne serait pas nécessaire d'être un véritable scientifique dans un véritable laboratoire pour s'essayer à certaines de ces questions. Au bout d'une dizaine d'années, je m'attendrais à ce que ces questions faciles aient trouvé une réponse et à ce que la recherche sur les moteurs à élastiques ressemble davantage à la science traditionnelle. Mais cela laisserait encore une longue période pendant laquelle les amateurs ou les scientifiques dilettantes pourraient exercer leur activité.

Le succès des LLM est similaire à celui du moteur à élastiques. Une idée simple que tout le monde peut essayer - entraîner un grand modèle de transformateur sur une tonne de textes écrits par des humains - produit une technologie surprenante et transformatrice. En conséquence, de nombreuses questions faciles sont devenues des sujets de recherche scientifique intéressants et accessibles, parallèlement aux questions difficiles et complexes auxquelles les chercheurs professionnels s'attaquent généralement.

Compétences, RLM et recherche informelle

J'ai été inspiré pour écrire cet article par deux recherches récentes : le produit « compétences » d'Anthropic et l'article sur les modèles de langage récursifs. Tous deux présentent des idées nouvelles et utiles, mais ils sont aussi si simples qu'ils en sont presque ridicules. Les « compétences » ne sont que des fichiers Markdown et des scripts sur disque qui expliquent à l'agent comment effectuer une tâche. Les modèles de langage récursifs ne sont que des agents ayant un accès direct au code via un REPL Python. Vous pouvez désormais implémenter vos propres compétences ou votre propre code d'inférence RLM.

Je ne veux pas sous-estimer ces idées. C'est une recherche vraiment utile pour Anthropic de dire « hé, vous n'avez pas vraiment besoin d'outils réels si le LLM a un accès shell, car il peut simplement appeler tous les scripts que vous avez définis pour lui sur le disque ». Donner au LLM un accès direct à l'ensemble de son invite via du code est également (pour autant que je sache) une idée novatrice, qui présente un grand potentiel.

Nous avons besoin de plus de recherches comme celle-ci ! Les LLM puissants sont si nouveaux et évoluent si rapidement que leurs capacités sont véritablement inconnues. Par exemple, au début de cette année, on ne savait pas si les LLM pouvaient être de « véritables agents » (c'est-à-dire si leur utilisation avec des outils en boucle serait utile pour autre chose que des applications ludiques). Aujourd'hui, avec Codex et Claude Code, je pense qu'il est assez clair qu'ils le peuvent.

Une grande partie de ce que nous apprenons sur les capacités de l'IA, comme la capacité d'o3 à géolocaliser des photos, provient d'expérimentations informelles menées par des utilisateurs. En d'autres termes, elles proviennent de la recherche en IA, équivalente à la « science des gentlemen » du XVIIe siècle.

Source : "We are in the "gentleman scientist" era of AI research"

Et vous ?

Pensez-vous que ces affirmations sont crédibles ou pertinentes ?
Quel est votre avis sur le sujet ?

Voir aussi :

GPT-5-Codex est un meilleur chercheur en IA que moi, par Sean Goedecke

Malgré l'abondance de talents tech, seules quelques centaines de personnes dans le monde seraient capables d'entraîner des modèles d'IA complexes, avec des salaires pouvant atteindre 500 000 dollars

Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes, car o1 réfléchit avant de répondre
Vous avez lu gratuitement 643 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !