Alors que l'industrie de l'IA dépense des milliards pour gagner quelques fractions de seconde sur les modèles autorégressifs jeton par jeton, la génération basée sur la diffusion d'Inception est une avancée architecturale qui rend le raisonnement à haut débit natif au modèle. Fondée par des chercheurs de Stanford, UCLA et Cornell à l'origine des travaux fondamentaux sur la diffusion, Inception a commercialisé la diffusion pour le texte et Mercury 2 étend cette avancée à un raisonnement de niveau production conçu pour l'inférence dans le monde réel. Mercury 2 est conçu pour les workflows de production à forte valeur ajoutée où les performances d'inférence déterminent l'adoption : boucles d'agents, voix et recherche en temps réel, codage et édition instantanés à grande échelle.Tous les principaux LLM actuellement en production, y compris GPT, Claude et Gemini, reposent sur le même mécanisme de base : la génération autorégressive. Ils produisent du texte de manière séquentielle. Un. Jeton. À. La. Fois. Cette approche a un plafond bas, car la vitesse est finalement limitée par la nature séquentielle de la génération, et les contraintes s'aggravent à mesure que la profondeur du raisonnement augmente, ce qui augmente les coûts de service et réduit la réactivité.
Limitée par ce plafond, l'industrie a largement emprunté trois voies pour améliorer la vitesse : des puces spécialisées, des piles de service optimisées et la compression des modèles, troquant la capacité contre la vitesse. Les principaux laboratoires et fournisseurs d'infrastructures ont investi des milliards dans ces efforts afin de tirer le maximum de gains de performance de la même boucle de génération jeton par jeton.
Inception, la société à l'origine des premiers grands modèles de langage commerciaux basés sur la diffusion (dLLM), a emprunté une voie fondamentalement différente, fondée sur la diffusion, la même approche technique que celle utilisée dans les systèmes modernes de génération d'images et de vidéos, désormais appliquée au langage. Inception a annoncé le lancement de Mercury 2, le LLM de raisonnement le plus rapide et le premier dLLM de raisonnement.
Mercury 2 fait progresser cette base de diffusion vers un raisonnement de niveau production et établit une nouvelle norme de performance pour les LLM optimisés en termes de vitesse, offrant un raisonnement rentable à un débit de 1 000 tokens par seconde avec des performances équivalentes à celles de Claude 4.5 Haiku et GPT 5.2 Mini. Il en résulte un débit et une réactivité qui proviennent du modèle lui-même, permettant une inférence rapide et évolutive.
Comment fonctionnent les dLLM
Au lieu de prédire le prochain jeton d'une séquence, Mercury 2 commence par une esquisse approximative de la sortie complète et l'affine de manière itérative grâce à un processus appelé « débruitagec fr », sur plusieurs jetons en parallèle. Chaque passage dans le modèle modifie et améliore simultanément plusieurs jetons, de sorte qu'une seule évaluation du réseau neuronal produit un travail beaucoup plus utile à chaque étape. L'avantage en termes de vitesse provient du modèle lui-même, et non d'un matériel spécialisé. Et comme le modèle affine de manière itérative plutôt que de s'engager de manière permanente sur chaque jeton, il peut corriger les erreurs en cours de génération.
« Les modèles de raisonnement ne sont utiles que dans la mesure où ils peuvent être utilisés en production », a déclaré Stefano Ermon, PDG et cofondateur d'Inception. « Au cours des dernières années, nous avons constaté des progrès incroyables dans les capacités des modèles, mais beaucoup moins dans leur utilisation dans des cas d'utilisation à faible latence. Avec Mercury 2, nous avons construit un système où le raisonnement de haute qualité fonctionne suffisamment rapidement et efficacement pour des applications en temps réel. Lorsque la vitesse, le coût et la qualité fonctionnent ensemble, vous ouvrez de toutes nouvelles possibilités, et c'est ce qui nous enthousiasme le plus. »
Dans les benchmarks standard, conformément à la méthodologie d'Artificial Analysis, Mercury 2 atteint un débit de sortie d'environ 1 000 tokens par seconde, contre environ 89 tokens par seconde pour Claude 4.5 Haiku Reasoning et environ 71 tokens par seconde pour GPT-5 Mini. En termes de qualité, Mercury 2 a obtenu un score de 91,1 sur AIME 2025, 73,6 sur GPQA, 71,3 sur IFBench, 67,3 sur LiveCodeBench, 38,4 sur SciCode et 52,9 sur Tau. Ces scores placent Mercury 2 dans la fourchette concurrentielle de Claude 4.5 Haiku et GPT 5.2 Mini en termes de qualité, tout en offrant un débit environ 10 fois supérieur.
« La plupart des équipes considèrent l'inférence comme un exercice d'optimisation autour de la pile autorégressive, mais Inception est parti d'un principe plus fondamental : la diffusion pour le langage », a déclaré Tim Tully, associé chez Menlo Ventures. « Mercury 2 montre ce qui se passe lorsque cette base est associée à une approche...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.