Comment fonctionnent les dLLM

Ce que Mercury 2 apporte à la production

Tous les principaux LLM actuellement en production, y compris GPT, Claude et Gemini, reposent sur le même mécanisme de base : la génération autorégressive. Ils produisent du texte de manière séquentielle. Un. Jeton. À. La. Fois. Cette approche a un plafond bas, car la vitesse est finalement limitée par la nature séquentielle de la génération, et les contraintes s'aggravent à mesure que la profondeur du raisonnement augmente, ce qui augmente les coûts de service et réduit la réactivité.Limitée par ce plafond, l'industrie a largement emprunté trois voies pour améliorer la vitesse : des puces spécialisées, des piles de service optimisées et la compression des modèles, troquant la capacité contre la vitesse. Les principaux laboratoires et fournisseurs d'infrastructures ont investi des milliards dans ces efforts afin de tirer le maximum de gains de performance de la même boucle de génération jeton par jeton.Inception, la société à l'origine des premiers grands modèles de langage commerciaux basés sur la diffusion (dLLM), a emprunté une voie fondamentalement différente, fondée sur la diffusion, la même approche technique que celle utilisée dans les systèmes modernes de génération d'images et de vidéos, désormais appliquée au langage. Inception a annoncé le lancement de Mercury 2, le LLM de raisonnement le plus rapide et le premier dLLM de raisonnement.Mercury 2 fait progresser cette base de diffusion vers un raisonnement de niveau production et établit une nouvelle norme de performance pour les LLM optimisés en termes de vitesse, offrant un raisonnement rentable à un débit de 1 000 tokens par seconde avec des performances équivalentes à celles de Claude 4.5 Haiku et GPT 5.2 Mini. Il en résulte un débit et une réactivité qui proviennent du modèle lui-même, permettant une inférence rapide et évolutive.Au lieu de prédire le prochain jeton d'une séquence, Mercury 2 commence par une esquisse approximative de la sortie complète et l'affine de manière itérative grâce à un processus appelé « dénoisage », sur plusieurs jetons en parallèle. Chaque passage dans le modèle modifie et améliore simultanément plusieurs jetons, de sorte qu'une seule évaluation du réseau neuronal produit un travail beaucoup plus utile à chaque étape. L'avantage en termes de vitesse provient du modèle lui-même, et non d'un matériel spécialisé. Et comme le modèle affine de manière itérative plutôt que de s'engager de manière permanente sur chaque jeton, il peut corriger les erreurs en cours de génération.», a déclaré Stefano Ermon, PDG et cofondateur d'Inception. «Dans les benchmarks standard, conformément à la méthodologie d'Artificial Analysis, Mercury 2 atteint un débit de sortie d'environ 1 000 tokens par seconde, contre environ 89 tokens par seconde pour Claude 4.5 Haiku Reasoning et environ 71 tokens par seconde pour GPT-5 Mini. En termes de qualité, Mercury 2 a obtenu un score de 91,1 sur AIME 2025, 73,6 sur GPQA, 71,3 sur IFBench, 67,3 sur LiveCodeBench, 38,4 sur SciCode et 52,9 sur Tau. Ces scores placent Mercury 2 dans la fourchette concurrentielle de Claude 4.5 Haiku et GPT 5.2 Mini en termes de qualité, tout en offrant un débit environ 10 fois supérieur.», a déclaré Tim Tully, associé chez Menlo Ventures. «S'appuyant sur le principe de diffusion prioritaire d'Inception, Mercury 2 offre les cas d'utilisation suivants :: Mercury 2 transforme les agents de « démonstration sympa » en « système de production fiable » en réduisant la pénalité de latence qui s'accumule dans les workflows en plusieurs étapes. Cela signifie que les agents de code, le triage IT et SecOps, et les boucles d'automatisation back-office en plusieurs étapes peuvent exécuter davantage d'étapes avec des cycles de rétroaction plus courts, améliorant ainsi directement la contrôlabilité et la confiance.: Mercury 2 permet d'intégrer le raisonnement dans des SLA en temps réel stricts, où les latences p95 et p99 déterminent si l'expérience semble naturelle. Cela permet de renforcer les applications telles que les agents vocaux d'assistance et de vente, les copilotes d'assistance à la clientèle, les questions-réponses interactives de tutorat et la traduction en temps réel.: Mercury 2 alimente la boucle de codage itérative, permettant aux utilisateurs de demander, de réviser et de modifier rapidement.Mercury 2 offre également des capacités difficiles à obtenir avec une génération strictement séquentielle. Le raffinement itératif prend en charge la correction des erreurs pendant la génération et des sorties plus contrôlables, notamment des réponses structurées pour l'orchestration des agents, les modifications de code et l'appel de fonctions, ce qui aide les équipes à maintenir la cohérence et la supervision lorsqu'elles passent des prototypes à la production.Inception a été fondée par des chercheurs de Stanford, de l'UCLA et de Cornell qui ont contribué aux travaux fondamentaux sur les modèles de diffusion et d'autres techniques d'IA essentielles, notamment l'attention flash, les transformateurs de décision et l'optimisation directe des préférences. Le PDG Stefano Ermon est le co-inventeur des méthodes de diffusion largement utilisées dans les systèmes modernes de génération d'images et de vidéos. Les modèles Mercury 2 sont disponibles dès aujourd'hui via l'API Inception.Voici un extrait de l'annonce de Mercury 2 :Mercury 2 excelle dans les applications sensibles à la latence où l'expérience utilisateur est non négociable.Saisie semi-automatique, suggestions de modification suivante, refactorisations, agents de code interactifs : autant de workflows où le développeur est dans la boucle et où toute pause interrompt le flux.» Max Brunsfeld, cofondateur, ZedLes flux de travail agentiques enchaînent des dizaines d'appels d'inférence par tâche. Réduire la latence par appel ne permet pas seulement de gagner du temps, cela modifie également le nombre d'étapes que vous pouvez vous permettre d'exécuter et la qualité du résultat final.