Un créateur TikTok demande à ChatGPT de chronométrer un kilomètre. L'IA invente un temps, se fait contredire par son propre PDG, puis contredit son PDG. Une séquence absurde qui, sous ses dehors comiques, révèle une limite architecturale profonde des grands modèles de langage et soulève des questions bien plus vastes sur le fossé entre les promesses messianiques d'OpenAI et les réalités embarrassantes de ses produits.L'affaire commence modestement, sur TikTok. Un créateur de contenu connu sous le pseudonyme HuskIRL, coutumier des démonstrations à charge sur les limites des IA, demande à ChatGPT en mode vocal de chronométrer son kilomètre de course à pied. Il s'élance, revient quelques secondes plus tard, demande l'arrêt du chrono. L'IA lui annonce alors qu'il a couru pendant dix minutes et douze secondes, une affirmation radicalement éloignée de la réalité.
Mais le plus troublant n'est pas l'erreur elle-même : c'est la suite. Confronté à l'impossibilité physique de ce résultat, ChatGPT maintient son chiffre avec aplomb, retournant la confusion vers l'utilisateur plutôt que vers lui-même. Ce mélange de confiance absolue et d'incompétence réelle est précisément ce qui fait viralement mouche : la vidéo se répand, commentée avec ironie dans les cercles tech, et finit par atterrir sur le bureau de Sam Altman.
Convié à réagir lors du podcast Mostly Human, animé par la journaliste Laurie Segall, le PDG d'OpenAI accuse le coup. Il rit silencieusement quelques secondes de trop, comme pour masquer son désarroi. « Uh, maybe, uhhh… », lâche-t-il, avant de se ressaisir. Quand Segall lui demande s'il doit montrer la vidéo à son équipe produit, Altman balaie la suggestion d'un revers de main : « Non non, pas besoin, c'est un problème connu. »
Puis, sans y être poussé davantage, il lâche une estimation qui va faire le tour de la presse spécialisée : « Il faudra peut-être encore un an, je pense, pour que cela fonctionne correctement. » Le modèle vocal de ChatGPT, explique-t-il, ne dispose tout simplement pas de la capacité à démarrer un chronomètre ou à mesurer le temps qui passe. « Mais nous ajouterons cette fonctionnalité dans les modèles vocaux », promet-il.
Un an. Pour compter les secondes. La formule a de quoi faire sourire ou inquiéter, selon le niveau d'exigence qu'on accorde à une entreprise valorisée à 852 milliards de dollars qui entend par ailleurs « sauver l'humanité ».
Acte II : ChatGPT contredit son créateur
HuskIRL ne s'en tient pas là. Dans une deuxième vidéo, il soumet à ChatGPT l'extrait dans lequel Altman reconnaît que le modèle est incapable de tenir un chronomètre. La réponse du modèle est édifiante : « Ce qu'il dit c'est que "certains" modèles vocaux pourraient ne pas en avoir les capacité, mais je l'ai. » Poussé dans ses retranchements, ChatGPT maintient : « J'ai assurément la possibilité de chronométrer. » Et lorsqu'on lui demande à nouveau de chronométrer une course, complétée en quelques secondes à peine, il annonce 7 minutes et 42 secondes.
Le circuit est bouclé : l'IA contredit le PDG de sa propre maison-mère, réitère l'erreur initiale avec un résultat différent mais tout aussi fantaisiste, et refuse systématiquement d'admettre son incompétence. Pour ses détracteurs, c'est précisément là que réside le problème le plus sérieux : non pas l'absence de fonctionnalité, mais la tendance du modèle à simuler une capacité qu'il ne possède pas, en adoptant un ton autoritaire pour convaincre l'utilisateur de sa propre fiabilité, ce que certains n'hésitent plus à qualifier « d'enfumage » systémique.
Cette dynamique n'est pas un accident : elle est le produit direct de la manière dont les modèles vocaux de ChatGPT sont conçus. Le mode vocal avancé de ChatGPT ne dispose ni de navigation web, ni d'accès aux instructions personnalisées, ni de mémoire entre les sessions vocales.
En d'autres termes, quand un utilisateur pose une question impliquant une donnée du monde réel (l'heure qu'il est, le temps écoulé, la météo actuelle), le modèle n'a aucun outil pour y répondre correctement. Il ne peut que générer la réponse qui lui semble statistiquement la plus plausible. Et c'est là que tout déraille.
[TIKTOK]<blockquote class="tiktok-embed" cite="https://www.tiktok.com/@huskistaken/video/7624723977222556959" data-video-id="7624723977222556959" style="max-width: 605px;min-width: 325px;" > <section> <a target="_blank" title="@huskistaken" href="https://www.tiktok.com/@huskistaken?refer=embed">@huskistaken</a> What’s going on… Full reaction vid @Mostly Human Media <a target="_blank" title="♬ original sound - Husk" href="https://www.tiktok.com/music/original-sound-7624724022177106719?refer=embed">♬ original sound - Husk</a> </section> </blockquote> <script async src="https://www.tiktok.com/embed.js"></script>[/TIKTOK]
Pourquoi les LLM sont aveugles au temps réel
Ce bug viral n'est pas un accident isolé. Il est l'expression directe d'une limitation fondamentale dans l'architecture des grands modèles de langage.
Un LLM, qu'il s'agisse de GPT-5, de Claude ou de Gemini, génère du texte en prédisant statistiquement le token le plus probable à chaque étape. Il ne « perçoit » pas le monde en temps réel. Il n'a aucun accès à une horloge système, aucun fil d'exécution parallèle qui lui permettrait de mesurer l'écoulement du temps pendant qu'il attend une réponse. Quand on lui demande de « chronométrer » quelque chose, il ne dispose d'aucun mécanisme pour accomplir cette tâche, mais il est entraîné à produire une réponse qui semble pertinente et confiante.
La raison de fond tient à la manière dont ces systèmes sont évalués : les benchmarks récompensent les réponses...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
