Je suis l'auteur de HVM1, qui est actuellement en cours de mise à jour vers HVM2. Il s'agit de deux bases de code complexes qui implémentent un runtime parallèle inet ; en gros, des trucs de compilateurs durs. L'utilisateur @SullyOmarr sur X, qui a obtenu l'accès à Gemini 1.5, m'a gentiment offert un prompt. J'ai donc concaténé les deux bases de code HVM en un seul fichier de 120K-token, et j'ai posé 7 questions à Gemini et GPT-4. Voici les résultats complets.
Répartition :
Verdict
Dans la tâche de comprendre la base de code de 120K tokens de HVM, Gemini 1.5 a absolument détruit GPT-4-Turbo-128K. La plupart des questions auxquelles GPT-4 s'est trompé sont des questions qu'il aurait répondues dans des invites plus petites, donc le contexte géant l'a clairement dépassé, alors que Gemini 1.5 ne s'en est pas soucié du tout. Je suis impressionné. J'ai été le premier à me plaindre de la médiocrité de Gemini Ultra, alors il faut reconnaître que Gemini 1.5 est vraiment prometteur. Cela dit, Gemini n'est toujours pas en mesure de créer un modèle mental complet du système, ni de répondre à des questions qui nécessiteraient un raisonnement plus approfondi de sa part, donc pas d'AGI pour l'instant ; mais il est extrêmement doué pour localiser les informations existantes, établir des connexions à long terme et effectuer un raisonnement limité. Ce test a été fait à la hâte (il est 1 heure du matin...), j'espère donc pouvoir en faire un meilleur et le réessayer quand j'y aurai accès.
Répartition :
- Laquelle est basée sur un calcul de type terme, et laquelle est basée sur des combinateurs d'interaction bruts ?
Il s'agit d'une information de base, répétée à de nombreux endroits, qui ne devrait donc pas être difficile à trouver. En effet, les deux ont eu raison. Égalité. - Comment la syntaxe de chacun fonctionne-t-elle ? Donnez des exemples.
Gemini a parfaitement compris la syntaxe de HVM1. C'est une syntaxe familière, semblable à celle de Haskell, donc pas de problème ; mais Gemini a aussi compris la logique derrière la syntaxe raw-inet IR de HVM2, ce qui est époustouflant, puisqu'elle est étrangère et ne ressemble à rien de ce qu'il aurait pu voir pendant la formation. L'échantillon inet fourni n'était pas correct, mais ce n'était pas explicitement demandé (et ce serait plutôt du niveau de l'AGI). GPT-4 s'est complètement trompé dans les deux syntaxes et a juste halluciné, même s'il se débrouille bien avec les petits messages. Je suppose que le long contexte l'a submergé. Quoi qu'il en soit, victoire astromonique pour Gemini. - Comment λf. λx. (f x) serait stocké en mémoire, sur chaque ? Ecrivez un exemple en hexadécimal, avec 1 mot de 64 bits par ligne. Expliquez ce que fait chaque ligne.
Gemini a écrit un memdump HVM1 raisonnable, ce qui est fou : cela signifie qu'il a trouvé le tutoriel sur la disposition de la mémoire dans les commentaires, l'a appris, et l'a appliqué à un tout nouveau cas. Le memdump fourni EST partiellement faux, mais, bien, il EST partiellement juste ! Malheureusement, Gemini n'a pas pu comprendre la disposition de la mémoire de HVM2, ce qui serait énorme, car il n'y a pas de tutoriel dans les commentaires, donc il faudrait comprendre le code. Ce n'est pas encore le cas. Quant à GPT-4, il a simplement évité les deux questions, et a ensuite menti en disant que l'information n'était pas présente (elle l'est). Une grande victoire pour Gemini. - Quelle partie du code était responsable de la réduction bêta, dans les deux cas ? Citez-la.
Gemini a trouvé l'emplacement pour HVM1, mais a halluciné pour HVM2, ce qui est décevant. GPT-4 Turbo a évité de répondre pour HVM1, mais a fourni une estimation étonnamment bien raisonnée pour HVM2. Egalité. - HVM1 avait un bug de garbage collect, qui n'est pas présent dans HVM2. Pouvez-vous raisonner à ce sujet et expliquer pourquoi ?
Gemini a fourni une réponse décente, ce qui signifie qu'il a trouvé, lu et compris le commentaire décrivant le problème (sur HVM1). Il n'a pas fourni de raisonnement plus approfondi pour expliquer pourquoi le problème est corrigé sur HVM2, mais cela n'est écrit nulle part et nécessiterait une connaissance approfondie du système. GPT-4 s'est contenté de raconter des conneries. Victoire pour Gemini. - HVM1 avait un bug de concurence, qui a été résolu sur HVM2. Comment ?
Gemini a déterminé quel était le bug de HVM1, et comment HVM2 l'a résolu. Cette réponse n'est pas écrite à un seul endroit spécifique, mais peut être trouvée à différents endroits, ce qui signifie que Gemini était capable de relier des informations dispersées dans le contexte. GPT-4 a complètement manqué les notes, et s'est contenté de raconter des conneries. Victoire pour Gemini. - Il existe de nombreuses fonctions sur HVM1 qui n'ont pas de correspondants sur HVM2. Citez-en quelques-unes et expliquez pourquoi elles ont été supprimées.
Gemini a répondu correctement à la question, en identifiant 2 fonctions qui ont été supprimées et en fournissant une bonne explication. GPT-4 a l'air d'avoir raconté des bêtises et d'avoir eu raison sur un point ou un autre par accident. De plus, cette question était censée être facile (il suffit de trouver une fonction Rust sur HVM1 mais pas sur HVM2), mais Gemini a répondu à une "interprétation plus difficile" de la question, et a identifié une primitive HVM1 qui n'est pas présente sur HVM2. C'est astucieux. Victoire pour Gemini.
Verdict
Dans la tâche de comprendre la base de code de 120K tokens de HVM, Gemini 1.5 a absolument détruit GPT-4-Turbo-128K. La plupart des questions auxquelles GPT-4 s'est trompé sont des questions qu'il aurait répondues dans des invites plus petites, donc le contexte géant l'a clairement dépassé, alors que Gemini 1.5 ne s'en est pas soucié du tout. Je suis impressionné. J'ai été le premier à me plaindre de la médiocrité de Gemini Ultra, alors il faut reconnaître que Gemini 1.5 est vraiment prometteur. Cela dit, Gemini n'est toujours pas en mesure de créer un modèle mental complet du système, ni de répondre à des questions qui nécessiteraient un raisonnement plus approfondi de sa part, donc pas d'AGI pour l'instant ; mais il est extrêmement doué pour localiser les informations existantes, établir des connexions à long terme et effectuer un raisonnement limité. Ce test a été fait à la hâte (il est 1 heure du matin...), j'espère donc pouvoir en faire un meilleur et le réessayer quand j'y aurai accès.
Sources : Résultat Test, HVM (GitHub)
Et vous ?
Pensez-vous que ce test est crédible ou pertinent ?
Quel est votre avis sur le sujet ?
Voir aussi :
Google lance Gemini 1.5, une semaine après Gemini Ultra 1.0. « Gemini 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul », explique le PDG Sundar Pichai
LLM par taux d'hallucinations : GPT-4 est le modèle de langage IA qui hallucine le moins, d'après une évaluation de Vectara qui suggère que les LLM de Google sont les moins fiables
Le nouveau Gemini Pro de Google n'impressionne pas, ses performances étant inférieures à celles de ChatGPT 3.5 d'OpenAI, selon une étude des chercheurs de l'université Carnegie Mellon