IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Gemini 1.5 surpasse GPT-4-Turbo-128K sur les longues invites de code , selon l'auteur de HVM
"Dans la tâche de compréhension de la base de code, Gemini 1.5 a absolument détruit GPT-4-Turbo-128K

Le , par Jade Emy

1PARTAGES

6  0 
L'auteur de HVM a mis une base de code complexe dans un seul prompt de 120K-tokens, et il a posé 7 questions GPT-4 et Gemini 1.5. Voici les résultats !

Je suis l'auteur de HVM1, qui est actuellement en cours de mise à jour vers HVM2. Il s'agit de deux bases de code complexes qui implémentent un runtime parallèle inet ; en gros, des trucs de compilateurs durs. L'utilisateur @SullyOmarr sur X, qui a obtenu l'accès à Gemini 1.5, m'a gentiment offert un prompt. J'ai donc concaténé les deux bases de code HVM en un seul fichier de 120K-token, et j'ai posé 7 questions à Gemini et GPT-4. Voici les résultats complets.

Répartition :

  1. Laquelle est basée sur un calcul de type terme, et laquelle est basée sur des combinateurs d'interaction bruts ?

    Il s'agit d'une information de base, répétée à de nombreux endroits, qui ne devrait donc pas être difficile à trouver. En effet, les deux ont eu raison. Égalité.

  2. Comment la syntaxe de chacun fonctionne-t-elle ? Donnez des exemples.

    Gemini a parfaitement compris la syntaxe de HVM1. C'est une syntaxe familière, semblable à celle de Haskell, donc pas de problème ; mais Gemini a aussi compris la logique derrière la syntaxe raw-inet IR de HVM2, ce qui est époustouflant, puisqu'elle est étrangère et ne ressemble à rien de ce qu'il aurait pu voir pendant la formation. L'échantillon inet fourni n'était pas correct, mais ce n'était pas explicitement demandé (et ce serait plutôt du niveau de l'AGI). GPT-4 s'est complètement trompé dans les deux syntaxes et a juste halluciné, même s'il se débrouille bien avec les petits messages. Je suppose que le long contexte l'a submergé. Quoi qu'il en soit, victoire astromonique pour Gemini.

  3. Comment λf. λx. (f x) serait stocké en mémoire, sur chaque ? Ecrivez un exemple en hexadécimal, avec 1 mot de 64 bits par ligne. Expliquez ce que fait chaque ligne.

    Gemini a écrit un memdump HVM1 raisonnable, ce qui est fou : cela signifie qu'il a trouvé le tutoriel sur la disposition de la mémoire dans les commentaires, l'a appris, et l'a appliqué à un tout nouveau cas. Le memdump fourni EST partiellement faux, mais, bien, il EST partiellement juste ! Malheureusement, Gemini n'a pas pu comprendre la disposition de la mémoire de HVM2, ce qui serait énorme, car il n'y a pas de tutoriel dans les commentaires, donc il faudrait comprendre le code. Ce n'est pas encore le cas. Quant à GPT-4, il a simplement évité les deux questions, et a ensuite menti en disant que l'information n'était pas présente (elle l'est). Une grande victoire pour Gemini.

  4. Quelle partie du code était responsable de la réduction bêta, dans les deux cas ? Citez-la.

    Gemini a trouvé l'emplacement pour HVM1, mais a halluciné pour HVM2, ce qui est décevant. GPT-4 Turbo a évité de répondre pour HVM1, mais a fourni une estimation étonnamment bien raisonnée pour HVM2. Egalité.

  5. HVM1 avait un bug de garbage collect, qui n'est pas présent dans HVM2. Pouvez-vous raisonner à ce sujet et expliquer pourquoi ?

    Gemini a fourni une réponse décente, ce qui signifie qu'il a trouvé, lu et compris le commentaire décrivant le problème (sur HVM1). Il n'a pas fourni de raisonnement plus approfondi pour expliquer pourquoi le problème est corrigé sur HVM2, mais cela n'est écrit nulle part et nécessiterait une connaissance approfondie du système. GPT-4 s'est contenté de raconter des conneries. Victoire pour Gemini.

  6. HVM1 avait un bug de concurence, qui a été résolu sur HVM2. Comment ?

    Gemini a déterminé quel était le bug de HVM1, et comment HVM2 l'a résolu. Cette réponse n'est pas écrite à un seul endroit spécifique, mais peut être trouvée à différents endroits, ce qui signifie que Gemini était capable de relier des informations dispersées dans le contexte. GPT-4 a complètement manqué les notes, et s'est contenté de raconter des conneries. Victoire pour Gemini.

  7. Il existe de nombreuses fonctions sur HVM1 qui n'ont pas de correspondants sur HVM2. Citez-en quelques-unes et expliquez pourquoi elles ont été supprimées.

    Gemini a répondu correctement à la question, en identifiant 2 fonctions qui ont été supprimées et en fournissant une bonne explication. GPT-4 a l'air d'avoir raconté des bêtises et d'avoir eu raison sur un point ou un autre par accident. De plus, cette question était censée être facile (il suffit de trouver une fonction Rust sur HVM1 mais pas sur HVM2), mais Gemini a répondu à une "interprétation plus difficile" de la question, et a identifié une primitive HVM1 qui n'est pas présente sur HVM2. C'est astucieux. Victoire pour Gemini.


Verdict

Dans la tâche de comprendre la base de code de 120K tokens de HVM, Gemini 1.5 a absolument détruit GPT-4-Turbo-128K. La plupart des questions auxquelles GPT-4 s'est trompé sont des questions qu'il aurait répondues dans des invites plus petites, donc le contexte géant l'a clairement dépassé, alors que Gemini 1.5 ne s'en est pas soucié du tout. Je suis impressionné. J'ai été le premier à me plaindre de la médiocrité de Gemini Ultra, alors il faut reconnaître que Gemini 1.5 est vraiment prometteur. Cela dit, Gemini n'est toujours pas en mesure de créer un modèle mental complet du système, ni de répondre à des questions qui nécessiteraient un raisonnement plus approfondi de sa part, donc pas d'AGI pour l'instant ; mais il est extrêmement doué pour localiser les informations existantes, établir des connexions à long terme et effectuer un raisonnement limité. Ce test a été fait à la hâte (il est 1 heure du matin...), j'espère donc pouvoir en faire un meilleur et le réessayer quand j'y aurai accès.

Sources : Résultat Test, HVM (GitHub)

Et vous ?

Pensez-vous que ce test est crédible ou pertinent ?
Quel est votre avis sur le sujet ?

Voir aussi :

Google lance Gemini 1.5, une semaine après Gemini Ultra 1.0. « Gemini 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul », explique le PDG Sundar Pichai

LLM par taux d'hallucinations : GPT-4 est le modèle de langage IA qui hallucine le moins, d'après une évaluation de Vectara qui suggère que les LLM de Google sont les moins fiables

Le nouveau Gemini Pro de Google n'impressionne pas, ses performances étant inférieures à celles de ChatGPT 3.5 d'OpenAI, selon une étude des chercheurs de l'université Carnegie Mellon

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de ParseCoder
Membre averti https://www.developpez.com
Le 23/02/2024 à 14:20
Si les besoins en nombre de développeurs par projet va baisser cela veut dire que le cout du développement logiciel va baisser aussi, et les projets qui n'étaient pas entrepris jusqu'à maintenant pour des raisons de cout le seront peut-être à l'avenir. Donc bien malin qui pourrait dire quelle sera l'évolution à terme de l'emploi dans le développement.
2  0 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 11/11/2024 à 16:04
coup de pub
2  0 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 23/02/2024 à 17:05
Vous n'avez peut-être pas tous regardé la démo.
Il ne s'agit pas de reproduire une application mais de reproduire un comportement.
Elle a fait une recherche d'appartement dans un navigateur, a donné la vidéo au bot et le bot a généré du code pour faire tourner une session Selenium qui reproduise le comportement de l'utilisateur dans le navigateur.
1  0 
Avatar de Athaa
Membre du Club https://www.developpez.com
Le 23/02/2024 à 14:40
J’imagine qu’on disait pareil quand Microsoft a introduit les Macros enregistrables dans Excel.
0  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 23/02/2024 à 16:19
J'ai hâte de voir un logiciel développé sur base de vidéos:
1. Gagne-t-on vraiment du temps en faisant un vidéo plutôt qu'en écrivant un charte logiciel?
2. Le résultat sera digne de nos plus grandes applications des années 90's qui ne fonctionnent que si on utilise la seule et unique séquence acceptée par le logiciel.

Dans les 3/4 des logiciels que j'utilise (je suis un client) il existe plusieurs trajets pour aller d'un point A à un point B du logiciel (notamment parce qu'il y a plusieurs métiers différents qui font ce trajet).
Quel financier est prêt à suivre le chemin du logisticien?
Quel logisticien est prêt à suivre le chemin du manufacturier?
Quel manufacturier est prêt à suivre le chemin du qualiticien?
Quel qualiticien est prêt à suivre le chemin du financier?

Cette logique est applicable à un projet de la taille d'une macro excel.
Mais, dans ma jeunesse, j'ai passé quelques heures à rendre un système mécanique dessiné par un graphiste applicable à l'industrie.
Pourquoi les vendeurs ne montrent que des powerpoint ou des vidéos de leurs outils? Parce qu'elle ne buggent jamais.
Pourquoi les utilisateurs ne sont jamais satisfait à la fin? Parce que l'application n'est jamais conforme à la démo du vendeur.
0  0 
Avatar de mach1974
Membre averti https://www.developpez.com
Le 23/02/2024 à 16:19
Seule amazone ou GoogleCloud servent pour les migrations sous cloud de solutions on premise (sur sites) des transactions propriétaires
les PME et les grands groupes ne veulent que des solutions intégrées avec le support adhoc .
les solutions no code low code seront bientôt dépréciées comme les solutions UML en leurs temps.
0  0 
Avatar de eddy72
Membre régulier https://www.developpez.com
Le 24/02/2024 à 15:02
Combien de nouveaux projets pourrons être financé ?
0  0 
Avatar de mach1974
Membre averti https://www.developpez.com
Le 24/02/2024 à 18:59
Citation Envoyé par _toma_ Voir le message
Vous n'avez peut-être pas tous regardé la démo.
Il ne s'agit pas de reproduire une application mais de reproduire un comportement.
Elle a fait une recherche d'appartement dans un navigateur, a donné la vidéo au bot et le bot a généré du code pour faire tourner une session Selenium qui reproduise le comportement de l'utilisateur dans le navigateur.
justement c'est déjà fait avec UFT point besoin de regarder la vidéo. RANOREX en son temps faisait mieux. Où en sont-ils aujourd'hui? Pourquoi HP a revendu UFT ?
0  0 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 25/02/2024 à 1:00
J'ai pas dit que c'était pertinent comme démo, mes précisions allaient même dans le sens opposé.
0  0 
Avatar de TotoParis
Membre expérimenté https://www.developpez.com
Le 25/02/2024 à 11:36
Ne laissez pas vos codes sources être aspirés par cet ogre numérique.
0  0