
Sur un nouveau benchmark testant la mémoire des LLM, GPT-4o est sortie largement meilleure que GPT-4 Turbo.
Needle in a Needlestack est un nouveau benchmark qui mesure l'attention que les LLM portent à l'information dans leur fenêtre contextuelle. NIAN crée une invite qui comprend des milliers de limericks et pose une question sur un limerick à un endroit spécifique. Jusqu'à aujourd'hui, aucun LLM n'était très bon à ce benchmark. Voici les tentatives de GPT-4 Turbo et de Claude-3 Sonnet :
Cependant, GPT-4o a fait une percée ! Voyez comment il se débrouille sur ce benchmark :
Quand OpenAI révélera ce qu'ils ont fait pour que GPT-4o soit tellement meilleur que GPT-4 Turbo ?
Les modèles de Mistral sont vraiment agréables à utiliser. Leur API est très rapide et cohérente. Cependant, le nouveau modèle 8x22 de Mistral a eu beaucoup de mal avec ce benchmark. Même au début de l'invite, il n'a pu répondre correctement à la question que dans 50 % des cas. Le modèle Mistral large a fait mieux, mais n'a pu répondre correctement que dans 70 % des cas.
Note : Le tokenizer d'OpenAI a été utilisé pour estimer le nombre de mots. Mistral utilise un tokenizer différent qui génère environ 25 % de tokens en plus, de sorte que le nombre de tokens dans les graphiques est inférieur au nombre réel de tokens.
Les modèles obtiennent de bien meilleurs résultats avec des invites plus courtes. Voici le modèle Mistral 7b avec une invite d'environ 16k jetons, contre 32k jetons.
La répétition des informations peut faire une très grande différence dans ce test. Le modèle GPT-3.5-turbo obtient de bien meilleurs résultats lorsque le limerick demandé dans l'invite est répété 10 fois.
Voici un aperçu des capacités de GPT-4o :
Source : GPT-4o’s Memory Breakthrough! (NIAN code)
Et vous ?


Voir aussi :



Vous avez lu gratuitement 5 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.