IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Percée de la mémoire de GPT-4o, bien meilleure que celle de GPT-4 Turbo, sur un nouveau benchmark
Qui mesure l'attention portée par les LLM à l'information contenue dans leur fenêtre contextuelle

Le , par Jade Emy

8PARTAGES

6  0 
Sur un nouveau benchmark testant la mémoire des LLM, GPT-4o est sortie largement meilleure que GPT-4 Turbo.

Needle in a Needlestack est un nouveau benchmark qui mesure l'attention que les LLM portent à l'information dans leur fenêtre contextuelle. NIAN crée une invite qui comprend des milliers de limericks et pose une question sur un limerick à un endroit spécifique. Jusqu'à aujourd'hui, aucun LLM n'était très bon à ce benchmark. Voici les tentatives de GPT-4 Turbo et de Claude-3 Sonnet :


Cependant, GPT-4o a fait une percée ! Voyez comment il se débrouille sur ce benchmark :


Quand OpenAI révélera ce qu'ils ont fait pour que GPT-4o soit tellement meilleur que GPT-4 Turbo ?

Les modèles de Mistral sont vraiment agréables à utiliser. Leur API est très rapide et cohérente. Cependant, le nouveau modèle 8x22 de Mistral a eu beaucoup de mal avec ce benchmark. Même au début de l'invite, il n'a pu répondre correctement à la question que dans 50 % des cas. Le modèle Mistral large a fait mieux, mais n'a pu répondre correctement que dans 70 % des cas.

Note : Le tokenizer d'OpenAI a été utilisé pour estimer le nombre de mots. Mistral utilise un tokenizer différent qui génère environ 25 % de tokens en plus, de sorte que le nombre de tokens dans les graphiques est inférieur au nombre réel de tokens.


Les modèles obtiennent de bien meilleurs résultats avec des invites plus courtes. Voici le modèle Mistral 7b avec une invite d'environ 16k jetons, contre 32k jetons.


La répétition des informations peut faire une très grande différence dans ce test. Le modèle GPT-3.5-turbo obtient de bien meilleurs résultats lorsque le limerick demandé dans l'invite est répété 10 fois.


Voici un aperçu des capacités de GPT-4o :


Source : GPT-4o’s Memory Breakthrough! (NIAN code)

Et vous ?

Pensez-vous que ces résultats sont crédibles ou pertinents ?
Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT. L'entreprise fait une démo de son modèle qui « représente l'avenir de l'interaction entre nous et les machines »

Le nouveau GPT-4 Turbo est désormais disponible pour les utilisateurs payants de ChatGPT et s'accompagne d'améliorations des performances, mais Epoch estime qu'elles restent «en deçà de Claude 3 Opus»

Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen et les modèles GPT-4 d'OpenAI et Gemini de Google

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de jnspunk
Membre habitué https://www.developpez.com
Le 14/08/2024 à 12:20
Tous les outils sur cette planète peuvent être mal utilisés mais il y en a toujours qui vont se plaindre que l'IA puisse être mal utilisée. La bêtise en devient drole, mais c'est triste quelque part.
1  0 
Avatar de Eye_Py_Ros
Membre du Club https://www.developpez.com
Le 21/05/2024 à 13:49
concernant le mauvais coté de l'IA. Nous risquons une crise identitaire.
La réplication, l'imitation en masse et le non respect de nos identités, risque de mettre à mal la société, une "crise de l'identité" ou les personnes seraient de moins en moins respecté.
Et dont le capitalisme userait, serait plus "violent" en ne respectant plus l'individu car copiable grâce à un genre de photocopieuse magique.
0  0 
Avatar de marsupial
Expert éminent https://www.developpez.com
Le 26/05/2024 à 15:09
Mon commentaire sera peut-être hors-sujet mais Open AI comme Copilot de MS a pompé des données pour retenir des idées, des codes sources, des puces de nouvelles générations et s'est affranchi des lois sur le copyright et les brevets matériels et logiciels au détriment des utilisateurs et professionnels. Je confirme donc qu'ils sont attaquables en procès pour le cas de Scarlett Johansson qui a vu sa voix devenir un fake pour les utilisateurs : Au minimum Open AI et MS ne respectent rien, pas même leur propres règles et leur propre parole. Peut-être Google aussi mais j'ai plus confiance en Google qu'en MS et Open AI bien qu'il faille toujours se méfier.
0  0 
Avatar de JackIsJack
Membre éclairé https://www.developpez.com
Le 03/08/2024 à 7:19
Là c'est un autre level sur l'impact sociétal possible...
0  0 
Avatar de Chouteau
Membre régulier https://www.developpez.com
Le 05/08/2024 à 13:24
Meme si a priori c'est une technologie spectaculaire, je ne peux m'empêcher de penser que les utilisations malveillantes qui vont en découler vont largement dépasser tout ce que l'on a pu connaitre.
Et que dire d'un robot qui rigole...
0  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 21/10/2024 à 11:02
Elle doit gérer les tensions entre sa mission déclarée, qui est de veiller à ce que l'intelligence artificielle générale profite à l'humanité, et son orientation de plus en plus commerciale.


C'est comme l'infomercial de Bill Gates sur les IPN, le loup déguisé en agneau.

Alors que le ChatGPT s'intègre de plus en plus profondément dans le travail et la vie de tous les jours
Dans la tête des PDG peut-être...
0  0