ChatGPT-4o d'OpenAI reprend la première place dans les classements des benchmarks populaires tout en améliorant sa créativité,

Mais la manière dont la créativité est mesurée ou améliorée fait l'objet de débat

Le 22 novembre 2024 à 19:51, par Mathis Lucas

24PARTAGES

ChatGPT-4o d'OpenAI reprend la première place dans les classements des benchmarks populaires tout en améliorant sa créativité
mais la manière dont la créativité est mesurée ou améliorée fait l'objet de débat

OpenAI a mis à jour GPT-4o et affirme que cette nouvelle mouture améliore grandement « sa capacité d'écriture créative ». L'entreprise affirme que le chatbot est désormais « plus naturel et engageant avec une écriture plus adaptée pour améliorer la pertinence et la lisibilité ». Cette nouvelle mise à jour permet à GPT-4o de revenir en tête de plusieurs classements, notamment sur le benchmark Chatbot Arena des modèles d'IA les plus performants. Cependant, la manière dont la créativité est mesurée ou améliorée est remise en question par plusieurs experts, OpenAI ayant donné très peu d'informations sur la nouvelle mise à jour.

ChatGPT-4o se met à jour et repasse devant ses rivaux dans les classements

GPT-4o reste le modèle le plus avancé d'OpenAI malgré le fait que l'entreprise a publié de nouveaux modèles récemment. OpenAI affirme que GPT-4o est doté de capacités avancées en matière de raisonnement, de multimodalité et de conversation. Il a ajouté cette semaine que la nouvelle mise à jour rend GPT-4o encore plus performant. OpenAI a annoncé par le biais d'un billet sur X (ex-Twitter) avoir les performances de GPT-4o pour la lecture et l'écriture de fichiers.

Exciting News from Chatbot Arena❤️*🔥

Over the past week, the latest @OpenAI ChatGPT-4o (20241120) competed anonymously as "anonymous-chatbot", gathering 8,000+ community votes.

The result? OpenAI reclaims the #1 spot, surpassing Gemini-Exp-1114 with an impressive 1361 score!… https://t.co/Q7q3Uonp94 pic.twitter.com/ogmhhCW7zY
— lmarena.ai (formerly lmsys.org) (@lmarena_ai) November 20, 2024

Cette mise à jour lui permet de générer des textes plus naturels et plus attrayants. GPT-4o mis à jour, appelé ChatGPT-4o (20241120), a battu ses concurrents sur le benchmark Chatbot Arena et s'est hissé à la tête du classement. (Chatbot Arena est une plateforme collaborative utilisée pour évaluer les grands modèles de langage.) Voici quelques observations sur la nouvelle version du modèle phare d'OpenAI :

Améliorations des performances et résultats des analyses comparatives

La nouvelle version de ChatGPT-4o a démontré des améliorations remarquables dans divers domaines. ChatGPT-4o affiche un bond en avant dans l'écriture créative, ainsi que dans les domaines techniques (par exemple, le codage et les mathématiques). Les résultats sont impressionnants :

ChatGPT-4o a repris la première place avec un score Elo de 1361 sur le benchmark Chatbot Arena, dépassant Gemini-Exp-1114 de Google (1343) ;
le modèle se classe désormais au premier rang dans des catégories telles que l'écriture créative, le codage et le traitement de messages complexes.

Amélioration des capacités et de l'expérience utilisateur

amélioration des capacités d'écriture créative, produisant des textes plus naturels et attrayants ;
amélioration des capacités de lecture et d'écriture de fichiers, offrant une vision plus approfondie et des réponses plus complètes au contenu téléchargé ;
meilleure performance dans les tâches complexes à plusieurs étapes.

Accessibilité et fonctionnalités supplémentaires

la mise à jour ne modifie pas la manière dont les utilisateurs accèdent à GPT-4o. Elle reste disponible pour les utilisateurs gratuits avec un accès limité et pour les abonnés de ChatGPT Plus avec un accès complet ;
le modèle vocal avancé est désormais disponible sur le bureau pour tous les utilisateurs payants, élargissant ainsi son accessibilité au-delà de l'application mobile.

Impact sur l'industrie et les développements à venir

la mise à jour aide OpenAI à maintenir son avance sur des concurrents tels que Gemini de Google ;
des indices laissent entrevoir des améliorations potentielles des capacités de génération d'images de DALL-E ;
des rapports évoquent une possible sortie de Sora, le modèle d'IA d'OpenAI pour la génération de vidéo, élargissant encore le portefeuille de l'entreprise.

Certains utilisateurs ont qualifié la mise à jour de « folle », en publiant un rap écrit par l'IA à la manière d'Eminem. D'autres ont essayé de mesurer sa créativité d'une manière plus centrée sur les données. Sam Paech, le responsable d'EQ-Bench, un benchmark qui tente de mesurer « l'intelligence émotionnelle des LLM », a constaté que GPT-4o surpassait la concurrence de plusieurs points. Les nouvelles capacités de ChatGPT-4o le placent à la tête de l'index EQ-Bench.

Les affirmations d'OpenAI sur la créativité de ChatGPT-4o sont controversées

OpenAI n'a pas partagé grand-chose sur la nouvelle mise à jour, si ce n'est que sa « capacité d'écriture créative a augmenté de niveau » et qu'elle est désormais « plus naturelle et engageante avec une écriture plus adaptée pour améliorer la pertinence et la lisibilité ». Dans un message sur X, le PDG d'OpenAI, Sam Altman, a simplement déclaré : « bon nouveau modèle ». Toutefois, la façon dont la créativité est améliorée ou mesurée soulève des questions.

Hey @OpenAI your @ChatGPTapp 4o "Creative Writing" upgrade today is INSANE!

My test prompt for two years has been some version of "write an Eminem style cipher about quantum mechanics."

ChatGPT has always been the best at this, but NO LLM has ever captured the sophisticated… pic.twitter.com/XJIlXF98jL
— Kyle Shannon 🍓 (@kyleshannon) November 20, 2024

Un critique a demandé si « GPT-4o avait commencé à observer le monde [et] à trouver ses propres idées et son propre point de vue non dérivé ». Il fait allusion au fait que les modèles d'IA ne peuvent pas créer quelque chose de nouveau. Ils ne font que régurgiter ce qui est contenu dans leurs ensembles de données de formation. Lorsque ChatGPT a été lancé, il ne pouvait rien dire sur les connaissances ou les faits survenus après une certaine date en 2021.

Cette date correspond en effet à la limite de ses données de formation. OpenAI met régulièrement à jour cette limite en incorporant de nouvelles bases de données dans l'ensemble de données de formation de GPT-4o. Il permet également à GPT-4o d'accéder à Internet afin de fournir aux utilisateurs des réponses basées sur les informations actuelles. Cette fonctionnalité ne rend pas le chatbot créatif pour autant, car il ne fait que résumer ce qu'il trouve sur le Web.

OpenAI cooked!

Two new creative writing leaders:

gpt-4o-2024-11-20 (tied highest creative writing score)
Mistral-Large-Instruct-2411 (highest slop score)

Fun fact: In 3 different stories, mistral-large used "a testament to" 3 times. *Per story*. Yup. pic.twitter.com/da8zKiv7Kx
— Sam Paech (@sam_paech) November 21, 2024

OpenAI, et les entreprises concurrentes, entraînent ces modèles sur des quantités massives de données. Cela a suscité un tollé sur la violation du droit d'auteur, ce pour quoi le New York Times poursuit actuellement l'entreprise. OpenAI a admis qu'il ne peut pas former ses modèles sans le matériel protégé par le droit d'auteur.

D'autres entreprises, comme Nvidia, ont été prises en flagrant délit d'exploitation d'heures de Netflix pour former des générateurs de vidéos. OpenAI prévoit de devenir une société à but lucratif à mesure qu'il se restructure. Cela a entraîné le départ de nombreuses personnalités de longue date de l'entreprise.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de la nouvelle mise à jour du modèle d'IA GPT-4o d'OpenAI ?

Que pensez-vous des affirmations d'OpenAI sur l'amélioration de la capacité d'écriture créative de GPT-4o ?

Voir aussi

GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

Gemini 1.5 Pro de Google détrône GPT-4o sur le LMSYS Chatbot Arena, l'un des benchmarks les plus reconnus dans la communauté de l'IA

Le Voice Mode du chatbot GPT-4o d'OpenAI peut imiter votre voix et vous crier dessus, et il a maintenant appris à émettre d'horribles cris robotiques lorsqu'on lui demande de le faire

Vous avez lu gratuitement 904 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

ChatGPT-4o d'OpenAI reprend la première place dans les classements des benchmarks populaires tout en améliorant sa créativité,

Mais la manière dont la créativité est mesurée ou améliorée fait l'objet de débat

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

ChatGPT-4o d'OpenAI reprend la première place dans les classements des benchmarks populaires tout en améliorant sa créativité, Mais la manière dont la créativité est mesurée ou améliorée fait l'objet de débat

ChatGPT-4o d'OpenAI reprend la première place dans les classements des benchmarks populaires tout en améliorant sa créativité,

Mais la manière dont la créativité est mesurée ou améliorée fait l'objet de débat