OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT.

L'entreprise fait une démo de son modèle qui « représente l'avenir de l'interaction entre nous et les machines »

Le 14 mai 2024 à 09:19, par Stéphane le calme

82PARTAGES

OpenAI a annoncé lundi le lancement de son nouveau modèle phare d'intelligence artificielle, appelé GPT-4o, ainsi que des mises à jour comprenant un nouveau service desktop et des avancées dans ses capacités d'assistant vocal. Parmi les mises à jour dévoilées lundi par OpenAI figurent l'amélioration de la qualité et de la vitesse des capacités linguistiques internationales de ChatGPT, ainsi que la possibilité de télécharger des images, des documents audio et des textes afin que le modèle puisse les analyser. L'entreprise a indiqué qu'elle mettrait progressivement en place les fonctionnalités afin de s'assurer qu'elles sont utilisées en toute sécurité.

Mira Murati, directrice de la technologie, est apparue sur scène devant une foule enthousiaste dans les bureaux d'OpenAI, vantant le nouveau modèle comme un pas en avant dans le domaine de l'IA. Le nouveau modèle mettra le modèle d'IA GPT-4, plus rapide et plus précis, à la disposition des utilisateurs gratuits, alors qu'il était auparavant réservé aux clients payants.

Envoyé par OpenAI

Au cours des deux dernières années, nous avons consacré beaucoup d'efforts à l'amélioration de l'efficacité à chaque couche de la pile. Le premier fruit de cette recherche est la mise à disposition d'un modèle de niveau GPT-4 à une échelle beaucoup plus large. Les capacités de GPT-4o seront déployées de manière itérative (avec un accès étendu à l'équipe rouge à partir d'aujourd'hui).

Les capacités de texte et d'image de GPT-4o commencent à être déployées aujourd'hui dans ChatGPT. Nous rendons GPT-4o disponible dans le niveau gratuit, et pour les utilisateurs Plus avec des limites de messages jusqu'à 5 fois plus élevées. Nous lancerons une nouvelle version du mode vocal avec GPT-4o en alpha dans ChatGPT Plus dans les semaines à venir.

« Nous envisageons l'avenir de l'interaction entre nous et les machines », a déclaré Murati. « Nous pensons que GPT-4o est en train de changer ce paradigme ».

L'événement comprenait également une démonstration en direct des nouvelles capacités vocales du modèle, avec deux responsables de recherche de l'OpenAI s'entretenant avec un modèle vocal d'IA. L'assistant vocal a généré une histoire à dormir debout sur l'amour et les robots, les chercheurs lui demandant de parler avec une variété d'émotions et d'inflexions vocales. Une autre démonstration a utilisé la fonction appareil photo d'un téléphone pour montrer au modèle d'IA une équation mathématique, puis le mode vocal de ChatGPT leur a expliqué comment la résoudre.

À un moment de la démonstration, un chercheur a demandé au modèle d'IA de lire l'expression de son visage et de juger ses émotions. L'assistant vocal de ChatGPT a estimé qu'il avait l'air « heureux et gai, avec un grand sourire et peut-être même une pointe d'excitation ».

« Quoi qu'il en soit, il semble que vous soyez de bonne humeur », a déclaré ChatGPT d'une voix féminine enjouée. « Voulez-vous partager la source de ces bonnes vibrations ? »

Pas de concurrent au moteur de recherche de Google... pour l'instant

Le PDG d'OpenAI, Sam Altman, a indiqué que le modèle est « nativement multimodal », ce qui signifie qu'il peut générer du contenu ou comprendre des commandes vocales, textuelles ou visuelles. Les développeurs qui souhaitent bricoler avec GPT-4o auront accès à l'API, qui est deux fois moins chère et deux fois plus rapide que GPT-4 Turbo, a ajouté Altman sur X.

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">in the API, GPT-4o is half the price AND twice as fast as GPT-4-turbo. and 5x rate limits. <a href="https://t.co/vqV8XwNcYp">pic.twitter.com/vqV8XwNcYp</a></p>— Sam Altman (@sama) <a href="https://twitter.com/sama/status/1790066685698789837?ref_src=twsrc%5Etfw">May 13, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

De nouvelles fonctionnalités sont prévues pour le mode vocal de ChatGPT dans le cadre du nouveau modèle. L'application pourra agir comme un assistant vocal de type Her, répondant en temps réel et observant le monde qui vous entoure. Le mode vocal actuel est plus limité, il ne répond qu'à un seul message à la fois et ne travaille qu'avec ce qu'il peut entendre.

Altman s'est penché sur la trajectoire d'OpenAI dans un billet de blog publié à la suite de l'événement. Il a déclaré que la vision initiale de l'entreprise était de « créer toutes sortes d'avantages pour le monde », mais il a reconnu que cette vision avait changé. OpenAI a été critiquée pour ne pas avoir ouvert ses modèles d'IA avancés, et Altman semble dire que l'objectif de l'entreprise est désormais de mettre ces modèles à la disposition des développeurs par le biais d'API payantes et de laisser ces tiers se charger de la création. « Au lieu de cela, il semble maintenant que nous créerons l'IA et que d'autres personnes l'utiliseront pour créer toutes sortes de choses étonnantes dont nous bénéficierons tous ».

La semaine dernière, la rumeur voulait qu'OpenAI lance un produit de recherche qui concurrencerait Google, mais Reuters a rapporté que l'entreprise avait retardé la révélation de ce projet. Le PDG Sam Altman a nié que l'annonce de lundi concernait un moteur de recherche, mais a tweeté vendredi que « nous avons travaillé dur sur de nouvelles choses que nous pensons que les gens vont adorer ! »

Hormis quelques petits pépins ou réponses involontaires, la plupart des démonstrations se sont déroulées sans encombre et les fonctionnalités ont marché comme prévu. Bien que Murati ait déclaré qu'OpenAI prenait des mesures pour éviter que ses nouvelles capacités vocales ne soient utilisées à mauvais escient, l'événement n'a fourni que peu de détails sur la manière dont l'entreprise allait aborder les mesures de protection relatives à la reconnaissance faciale et à la génération audio.

Bien entendu, OpenAI a veillé à ce que ce lancement ait lieu juste avant Google I/O, la conférence phare du géant de la technologie, où l'on s'attend à voir le lancement de divers produits d'IA de l'équipe Gemini.

Présentation technique de GPT-4o

Le GPT-4o (« o » pour « omni ») est une étape vers une interaction homme-machine beaucoup plus naturelle. Il accepte en entrée toute combinaison de texte, de son et d'image et génère toute combinaison de texte, de son et d'image en sortie. Il peut répondre aux entrées audio en 232 millisecondes seulement, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain dans une conversation. Il égale les performances du GPT-4 Turbo pour les textes en anglais et en code, avec une amélioration significative pour les textes dans des langues autres que l'anglais, tout en étant beaucoup plus rapide et 50 % moins cher dans l'API. GPT-4o est particulièrement performant en matière de vision et de compréhension audio par rapport aux modèles existants.

Avant GPT-4o, vous pouviez utiliser le mode vocal pour parler à ChatGPT avec des temps de latence de 2,8 secondes (GPT-3.5) et de 5,4 secondes (GPT-4) en moyenne. Pour ce faire, le mode vocal est un pipeline composé de trois modèles distincts : un modèle simple transcrit l'audio en texte, GPT-3.5 ou GPT-4 prend du texte et en produit, et un troisième modèle simple reconvertit le texte en audio. Ce processus signifie que la principale source d'intelligence, GPT-4, perd beaucoup d'informations : elle ne peut pas observer directement le ton, les locuteurs multiples ou les bruits de fond, et elle ne peut pas restituer les rires, les chants ou exprimer des émotions.

Avec GPT-4o, nous avons formé un nouveau modèle unique de bout en bout pour le texte, la vision et l'audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. GPT-4o étant notre premier modèle combinant toutes ces modalités, nous n'en sommes encore qu'au stade de l'exploration des capacités et...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT.

L'entreprise fait une démo de son modèle qui « représente l'avenir de l'interaction entre nous et les machines »

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT. L'entreprise fait une démo de son modèle qui « représente l'avenir de l'interaction entre nous et les machines »

OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT.

L'entreprise fait une démo de son modèle qui « représente l'avenir de l'interaction entre nous et les machines »