Mira Murati, directrice de la technologie, est apparue sur scène devant une foule enthousiaste dans les bureaux d'OpenAI, vantant le nouveau modèle comme un pas en avant dans le domaine de l'IA. Le nouveau modèle mettra le modèle d'IA GPT-4, plus rapide et plus précis, à la disposition des utilisateurs gratuits, alors qu'il était auparavant réservé aux clients payants.
Envoyé par OpenAI
L'événement comprenait également une démonstration en direct des nouvelles capacités vocales du modèle, avec deux responsables de recherche de l'OpenAI s'entretenant avec un modèle vocal d'IA. L'assistant vocal a généré une histoire à dormir debout sur l'amour et les robots, les chercheurs lui demandant de parler avec une variété d'émotions et d'inflexions vocales. Une autre démonstration a utilisé la fonction appareil photo d'un téléphone pour montrer au modèle d'IA une équation mathématique, puis le mode vocal de ChatGPT leur a expliqué comment la résoudre.
À un moment de la démonstration, un chercheur a demandé au modèle d'IA de lire l'expression de son visage et de juger ses émotions. L'assistant vocal de ChatGPT a estimé qu'il avait l'air « heureux et gai, avec un grand sourire et peut-être même une pointe d'excitation ».
« Quoi qu'il en soit, il semble que vous soyez de bonne humeur », a déclaré ChatGPT d'une voix féminine enjouée. « Voulez-vous partager la source de ces bonnes vibrations ? »
Pas de concurrent au moteur de recherche de Google... pour l'instant
Le PDG d'OpenAI, Sam Altman, a indiqué que le modèle est « nativement multimodal », ce qui signifie qu'il peut générer du contenu ou comprendre des commandes vocales, textuelles ou visuelles. Les développeurs qui souhaitent bricoler avec GPT-4o auront accès à l'API, qui est deux fois moins chère et deux fois plus rapide que GPT-4 Turbo, a ajouté Altman sur X.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">in the API, GPT-4o is half the price AND twice as fast as GPT-4-turbo. and 5x rate limits. <a href="https://t.co/vqV8XwNcYp">pic.twitter.com/vqV8XwNcYp</a></p>— Sam Altman (@sama) <a href="https://twitter.com/sama/status/1790066685698789837?ref_src=twsrc%5Etfw">May 13, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
De nouvelles fonctionnalités sont prévues pour le mode vocal de ChatGPT dans le cadre du nouveau modèle. L'application pourra agir comme un assistant vocal de type Her, répondant en temps réel et observant le monde qui vous entoure. Le mode vocal actuel est plus limité, il ne répond qu'à un seul message à la fois et ne travaille qu'avec ce qu'il peut entendre.
Altman s'est penché sur la trajectoire d'OpenAI dans un billet de blog publié à la suite de l'événement. Il a déclaré que la vision initiale de l'entreprise était de « créer toutes sortes d'avantages pour le monde », mais il a reconnu que cette vision avait changé. OpenAI a été critiquée pour ne pas avoir ouvert ses modèles d'IA avancés, et Altman semble dire que l'objectif de l'entreprise est désormais de mettre ces modèles à la disposition des développeurs par le biais d'API payantes et de laisser ces tiers se charger de la création. « Au lieu de cela, il semble maintenant que nous créerons l'IA et que d'autres personnes l'utiliseront pour créer toutes sortes de choses étonnantes dont nous bénéficierons tous ».
La semaine dernière, la rumeur voulait qu'OpenAI lance un produit de recherche qui concurrencerait Google, mais Reuters a rapporté que l'entreprise avait retardé la révélation de ce projet. Le PDG Sam Altman a nié que l'annonce de lundi concernait un moteur de recherche, mais a tweeté vendredi que « nous avons travaillé dur sur de nouvelles choses que nous pensons que les gens vont adorer ! »
Hormis quelques petits pépins ou réponses involontaires, la plupart des démonstrations se sont déroulées sans encombre et les fonctionnalités ont marché comme prévu. Bien que Murati ait déclaré qu'OpenAI prenait des mesures pour éviter que ses nouvelles capacités vocales ne soient utilisées à mauvais escient, l'événement n'a fourni que peu de détails sur la manière dont l'entreprise allait aborder les mesures de protection relatives à la reconnaissance faciale et à la génération audio.
Bien entendu, OpenAI a veillé à ce que ce lancement ait lieu juste avant Google I/O, la conférence phare du géant de la technologie, où l'on s'attend à voir le lancement de divers produits d'IA de l'équipe Gemini.
Présentation technique de GPT-4o
Le GPT-4o (« o » pour « omni ») est une étape vers une interaction homme-machine beaucoup plus naturelle. Il accepte en entrée toute combinaison de texte, de son et d'image et génère toute combinaison de texte, de son et d'image en sortie. Il peut répondre aux entrées audio en 232 millisecondes seulement, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain dans une conversation. Il égale les performances du GPT-4 Turbo pour les textes en anglais et en code, avec une amélioration significative pour les textes dans des langues autres que l'anglais, tout en étant beaucoup plus rapide et 50 % moins cher dans l'API. GPT-4o est particulièrement performant en matière de vision et de compréhension audio par rapport aux modèles existants.
Avant GPT-4o, vous pouviez utiliser le mode vocal pour parler à ChatGPT avec des temps de latence de 2,8 secondes (GPT-3.5) et de 5,4 secondes (GPT-4) en moyenne. Pour ce faire, le mode vocal est un pipeline composé de trois modèles distincts : un modèle simple transcrit l'audio en texte, GPT-3.5 ou GPT-4 prend du texte et en produit, et un troisième modèle simple reconvertit le texte en audio. Ce processus signifie que la principale source d'intelligence, GPT-4, perd beaucoup d'informations : elle ne peut pas observer directement le ton, les locuteurs multiples ou les bruits de fond, et elle ne peut pas restituer les rires, les chants ou exprimer des émotions.
Avec GPT-4o, nous avons formé un nouveau modèle unique de bout en bout pour le texte, la vision et l'audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. GPT-4o étant notre premier modèle combinant toutes ces modalités, nous n'en sommes encore qu'au stade de l'exploration des capacités et des limites du modèle.
Évaluations du modèle
Sur la base de critères de référence traditionnels, GPT-4o atteint le niveau de performance de GPT-4 Turbo pour le texte, le raisonnement et l'intelligence de codage, tout en établissant de nouvelles références en matière de capacités multilingues, audio et visuelles.
Sécurité et limites du modèle
Le GPT-4o intègre la sécurité dès sa conception pour toutes les modalités, grâce à des techniques telles que le filtrage des données d'entraînement et l'affinement du comportement du modèle par le biais du post-entraînement. Nous avons également créé de nouveaux systèmes de sécurité pour fournir des garde-fous sur les sorties vocales.
Nous avons évalué le GPT-4o conformément à notre cadre de préparation et à nos engagements volontaires. Nos évaluations de la cybersécurité, du CBRN, de la persuasion et de l'autonomie du modèle montrent que le GPT-4o ne présente pas de risque supérieur au niveau moyen dans l'une ou l'autre de ces catégories. Cette évaluation a consisté à effectuer une série d'évaluations automatisées et humaines tout au long du processus de formation du modèle. Nous avons testé les versions du modèle avant et après l'atténuation des risques, en utilisant des ajustements et des messages-guides personnalisés, afin de mieux cerner les capacités du modèle.
Le GPT-4o a également fait l'objet d'une analyse approfondie avec plus de 70 experts externes dans des domaines tels que la psychologie sociale, les préjugés et l'équité, et la désinformation, afin d'identifier les risques introduits ou amplifiés par les modalités nouvellement ajoutées. Nous avons utilisé ces enseignements pour développer nos interventions de sécurité afin d'améliorer la sécurité de l'interaction avec le GPT-4o. Nous continuerons à atténuer les nouveaux risques au fur et à mesure de leur découverte.
Nous reconnaissons que les modalités audio du GPT-4o présentent une variété de nouveaux risques. Aujourd'hui, nous rendons publiques les entrées de texte et d'image et les sorties de texte. Au cours des semaines et des mois à venir, nous travaillerons sur l'infrastructure technique, la facilité d'utilisation par le biais d'une post-formation et la sécurité nécessaires à la diffusion des autres modalités. Par exemple, lors du lancement, les sorties audio seront limitées à une sélection de voix prédéfinies et respecteront nos politiques de sécurité existantes. Nous donnerons plus de détails sur l'ensemble des modalités du GPT-4o dans la prochaine carte du système.
Sources : OpenAI, Sam Altman
Et vous ?
Quelles applications innovantes imaginez-vous pour GPT-4o dans votre domaine professionnel ou personnel ?
Comment la gratuité de GPT-4o pourrait-elle influencer l’accessibilité et l’équité dans le domaine de l’intelligence artificielle ?
Quels sont les défis éthiques que vous pensez que OpenAI devrait considérer en rendant GPT-4o disponible pour tous ?
En quoi la capacité de GPT-4o à traiter divers types d’entrées, comme l’audio et la vision, change-t-elle votre perception de l’IA ?
Comment envisagez-vous que la rapidité de réponse de GPT-4o puisse transformer les interactions humain-machine ?
Quelles mesures de sécurité aimeriez-vous voir mises en place pour assurer une utilisation responsable de GPT-4o ?