IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI affirme que les nouveaux modèles d'IA o3 et o4-mini, entraînés à réfléchir plus longtemps avant de répondre, peuvent « penser avec des images »
C'est-à-dire comprendre des diagrammes et des croquis

Le , par Jade Emy

116PARTAGES

4  0 
OpenAI a publié son tout nouveau modèle d'IA qui, selon elle, peut comprendre les images téléchargées telles que les tableaux blancs, les croquis et les diagrammes, même s'ils sont de faible qualité. L'entreprise a qualifié o3 de modèle le plus avancé à ce jour et a également lancé un modèle plus petit appelé o4-mini.

OpenAI a publié son dernier modèle d'intelligence artificielle (IA), capable de "penser avec des images", c'est-à-dire de comprendre et d'analyser les croquis et les diagrammes d'un utilisateur, même s'ils sont de mauvaise qualité. Pour rappel, OpenAI est une organisation américaine de recherche en intelligence artificielle (IA) fondée en décembre 2015. Considérée comme organisation leader dans le boom actuel de l'IA, OpenAI est connue pour la famille GPT de grands modèles de langage, la série DALL-E de modèles texte-image et un modèle texte-vidéo appelé Sora.

Le principal nouveau modèle de raisonnement d'OpenAI s'appelle o3, et la société a simultanément lancé un modèle plus petit appelé o4-mini. Ce lancement fait suite à la présentation en septembre du premier modèle de raisonnement d'OpenAI, o1, qui se concentre sur la résolution de problèmes complexes et la réflexion sur les réponses en plusieurs étapes.

Avec o3, les utilisateurs peuvent télécharger des tableaux blancs, des croquis et d'autres images et demander à l'IA de les analyser et d'en discuter. Les modèles peuvent également pivoter, zoomer et utiliser d'autres outils d'édition d'images.

Depuis l'introduction de son chatbot viral ChatGPT à la fin de 2022, OpenAI a rapidement amélioré ses modèles pour qu'ils aillent bien au-delà du texte, vers les images, la voix et les vidéos. L'entreprise fait la course pour rester en tête dans le domaine de l'IA générative, où elle est confrontée à une concurrence féroce de la part de rivaux tels que Google, Anthropic et Elon Musk.

https://youtu.be/sq8GBPUb3rk

"Pour la première fois, nos modèles de raisonnement peuvent utiliser indépendamment tous les outils de ChatGPT - navigation web, Python, compréhension d'images et génération d'images", annonce OpenAI. "Cela les aide à résoudre plus efficacement des problèmes complexes à plusieurs étapes et à prendre des mesures concrètes pour agir de manière autonome."

L'entreprise, évaluée à 300 milliards de dollars lors de son dernier tour de table, a déclaré que o3 et o4-mini sont ses premiers modèles d'IA capables de "penser avec des images". Cela signifie "qu'ils ne se contentent pas de voir une image, mais qu'ils peuvent intégrer des informations visuelles directement dans la chaîne de raisonnement", selon OpenAI. Récemment, OpenAI a lancé une fonction native de génération d'images qui est devenue virale en ligne en raison de sa capacité à produire des images animées de style Studio Ghibli.

OpenAI a déclaré que son modèle o3 est spécialement conçu pour les mathématiques, le codage, la science et la compréhension des images, tandis que le modèle o4-mini fonctionne plus rapidement et à moindre coût. Les deux modèles sont disponibles pour les clients ChatGPT Plus, Pro et Team.

La communauté des utilisateurs d'OpenAI plaisante depuis longtemps sur les noms étranges ou déroutants de ses modèles d'IA. Le PDG Sam Altman s'est joint à la plaisanterie cette semaine, en écrivant dans un message sur X : "Et si nous corrigions le nom de nos modèles d'ici l'été et que tout le monde avait quelques mois de plus pour se moquer de nous (ce que nous méritons bien) d'ici là ?".

La société a également déclaré que les deux modèles avaient été "testés sous contrainte dans le cadre de notre programme de sécurité le plus rigoureux à ce jour" et qu'ils étaient liés à son "cadre de préparation" » mis à jour plus tôt cette semaine.

OpenAI a récemment fait l'objet de critiques pour avoir modifié ses précautions et ses processus de sécurité. Elle a déclaré qu'elle se réservait le droit de "modifier ses exigences en matière de sécurité si un autre développeur d'IA d'avant-garde mettait sur le marché un système à haut risque sans mesures de protection comparables".

En modifiant ses politiques, OpenAI a écrit qu'elle n'exigerait plus de tests de sécurité pour certains modèles affinés. L'entreprise a également évité de publier une "carte de système" - ou un rapport contenant des informations sur les tests de sécurité effectués avant la mise sur le marché d'un modèle - pour son modèle GPT-4.1. En février, OpenAI a lancé l'outil d'agent d'IA Deep Research quelques semaines avant de publier sa carte de système.

Extrait de l'annonce d'OpenAI :

[QUOTE]Aujourd'hui, nous lançons OpenAI o3 et o4-mini, les derniers-nés de notre série o de modèles entraînés à réfléchir plus longtemps avant de répondre. Ce sont les modèles les plus intelligents que nous ayons publiés à ce jour, ce qui représente un changement radical dans les capacités de ChatGPT pour tout le monde, des utilisateurs curieux aux chercheurs avancés. Pour la première fois, nos modèles de raisonnement peuvent utiliser et combiner de manière active tous les outils de ChatGPT, y compris la recherche sur le Web, l'analyse des fichiers téléchargés et d'autres données avec Python, le raisonnement approfondi sur les entrées visuelles et même la génération d'images. Ces modèles sont entraînés à raisonner sur le moment et la manière d'utiliser les outils pour produire des réponses détaillées et réfléchies dans les bons formats de sortie, généralement en moins d'une minute, afin de résoudre des problèmes plus complexes. Cela leur permet d'aborder plus efficacement des questions à multiples facettes, une étape vers un ChatGPT plus agentique, capable d'exécuter des tâches en votre nom. La puissance combinée d'un raisonnement de pointe et d'un accès complet aux outils se traduit par des performances significativement plus élevées dans les tests académiques et les tâches du monde réel, établissant une nouvelle norme en termes d'intelligence et d'utilité.

Ce qui a changé...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !