IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI annonce que GPT-4 Turbo with Vision est désormais disponible dans l'API, apportant aux développeurs la prise en charge du mode JSON
Et l'appel de fonctions pour les requêtes Vision

Le , par Stéphane le calme

0PARTAGES

3  0 
OpenAI a dévoilé le dernier ajout à son arsenal d'IA avec la sortie de GPT-4 Turbo with Vision, désormais disponible dans l'API. Cette nouvelle version est dotée de fonctionnalités améliorées, notamment la prise en charge du mode JSON et l'appel de fonctions pour les requêtes Vision. Le modèle GPT-4 Turbo mis à jour promet des performances améliorées et devrait également être déployé dans ChatGPT.

Qu'est-ce que GPT-4 Turbo ?

GPT-4 Turbo est un modèle multimodal robuste capable de traiter à la fois des textes et des images, et de fournir des résultats précis grâce à ses connaissances générales étendues et à ses capacités de raisonnement avancées.

OpenAI a présenté GPT-4 Turbo en novembre dernier lors du DevDay. Il s'agit du successeur de GPT-4 qui a été présenté en mars et a été rendu public en juillet. GPT-4 Turbo s'est accompagné de nouvelles fonctionnalités, des prix réduits et bien d'autres choses encore. GPT-4 Turbo se décline en deux versions : une version qui analyse strictement le texte et une seconde qui comprend le contexte du texte et des images.

GPT-4 Turbo dispose également d'une fenêtre contextuelle élargie. La fenêtre contextuelle, mesurée en jetons, fait référence au texte que le modèle prend en compte avant de générer tout texte supplémentaire. Les modèles dotés d'une petite fenêtre contextuelle ont tendance à "oublier" le contenu des conversations, même les plus récentes, ce qui les amène à s'écarter du sujet, souvent de manière problématique. GPT-4 Turbo offre une fenêtre contextuelle de 128 000 jetons - quatre fois la taille de GPT-4. Elle était alors la plus grande fenêtre contextuelle de tous les modèles d'IA disponibles sur le marché, dépassant même le modèle d'IA Claude 2 d'Anthropic qui supporte jusqu'à 100 000 jetons.

En outre, GPT-4 accepte des budgets plus modestes. Il est trois fois moins cher pour les jetons d'entrée et deux fois moins cher pour les jetons de sortie. Les prix sont de 0,01 $ pour 1 000 jetons d'entrée (~750 mots), où les jetons représentent des morceaux de texte brut (par exemple, le mot "fantastique" divisé en "fan", "tas" et "tic" et de 0,03 $ pour 1 000 jetons de sortie (les jetons d'entrée sont des jetons introduits dans le modèle d'IA, tandis que les jetons de sortie sont des jetons que le modèle génère sur la base des jetons d'entrée). L'entreprise promet de continuer à optimiser ses prix afin de rendre ses plateformes accessibles à plus de monde.


Optimisation des performances

L'un des points forts du GPT-4 Turbo est l'optimisation de ses performances, qui se traduit par une réduction substantielle des coûts pour les utilisateurs. Les jetons d'entrée sont désormais trois fois moins chers, tandis que les jetons de sortie sont disponibles à moitié prix par rapport au modèle GPT-4 précédent, ce qui rend cette mise à niveau à la fois efficace et rentable pour les clients.

« Nous avons optimisé les performances afin de pouvoir offrir GPT-4 Turbo à un prix trois fois moins cher pour les jetons d'entrée et un prix deux fois moins cher pour les jetons de sortie par rapport à GPT-4 », a expliqué OpenAI. GPT-4 Turbo présente plusieurs autres améliorations par rapport à GPT-4, notamment une base de connaissances plus récente sur laquelle s'appuyer pour répondre aux requêtes. La base de connaissances de GPT-4 est limitée à septembre 2021 (tout comme son prédécesseur GPT-3.5), tandis que le seuil de connaissance du GPT-4 Turbo a été étendu et couvre toutes les connaissances jusqu'en avril 2023 lors de la présentation en novembre (désormais, sa base de connaissance s'étend jusqu'à décembre 2023).


Réduction des cas de « paresse »

Dans sa preview, GPT-4 Turbo a corrigé problème surprenant; les cas de “paresse” durant lesquels il « refusait » de travailler. En effet, certains utilisateurs avaient remarqué que le modèle ne terminait pas certaines tâches, comme la génération de code, et se contentait de réponses minimales ou vides. OpenAI a assuré avoir amélioré la capacité du modèle à compléter les tâches demandées, sans pour autant expliquer la cause de cette “paresse” artificielle.

À venir : Voice Engine et GPT-5

OpenAI a récemment annoncé Voice Engine, un modèle d'IA de synthèse vocale qui, selon la startup, permet de créer des voix synthétiques à partir d'un segment de 15 secondes d'un enregistrement audio. Selon OpenAI, il génère « un discours naturel avec des voix émotives et réalistes ». Voice Engine a été développé pour la première fois en 2022 et une première version a été utilisée pour la fonction de synthèse vocale intégrée au chatbot d'IA ChatGPT de l'entreprise. Mais sa puissance n'a jamais été révélée publiquement, en partie en raison de l'approche « prudente et informée » adoptée par la startup pour la diffuser plus largement.

Des échantillons audio de Voice Engine en action sont disponibles sur son site Web. Une fois la voix clonée, l'utilisateur peut saisir un texte dans le moteur vocal et obtenir une voix générée par l'IA. Mais OpenAI affirme qu'il n'est pas encore prêt à diffuser sa technologie à grande échelle. L'entreprise avait initialement prévu de lancer un programme pilote permettant aux développeurs de s'inscrire à l'API du moteur vocal au début de ce mois. Toutefois, après avoir réfléchi aux implications éthiques, elle a décidé de revoir ses ambitions à la baisse pour l'instant. Le déploiement est actuellement limité à un petit groupe de testeurs.

« Nous reconnaissons que générer des discours qui ressemblent à la voix des gens comporte de sérieux risques, qui sont particulièrement importants en cette année électorale. Ces déploiements à petite échelle contribuent à éclairer notre approche, nos garanties et notre réflexion sur la manière dont Voice Engine pourrait être utilisé à bon escient dans diverses industries. Sur la base de ces conversations et des résultats de ces tests à petite échelle, nous prendrons une décision plus éclairée sur l'opportunité et la manière de déployer cette technologie à grande échelle », a écrit l'entreprise.

OpenAI a indiqué que son prochain modèle GPT-5 sera bientôt doté de meilleures capacités de raisonnement. Brad Lightcap, directeur de l'exploitation d'OpenAI, a indiqué dans une interview accordée au Financial Times que GPT-5 s'attachera à résoudre des problèmes difficiles, en particulier dans le domaine du raisonnement.

Source : OpenAI

Et vous ?

Quelle est votre opinion sur l’impact potentiel de GPT-4 dans le domaine de l’intelligence artificielle ?
Pensez-vous que les modèles multimodaux, capables de traiter à la fois des images et du texte, sont l’avenir de l’IA ?
Comment imaginez-vous l’utilisation de GPT-4 dans des applications concrètes, telles que la rédaction d’articles, la création de contenu ou l’assistance virtuelle ?
Quels défis pensez-vous que nous devons encore relever pour améliorer davantage ces modèles ?
Seriez-vous prêt à interagir avec un assistant IA comme GPT-4 dans votre vie quotidienne ?

Une erreur dans cette actualité ? Signalez-nous-la !