Sam Altman présente quatre mises à jour majeures IA lors du DevDay d'OpenAI à San Francisco : Realtime API, Prompt Caching, Model Distillation et Vision fine-tuning

Le 2 octobre 2024 à 16:51, par Jade Emy

28PARTAGES

Sam Altman présente quatre mises à jour majeures de l'IA lors du DevDay d'OpenAI à San Francisco : Realtime API, Prompt Caching, Model Distillation et Vision fine-tuning.

OpenAI fait l'objet de changements majeurs : la société a annoncé quatre mises à jour lors de son DevDay à San Francisco le 1er octobre 2024. Parmi les mises à jour : Realtime API offre des capacités de synthèse vocale rapides, Prompt Caching réduit les coûts et la latence. Vision fine-tuning permet aux développeurs d'affiner GPT-4o avec des images, disponible pour les utilisateurs payants.

Des rapports ont révélé qu'OpenAI, le fabricant de ChatGPT, travaillerait sur un plan de restructuration de son activité principale en une société à but lucratif qui ne sera plus contrôlée par son conseil d'administration à but non lucratif. L'organisation à but non lucratif OpenAI continuera d'exister et détiendra "une participation minoritaire dans la nouvelle société à but lucratif". Il s'agirait du premier changement majeur pour la startup qui mène actuellement la course à l'IA. Cette décision pourrait également avoir des conséquences sur la manière dont l'entreprise gère les risques liés à l'IA dans le cadre d'une nouvelle structure de gouvernance.

Debut octobre 2024, OpenAI a annoncé quatre mises à jour : Realtime API, Prompt Caching, Model Distillation et Fine-tuning. L'équipe a fait en sorte que les nouveaux ajouts soient visibles et utilisables dès la date d'annonce, et que certains fassent l'objet d'ajustements supplémentaires une fois les commentaires recueillis.

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Today at DevDay SF, we’re launching a bunch of new capabilities to the OpenAI platform: <a href="https://t.co/y4cqDGugju">pic.twitter.com/y4cqDGugju</a></p>— OpenAI Developers (@OpenAIDevs) <a href="https://twitter.com/OpenAIDevs/status/1841175537060102396?ref_src=twsrc%5Etfw">October 1, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/TWITTER]

Realtime API

L'une des mises à jour les plus importantes d'OpenAI est "Realtime API", qui offre aux développeurs la possibilité de "créer des expériences de synthèse vocale rapides dans leurs applications". La version bêta publique de l'API a été lancée et a été décrite comme étant similaire au modèle vocal avancé de ChatGPT. Elle permettra à "tous les développeurs payants de créer des expériences multimodales à faible latence dans leurs applications".

L'entrée et la sortie audio dans l'API Chat Completions ont été introduites pour prendre en charge les cas d'utilisation qui ne nécessitent pas les avantages de l'API Realtime en termes de faible latence. Cela signifie que les développeurs peuvent désormais transmettre n'importe quel texte ou entrée audio à GPT-4o et le modèle répondra avec leur choix de texte, d'audio ou des deux. Auparavant, la création d'une expérience d'assistant vocal similaire aurait nécessité plusieurs étapes, y compris l'utilisation d'un autre modèle.

Prompt Caching

Pour aider davantage les concepteurs d'applications d'IA, la fonction "Prompt Caching" (Mise en cache des invites) a été annoncée afin de réduire les coûts et la latence. "En utilisant des jetons d'entrée récemment vus, les développeurs peuvent bénéficier d'une réduction de 50 % et d'un traitement plus rapide des invites", selon un communiqué interne d'OpenAI. Cette mesure a été appliquée automatiquement aux dernières versions de GPT-4o, GPT-4o mini, o1 preview et o1-mini, ainsi qu'aux versions affinées des modèles.

Model Distillation

La nouvelle fonctionnalité "Model Distillation" (Distillation de modèle) vise à fournir un flux de travail intégré qui peut aider à gérer l'ensemble du pipeline de distillation directement au sein de la plateforme OpenAI. "Cela permet aux développeurs d'utiliser facilement les résultats des modèles d'avant-garde comme o1-preview et GPT-4o pour affiner et améliorer les performances des modèles plus rentables comme GPT-4o mini".

Avant cette introduction, la distillation nécessitait de nombreuses étapes manuelles, alors que cette nouvelle fonctionnalité devrait être beaucoup plus facile et rapide. La suite complète comprend les complétions stockées, les évaluations et la mise au point, qui ont toutes été rendues disponibles lors de l'annonce.

Vision fine-tuning

OpenAI a mis en œuvre le réglage fin sur GPT-4o précédemment, qui a été utilisé par "des centaines de milliers de développeurs", mais l'équipe affirme que sa nouvelle mise à jour "vision fine-tuning" (réglage fin par vision) permettra désormais de régler finement les images, ainsi que le texte. La version image fonctionne de la même manière que la version texte, les développeurs pouvant préparer leurs ensembles de données d'images en respectant le format approprié, puis les télécharger sur la plateforme.

Cette version ne sera utilisable que pour les utilisateurs payants et est prise en charge par la dernière version du modèle GPT-4o.

Si ces nouvelles fonctionnalités semblent intéressantes, elles arrivent dans un contexte chaotique pour OpenAI. Outre le changement de structure de l'entreprise, les démissions sur les postes clés commencent à s'accroitre. Fin septembre 2024, ce sont le directeur de la technologie, directeur de la recherche et vice-président de la recherche d'OpenAI qui ont annoncé leurs départs. Des 11 personnes de l'équipe initiale des cofondateurs, ils ne sont plus que deux dans l'entreprise, notamment Sam Altman, PDG actuel de l'entreprise.

Ces départs sont l'expression publique de tensions qui n'ont cessé de croître au sein de l'entreprise à l'origine de ChatGPT depuis le retour du PDG Sam Altman, après sa brève éviction en 2023. Cette situation suscite des inquiétudes sur la sécurité de l'IA au sein de la communauté, qui se demande si le laboratoire dispose toujours d'une gouvernance suffisante pour se tenir responsable dans sa poursuite de l'AGI. Elle met également en lumière les défis de concilier innovation technologique, éthique et rentabilité.

Et vous ?

Que pensez-vous de ces nouvelles fonctionnalités ?

Voir aussi :

OpenAI a annoncé qu'elle donnait aux développeurs tiers l'accès à son moteur de synthèse vocale qui alimente le mode vocal avancé de ChatGPT

OpenAI lance des modèles d'IA dotés de capacités de « raisonnement » semblables à celles d'une personne. Les modèles « Strawberry » peuvent décomposer des problèmes complexes en étapes logiques plus petites

Edward Snowden : « ils ont tombé le masque : ne faites jamais confiance à OpenAI ou à ses produits ». Le lanceur d'alerte dénonce la décision d'OpenAI de nommer un ancien directeur de la NSA à son conseil

Vous avez lu gratuitement 359 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :