IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI lance GPT-OSS, son premier modèle d'IA open source, téléchargeable sous licence Apache 2.0 et compatible avec des plateformes telles que GitHub, Hugging Face et LM Studio

Le , par Jade Emy

0PARTAGES

6  0 
OpenAI lance GPT-OSS, son premier modèle d'IA open source, téléchargeable sous licence Apache 2.0 et compatible avec des plateformes telles que GitHub, Hugging Face et LM Studio.

OpenAI a publié ses premiers modèles d'IA open-weight depuis 2019, mettant fin à des années de retard et de spéculations. La société a publié gpt-oss-120b et gpt-oss-20b, deux grands modèles de langage entièrement téléchargeables et personnalisables qui ne nécessitent ni frais de licence ni API gate. OpenAI a déclaré avoir retardé la sortie des modèles afin de mener à bien des évaluations de sécurité. Au cours de la préformation, l'entreprise a filtré les informations sensibles, en particulier les données chimiques, biologiques, radiologiques et nucléaires.

En juillet, des sources ont rapporté qu'OpenAI s'apprêtait à lancer un grand modèle de langage (LLM) à poids ouvert. Il serait similaire à o3-mini, doté des capacités de raisonnement. La nature ouverte de ce modèle signifie qu'il sera téléchargeable gratuitement par des gouvernements, entreprises ou chercheurs. OpenAI aurait présenté ce modèle ouvert aux développeurs et aux chercheurs au cours des derniers mois, et a sollicité ouvertement les commentaires de l'industrie de l'IA au sens large.

Ce début de mois d'août, OpenAI a publié ses premiers modèles d'IA open-weight depuis 2019, mettant fin à des années de retard et de spéculations. La société a publié gpt-oss-120b et gpt-oss-20b, deux grands modèles de langage entièrement téléchargeables et personnalisables qui ne nécessitent ni frais de licence ni API gate. Les deux modèles sont exclusivement textuels et sont partagés sous licence Apache 2.0, ce qui signifie que tout le monde peut télécharger les poids des modèles à partir de plateformes telles que GitHub et Hugging Face.

Ils fonctionnent également sur LM Studio et Ollama, et peuvent être exécutés sur tous les types d'appareils, des ordinateurs portables aux serveurs cloud. OpenAI a déclaré que les modèles sont optimisés pour fonctionner sur une large gamme de matériel, y compris les appareils grand public et les puces de Nvidia, AMD, Cerebras et Groq. Les modèles gpt-oss-120b et gpt-oss-20b prennent tous deux en charge le traitement en chaîne de pensées, l'utilisation d'outils et les tâches nécessitant un raisonnement en plusieurs étapes. Les utilisateurs peuvent les exécuter localement ou dans le cloud sans avoir à appeler une API ou à souscrire à un abonnement payant.

OpenAI a déclaré avoir retardé la sortie des modèles afin de mener à bien des évaluations de sécurité. Au cours de la préformation, l'entreprise a filtré les informations sensibles, en particulier les données chimiques, biologiques, radiologiques et nucléaires. Elle a également testé des scénarios dans lesquels des acteurs malveillants pourraient tenter de régler les modèles à des fins malveillantes. La société a indiqué qu'aucune de ces expériences n'avait conduit les modèles à atteindre son seuil interne de "haute capacité", une classification définie dans son cadre de préparation, qu'elle utilise pour évaluer le potentiel de nuisance.


Greg Brockman, président d'OpenAI, a déclaré aux journalistes : "C'est passionnant de voir un écosystème se développer, et nous sommes ravis d'y contribuer, de repousser les limites et de voir ce qui se passera ensuite." Il a ajouté que la société avait également fait appel à trois groupes d'experts externes pour auditer et commenter l'ajustement des tests de sécurité. Ces modèles ne sont pas open source au sens traditionnel du terme.

OpenAI ne fournit que les poids des modèles, et non le code de formation complet ou les ensembles de données. Mais ils sont suffisamment ouverts pour permettre aux utilisateurs de les tester, de les ajuster et de les déployer comme ils le souhaitent. La société a présenté cela comme un compromis entre la transparence totale et le maintien d'un certain contrôle.

Les modèles seront également disponibles via des plateformes cloud. Amazon, Microsoft et Baseten proposent directement gpt-oss-120b et gpt-oss-20b à leurs clients. C'est la première fois qu'Amazon Web Services (AWS) hébergera des modèles OpenAI, qui seront accessibles via Bedrock et Sagemaker. Amazon a déclaré que ces modèles aideront les clients à créer des agents IA capables de raisonnements avancés et de réflexions étape par étape.

Andy Jassy, PDG d'Amazon, a positionné AWS comme un marché où les entreprises peuvent choisir parmi plusieurs fournisseurs d'IA, et pas seulement les outils internes d'Amazon. En plus d'OpenAI, Amazon s'est également associé à Anthropic, investissant 8 milliards de dollars dans cette start-up spécialisée dans l'IA. Cet accord permet aux clients d'AWS d'accéder aux modèles Claude d'Anthropic. Mardi, Anthropic a annoncé la sortie d'un nouveau modèle Claude, qui, selon elle, est plus performant que les versions précédentes en matière de codage, de recherche et d'analyse de données.

Cette sortie place OpenAI dans la même catégorie que d'autres entreprises proposant des modèles ouverts, telles que Meta, Mistral AI (soutenue par Microsoft) et DeepSeek, une start-up chinoise qui s'était déjà fait remarquer pour avoir développé un modèle d'IA doté d'un raisonnement similaire à celui des humains.

Jensen Huang, PDG de Nvidia, a déclaré : "OpenAI a montré au monde entier ce qu'il était possible de construire grâce à l'IA de Nvidia, et aujourd'hui, l'entreprise fait progresser l'innovation dans le domaine des logiciels open source." Nvidia s'est associé à OpenAI pour s'assurer que les modèles fonctionnent correctement sur son matériel. AMD, Cerebras et Groq ont fait de même, offrant ainsi aux utilisateurs plus de flexibilité dans le choix de l'endroit où exécuter les modèles.

Cette annonce intervient, alors que l'on s'attendait à la sortie de GPT-5. Un rapport récemment indiquait qu'OpenAI prévoit de lancer son modèle GPT-5 dès le mois d'août 2025. Le nouveau modèle s'inscrivait dans la stratégie d'OpenAI visant à combiner ses technologies GPT et o-series en un seul système, pour faciliter le travail des utilisateurs et des développeurs. Cette intégration devrait simplifier le processus de choix entre les modèles, en particulier pour les tâches qui reposent sur le raisonnement. Cependant, il semble qu'OpenAI a plutôt lancé les modèles GPT-OSS.

Voici les informations partagées par OpenAI concernant ces modèles :

Pré-entraînement et architecture des modèles

Selon OpenAI, les modèles gpt-oss ont bénéficié des techniques de pré-entraînement et post-entraînement les plus évoluées à ce jour. OpenAI a notamment mis l'accent sur les questions de raisonnement, d’efficience et d’utilisation réelle dans une large palette d’environnements de déploiement. OpenAI dispose d'autres modèles ouverts, comme Whisper⁠ et CLIP⁠, mais les modèles gpt-oss sereint les premiers modèles de langage open-weight depuis GPT‑2.

Chaque modèle est un transformeur qui utilise la technique Mixture-of-Experts (MoE) pour réduire le nombre de paramètres actifs nécessaires au traitement des saisies. Ainsi, gpt-oss-120b active 5,1 milliards de paramètres par jeton, et gpt-oss-20b 3,6 milliards, alors qu’ils comptent respectivement 117 milliards et 21 milliards de paramètres au total. Ils alternent entre analyse globale de l’information et analyse plus ciblée, comme le fait GPT‑3. Pour économiser des ressources de calcul lors de l’inférence et de la mémoire, ils concentrent leur attention sur des blocs de 8 mots. Enfin, ils utilisent le Rotary Positional Embedding (RoPE) pour déterminer la position de chaque mot dans la phrase et prennent en charge nativement un contexte pouvant atteindre 128 000 jetons.


OpenAI rapporte également avoir entraîné les modèles sur des données de grande "qualité", majoritairement en anglais et uniquement composées de texte. Les thèmes abordés concernent principalement les STEM, le codage et les connaissances générales. Ils ont converti les données en jetons à l’aide d’un sous-ensemble de transformateur déjà utilisé pour OpenAI o4-mini et GPT‑4o : o200k_harmony. Cet outil est lui déjà accessible sous licence open source.

Post-entraînement

Les modèles gpt-oss ont suivi un post-entraînement similaire à celui dont a bénéficié o4-mini, et notamment un ajustement supervisé et un apprentissage par renforcement très intensif en calcul. L'objectif était de les aligner sur la spécification des modèles OpenAI, et de leur apprendre à appliquer un raisonnement par chaîne de pensée⁠ et à utiliser des outils avant de générer une réponse. Ils ont bénéficié des mêmes techniques que nos modèles de raisonnement propriétaires de pointe, ce qui leur permet de proposer des capacités de haut niveau à l’issue de la phase post-entraînement.

Comme les modèles de raisonnement OpenAI série o accessibles via l’API, les deux modèles open-weight proposent trois niveaux de raisonnement : bas, intermédiaire et élevé. Chacun de ces niveaux offre un compromis différent entre latence et performance. Les développeurs peuvent définir le niveau de raisonnement en une simple phrase dans le message système.

Évaluations

Selon les évaluations académiques standard, gpt-oss-120b se montre plus performant qu’OpenAI o3‑mini et se rapproche ou fait mieux qu’OpenAI o4-mini sur les tâches de codage de haut niveau (Codeforces), la résolution de problèmes généralistes (MMLU et HLE) et l’appel d’outils (TauBench). Il fait même mieux qu’OpenAI o4-mini sur les questions liées à la santé (HealthBench⁠ et les concours de mathématiques (AIME 2024 & 2025). gpt-oss-20b atteint une performance équivalente ou supérieure à OpenAI o3‑mini sur les premières évaluations mentionnées malgré sa petite taille, et fait même mieux sur les concours de mathématiques et les questions de santé.






Chaîne de pensée

Une étude récente d'OpenAI⁠ a montré que la surveillance de la chaîne de pensée d’un modèle de raisonnement peut permettre de détecter les comportements inappropriés si le modèle en question n’a pas été directement supervisé de sorte à aligner sa chaîne de pensée. D’autres acteurs du secteur partagent cette idée. OpenAI déclare n'avoir soumis la chaîne de pensée des modèles gpt-oss à aucune supervision directe. Il s’agirait d’un point essentiel pour suivre les mauvais comportements, tromperies et détournements du modèle.

D’ailleurs, les développeurs ne doivent pas directement présenter la chaîne de pensée aux utilisateurs. En effet, elle peut contenir des hallucinations ou des contenus dangereux, y compris des formulations qui ne respectent pas les politiques de sécurité standard d’OpenAI. Elle peut aussi inclure des informations que le modèle est explicitement invité à ne pas mentionner dans la sortie finale.

Voici le programme d'OpenAI pour la sécurité des modèles :

Sécurité et ajustement à des fins malveillantes

Les modèles gpt-oss bénéficient de nos approches de pointe en matière d’entraînement de sécurité. Pendant la phase de pré-entraînement, nous avons éliminé un certain nombre de données dangereuses liées aux armes nucléaires, radiologiques, biologiques et chimiques. Pendant la phase post-entraînement, nous avons utilisé une stratégie d’alignement délibératif⁠ et de hiérarchie des instructions⁠ pour apprendre au modèle à refuser les prompts dangereux et à se protéger des injections de prompt.

Une fois qu’un modèle open-weight est disponible publiquement, des acteurs mal intentionnés peuvent l’ajuster à des fins malveillantes. Nous avons évalué directement ces risques en ajustant nous-mêmes le modèle sur la base de données liées à la biologie et la cybersécurité de sorte à créer une version non soumise à des règles de refus et spécialisée dans chacun de ces thèmes, comme pourrait le faire un attaquant. Nos tests ont révélé que même avec un ajustement très complet basé sur les outils d’entraînement de pointe d’OpenAI, ces modèles malveillants sont incapables d’atteindre le niveau de capacité élevé défini par notre cadre de préparation⁠. Cette méthode d’ajustement a été auditée par trois groupes d’experts indépendants qui ont formulé diverses recommandations visant à optimiser le processus d’entraînement et nos évaluations. Nous avons suivi une grande partie de leurs suggestions, Nous détaillons ces recommandations dans la fiche système. Ces processus marquent un progrès notable de la sécurité des open models, et leurs résultats ont confirmé notre décision de publier les modèles gpt-oss. Nous espérons que ces modèles contribueront à l’accélération de la recherche sur l’entraînement à des fins de sécurité et sur l’alignement dans tout le secteur.

Pour contribuer à la sécurisation de l’écosystème open source, nous invitons chercheurs, développeurs et amateurs enthousiastes du monde entier à nous aider à identifier⁠ les problèmes de sécurité encore inconnus. Cette initiative bénéficie d’une dotation de 500 000 $ qui seront distribués conformément aux recommandations d’un panel d’experts provenant d’OpenAI et d’autres laboratoires de pointe. Une fois terminée, nous publierons un rapport et mettrons à disposition de la communauté sous licence open source un jeu de données d’évaluations basés sur les résultats validés pour que chacun puisse s’en emparer immédiatement.
Source : Open models d’OpenAI

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI riposte à DeepSeek avec o3-mini, son nouveau modèle de raisonnement plus intelligent pour les utilisateurs payants et gratuits de ChatGPT. O3-mini est qualifié de « monstre de codage ultra-rapide »

Des scientifiques d'OpenAI, de Google DeepMind, d'Anthropic et de Meta ont abandonné leur rivalité pour lancer un avertissement commun sur la sécurité de l'IA : notre capacité de contrôle pourrait disparaître

Anthropic interdit à OpenAI l'accès à Claude AI en raison d'une violation des conditions d'utilisation : « Nos outils sont conçus pour aider les développeurs, pas pour alimenter nos concurrents directs »

Les affirmations sur les IA "ouvertes" sont souvent des mensonges, car le concept d'IA "ouverte" pourrait induire le public et les décideurs politiques en erreur et leur donner un faux sentiment de sécurité
Vous avez lu gratuitement 2 245 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !