En Juillet dernier, OpenAI a lancé GPT-4o mini, un petit modèle d'IA économique, 60 % moins cher par rapport à GPT-3.5 Turbo, visant à améliorer l'accessibilité et l'abordabilité. GPT-4o mini avait obtenu un score de 82 % sur MMLU et surpasse actuellement GPT-4 sur les préférences de chat dans le classement LMSYS. En termes de sécurité, OpenAI annonçait plusieurs mesures intégrées à GPT-4o mini pour faire face aux risques tels que les contenus nuisibles et les vulnérabilités du système. Ces mesures comprennent le filtrage du contenu et des techniques avancées pour atténuer les problèmes tels que les jailbreaks et les injections d'invite.
OpenAI vient de publier la fiche système de GPT-4o, un document de recherche détaillé décrivant les protocoles de sécurité et les évaluations des risques menées avant le lancement public du modèle en mai. Ce document met en lumière les efforts déployés par OpenAI pour atténuer les risques potentiels liés à son dernier modèle d'IA multimodale.
Avant le lancement, OpenAI a utilisé une pratique standard consistant à faire appel à des "red teamers" externes, des experts en sécurité chargés d'identifier les vulnérabilités d'un système. Ces experts ont exploré les risques potentiels associés à GPT-4o, tels que le clonage vocal non autorisé, la génération de contenu inapproprié et la violation des droits d'auteur.
Sur la base du cadre interne d'OpenAI, les chercheurs ont classé GPT-4o comme présentant un niveau de risque "moyen". Cette évaluation globale du risque est dérivée de l'évaluation du risque individuel le plus élevé dans quatre catégories clés : cybersécurité, menaces biologiques, persuasion et autonomie du modèle. Toutes les catégories ont été jugées à faible risque, à l'exception de la persuasion, pour laquelle certains échantillons de texte générés par le GPT-4o présentaient un potentiel de persuasion supérieur à celui des textes équivalents rédigés par des humains.
"Cette fiche système comprend des évaluations de l'état de préparation créées par une équipe interne, ainsi que par des testeurs externes répertoriés sur le site web d'OpenAI comme Model Evaluation and Threat Research (METR) et Apollo Research, qui réalisent tous deux des évaluations pour les systèmes d'IA", a expliqué Lindsay McCallum Rémy, porte-parole d'OpenAI.
Cette publication fait suite à des publications similaires de fiches systèmes pour des modèles précédents tels que GPT-4, GPT-4 avec vision et DALL-E 3, démontrant l'engagement d'OpenAI à la transparence et à la collaboration externe dans l'évaluation de ses systèmes d'IA.
Le moment choisi pour cette publication est particulièrement important, car OpenAI fait face à des critiques constantes concernant ses pratiques en matière de sécurité. Des préoccupations ont été soulevées par des employés internes et des parties prenantes externes, y compris une lettre ouverte récente de la sénatrice Elizabeth Warren et de la représentante Lori Trahan demandant plus de responsabilité et de transparence dans les processus d'évaluation de la sécurité d'OpenAI.
La publication d'un modèle multimodal très performant comme le GPT-4o à proximité de l'élection présidentielle américaine soulève des inquiétudes quant au risque de désinformation et d'exploitation malveillante. La fiche système d'OpenAI vise à répondre à ces préoccupations en soulignant les efforts proactifs de l'entreprise pour atténuer ces risques grâce à des tests de scénarios en situation réelle.
Malgré les efforts d'OpenAI, les appels à une plus grande transparence et à un contrôle externe persistent. L'attention s'étend au-delà des données de formation pour englober l'ensemble du processus d'essai de sécurité. En Californie, une législation est en cours pour réglementer les grands modèles de langage, notamment en tenant les entreprises responsables des dommages potentiels causés par leurs systèmes d'IA.
Voici les conclusions d'OpenAI sur la sécurité de son modèle GPT-4o :
OpenAI a mis en œuvre diverses mesures de sécurité et d'atténuation tout au long du processus de développement et de déploiement de GPT-4o. Dans le cadre de notre processus de déploiement itératif, nous continuerons à surveiller et à mettre à jour les mesures d'atténuation en fonction de l'évolution du paysage. Nous espérons que cette fiche système encouragera l'exploration de domaines clés tels que, sans s'y limiter, les mesures et les actions d'atténuation de la robustesse des omni-modèles, les impacts liés à l'anthropomorphisme de l'IA, l'utilisation des omni-modèles pour la recherche et le progrès scientifiques, les mesures et les actions d'atténuation des capacités dangereuses telles que l'auto-amélioration, l'autonomie du modèle et la schématisation. Au-delà de ces domaines, nous encourageons la recherche sur les impacts économiques des omni-modèles et sur la manière dont l'utilisation d'outils peut faire progresser les capacités des modèles.
Source : Fiche système de GPT-4o
Et vous ?
Pensez-vous que cette fiche système est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
OpenAI dévoile un petit modèle d'IA moins cher GPT-4o Mini, un petit modèle d'IA économique et rentable qui remplacera GPT-3.5 Turbo, qui surpasse le modèle GPT-4 et obtient un score de 82 % sur MMLU
Rapport scientifique international sur la sécurité de l'intelligence artificielle avancée : un rapport actualisé et fondé sur des données probantes concernant la sécurité de l'IA avancée
Sam Altman est accusé d'avoir manqué de transparence au sujet des efforts d'OpenAI en matière de sécurité, et d'avoir réduit ses employés au silence par le biais d'accords de non-divulgation