OpenAI menace de bannir ceux qui tentent de découvrir le processus de raisonnement de son IA «Strawberry», craignant la concurrence.

Toutefois, son IA a été formée gratuitement sur du matériel sous copyright

Le 19 septembre 2024 à 15:17, par Stéphane le calme

62PARTAGES

OpenAI, l’un des leaders mondiaux dans le domaine de l’intelligence artificielle, a récemment suscité la controverse en menaçant de bannir les utilisateurs qui tentent de découvrir les processus de raisonnement de ses derniers modèles d’IA, surnommés “Strawberry”. Les modèles “Strawberry”, lancés sous les noms de code o1-preview et o1-mini, sont présentés comme des avancées majeures dans le domaine du raisonnement artificiel.

Contrairement aux modèles précédents, ces nouveaux modèles sont conçus pour résoudre des problèmes de manière étape par étape avant de générer une réponse. Cependant, OpenAI a choisi de masquer le processus de raisonnement brut, ne montrant aux utilisateurs qu’une interprétation filtrée créée par un second modèle d’IA. Cette décision a provoqué une vague de critiques de la part de la communauté technologique et des chercheurs en IA.

OpenAI justifie cette mesure en invoquant des préoccupations de sécurité et de concurrence. En cachant le processus de raisonnement brut, l’entreprise espère éviter que ses modèles ne soient utilisés pour entraîner des modèles concurrents. Cependant, cette approche soulève des questions sur la responsabilité et la transparence dans le développement de l’IA.

Paradoxalement, son IA a été formée sur du matériel sous copyright sans rémunération des auteurs, OpenAI assurant ne pas pouvoir gagner de l'argent sans utiliser gratuitement du matériel protégé par le droit d'auteur

OpenAI ne veut vraiment pas que vous sachiez ce que son dernier modèle d'IA « pense ». Depuis que la société a lancé sa famille de modèles d'IA « Strawberry » la semaine dernière, en vantant ses soi-disant capacités de raisonnement avec o1-preview et o1-mini, OpenAI envoie des courriels d'avertissement et des menaces de bannissement à tous les utilisateurs qui tentent de sonder le fonctionnement du modèle.

Contrairement aux modèles d'IA précédents d'OpenAI, tels que GPT-4o, l'entreprise a formé o1 spécifiquement pour qu'il suive un processus de résolution de problèmes étape par étape avant de générer une réponse. Lorsque les utilisateurs posent une question à un modèle « o1 » dans ChatGPT, ils ont la possibilité de voir ce processus de réflexion écrit dans l'interface de ChatGPT. Cependant, de par sa conception, OpenAI cache la chaîne de pensée brute aux utilisateurs, en leur présentant plutôt une interprétation filtrée créée par un second modèle d'IA.

Rien n'est plus séduisant pour les passionnés qu'une information cachée, c'est pourquoi les hackers et les red-teamers se sont lancés dans une course pour essayer de découvrir la chaîne de pensée brute d'o1 en utilisant des techniques de jailbreaking ou d'injection de prompt qui tentent de tromper le modèle pour qu'il dévoile ses secrets. Les premiers rapports font état de quelques succès, mais rien n'a encore été confirmé avec force.

Les avertissements d’OpenAI

Pendant ce temps, OpenAI surveille l'interface ChatGPT, et l'entreprise s'opposerait fermement à toute tentative de sonder le raisonnement d'o1, même parmi les simples curieux.

Un utilisateur de X a rapporté (ce qui a été confirmé par d'autres, notamment par Riley Goodside, ingénieur de Scale AI) qu'il recevait un courriel d'avertissement s'il utilisait le terme « trace de raisonnement » dans une conversation avec o1. D'autres disent que l'avertissement est déclenché simplement en posant des questions à ChatGPT sur le « raisonnement » du modèle.

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">i get the scary letter if i mention the words "reasoning trace" in a prompt at all, lol</p>— thebes (@voooooogel) <a href="https://twitter.com/voooooogel/status/1834536216160768377?ref_src=twsrc%5Etfw">September 13, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/TWITTER]

Le courriel d'avertissement d'OpenAI indique que des demandes d'utilisateurs spécifiques ont été signalées pour violation des politiques contre le contournement des protections ou des mesures de sécurité. « Veuillez cesser cette activité et vous assurer que vous utilisez ChatGPT conformément à nos conditions d'utilisation et à nos politiques d'utilisation », peut-on lire. « D'autres violations de cette politique peuvent entraîner la perte de l'accès à GPT-4o with Reasoning », en référence à un nom interne pour le modèle o1.

Marco Figueroa, qui gère les programmes de bug bounty GenAI de Mozilla, a été l'un des premiers à parler de l'email d'avertissement d'OpenAI sur X vendredi dernier, se plaignant que cela entrave sa capacité à effectuer des recherches de sécurité positives en red-teaming sur le modèle. « J'étais trop perdu à me concentrer sur #AIRedTeaming pour réaliser que j'ai reçu cet email d'@OpenAI hier après tous mes jailbreaks », a-t-il écrit. « Je suis maintenant sur la liste des personnes à bannir !!! ».

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">I was too lost focusing on <a href="https://twitter.com/hashtag/AIRedTeaming?src=hash&ref_src=twsrc%5Etfw">#AIRedTeaming</a> to realized that I received this email from <a href="https://twitter.com/OpenAI?ref_src=twsrc%5Etfw">@OpenAI</a> yesterday after all my jailbreaks! <a href="https://twitter.com/hashtag/openAI?src=hash&ref_src=twsrc%5Etfw">#openAI</a> we are researching for good! <br><br>You do have a safe harbor on your site <a href="https://t.co/R2UChZc9RO">https://t.co/R2UChZc9RO</a><br>and you have a policy implemented with… <a href="https://t.co/ginDvNlN6M">pic.twitter.com/ginDvNlN6M</a></p>— MarcoFigueroa (@MarcoFigueroa) <a href="https://twitter.com/MarcoFigueroa/status/1834741170024726628?ref_src=twsrc%5Etfw">September 13, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/TWITTER]

Chaînes de pensée cachées

Dans un article intitulé « Learning to Reason with LLMs » (Apprendre à raisonner avec les LLM) sur le blog d'OpenAI, l'entreprise explique que les chaînes de pensée cachées dans les modèles d'IA offrent une opportunité unique de surveillance, permettant de « lire l'esprit » du modèle et de comprendre ce que l'on appelle son processus de pensée. Ces processus sont plus utiles à l'entreprise s'ils sont laissés bruts et non censurés, mais cela pourrait ne pas correspondre aux meilleurs intérêts commerciaux de l'entreprise pour plusieurs raisons.

« Par exemple, à l'avenir, nous pourrions souhaiter surveiller la chaîne de pensée pour y déceler des signes de manipulation de l'utilisateur », écrit l'entreprise. « Toutefois, pour que cela fonctionne, le modèle doit avoir la liberté d'exprimer ses pensées sous une forme inchangée, de sorte que nous ne pouvons pas appliquer à la chaîne de pensée une quelconque conformité à la politique ou aux préférences de l'utilisateur. Nous ne voulons pas non plus qu'une chaîne de pensée non alignée soit directement visible par les utilisateurs ».

OpenAI a décidé de ne pas montrer ces chaînes de pensée brutes aux utilisateurs, citant des facteurs tels que la nécessité de conserver un flux brut pour son propre usage, l'expérience de l'utilisateur et un « avantage concurrentiel ». L'entreprise reconnaît que cette décision présente des inconvénients. « Nous nous efforçons de compenser partiellement ces inconvénients en apprenant au modèle à reproduire...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :