IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI a trouvé des preuves que la start-up chinoise DeepSeek a utilisé les modèles propriétaires d'OpenAI pour former son propre modèle open-source
En utilisant la technique de "distillation"

Le , par Jade Emy

9PARTAGES

11  0 
OpenAI a trouvé des preuves que la start-up chinoise DeepSeek a utilisé les modèles propriétaires d'OpenAI pour former son propre modèle open-source, en utilisant la technique de "distillation".

OpenAI affirme avoir trouvé des preuves que la start-up chinoise DeepSeek a utilisé les modèles propriétaires de l'entreprise américaine pour entraîner son propre concurrent à code source ouvert, alors que les inquiétudes grandissent quant à une violation potentielle de la propriété intellectuelle. L'éditeur de ChatGPT a déclaré au Financial Times qu'il avait constaté des preuves de "distillation", qu'il soupçonne être le fait de DeepSeek.

La sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA, bouleversant les hypothèses sur ce qui est nécessaire pour atteindre des performances d'IA de pointe. Ce modèle open-source correspondrait à l'o1 d'OpenAI pour seulement 3 à 5 % du coût selon le benchmark de la startup éponyme. Le document technique du modèle révèle que DeepSeek s'est délibérément écartée du processus conventionnel de mise au point supervisée (SFT pour supervised fine-tuning) et s'est appuyé sur l'apprentissage par renforcement (RL) pour atteindre ces performances.

Cependant, OpenAI vient d'affirmer que la startup d'intelligence artificielle (IA) DeepSeek pourrait avoir entraîné son modèle R1 open-source en utilisant la technologie propriétaire d'OpenAI. En d'autres termes, la start-up chinoise n'aurait pas tout construit à partir de zéro, mais se serait plutôt appuyée sur les modèles d'OpenAI pour développer son concurrent. Selon le Financial Times, l'éditeur de ChatGPT, basé à San Francisco, a constaté des preuves de "distillation", c'est-à-dire le processus de transfert de connaissances d'un grand modèle à un plus petit. Il s'agirait donc d'une violation des conditions d'utilisation d'OpenAI.

Le nouveau « tsar » de l'IA et des crypto-monnaies du président américain Donald Trump, David Sacks, a également déclaré : "Il existe des preuves substantielles que DeepSeek a distillé des connaissances à partir des modèles d'OpenAI, et je ne pense pas qu'OpenAI soit très heureux à ce sujet. Je pense que l'une des choses que vous verrez au cours des prochains mois, c'est que nos principales entreprises d'IA prendront des mesures pour essayer d'empêcher la distillation."

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">👀 DAVID SACKS: “There is substantial evidence that what DeepSeek did here is they distilled the knowledge out of OpenAI’s models, and I don’t think OpenAI is very happy about this.” <a href="https://t.co/IYXKwBbUh1">pic.twitter.com/IYXKwBbUh1</a></p>— Chief Nerd (@TheChiefNerd) <a href="https://twitter.com/TheChiefNerd/status/1884454109073244614?ref_src=twsrc%5Etfw">January 29, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/TWITTER]

La distillation des connaissances a été utilisée à bon escient dans toutes sortes de domaines, du traitement du langage naturel et de la reconnaissance vocale à la reconnaissance d'images et à la détection d'objets. Mais ces dernières années, elle est devenue particulièrement importante pour les grands modèles de langage (LLM). En ce qui concerne les LLM, la distillation s'est avérée être un moyen important de transmettre les compétences avancées des modèles propriétaires de haut niveau à des modèles open-source plus petits et plus accessibles. Dans ce cas, DeepSeek a été accusé de violation de la propriété intellectuelle.

Une source a déclaré au Financial Times: "Le problème se pose lorsque vous [retirez le modèle de la plateforme et] le faites pour créer votre propre modèle à vos propres fins."

Cependant, OpenAI n'est pas vraiment à l'abri des critiques en matière de propriété intellectuelle. L'entreprise fait actuellement l'objet d'un procès, mené par le New York Times, dans lequel les entreprises de médias l'accusent d'utiliser leurs données sans autorisation. Une étude avait même révélé qu'OpenAI a mis en place un mécanisme pour éviter que son modèle de génération de texte ChatGPT ne révèle qu’il a été entraîné sur des livres protégés par le droit d’auteur.

En outre, OpenAI a également reconnu qu’il est impossible de créer des outils comme ChatGPT sans s’appuyer sur des contenus sous copyright. L'éditeur de ChatGPT avait notammanet déclaré : "Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine, il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur. Limiter les données d'entraînement ... ne permettrait pas d'obtenir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui."


Pour rappel, la publication par DeepSeek de son modèle R1 a provoqué une onde de choc sur les marchés financiers mondiaux. L'entreprise chinoise semble avoir obtenu des résultats comparables à ceux de ses plus grands rivaux, bien qu'elle ait utilisé beaucoup moins d'argent et de puissance de calcul. Le PDG d'OpenAI, Sam Altman, a applaudi publiquement le modèle R1 open-source, le qualifiant d'"impressionnant".

Cela a amené les investisseurs à reconsidérer l'une des principales hypothèses à l'origine de la récente flambée des marchés boursiers induite par l'IA. Les plus grands acteurs de l'IA, ou "hyperscalers", ont besoin d'énormes quantités de puissance de calcul pour rester en tête. L'incertitude a frappé Nvidia de plein fouet, faisant subir à son action la plus forte baisse de valeur boursière de l'histoire en une seule journée le lundi 27 janvier, bien qu'elle ait réussi à regagner un peu de terrain le mardi.

Néanmoins, ces dernières allégations à l'encontre de DeepSeek pourraient ajouter une nouvelle couche à la bataille technologique en cours entre les États-Unis et la Chine, rendant les choses encore plus compliquées.

Source : The Financial Times

Et vous ?

Pensez-vous que ces accusations sont crédibles ou pertinentes ?
Quel est votre avis sur le sujet ?

Voir aussi :

Sam Altman, PDG d'OpenAI, a qualifié DeepSeek de « modèle impressionnant », après que la sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA

Meta aurait mis en place des « cellules de crise » composées d'ingénieurs pour comprendre comment l'IA de DeepSeek peut battre tous les autres avec une fraction du prix

Des chercheurs chinois viennent de percer les secrets de l'AGI d'OpenAI, avec un plan détaillé qui révèle comment recréer les capacités de raisonnement du modèle o1 d'OpenAI à partir de zéro
Vous avez lu gratuitement 2 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OuftiBoy
Membre éprouvé https://www.developpez.com
Le 29/01/2025 à 18:28


Il est quand même sans gêne ce Altman.

Il trouve normal d'utiliser des données ayant un droit d'auteur gratuitement pour alimenter son IA, mais si on se sert de son droit d'auteur à lui, il est pas content le Monsieur. C'est un peu l'hopital qui se fout de la charité .

C'est un peu la jungle avec les IA. Si je demande à une IA de me montrer en direct un match de foot, je "bypass" les droits d'auteurs de la "chaîne TV" ayant chèrement payer ces droits, et cela serait légal ? Et si c'est illégale, pourquoi le reste de ce qui est pompé et recracher par l'IA ne le serait-il pas ?

Si je filme le match (qui sort d'une "machine", ici la TV) avec une super caméra (une autre machine) et que je diffuse cela en direct streaming sur "Internet" (qui repose au final sur des machines), c'est donc légal ?

Bref, les grands de ce monde vont arranger tout cela à leur prochaine réunion à Davos, et tous les autres seront raquetés. Deux poids, deux mesures. Les (quelques) forts d'un côté et la masse des faibles gueux de l'autre.

Elle est pas belle la vie .

BàV et Peace & Love.
6  0 
Avatar de noremorse
Membre actif https://www.developpez.com
Le 29/01/2025 à 20:48
Malgré cela, la somme dépensée par DeepSeek reste largement inférieure aux montants faramineux que comptent dépenser les occidentaux
5  0 
Avatar de
https://www.developpez.com
Le 29/01/2025 à 22:57
Citation Envoyé par Developpez.com
Mais les analystes de SemiAnalysis ont tenu à apporter quelques nuances aux déclarations de DeepSeek. SemiAnalysis est une société indépendante de recherche et d'analyse spécialisée dans les secteurs des semiconducteurs et de l'IA.
Citation Envoyé par SemiAnalysis
All matters arising out of or relating to these Terms are governed by and construed in accordance with the internal laws of the State of Florida without giving effect to any choice or conflict of law provision or rule (whether of the State of Florida or any other jurisdiction) that would cause the application of the laws of any jurisdiction other than those of the State of Florida.
Entreprise américaine 100% indépendante et impartiale. Mais tout à fait!
4  0 
Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 02/02/2025 à 17:47
Outre le domaine de la sécurité, DeepSeek est accusé d'appliquer une censure stricte sur des sujets politiquement sensibles en Chine. Les utilisateurs ont vu le chatbot chinois répondre, puis se censurer en temps réel. Pour certains critiques, il s'agit d'un aperçu saisissant du contrôle exercé par la Chine sur l'information, mais d'autres rappellent que n'importe qui peut télécharger le modèle open source de DeepSeek et l'adapter pour supprimer les restrictions de Pékin.
Ce qui veut aussi dire que n'importe qui peu télécharger n'importe quel modèle open-source pour supprimer les restrictions de sécurité, y compris concernant ce que Cisco nomme "six catégories de comportements nuisibles, dont la cybercriminalité, la désinformation, les activités illégales et le préjudice général"

De plus, DeepSeek n'est pas le premier modèle open-source à être sorti non-censuré là dessus. Il y a déjà eu plusieurs modèles de Mistral.
Pourtant, il me semble que la criminalité n'a pas sensiblement augmenté de part le monde de manière significative, la cybercriminalité non plus, et la Terre ne s'est pas arrêtée de tourner... Du coup, l'on est sérieusement en droit de se demander si Cisco n'exagère pas énormément en parlant de résultats "alarmants".
Et cela en prenant en compte le fait que de toute façon, à partir du moment où un modèle est open-source, n'importe qui peu le modifier...

Le vrai danger de l'IA ne sera pas lié au péquin lambda qui veut générer n'importe quel instruction illégale sur son ordi ou son portable. Les deux vrais danger de l'IA sont les entreprises qui cherchent à s’approprier à elle-seule certains algorithmes, afin de rendre dépendant des milliers de personnes et d'entreprises dans le monde. Et surtout, que des régimes autoritaires, voir totalitaires, s'en servent pour contrôler et surveiller les gens, censurer du contenu dynamiquement, et faire la guerre avec des robots tueurs.
4  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 14/03/2025 à 18:47
Marrant.. J'ai toujours cru que l'économie américaine était en tête du capitalisme dont la règle première est "que le meilleur gagne!"

L'IA amène donc un nouveau modèle de capitalisme aux USA? Genre cour d'école "Papa, papa, mon petit camarade pisse plus haut que moi contre le mur de l'école... J'exige que tu interviennes auprès du directeur de l'école pour qu'il me donne un avantage en me fournissant un escabeau ou une échelle"

C'est tout simplement pathétique!
3  0 
Avatar de NotABread
Membre actif https://www.developpez.com
Le 29/01/2025 à 15:54
Je suis loin d'être juriste ni d'avoir les détails techniques derrières tout ça, mais puisque les sorties des IA sont la propriété de personne, et que l'utilisation de contenu sous droit d'auteur pour la formation de réseau de neurone est du fair use d'après OpenAI:
- comment la distillation relève dans ce cas est une violation du droit d'auteur ? La sortie est libre de droit
- selon les principes d'OpenAI, pourquoi la distillation ne serait pas du fair use ?
- est-ce que refuser la distillation n'est pas un obstacle à la mission annoncée d'OpenAI (l’avènement d'une AIG) ?
- quelles sont les preuves OpenAI et peut-on démontrer que ce n'est pas lié à un jeu d'entrainement similaire ? Avec la reproduction ouverte de DeepSeck, il devrait être possible de trouver ces preuves, non ?
2  0 
Avatar de
https://www.developpez.com
Le 03/02/2025 à 8:34
D'abord DeepSeek est critiqué pour sa censure, ensuite pour le fait qu'il n'est pas assez sécurisé contre son détournement.

Que DeepSeek puisse être jailbreaké n'est pas mon problème ni celui d'une majorité d'utilisateurs, qui ne savent même pas de quoi il s'agit. Et ce ne sont pas les armes qui font les criminels, mais ceux qui les utilisent à mauvais dessein.

Par ailleurs, le fait que la Chine censure des éléments de sa politique interne dans DeepSeek n'a rien de surprenant ni d'illégal. Ce n'est pas comme si dans ChatGPT régnait la transparence et la liberté d'expression. Loin de là. Certains devraient cesser de juger de leur propre vertu.

Et franchement, qui passe ses journées à formuler des prompts à propos de la politique de la Chine, que ce soit sur DeepSeek ou ChatGPT ? Est-ce que la censure chinoise a une quelconque influence sur votre quotidien ?

Tout cela ressemble à une campagne de dénigrement qui ne dit pas son nom. C'est tout petit et tout moche. Très occidental en soi.
2  0 
Avatar de PomFritz
Membre confirmé https://www.developpez.com
Le 04/02/2025 à 19:57
Citation Envoyé par noremorse Voir le message
Nouveau coup dur pour les sanctions américaines : La Russie et la Chine multiplient par 800 les performances de NVIDIA

Des scientifiques des deux pays ont mis au point un algorithme révolutionnaire à partir d'informations issues de la rétroconception d'accélérateurs de cartes vidéo. Cet algorithme permet d'utiliser les GPU de jeu pour le calcul scientifique.


Cette innovation a été réalisée par des spécialistes de l'université MSU-BIT de Shenzhen, cofondée par l'université d'État de Moscou Lomonossov et l'Institut de technologie de Pékin.

Cela permet à la Russie et à la Chine de réduire leur dépendance vis-à-vis des GPU NVIDIA et d'atténuer l'impact des sanctions américaines.

Cela signifie également que la Russie et la Chine doivent acheter moins de GPU NVIDIA, ce qui a probablement conduit à l'effondrement du prix de l'action NVIDIA, a déclaré à Sputnik Valentin Makarov, président de l'association Russoft.

Selon lui, les recherches en cours comprennent de nouveaux algorithmes d'apprentissage automatique et un GPU de nouvelle génération en cours de développement en Russie.

Ces avancées mettent en évidence l'expertise technologique de la Russie, ce qui permet une collaboration avec la Chine et de futurs partenariats potentiels avec l'Inde.

PS : Les sanctions c’est pour les cons
C'est une info? Une opinion? Une déclaration? Des détails?
2  0 
Avatar de
https://www.developpez.com
Le 29/01/2025 à 14:36
Pendant ce temps là, le copain de Macron (Alexandre Zapolsky) pond Lucie qui ressemble plus à Lucie Castets que Lucy (film de Besson)
En France, la recherche sur l'IA est essentiellement militaire et "classée secret défense", non ?
1  0 
Avatar de Garfaz
Membre du Club https://www.developpez.com
Le 29/01/2025 à 18:11
un journal fait un article
OpenAI récupère l'article pour son entrainement
Deepseek qui s'entraine sur openai

je vois pas ou est le problème
1  0