IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI a trouvé des preuves que la start-up chinoise DeepSeek a utilisé les modèles propriétaires d'OpenAI pour former son propre modèle open-source
En utilisant la technique de "distillation"

Le , par Jade Emy

2PARTAGES

11  0 
OpenAI affirme avoir trouvé des preuves que la start-up chinoise DeepSeek a utilisé les modèles propriétaires de l'entreprise américaine pour entraîner son propre concurrent à code source ouvert, alors que les inquiétudes grandissent quant à une violation potentielle de la propriété intellectuelle. L'éditeur de ChatGPT a déclaré au Financial Times qu'il avait constaté des preuves de "distillation", qu'il soupçonne être le fait de DeepSeek.

La sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA, bouleversant les hypothèses sur ce qui est nécessaire pour atteindre des performances d'IA de pointe. Ce modèle open-source correspondrait à l'o1 d'OpenAI pour seulement 3 à 5 % du coût selon le benchmark de la startup éponyme. Le document technique du modèle révèle que DeepSeek s'est délibérément écartée du processus conventionnel de mise au point supervisée (SFT pour supervised fine-tuning) et s'est appuyé sur l'apprentissage par renforcement (RL) pour atteindre ces performances.

Cependant, OpenAI vient d'affirmer que la startup d'intelligence artificielle (IA) DeepSeek pourrait avoir entraîné son modèle R1 open-source en utilisant la technologie propriétaire d'OpenAI. En d'autres termes, la start-up chinoise n'aurait pas tout construit à partir de zéro, mais se serait plutôt appuyée sur les modèles d'OpenAI pour développer son concurrent. Selon le Financial Times, l'éditeur de ChatGPT, basé à San Francisco, a constaté des preuves de "distillation", c'est-à-dire le processus de transfert de connaissances d'un grand modèle à un plus petit. Il s'agirait donc d'une violation des conditions d'utilisation d'OpenAI.

Le nouveau « tsar » de l'IA et des crypto-monnaies du président américain Donald Trump, David Sacks, a également déclaré : "Il existe des preuves substantielles que DeepSeek a distillé des connaissances à partir des modèles d'OpenAI, et je ne pense pas qu'OpenAI soit très heureux à ce sujet. Je pense que l'une des choses que vous verrez au cours des prochains mois, c'est que nos principales entreprises d'IA prendront des mesures pour essayer d'empêcher la distillation."

La distillation des connaissances a été utilisée à bon escient dans toutes sortes de domaines, du traitement du langage naturel et de la reconnaissance vocale à la reconnaissance d'images et à la détection d'objets. Mais ces dernières années, elle est devenue particulièrement importante pour les grands modèles de langage (LLM). En ce qui concerne les LLM, la distillation s'est avérée être un moyen important de transmettre les compétences avancées des modèles propriétaires de haut niveau à des modèles open-source plus petits et plus accessibles. Dans ce cas, DeepSeek a été accusé de violation de la propriété intellectuelle.

Une source a déclaré au Financial Times: "Le problème se pose lorsque vous [retirez le modèle de la plateforme et] le faites pour créer votre propre modèle à vos propres fins."

Cependant, OpenAI n'est pas vraiment à l'abri des critiques en matière de propriété intellectuelle. L'entreprise fait actuellement l'objet d'un procès, mené par le New York Times, dans lequel les entreprises de médias l'accusent d'utiliser leurs données sans autorisation. Une étude avait même révélé qu'OpenAI a mis en place un mécanisme pour éviter que son modèle de génération de texte ChatGPT ne révèle qu’il a été entraîné sur des livres protégés par le droit d’auteur.

En outre, OpenAI a également reconnu qu’il est impossible de créer des outils comme ChatGPT sans s’appuyer sur des contenus sous copyright. L'éditeur de ChatGPT avait notammanet déclaré : "Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine, il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur. Limiter les données d'entraînement ... ne permettrait pas d'obtenir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui."


Pour rappel, la publication par DeepSeek de son modèle R1 a provoqué une onde de choc sur les marchés financiers mondiaux. L'entreprise chinoise semble avoir obtenu des résultats comparables à ceux de ses plus grands rivaux, bien qu'elle ait utilisé beaucoup moins d'argent et de puissance de calcul. Le PDG d'OpenAI, Sam Altman, a applaudi publiquement le modèle R1 open-source, le qualifiant d'"impressionnant".

Cela a amené les investisseurs à reconsidérer l'une des principales hypothèses à l'origine de la récente flambée des marchés boursiers induite par l'IA. Les plus grands acteurs de l'IA, ou "hyperscalers", ont besoin d'énormes quantités de puissance de calcul pour rester en tête. L'incertitude a frappé Nvidia de plein fouet, faisant subir à son action la plus forte baisse de valeur boursière de l'histoire en une seule journée le lundi 27 janvier, bien qu'elle ait réussi à regagner un peu de terrain le mardi.

Néanmoins, ces dernières allégations à l'encontre de DeepSeek pourraient ajouter une nouvelle couche à la bataille technologique en cours entre les États-Unis et la Chine, rendant les choses encore plus compliquées.

Source : The Financial Times

Et vous ?

Pensez-vous que ces accusations sont crédibles ou pertinentes ?
Quel est votre avis sur le sujet ?

Voir aussi :

Sam Altman, PDG d'OpenAI, a qualifié DeepSeek de « modèle impressionnant », après que la sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA

Meta aurait mis en place des « cellules de crise » composées d'ingénieurs pour comprendre comment l'IA de DeepSeek peut battre tous les autres avec une fraction du prix

Des chercheurs chinois viennent de percer les secrets de l'AGI d'OpenAI, avec un plan détaillé qui révèle comment recréer les capacités de raisonnement du modèle o1 d'OpenAI à partir de zéro

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de noremorse
Membre actif https://www.developpez.com
Le 29/01/2025 à 20:48
Malgré cela, la somme dépensée par DeepSeek reste largement inférieure aux montants faramineux que comptent dépenser les occidentaux
4  0 
Avatar de OuftiBoy
Membre éprouvé https://www.developpez.com
Le 29/01/2025 à 18:28


Il est quand même sans gêne ce Altman.

Il trouve normal d'utiliser des données ayant un droit d'auteur gratuitement pour alimenter son IA, mais si on se sert de son droit d'auteur à lui, il est pas content le Monsieur. C'est un peu l'hopital qui se fout de la charité .

C'est un peu la jungle avec les IA. Si je demande à une IA de me montrer en direct un match de foot, je "bypass" les droits d'auteurs de la "chaîne TV" ayant chèrement payer ces droits, et cela serait légal ? Et si c'est illégale, pourquoi le reste de ce qui est pompé et recracher par l'IA ne le serait-il pas ?

Si je filme le match (qui sort d'une "machine", ici la TV) avec une super caméra (une autre machine) et que je diffuse cela en direct streaming sur "Internet" (qui repose au final sur des machines), c'est donc légal ?

Bref, les grands de ce monde vont arranger tout cela à leur prochaine réunion à Davos, et tous les autres seront raquetés. Deux poids, deux mesures. Les (quelques) forts d'un côté et la masse des faibles gueux de l'autre.

Elle est pas belle la vie .

BàV et Peace & Love.
3  0 
Avatar de rust2code
Nouveau membre du Club https://www.developpez.com
Le 29/01/2025 à 22:57
Citation Envoyé par Developpez.com
Mais les analystes de SemiAnalysis ont tenu à apporter quelques nuances aux déclarations de DeepSeek. SemiAnalysis est une société indépendante de recherche et d'analyse spécialisée dans les secteurs des semiconducteurs et de l'IA.
Citation Envoyé par SemiAnalysis
All matters arising out of or relating to these Terms are governed by and construed in accordance with the internal laws of the State of Florida without giving effect to any choice or conflict of law provision or rule (whether of the State of Florida or any other jurisdiction) that would cause the application of the laws of any jurisdiction other than those of the State of Florida.
Entreprise américaine 100% indépendante et impartiale. Mais tout à fait!
3  0 
Avatar de Fluxgraveon
Membre actif https://www.developpez.com
Le 29/01/2025 à 14:36
Pendant ce temps là, le copain de Macron (Alexandre Zapolsky) pond Lucie qui ressemble plus à Lucie Castets que Lucy (film de Besson)
En France, la recherche sur l'IA est essentiellement militaire et "classée secret défense", non ?
1  0 
Avatar de NotABread
Membre actif https://www.developpez.com
Le 29/01/2025 à 15:54
Je suis loin d'être juriste ni d'avoir les détails techniques derrières tout ça, mais puisque les sorties des IA sont la propriété de personne, et que l'utilisation de contenu sous droit d'auteur pour la formation de réseau de neurone est du fair use d'après OpenAI:
- comment la distillation relève dans ce cas est une violation du droit d'auteur ? La sortie est libre de droit
- selon les principes d'OpenAI, pourquoi la distillation ne serait pas du fair use ?
- est-ce que refuser la distillation n'est pas un obstacle à la mission annoncée d'OpenAI (l’avènement d'une AIG) ?
- quelles sont les preuves OpenAI et peut-on démontrer que ce n'est pas lié à un jeu d'entrainement similaire ? Avec la reproduction ouverte de DeepSeck, il devrait être possible de trouver ces preuves, non ?
1  0 
Avatar de jpdeniel
Membre à l'essai https://www.developpez.com
Le 30/01/2025 à 10:14
Alors d'après le spécialiste indépendant et autoproclamé que je suis je pense que 6 millions est le coût de l'entraînement de leur développement de superbes astuces techniques pour réaliser ce prodige. Évidemment l'histoire de deepsseek n'a pas commencé que avec deepseek R1. Les versions précédentes avaient déjà cette tendance à donner d'excellents résultats pour moins cher. Les ingénieurs de deepseek ont cassé des regles établies par les autres et bien je dis bravo. Avec un peu de chance on arrivera à faire tourner une bonne IA sans gpu sur des vieux mac ou même sur des smartphones et pas des machines hors de prix. S'ils y arrivent ça sera très bon pour tout le monde ... Sauf peut-être pour OpenAI (ClosedAI plutôt) et Microsoft (Nanosoft plutôt qu'ils retournent a la poussière ceux la)
1  0 
Avatar de jpdeniel
Membre à l'essai https://www.developpez.com
Le 30/01/2025 à 10:29
Franchement dire qu'ils ont volé quelque chose a OpenAI c'est une farce non (ClosedAI j'insiste). Les américains sorte la grosse artillerie 500 milliards de $) mais les chinois sont hyper motivés.
Nous sommes face a la conquête de la lune bis. Mais en toute sincérité je n'ai rien contre les chinois pas plus que contre les américains.
Non, j'en ai contre la France qui fait n'importe quoi.
On pourrait avoir tout ce qu'on veut mais ça sera encore des médiocres aux commandes.
Enfin tant qu'on a des sacs a main a vendre ou des montres de Luxe.
Mais qui porte encore une montre se luxe franchement. A si, des mecs qui ont besoin de ça pour exister.
1  0 
Avatar de gabi7756
Membre confirmé https://www.developpez.com
Le 29/01/2025 à 16:43
Citation Envoyé par Fluxgraveon Voir le message
En France, la recherche sur l'IA est essentiellement militaire et "classée secret défense", non ?
Bah non ...
Lucie ( gros navet)
Mistral ...
Bref il y a pas besoin de toucher à des sujets sensible pour trouver des IA françaises
0  0 
Avatar de marsupial
Expert éminent https://www.developpez.com
Le 29/01/2025 à 16:54
Citation Envoyé par Fluxgraveon Voir le message
En France, la recherche sur l'IA est essentiellement militaire et "classée secret défense", non ?
L'IA pour domaine critique (ça ne se limite pas au militaire) n'est pas de l'IA générative mais une véritable 'intelligence' capable d'apprendre à partir de très peu de données et de 'raisonner'. Elle ne s'appuie pas sur des données humaines mais sur des données machines (logs, instructions binaires, capteurs, etc... ). Donc elle est sans biais, sécurisée et fiable à 100% (il le faut pour les domaines auxquels elle s'applique), j'y ai veillé dès sa création. Thales a ensuite développé, optimisé autour tel que je lui ai conseillé. Je leur ai fourni le cahier des charges et les différentes formules à appliquer en 2015.

https://www.thalesgroup.com
0  0 
Avatar de L33tige
Membre expérimenté https://www.developpez.com
Le 29/01/2025 à 17:46
Citation Envoyé par Fluxgraveon Voir le message
Les données machines, elles viennent d'où ?
de la machine...
0  0