Un ancien employé d'OpenAI affirme que l'entreprise enfreint la loi sur le droit d'auteur et détruit l'internet.

Selon lui, les sorties de ChatGPT ne respectent pas le standard « d'utilisation équitable »

Le 25 octobre 2024 à 01:01, par Stéphane le calme

164PARTAGES

Un ancien employé d'OpenAI affirme que l'entreprise enfreint la loi sur le droit d'auteur et détruit l'internet.
Selon lui, les sorties de ChatGPT ne respectent pas le standard « d'utilisation équitable »

Un ancien chercheur d'OpenAI, Suchir Balaji, a récemment exprimé ses préoccupations concernant les pratiques commerciales de la société, affirmant que l'entreprise enfreint les lois sur le droit d'auteur américaines et détruit la viabilité commerciale des individus, des entreprises et des services Internet qui ont créé les données numériques utilisées pour entraîner ces systèmes d'IA. Balaji, qui a rejoint OpenAI en 2020 après avoir obtenu son diplôme à l'UC Berkeley, a travaillé sur le modèle GPT-4 avant de quitter l'entreprise cet été. Dans un essai publié sur son site personnel, il a tenté de démontrer combien d'informations protégées par des droits d'auteur de la base de données de formation d'un modèle d'IA se retrouvent finalement dans les sorties du modèle.

Un ancien chercheur d'OpenAI s'est prononcé contre le modèle commercial de l'entreprise, en écrivant, dans un blog personnel, qu'il pense que l'entreprise ne respecte pas la loi américaine sur les droits d'auteur. Il fait partie des voix de plus en plus nombreuses qui considèrent que l'activité d'accaparement de données du géant de la technologie repose sur des bases juridiques fragiles (voire carrément illégitimes).

« Si vous croyez ce que je crois, vous devez quitter l'entreprise », a récemment déclaré Suchir Balaji. Balaji, un diplômé de l'université de Berkeley âgé de 25 ans qui a rejoint OpenAI en 2020 et a ensuite travaillé sur GPT-4, a déclaré qu'il s'était d'abord intéressé à une carrière dans l'industrie de l'IA parce qu'il pensait que la technologie pouvait « être utilisée pour résoudre des problèmes insolubles, tels que la guérison des maladies et l'arrêt du vieillissement ». Balaji a travaillé pour OpenAI pendant quatre ans avant de quitter l'entreprise cet été. Désormais, Balaji affirme que la technologie est utilisée à des fins qu'il désapprouve et que les entreprises d'IA « détruisent la viabilité commerciale des individus, des entreprises et des services Internet qui ont créé les données numériques utilisées pour former ces systèmes d'IA ».

Selon Balaji, les sorties de ChatGPT ne respectent pas le standard « d'utilisation équitable »

Cette semaine, Balaji a publié un essai sur son site web personnel, où il analyse l'utilisation du « fair use » (utilisation équitable) par OpenAI dans l'entraînement de ses modèles d'IA, notamment ChatGPT. Dans cet essai, il tente de montrer « combien d'informations protégées par le droit d'auteur » provenant de l'ensemble de données d'entraînement d'un système d'IA « aboutissent en fin de compte dans les résultats d'un modèle ». Il précise également que bien que les modèles génératifs ne produisent pas souvent des sorties substantiellement similaires à leurs entrées de formation, le processus d'entraînement implique la copie de données protégées par des droits d'auteur.

Bien que les modèles génératifs produisent rarement des résultats qui sont substantiellement similaires à l'un de leurs intrants d'apprentissage, le processus d'apprentissage d'un modèle génératif implique de faire des copies de données protégées par le droit d'auteur. Si ces copies ne sont pas autorisées, elles peuvent être considérées comme une violation des droits d'auteur, selon que l'utilisation spécifique du modèle peut ou non être qualifiée d'« usage loyal ». L'usage loyal étant déterminé au cas par cas, il n'est pas possible de faire une déclaration générale sur les cas où l'IA générative peut être qualifiée d'usage loyal. Au lieu de cela, je fournirai une analyse spécifique de l'utilisation par ChatGPT de ses données d'entraînement, mais le même modèle de base s'appliquera également à de nombreux autres produits d'IA générative.

L'usage loyal est défini dans la section 107 du Copyright Act de 1976, que je cite textuellement ci-dessous :

Nonobstant les dispositions des sections 106 et 106A, l'utilisation équitable d'une œuvre protégée par le droit d'auteur, y compris l'utilisation par reproduction dans des copies ou des enregistrements phonographiques ou par tout autre moyen spécifié par cette section, à des fins telles que la critique, le commentaire, le reportage, l'enseignement (y compris les copies multiples pour l'utilisation en classe), l'érudition ou la recherche, ne constitue pas une violation du droit d'auteur. Pour déterminer si l'utilisation faite d'une œuvre dans un cas particulier est un usage loyal, les facteurs à prendre en considération sont notamment les suivants

le but et la nature de l'utilisation, y compris la question de savoir si cette utilisation est de nature commerciale ou si elle est faite à des fins éducatives non lucratives ;
la nature de l'œuvre protégée par le droit d'auteur
la quantité et le caractère substantiel de la partie utilisée par rapport à l'ensemble de l'œuvre protégée par le droit d'auteur ; et
l'effet de l'utilisation sur le marché potentiel ou la valeur de l'œuvre protégée.

Le fait qu'une œuvre ne soit pas publiée n'empêche pas en soi de conclure à l'existence d'un usage loyal si cette conclusion est tirée après examen de tous les facteurs susmentionnés.

Le chercheur a abordé les quatre critères en commençant par le critère 4 et 1 (tendant à être les plus importants).

Il a terminé en affirmant qu'OpenAI enfreint la législation sur le droit d'auteur. En clair, la conclusion de l'analyse de Balaji est que les résultats de ChatGPT ne répondent pas à la norme « d'utilisation équitable », la norme juridique qui permet l'utilisation limitée de matériel protégé par le droit d'auteur sans l'autorisation du détenteur du droit d'auteur.

Balaji critique également la notion de « fair use » en affirmant qu'elle est déterminée au cas par cas et qu'aucune déclaration générale ne peut être faite sur le moment où l'IA générative qualifie pour « fair use ». Il propose une analyse spécifique de l'utilisation des données de formation de ChatGPT et suggère que la régulation plus stricte de l'industrie de l'IA pourrait être une solution aux problèmes juridiques actuels

Pour lui, « le seul moyen de sortir de tout cela est la réglementation », a déclaré plus tard Balaji, en référence aux problèmes juridiques créés par le modèle commercial de l'IA.

OpenAI n'est pas d'accord avec son point de vue

OpenAI a répondu en affirmant que ses modèles d'IA sont construits à partir de données publiques disponibles et que cette pratique est protégée par le principe de "fair use" et des précédents juridiques largement acceptés : « Nous construisons nos modèles d'IA en utilisant des données accessibles au public, d'une manière protégée par l'utilisation équitable et les principes connexes, et soutenue par des précédents juridiques de longue date et largement acceptés. Nous considérons que ce principe est juste pour les créateurs, nécessaire pour les innovateurs et essentiel pour la compétitivité des États-Unis ».

Cependant, il convient de noter que le New York Times poursuit actuellement OpenAI pour utilisation sans licence de son matériel protégé par le droit d'auteur. Le Times a affirmé que la société et son partenaire, Microsoft, avaient utilisé des millions d'articles de presse du journal pour entraîner son algorithme, qui a depuis cherché à rivaliser sur le même marché.

Le journal n'est pas le seul. OpenAI est actuellement poursuivie par un large éventail de célébrités, d'artistes, d'auteurs et de codeurs, qui affirment tous avoir été spoliés de leur travail par les algorithmes d'extraction de données de l'entreprise. D'autres personnes ou organisations bien connues ont poursuivi OpenAI, notamment Sarah Silverman, Ta-Nahisi Coates, George R. R. Martin, Jonathan Franzen, John Grisham, le Center for Investigative Reporting, The Intercept, divers journaux (dont le Denver Post et le Chicago Tribune), et divers YouTubers, entre autres.

Conclusion

Les critiques de Balaji mettent en lumière un débat plus large sur l'utilisation de l'IA et les implications juridiques qui en découlent. Les arguments contre OpenAI reposent sur la notion que l'IA, en utilisant des œuvres protégées par des droits d'auteur sans autorisation explicite, compromet la justice économique et la créativité individuelle. En effet, si les créateurs ne sont pas compensés pour l'utilisation de leurs œuvres, cela pourrait décourager l'innovation et la création de nouvelles œuvres.

D'un autre côté, les défenseurs d'OpenAI soutiennent que l'utilisation de données publiques pour entraîner des modèles d'IA est essentielle pour le progrès technologique et le développement de systèmes d'IA avancés. Ils affirment que le "fair use" est un cadre juridique suffisant pour équilibrer les intérêts des créateurs et ceux de la société en matière d'innovation.

Source : Suchir Balaji

Et vous ?

Quelle est votre opinion sur l'utilisation du "fair use" dans le cadre de l'entraînement des modèles d'IA ? Pensez-vous que cela protège suffisamment les droits des créateurs ?

Comment pensez-vous que les entreprises d'IA devraient compenser les créateurs dont les œuvres sont utilisées pour entraîner les modèles ?

Croyez-vous que la régulation de l'industrie de l'IA est nécessaire pour protéger les droits d'auteur, ou cela pourrait-il freiner l'innovation ?

Quels autres défis voyez-vous émerger de l'utilisation croissante de l'IA dans notre société ?

Comment les entreprises technologiques peuvent-elles trouver un équilibre entre l'utilisation des données publiques pour l'innovation et la protection des droits de propriété intellectuelle ?

Vous avez lu gratuitement 1 405 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :