En octobre 2024, Suchir Balaji, ancien chercheur IA chez OpenAI, a exprimé ses préoccupations concernant les pratiques commerciales de la société, affirmant que l'entreprise enfreint les lois sur le droit d'auteur américaines et détruit la viabilité commerciale des individus, des entreprises et des services Internet qui ont créé les données numériques utilisées pour entraîner ces systèmes d'IA.
Suchir Balaji, qui a rejoint OpenAI en 2020 après avoir obtenu son diplôme à l'UC Berkeley, a travaillé sur le modèle GPT-4 avant de quitter l'entreprise. Dans un essai publié sur son site personnel, il a tenté de démontrer combien d'informations protégées par des droits d'auteur de la base de données de formation d'un modèle d'IA se retrouvent finalement dans les sorties du modèle.
Malheureusement, le lanceur d'alerte âgé de 26 ans est mort à San Francisco le 26 novembre dans un suicide présumé, selon les autorités locales. La police de San Francisco a déclaré avoir trouvé Balaji mort à l'intérieur de son appartement de Buchanan Street après avoir été appelée pour un contrôle de bien-être vers 13 heures le 26 novembre. Le bureau du médecin légiste de San Francisco a déclaré que la cause du décès de Balaji était un suicide. En début de semaine, la police a déclaré qu'il n'y avait "actuellement aucune preuve d'un acte criminel".
Suchir Balaji : d'ancien chercheur chez OpenAI à dénonciateur des pratiques de la société d'IA
Balaji avait rejoint OpenAI en 2020 en tant que chercheur IA, mais en 2022, il était de plus en plus préoccupé par l'attitude de l'entreprise à l'égard de la législation sur le droit d'auteur. Dans un message publié le 23 octobre sur X, anciennement Twitter, il a déclaré : "J'ai été chez OpenAI pendant près de 4 ans et j'ai travaillé sur ChatGPT pendant les récentes 1 an et demi. Au départ, je ne connaissais pas grand-chose au droit d'auteur, à l'utilisation équitable, etc., mais je suis devenu curieux après avoir vu tous les procès intentés contre des entreprises de GenAI."
"Lorsque j'ai essayé de mieux comprendre la question, je suis finalement arrivé à la conclusion que l'utilisation équitable semble être une défense assez peu plausible pour de nombreux produits d'IA générative, pour la raison fondamentale qu'ils peuvent créer des substituts qui concurrencent les données sur lesquelles ils sont formés."
Balaji a ajouté dans son message : "J'ai écrit les raisons plus détaillées pour lesquelles je crois cela dans mon article. Il est évident que je ne suis pas avocat, mais je pense qu'il est important que même les non-avocats comprennent la loi - à la fois la lettre et la raison pour laquelle elle existe en premier lieu. Cela étant dit, je ne veux pas que cela soit interprété comme une critique de ChatGPT ou d'OpenAI en soi, car l'utilisation équitable et l'IA générative sont des questions bien plus vastes que n'importe quel produit ou entreprise. J'encourage vivement les chercheurs en ML à en apprendre davantage sur le droit d'auteur - c'est un sujet vraiment important, et les précédents souvent cités, comme Google Books, ne sont pas aussi favorables qu'on pourrait le croire".
Balaji a également fait part d'une interview qu'il a accordée au New York Times, qui poursuit actuellement OpenAI pour violation présumée des droits d'auteur du journal. Dans cette interview, Balaji a déclaré qu'il pensait initialement que "l'I.A. était une chose qui pouvait être utilisée pour résoudre des problèmes insolubles, comme la guérison de maladies et l'arrêt du vieillissement". Toutefois, au fil du temps, il a changé d'avis sur la position de l'OpenAI en matière de droits d'auteur, et a conclu : "Si vous croyez ce que je crois, vous n'avez qu'à quitter l'entreprise".
Dans son entretien avec le New York Times, Suchir Balaji a déclaré qu'il avait quitté OpenAI parce qu'il ne voulait plus contribuer à des technologies qui, selon lui, apporteraient à la société plus de mal que de bien. Selon certaines informations, il aurait même affirmé qu'OpenAI violait la loi sur les droits d'auteur.
Sur son site web, Balaji a déclaré qu'il ne pensait pas que la défense de l'utilisation équitable du droit d'auteur s'appliquait à ce qu'OpenAI faisait avec ChatGPT, bien qu'il ait noté que "des arguments similaires pourraient être avancés pour de nombreux produits d'IA générative dans une grande variété de domaines".
En réaction à la mort de Balaji, OpenAI s'est déclarée "dévastée" d'apprendre le décès du technicien. 'Nous sommes dévastés d'apprendre cette nouvelle incroyablement triste aujourd'hui et nous sommes de tout cœur avec les proches de Suchir pendant cette période difficile", a déclaré un porte-parole d'OpenAI.I recently participated in a NYT story about fair use and generative AI, and why I'm skeptical "fair use" would be a plausible defense for a lot of generative AI products. I also wrote a blog post (https://t.co/xhiVyCk2Vk) about the nitty-gritty details of fair use and why I…
— Suchir Balaji (@suchirbalaji) October 23, 2024
De son côté, le milliardaire Elon Musk a également réagi à la mort du technicien et a posté un message énigmatique sur X. "Hmm", a écrit Elon Musk sur sa plateforme en partageant la nouvelle de la mort du technicien. Pour rappel, OpenAI a été fondée en 2015 par un groupe de passionnés de technologie, dont Sam Altman et Elon Musk, qui en sont devenus les coprésidents. Musk a quitté l'entreprise en 2018 à la suite d'un désaccord sur sa stratégie et, en février 2024, il a intenté une action en justice contre OpenAI et Altman.
— Elon Musk (@elonmusk) December 14, 2024OpenAI reconnaît qu'elle utilise des contenus protégés par le droit d'auteur
Ces dernières années, les capacités des chatbots alimentés par l'IA, comme le ChatGPT d'OpenAI, se sont considérablement améliorées ; ils s'appuient sur de vastes modèles de langage pour produire du contenu pour les utilisateurs. Cependant, le processus a également été controversé, certains éditeurs accusant OpenAI d'utiliser des œuvres protégées par des droits d'auteur sans autorisation, et un certain nombre d'affaires juridiques sont actuellement en cours.
S'exprimant pour défendre ses pratiques commerciales dans une récente requête en justice, OpenAI a déclaré : "Les modèles apprennent, comme nous le faisons tous, de ce qui a été fait auparavant. La défense de l'usage loyal existe précisément pour cette raison : encourager et permettre le développement de nouvelles idées qui s'appuient sur des idées antérieures."
Cette défense d'OpenAI est conforme à ces précédentes déclarations. En janvier, OpenAi avait déclaré : "Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine ... il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur." OpenAI reconnaît donc ouvertement qu'elle utilise des contenus sous copyright pour créer son modèle d'IA ChatGPT.
C'est pour cette raison que plusieurs éditeurs de presse ont poursuivi Microsoft et OpenAI pour violation du droit d'auteur. Parmi les poursuivants, on peut noter les éditeurs de presse de Californie, du Colorado, de l'Illinois, de Floride, du Minnesota et de New York. Certains procès sont en cours, mais le 7 novembre, le juge de district américain Colleen McMahon, à New York, a rejeté une poursuite contre OpenAI qui avait été intentée par les médias Raw Story et AlterNet. Selon les observateurs, la porte de sortie de la situation semble résider dans la conclusion d’accords de licence avec les éditeurs de presse.
Et vous ?
Quel est votre avis sur la réaction d'Elon Musk ?
Pensez-vous que la défense d'OpenAI contre ces accusations est crédible ou pertinente ?
Voir aussi :
OpenAI assure ne pas pouvoir gagner de l'argent sans utiliser gratuitement du matériel protégé par le droit d'auteur et estime que « légalement, la loi sur le droit d'auteur n'interdit pas l'entraînement »
The Intercept, Raw Story et AlterNet poursuivent OpenAI et Microsoft en justice pour violation du droit d'auteur, ils exigent des dommages-intérêts et le retrait de leurs contenus des modèles d'IA
Un ex employé d'OpenAI estime qu'il y a 70 % de chances que l'IA détruise l'humanité ou lui nuise de manière catastrophique, les puissants modèles d'IA ne doivent donc pas être open source, d'après des tiers