
OpenAI accusé de rendre l'examen de ses modèles d'IA excessivement cher
Le New York Times a intenté une action en justice contre OpenAI fin Microsoft fin 2023 pour violation de droit d'auteur. La publication accuse OpenAI d'avoir utilisé des millions de ses articles pour former des chatbots qui lui font désormais concurrence. La plainte indique que les défendeurs devraient être tenus responsables « des milliards de dollars de dommages statutaires et réels liés à la copie et à l'utilisation illégales des œuvres de grande valeur du Times ».
La plainte ne comporte pas de demande monétaire précise. Mais elle demande aux entreprises de détruire tous les modèles de chatbot et les données de formation qui utilisent du matériel protégé par le droit d'auteur du Times. Pour étayer ses allégations, le Times affirme avoir besoin d'examiner en profondeur les ensembles de données de formation des grands modèles de langage (LLM) d'OpenAI. C'est là que les choses se corsent et deviennent coûteuses.
OpenAI a mis en place un protocole d'examen qui exige que les plaignants paient des « prix de détail » pour les requêtes API nécessaires à l'inspection de ses modèles d'IA. Selon ce protocole, le Times pourrait engager un expert pour examiner les documents techniques hautement confidentiels d'OpenAI « sur un ordinateur sécurisé dans une pièce sécurisée sans accès à Internet ou à un réseau d'autres ordinateurs dans un lieu sécurisé » choisi par OpenAI lui-même.
Dans cette arène fermée, l'expert disposerait d'un temps et de requêtes limités pour tenter de faire avouer au modèle d'IA ce qu'il contient. OpenAI a plafonné le nombre de requêtes que l'expert peut effectuer via une API à 15 000 $ de crédits de vente au détail. Une fois ce plafond atteint, OpenAI a proposé aux parties de partager les coûts des requêtes restantes ; le Times et les codemandeurs paieront la moitié du prix pour terminer le reste de leur enquête.
Mais le Times s'est opposé au protocole d'examen mis en place par OpenAI. La publication accuse OpenAI d'avoir transformé l'inspection de ses modèles d'IA en centre de profit. En septembre 2024, le Times a expliqué au tribunal que « les parties étaient arrivées à une impasse concernant ce protocole d'examen, alléguant qu'OpenAI cherche à dissimuler son infraction en professant une dépense indue, mais non quantifiée ». Bien sûr, OpenAI a rejeté ces accusations.
Selon le Times, les plaignants auraient besoin de 800 000 $ de crédits de vente au détail pour rechercher les preuves dont ils ont besoin pour prouver leur cas, mais il n'y aurait aucune chance que cela coûte réellement autant à OpenAI. « OpenAI a refusé d'indiquer quels seraient ses coûts réels et se concentre plutôt de manière inappropriée sur ce qu'il facture à ses clients pour les services de détail dans le cadre de son activité (à but lucratif) », a affirmé le Times.
L'issue de ce procès pourrait avoir un impact important sur toute l'industrie
Pour sa défense, OpenAI a déclaré que la fixation d'un plafond initial est nécessaire pour réduire le fardeau qui pèse sur OpenAI et empêcher « une expédition de pêche » (une recherche sans objectif précis). OpenAI a également allégué que « les plaignants demandent des centaines de milliers de dollars de crédits pour effectuer un nombre arbitraire et non justifié - et probablement inutile - de recherches sur les modèles d'OpenAI, le tout aux frais d'OpenAI ».
Les implications de cette bataille juridique vont bien au-delà d'un simple procès. Si le tribunal approuve l'approche d'OpenAI consistant à facturer des crédits de vente au détail pour l'inspection des modèles, cela pourrait effectivement créer une barrière financière pour les futurs plaignants cherchant à enquêter sur les préjudices liés à l'IA. Cette situation survient à un moment où les préoccupations en matière de sécurité liées à l'IA se multiplient à l'échelle mondiale.
Pour ajouter à la complexité de la situation, le Times fait état d'obstacles techniques importants dans leurs efforts d'inspection. En 27 jours de tentative d'examen des données, ils ont rencontré des perturbations, notamment des arrêts de système et des problèmes d'installation de logiciels. Malgré ces difficultés, ils auraient déjà découvert des preuves qui suggèrent que des millions de leurs œuvres pourraient être incluses dans les données d'entraînement de ChatGPT.
Lucas Hansen, cofondateur de CivAI, apporte un éclairage précieux sur les aspects techniques de l'inspection des modèles. S'il est possible d'examiner les modèles publics dans une certaine mesure, il a déclaré que les versions affinées comportent souvent des mécanismes de censure qui compliquent la traçabilité de l'origine des données d'entraînement. C'est pourquoi l'accès aux modèles originaux par l'intermédiaire d'API est crucial pour une enquête appropriée.
On ne sait pas exactement ce qu'il en coûte à OpenAI pour fournir ce niveau d'accès. Lucas Hansen a déclaré que les coûts de formation et d'expérimentation des modèles éclipsent les coûts d'exploitation des modèles pour fournir des solutions complètes. D'autres développeurs ont déclaré dans les forums que les coûts des requêtes d'API s'additionnent rapidement, l'un d'entre eux affirmant que « la tarification d'OpenAI tue la motivation de travailler avec les API ».
Quel équilibre entre la protection du droit d'auteur et la transparence de l'IA ?
Le contexte plus large de la surveillance de la sécurité de l'IA rend cette affaire particulièrement significative. Bien qu'il ait été créé pour répondre à ces préoccupations, l'Institut américain de sécurité de l'IA (AISI) est confronté à des défis uniques. Avec un budget proposé de 50 millions de dollars pour 2025 - un chiffre que de nombreux experts considèrent comme insuffisant - et des incertitudes politiques potentielles, l'efficacité future de l'institut reste incertaine.
La bataille juridique en cours soulève des questions cruciales sur l'équilibre entre la protection des droits de propriété intellectuelle et la transparence de l'IA. OpenAI se défend en arguant que le plafond initial est nécessaire pour empêcher « une recherche sans objectif précis » et gérer la charge opérationnelle. Mais ses détracteurs affirment que « le fait de facturer des prix de détail pour la recherche dans un cadre juridique pourrait créer un dangereux précédent ».
Le déroulement de cette bataille juridique met en lumière un défi majeur en matière de gouvernance de l'IA : comment assurer une surveillance efficace des systèmes d'IA tout en maintenant le processus financièrement accessible ? La question reste posée. L'issue de cette affaire pourrait créer des précédents importants pour les futurs litiges en matière d'IA et les exigences de transparence. L'industrie technologique suit de près l'évolution de cette affaire.
Elle est consciente que l'issue pourrait influencer de manière significative la responsabilité des entreprises d'IA quant au comportement de leurs modèles. La technologie continuant à progresser rapidement, il devient de plus en plus urgent de mettre en place des mécanismes de contrôle équilibrés et efficaces.
Pour l'instant, la bataille se poursuit, le New York Times faisant pression pour un accès plus complet aux données d'entraînement et OpenAI maintenant sa position sur le partage des coûts. Alors que la Cour évalue ces intérêts divergents, l'avenir de la responsabilité de l'IA est en jeu.
Source : document judiciaire (PDF)
Et vous ?




Voir aussi


