OpenAI vient de reconnaître qu’il est impossible de créer des outils comme ChatGPT sans s’appuyer sur des contenus sous copyright. Le tableau ravive le débat sur la violation des droits d’auteurs. En effet, OpenAI a suspendu le compte de ByteDance pour usage des données de GPT aux fins d’entraînement d’un modèle d’intelligence artificielle concurrent. En droite ligne avec cette décision d’OpenAI, deux solutions émergent des réactions des internautes. Primo, des observateurs demandent l’arrêt du service. Deuxio, d’autres sont plutôt d’avis qu’OpenAI doit rémunérer les auteurs des contenus sous copyright.« Nous pensons que les outils d'intelligence artificielle sont à leur summum lorsqu'ils intègrent et représentent toute la diversité et l'étendue de l'intelligence et de l'expérience humaines. Pour ce faire, les technologies d'IA de nos jours requièrent une grande quantité de données d'entraînement et de calcul, car les modèles examinent, analysent et apprennent des modèles et des concepts qui émergent de milliards de milliards de mots et d'images. Les grands modèles de langage d'OpenAI, y compris ChatGPT, sont développés à l'aide de trois sources principales de données d'entraînement : (1) informations disponibles publiquement sur Internet, (2) des informations que nous utilisons sous licence et (3) des informations fournies par nos utilisateurs ou nos formateurs humains. Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine - y compris les articles de blog, les photographies, les messages de forum, etc. y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux - il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur. Limiter les données d'entraînement aux livres et dessins du domaine public et aux dessins créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas d'obtenir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui », répond OpenAI dans le cadre d’un questionnaire de la Chambre des Lords du Royaume-Uni.
Pour certains internautes, l’analogie à extraire de la sortie d’OpenAI relève de l’évidence : « Il m'est impossible de devenir multimillionnaire sans braquer une banque, je devrais donc être autorisé à braquer des banques. »
C’est la raison pour laquelle le New York Times a exigé qu’OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d’auteur
La plainte cite plusieurs exemples de ChatGPT récitant des extraits de journalistes du New York Times presque entièrement mot pour mot. Un exemple cité dans les documents judiciaires est une enquête en cinq parties sur l'industrie des taxis à New York, publiée en 2019. Le Times affirme que son enquête a porté sur 600 entretiens, plus de 100 demandes de dossiers et l'examen de milliers de pages de documents tels que des relevés bancaires.
« OpenAI n'a joué aucun rôle dans la création de ce contenu, mais avec un minimum d'incitations, il en récitera de grandes parties textuellement », indique la plainte.
La poursuite allègue qu'il est facile d'amener des systèmes animés par GPT à proposer du contenu qui est normalement protégé par le mur de monétisation du Times. La poursuite montre un certain nombre d'exemples de GPT-4 reproduisant de grandes sections d'articles presque textuellement. La poursuite comprend des captures d'écran de ChatGPT recevant le titre d'un article du New York Times et demandant le premier paragraphe, ce qu'il livre. Obtenir le texte qui suit est apparemment aussi simple que de demander à plusieurs reprises le paragraphe suivant.
ChatGPT a apparemment comblé cette lacune entre la préparation de ce procès et le présent. En entrant certaines des invites affichées dans la poursuite, il est désormais indiqué « Je recommande de consulter le site Web du New York Times ou d'autres sources réputées », bien que nous ne puissions pas exclure que le contexte fourni avant cette invite puisse produire du matériel protégé par le droit d'auteur.
Mais toutes les lacunes n’ont pas été comblées. La combinaison affiche également les résultats de Bing Chat, rebaptisé depuis Copilot. Nous avons pu vérifier que demander le premier paragraphe d’un article spécifique du Times faisait en sorte que Copilot reproduisait le premier tiers de l’article.
La poursuite rejette les tentatives visant à justifier cela comme une forme d’utilisation équitable. « Publiquement, les accusés insistent sur le fait que leur conduite...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Peut-on réellement faire confiance au code généré par l'IA sans relecture humaine ?