
« Nous pensons que les outils d'intelligence artificielle sont à leur summum lorsqu'ils intègrent et représentent toute la diversité et l'étendue de l'intelligence et de l'expérience humaines. Pour ce faire, les technologies d'IA de nos jours requièrent une grande quantité de données d'entraînement et de calcul, car les modèles examinent, analysent et apprennent des modèles et des concepts qui émergent de milliards de milliards de mots et d'images. Les grands modèles de langage d'OpenAI, y compris ChatGPT, sont développés à l'aide de trois sources principales de données d'entraînement : (1) informations disponibles publiquement sur Internet, (2) des informations que nous utilisons sous licence et (3) des informations fournies par nos utilisateurs ou nos formateurs humains. Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine - y compris les articles de blog, les photographies, les messages de forum, etc. y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux - il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur. Limiter les données d'entraînement aux livres et dessins du domaine public et aux dessins créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas d'obtenir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui », répond OpenAI dans le cadre d’un questionnaire de la Chambre des Lords du Royaume-Uni.
Pour certains internautes, l’analogie à extraire de la sortie d’OpenAI relève de l’évidence : « Il m'est impossible de devenir multimillionnaire sans braquer une banque, je devrais donc être autorisé à braquer des banques. »
C’est la raison pour laquelle le New York Times a exigé qu’OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d’auteur
La plainte cite plusieurs exemples de ChatGPT récitant des extraits de journalistes du New York Times presque entièrement mot pour mot. Un exemple cité dans les documents judiciaires est une enquête en cinq parties sur l'industrie des taxis à New York, publiée en 2019. Le Times affirme que son enquête a porté sur 600 entretiens, plus de 100 demandes de dossiers et l'examen de milliers de pages de documents tels que des relevés bancaires.
« OpenAI n'a joué aucun rôle dans la création de ce contenu, mais avec un minimum d'incitations, il en récitera de grandes parties textuellement », indique la plainte.
La poursuite allègue qu'il est facile d'amener des systèmes animés par GPT à proposer du contenu qui est normalement protégé par le mur de monétisation du Times. La poursuite montre un certain nombre d'exemples de GPT-4 reproduisant de grandes sections d'articles presque textuellement. La poursuite comprend des captures d'écran de ChatGPT recevant le titre d'un article du New York Times et demandant le premier paragraphe, ce qu'il livre. Obtenir le texte qui suit est apparemment aussi simple que de demander à plusieurs reprises le paragraphe suivant.
ChatGPT a apparemment comblé cette lacune entre la préparation de ce procès et le présent. En entrant certaines des invites affichées dans la poursuite, il est désormais indiqué « Je recommande de consulter le site Web du New York Times ou d'autres sources réputées », bien que nous ne puissions pas exclure que le contexte fourni avant cette invite puisse produire du matériel protégé par le droit d'auteur.
Mais toutes les lacunes n’ont pas été comblées. La combinaison affiche également les résultats de Bing Chat, rebaptisé depuis Copilot. Nous avons pu vérifier que demander le premier paragraphe d’un article spécifique du Times faisait en sorte que Copilot reproduisait le premier tiers de l’article.
La poursuite rejette les tentatives visant à justifier cela comme une forme d’utilisation équitable. « Publiquement, les accusés insistent sur le fait que leur conduite est protégée en tant « qu'usage loyal » parce que leur utilisation sans licence de contenu protégé par le droit d'auteur pour former des modèles GenAI sert un nouvel objectif « transformateur » », note la poursuite. « Mais il n'y a rien de "transformateur" dans le fait d'utiliser le contenu du Times sans paiement pour créer des produits qui remplacent le Times et lui volent du public ».
La presse avait déjà proposé la deuxième solution qui est qu’elle perçoive une rémunération d’OpenAI
Depuis des années, des entreprises technologiques telles qu'Open AI utilisent librement des articles de presse pour constituer des ensembles de données qui permettent à leurs modèles d’IA d'apprendre à reconnaître et à répondre avec fluidité aux questions humaines sur le monde. Mais alors que la quête pour développer des modèles d'IA de pointe est devenue de plus en plus frénétique, les éditeurs de journaux et autres propriétaires de données exigent une part du marché potentiellement gigantesque de l'IA générative, qui devrait atteindre 1300 millions de dollars d'ici à 2032.
Pour de nombreux experts du secteur de la technologie, ChatGPT pourrait changer à jamais l'édition et le journalisme. Ainsi, certains types de journalisme, comme les simples articles de sport et d'affaires, seraient particulièrement sensibles à l'automatisation. ChatGPT pourrait être la technologie numérique la plus importante à avoir un impact sur les éditeurs depuis les années 1980. Le chatbot créé par le laboratoire d'intelligence artificielle (IA) OpenAI peut répondre à des questions complexes et s'appuyer sur des recherches secondaires pour rédiger des textes « originaux ». Si l'information se trouve sur Internet, ChatGPT peut produire du contenu avec.
Mais alors que les chercheurs plongent dans le nouveau monde courageux des chatbots d'IA avancés, Springer Nature a déclaré en début d’année que les éditeurs doivent reconnaître leurs utilisations légitimes et établir des directives claires pour éviter les abus. L'entreprise a annoncé que des logiciels tels que ChatGPT ne pouvaient pas être crédités en tant qu'auteurs dans les articles publiés dans ses milliers de revues. Toutefois, Springer affirme qu'elle n'a aucun problème à ce que les scientifiques utilisent l'IA pour les aider à rédiger ou à générer des idées pour la recherche. Cela dit, cette contribution doit être correctement divulguée par les auteurs.
Deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco, affirmant dans un recours collectif proposé que la société avait abusé de leurs travaux pour l’entraînement de son populaire système d'intelligence artificielle générative ChatGPT. Dans le même temps, l’union européenne prépare une législation qui obligerait les outils d’intelligence artificielle comme ChatGPT à divulguer le matériel protégé par le droit d’auteur utilisé dans la construction de leurs systèmes, selon un nouveau projet de loi qui serait le premier ensemble de règles complet de l’Occident régissant le déploiement de l’IA.
Cette obligation permettrait aux éditeurs et aux créateurs de contenu de disposer d’une nouvelle arme pour demander une part des bénéfices lorsque leurs œuvres sont utilisées comme matériau source pour le contenu généré par...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.