L'université de Harvard a annoncé qu'elle mettait à disposition un ensemble de données de haute qualité comprenant près d'un million de livres du domaine public, qui pourra être utilisé par tout un chacun pour entraîner de grands modèles de langage et d'autres outils d'intelligence artificielle. Cet ensemble de données a été créé par la nouvelle initiative de données institutionnelles de Harvard et est financé par Microsoft et OpenAI.
La formation des modèles d’IA nécessite une quantité massive de données. Un grand modèle de langage (LLM),la technologie qui sous-tend l'IA, est un type de modèle informatique conçu pour des tâches de traitement du langage naturel telles que la génération de langage. En tant que modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage autosupervisé et semi-supervisé.
L'université de Harvard a annoncé qu'elle allait rendre public un ensemble de données de haute qualité contenant près d'un million de livres du domaine public, que tout le monde peut utiliser pour entraîner de grands modèles de langage (LLM) et d'autres outils d'intelligence artificielle (IA). Cet ensemble de données a été créé par la nouvelle initiative de données institutionnelles de Harvard et est financé par Microsoft et OpenAI. Les livres inclus sont des ouvrages scannés par le projet Google Books qui ne sont plus soumis à des droits d'auteur.
L'ensemble de données est environ cinq fois plus important que le célèbre ensemble de données Books3 utilisé pour entraîner des modèles d'IAtels que le Llama de Meta. Il couvre une grande variété de types, d'époques et de langues, y compris des classiques de Shakespeare, Charles Dickens et Dante, ainsi que des manuels de mathématiques tchèques et des dictionnaires de poche gallois moins connus. Greg Lepert, directeur exécutif de l'Institutional Data Initiative, a déclaré que l'objectif du projet était de "créer des conditions de concurrence équitables" en permettant au public, y compris aux petits acteurs de l'industrie de l'IA et aux chercheurs individuels, d'accéder à un référentiel de contenu hautement raffiné et curaté qui n'était généralement accessible qu'aux géants de la technologie. Il a ajouté : "Il a fait l'objet d'un examen rigoureux".
Greg Lepert pense que la nouvelle base de données du domaine public peut être utilisée en conjonction avec d'autres documents sous licence pour construire des modèles d'IA. Il a déclaré : "Je pense que c'est un peu comme la façon dont Linux est devenu le système d'exploitation fondamental dans de nombreuses régions du monde". Il a souligné que les entreprises doivent encore utiliser des données d'entraînement supplémentaires pour différencier leurs modèles de ceux de leurs concurrents.
Burt Davis, vice-président de Microsoft chargé de la propriété intellectuelle et avocat général adjoint, a souligné que le soutien de l'entreprise à ce projet s'inscrivait dans sa volonté plus large de créer des "pools de données accessibles" pour les startups d'IA qui sont "orientées vers l'intérêt public". En d'autres termes, Microsoft ne prévoit pas nécessairement de remplacer toutes les données d'entraînement à l'IA utilisées dans ses propres modèles par des alternatives du domaine public, telles que les livres de la nouvelle base de données de Harvard. "Nous utilisons des données accessibles au public pour entraîner nos modèles", a déclaré Burt Davis.
Avec des dizaines de procès concernant l'utilisation de données protégées par des droits d'auteur pour entraîner l'IA, l'avenir de la construction des outils d'IA reste incertain. Si les entreprises d'IA gagnent, elles pourront continuer à exploiter l'internet sans avoir à conclure d'accords de licence avec les détenteurs de droits d'auteur. En revanche, si elles perdent, les entreprises d'IA pourraient être contraintes de réformer complètement la manière dont elles créent leurs modèles. Des projets tels que la base de données de Harvard avancent à un rythme sans précédent, en partant du principe que, quoi qu'il arrive, il y aura une demande pour les ensembles de données du domaine public.
Outre le grand nombre de livres, l'Institutional Data Initiative s'est également associée à la bibliothèque publique de Boston pour numériser des millions d'articles du domaine public provenant de divers journaux. L'organisation a exprimé sa volonté d'établir des collaborations similaires à l'avenir. La méthode exacte de diffusion de l'ensemble de données sur les livres n'a pas encore été déterminée. L'Institutional Data Initiative a demandé à Google de participer conjointement à la distribution publique, mais le géant de la recherche n'a pas accepté publiquement d'héberger l'ensemble de données, bien que l'université de Harvard reste optimiste à ce sujet. (Google n'a pas répondu à la demande de commentaire de WIRED).
Quelle que soit la manière dont l'ensemble de données de l'IDI sera publié, il rejoindra une série de projets, de startups et d'initiatives similaires visant à fournir aux entreprises une grande quantité de matériel de formation à l'IA de haute qualité sans risquer de se heurter à des problèmes de droits d'auteur. Des entreprises comme Calliope Networks et ProRata ont vu le jour, publiant des licences et concevant des systèmes de compensation destinés à garantir que les créateurs et les détenteurs de droits soient indemnisés pour la fourniture de données de formation à l'IA.
En outre, il existe d'autres nouveaux projets dans le domaine public. La startup française PleIAs a lancé son propre ensemble de données du domaine public appelé Common Corpus, qui, selon le coordinateur du projet Pierre-Carl Langlais, contient une collection d'environ trois à quatre millions de livres et d'articles de journaux. Soutenu par le ministère français de la culture, Common Corpus a été téléchargé plus de 60 000 fois rien que le mois de novembre sur la plateforme d'IA open-source Hugging Face. Début décembre, PleIAs a annoncé qu'elle publierait ses premiers grands modèles de langage formés à l'aide de cet ensemble de données. Pierre-Carl Langlais a déclaré qu'il s'agissait des "premiers modèles formés entièrement à partir de données ouvertes et conformes à la loi sur l'IA [de l'UE]".
Actuellement, des travaux sont également en cours pour créer des ensembles de données d'images similaires. La startup Spawning a publié un ensemble de données appelé Source.Plus, qui contient des images du domaine public provenant de Wikimedia Commons ainsi que de divers musées et archives. Depuis longtemps, certaines grandes institutions culturelles, comme le Metropolitan Museum of Art, ont également ouvert leurs archives au public dans le cadre de projets indépendants.
Ed Newton-Rex, ancien cadre de Stability AI, dirige une organisation à but non lucratif qui certifie la conformité éthique des outils d'IA. Il a déclaré que l'essor de ces ensembles de données montre qu'il est possible de construire des modèles d'IA performants et de grande qualité sans voler des documents protégés par des droits d'auteur. "Les grands ensembles de données du domaine public comme celui-ci affaiblissent encore davantage la "défense de nécessité" que certaines entreprises d'IA utilisent pour justifier le vol d'œuvres protégées par le droit d'auteur pour entraîner leurs modèles", a déclaré Ed Newton-Rex.
Toutefois, il reste prudent quant à savoir si l'IDI et d'autres projets similaires changeront réellement le paysage de la formation. "Ces ensembles de données n'auront un impact positif que s'ils sont utilisés en conjonction avec d'autres données sous licence pour remplacer les œuvres protégées par le droit d'auteur. S'ils sont simplement ajoutés à des ensembles de données mixtes qui comprennent également le travail de créateurs du monde entier sans autorisation, ils profiteront principalement aux entreprises d'intelligence artificielle", a-t-il déclaré.
Le point de vue d'Ed Newton-Rex est au contraire de ce qu'OpenAI avait affirmé précédement. La société d'IA a déclaré aux législateurs britanniques qu'il était "impossible" de créer des produits tels que ChatGPT sans utiliser des œuvres protégées par le droit d'auteur. Elle avait affirmé que les matériaux disponibles dans le domaine public ne suffisent pas pour créer des modèles capables de répondre aux besoins actuels des utilisateurs. L’entreprise ajoutait que le droit d’auteur couvre pratiquement toutes les formes d’expression humaine, rendant ainsi indispensable l’utilisation de contenus protégés pour former des IA performantes.
Source : Université de Harvard
Et vous ?
Pensez-vous que cet ensemble de données est crédible ou pertinent ?
Quel est votre avis sur le sujet ?
Voir aussi :
Le laboratoire d'IA privé français PleIAs annonce un ensemble de données multilingues entièrement ouvert pour la formation de LLM, contenant plus de 2 000 milliards de jetons de contenu sous licence autorisée
L'IA semble s'approcher rapidement d'un mur où elle ne peut pas devenir plus intelligente : l'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données générées par l'homme
Google affirme que sa nouvelle technologie d'entraînement de l'IA, JEST, est 13 fois plus rapide et 10 fois plus économe en énergie : JEST optimise les données d'entraînement selon DeepMind
L'université de Harvard a annoncé un ensemble de données comprenant près d'un million de livres du domaine public
Tout le monde pourra l'utiliser pour entrainer l'IA
L'université de Harvard a annoncé un ensemble de données comprenant près d'un million de livres du domaine public
Tout le monde pourra l'utiliser pour entrainer l'IA
Le , par Jade Emy
Une erreur dans cette actualité ? Signalez-nous-la !