L'université de Harvard a annoncé qu'elle mettait à disposition un ensemble de données de haute qualité comprenant près d'un million de livres du domaine public, qui pourra être utilisé par tout un chacun pour entraîner de grands modèles de langage et d'autres outils d'intelligence artificielle. Cet ensemble de données a été créé par la nouvelle initiative de données institutionnelles de Harvard et est financé par Microsoft et OpenAI.La formation des modèles d’IA nécessite une quantité massive de données. Un grand modèle de langage (LLM),la technologie qui sous-tend l'IA, est un type de modèle informatique conçu pour des tâches de traitement du langage naturel telles que la génération de langage. En tant que modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage autosupervisé et semi-supervisé.
L'université de Harvard a annoncé qu'elle allait rendre public un ensemble de données de haute qualité contenant près d'un million de livres du domaine public, que tout le monde peut utiliser pour entraîner de grands modèles de langage (LLM) et d'autres outils d'intelligence artificielle (IA). Cet ensemble de données a été créé par la nouvelle initiative de données institutionnelles de Harvard et est financé par Microsoft et OpenAI. Les livres inclus sont des ouvrages scannés par le projet Google Books qui ne sont plus soumis à des droits d'auteur.
L'ensemble de données est environ cinq fois plus important que le célèbre ensemble de données Books3 utilisé pour entraîner des modèles d'IAtels que le Llama de Meta. Il couvre une grande variété de types, d'époques et de langues, y compris des classiques de Shakespeare, Charles Dickens et Dante, ainsi que des manuels de mathématiques tchèques et des dictionnaires de poche gallois moins connus. Greg Lepert, directeur exécutif de l'Institutional Data Initiative, a déclaré que l'objectif du projet était de "créer des conditions de concurrence équitables" en permettant au public, y compris aux petits acteurs de l'industrie de l'IA et aux chercheurs individuels, d'accéder à un référentiel de contenu hautement raffiné et curaté qui n'était généralement accessible qu'aux géants de la technologie. Il a ajouté : "Il a fait l'objet d'un examen rigoureux".
Greg Lepert pense que la nouvelle base de données du domaine public peut être utilisée en conjonction avec d'autres documents sous licence pour construire des modèles d'IA. Il a déclaré : "Je pense que c'est un peu comme la façon dont Linux est devenu le système d'exploitation fondamental dans de nombreuses régions du monde". Il a souligné que les entreprises doivent encore utiliser des données d'entraînement supplémentaires pour différencier leurs modèles de ceux de leurs concurrents.
Burt Davis, vice-président de Microsoft chargé de la propriété intellectuelle et avocat général adjoint, a souligné que le soutien de l'entreprise à ce projet s'inscrivait dans sa volonté plus large de créer des "pools de données accessibles" pour les startups d'IA qui sont "orientées vers l'intérêt public". En d'autres termes, Microsoft ne prévoit pas nécessairement de remplacer toutes les données d'entraînement à l'IA utilisées dans ses propres modèles par des alternatives du domaine public, telles que les livres de la nouvelle base de données de Harvard. "Nous utilisons des données accessibles au public pour entraîner nos modèles", a déclaré Burt Davis.
Avec des dizaines de procès concernant l'utilisation de données protégées par des droits d'auteur pour entraîner l'IA, l'avenir de la construction des outils d'IA reste incertain. Si les entreprises d'IA gagnent, elles pourront continuer à exploiter l'internet sans avoir à conclure d'accords de licence avec les détenteurs de droits d'auteur. En revanche, si elles perdent, les entreprises d'IA pourraient être contraintes de réformer complètement la manière dont elles créent leurs modèles. Des projets tels que la base de données de Harvard avancent à un rythme sans précédent, en partant du principe que, quoi qu'il arrive, il y aura une demande pour les ensembles de données...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.