Nombreux sont ceux qui affirment que la formation de grands modèles de langage (LLM) nécessite des données protégées par des droits d'auteur, ce qui rend impossible le développement d'une IA véritablement ouverte. Cependant, Pleias annonce le contraire en publiant Common Corpus (dans le cadre de l'initiative AI Alliance Open Trusted Data), qualifié de plus grand ensemble de données multilingues entièrement ouvert pour la formation des LLM, qui contient plus de 2 000 milliards de jetons de contenu sous licence autorisée avec des informations de provenance (2 003 039 184 047 jetons).
Alors que les développeurs répondent aux pressions exercées par les nouvelles réglementations telles que la loi européenne sur l'IA, Common Corpus veut aller au-delà de la conformité en mettant à disposition gratuitement sur HuggingFace l'intégralité de son ensemble de données sous licence autorisée, avec une documentation détaillée de chaque source de données. Le laboratoire d'IA privé français PleIAs assure avoir pris des mesures importantes pour que l'ensemble de données soit de haute qualité et qu'il est conçu pour entraîner des modèles puissants. Son objectif étant de démontrer qu'il n'est pas nécessaire de faire un compromis entre l'ouverture et la performance.
Common Corpus est :
- Ouvert : ne contient que des données sous licence permissive et dont la provenance est documentée.
- Multilingue : représente principalement des données en anglais et en français, mais contient au moins 1 milliard de jetons pour plus de 30 langues.
- Divers : articles scientifiques, documents gouvernementaux et juridiques, codes et données du patrimoine culturel, y compris des livres et des journaux.
- Curation approfondie : l'orthographe et la mise en forme des textes numérisés ont été corrigées, les contenus nuisibles et toxiques ont été supprimés et les contenus à faible valeur éducative ont également été retirés.
Le laboratoire d'IA PleIAs commente cette annonce :
Le Common Corpus s'appuie sur un écosystème croissant de grands ensembles de données ouvertes, tels que Dolma, FineWeb, RefinedWeb. Le Common Pile actuellement en préparation sous la coordination d'Eleuther est construit autour du même principe d'utilisation de contenus autorisés en langue anglaise et, sans surprise, il y a eu de nombreuses opportunités de collaborations et d'efforts partagés. Mais même ensemble, ces ensembles de données ne fournissent pas suffisamment de données d'entraînement pour des modèles dépassant quelques milliards de paramètres. Pour élargir les possibilités d'apprentissage de modèles ouverts, nous avons donc besoin de davantage de données ouvertes.
Et il ne suffit pas que les données soient ouvertes. Certains ensembles de données soulèvent des problèmes, tels que ceux dérivés de textes récupérés sur le web, qui ont alimenté de nombreux modèles de langage. Il est souvent impossible de retracer l'origine du contenu, et les données elles-mêmes peuvent être disproportionnellement toxiques ou de mauvaise qualité, et de plus en plus de sites web restreignent l'accès à leurs données. Sur la base d'une analyse d'un million d'interactions d'utilisateurs avec ChatGPT, la majorité des demandes d'utilisateurs concernent des compositions créatives, la composition académique et la génération de code représentant des portions plus petites mais significatives des demandes. En comparaison, les nouvelles et les informations générales représentent une part relativement faible des demandes. Cela ne reflète pas les ensembles de données ouvertes qui sont disponibles et utilisés pour former les LLM, qui contiennent beaucoup de contenu informationnel de type encyclopédique et textuel. Le type de contenu dont nous avons réellement besoin - comme l'écriture créative - est généralement soumis à des restrictions en matière de droits d'auteur.
Et il ne suffit pas que les données soient ouvertes. Certains ensembles de données soulèvent des problèmes, tels que ceux dérivés de textes récupérés sur le web, qui ont alimenté de nombreux modèles de langage. Il est souvent impossible de retracer l'origine du contenu, et les données elles-mêmes peuvent être disproportionnellement toxiques ou de mauvaise qualité, et de plus en plus de sites web restreignent l'accès à leurs données. Sur la base d'une analyse d'un million d'interactions d'utilisateurs avec ChatGPT, la majorité des demandes d'utilisateurs concernent des compositions créatives, la composition académique et la génération de code représentant des portions plus petites mais significatives des demandes. En comparaison, les nouvelles et les informations générales représentent une part relativement faible des demandes. Cela ne reflète pas les ensembles de données ouvertes qui sont disponibles et utilisés pour former les LLM, qui contiennent beaucoup de contenu informationnel de type encyclopédique et textuel. Le type de contenu dont nous avons réellement besoin - comme l'écriture créative - est généralement soumis à des restrictions en matière de droits d'auteur.
Common Corpus présente cinq collections de données :
- OpenCulture : la plus grande collection avec 926 541 096 243 jetons, comprenant des livres du domaine public, des journaux et du contenu Wikisource. PleIAs a développé des outils tels que OCROnos-Vintage pour corriger les erreurs de numérisation historique, tout en mettant en œuvre un filtrage de toxicité avancé pour garantir que le contenu respecte les normes éthiques modernes.
- OpenGovernment : 387 965 738 992 jetons de documents financiers et juridiques, y compris Finance Commons (provenant de sources telles que la SEC et l'OMC) et Legal Commons (y compris Europarl et Caselaw Access Project), fournissant des données de formation de niveau entreprise provenant d'organismes de réglementation et de sources administratives.
- OpenSource : 334 658 896 533 jetons de code de haute qualité en open source provenant de GitHub, filtrés à l'aide d'ArmoRM pour s'assurer que seuls les 80 % de soumissions les plus élevées en termes de qualité sont inclus.
- OpenScience : 221 798 136 564 jetons de contenu académique provenant d'Open Alex et d'autres référentiels scientifiques ouverts, traités à l'aide de modèles de vision-langage afin de préserver la structure et le formatage des documents.
- OpenWeb : 132 075 315 715 jetons provenant de Wikipedia, YouTube Commons et d'autres sites web disponibles sous des licences autorisées comme Stack-Exchange.
Langue disponible
Bien que l'anglais reste la langue principale avec 867 033 096 123 jetons, Common Corpus fait des pas importants vers la diversité linguistique dans les données d'entraînement à l'IA. PleIAs fournit une couverture substantielle du français (266 milliards de jetons) et de l'allemand (112 milliards de jetons). En outre, PleIAs annonce une large couverture linguistique avec plus de 1 milliard de jetons dans plus de 30 langues, y compris des collections en espagnol, italien et néerlandais.
Cette diversité linguistique, associée à aux corpus de codes (18,8 % des données totales), contribue à démocratiser le développement de l'IA au-delà des régions anglophones. En fournissant des données de haute qualité, sous licence autorisée, dans de nombreuses langues, le laboratoire d'IA veille à ce que les avantages économiques de l'IA linguistique puissent être partagés plus équitablement entre les communautés linguistiques.
Traitement et qualité des données
Des données d'entraînement de haute qualité ont un impact direct sur les performances des modèles, mais pour atteindre cette qualité, il faut plus que la déduplication et le filtrage standard utilisés pour les ensembles de données récupérées sur le Web. Dans ce sens, PleIAs affirme avoir développé une série d'outils et d'approches spécialisés, chacun adapté aux défis uniques des différents types de données.
Pour les textes historiques d'OpenCulture, ils ont créé OCRonos-Vintage, un modèle de correction OCR qui corrige les erreurs de numérisation à grande échelle. Fonctionnant sur CPU et GPU, ce modèle de 124 millions de paramètres corrige les problèmes d'espacement, remplace les mots incorrects et répare les structures de texte brisées.
Deuxièmement, ils ont développé un système spécialisé de détection de toxicité pour les contenus historiques multilingues, qui identifie et supprime le langage nuisible concernant les groupes minorisés sans supprimer excessivement de données. Ce classificateur de toxicité et les outils associés sont accessibles au public sur HuggingFace.
Le contenu académique des PDF a nécessité une approche différente. Au lieu d'une simple extraction de texte, PleIAs aurait utilisé des modèles vision-langage pour préserver la structure cruciale du document, en maintenant la relation sémantique entre les titres, les sections et le contenu.
Pour la qualité du code, ils ont intégré ArmoRM pour évaluer la complexité, le style et la documentation, en ne conservant que le code dépassant un certain seuil de qualité.
Le laboratoire PleIAs conclut l'annonce :
La protection de la vie privée et la conformité au RPGD étaient également des considérations essentielles. Nous avons développé des systèmes de détection des informations personnelles identifiables (IPI) spécifiques à chaque région qui prennent en compte les différents formats d'informations sensibles comme les numéros de téléphone et les adresses dans les différents pays, garantissant ainsi une conformité uniforme dans l'ensemble de notre jeu de données multilingues.
Tous nos outils et processus de curation sont open-source, établissant de nouvelles normes de transparence dans le développement des ensembles de données.
Tous nos outils et processus de curation sont open-source, établissant de nouvelles normes de transparence dans le développement des ensembles de données.
Et vous ?
Pensez-vous que cet ensemble de données entièrement ouvert est crédible ou pertinent ?
Quel est votre avis sur le sujet ?
Voir aussi :
Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données
L'IA open source est la voie à suivre, car elle permet à un plus grand nombre de personnes dans le monde d'avoir accès aux avantages et aux opportunités de l'IA, par Mark Zuckerberg, fondateur et PDG de Meta
« Il est impossible de créer des outils comme ChatGPT sans contenus sous copyright », selon OpenAI, qui suscite des réactions dont celles de fermer le service ou de l'amener à rémunérer les auteurs
« L'open source aura un impact plus important sur l'avenir des modèles de langage que le grand public ne le pense », selon un ingénieur logiciel qui affirme que l'IA open source est plus sûre