IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le laboratoire d'IA privé français PleIAs annonce un ensemble de données multilingues entièrement ouvert pour la formation de LLM
Contenant plus de 2 000 milliards de jetons de contenu sous licence autorisée

Le , par Jade Emy

128PARTAGES

7  0 
Le laboratoire d'IA privé français PleIAs annonce "le plus grand ensemble de données multilingues entièrement ouvert" pour la formation de LLM. Common Corpus contiendrait plus de 2 000 milliards de jetons de contenu sous licence autorisée avec des informations sur la provenance. PleIAs assure que l'ensemble de données est de haute qualité et qu'il est conçu pour entraîner des modèles puissants.

Nombreux sont ceux qui affirment que la formation de grands modèles de langage (LLM) nécessite des données protégées par des droits d'auteur, ce qui rend impossible le développement d'une IA véritablement ouverte. Cependant, Pleias annonce le contraire en publiant Common Corpus (dans le cadre de l'initiative AI Alliance Open Trusted Data), qualifié de plus grand ensemble de données multilingues entièrement ouvert pour la formation des LLM, qui contient plus de 2 000 milliards de jetons de contenu sous licence autorisée avec des informations de provenance (2 003 039 184 047 jetons).

Alors que les développeurs répondent aux pressions exercées par les nouvelles réglementations telles que la loi européenne sur l'IA, Common Corpus veut aller au-delà de la conformité en mettant à disposition gratuitement sur HuggingFace l'intégralité de son ensemble de données sous licence autorisée, avec une documentation détaillée de chaque source de données. Le laboratoire d'IA privé français PleIAs assure avoir pris des mesures importantes pour que l'ensemble de données soit de haute qualité et qu'il est conçu pour entraîner des modèles puissants. Son objectif étant de démontrer qu'il n'est pas nécessaire de faire un compromis entre l'ouverture et la performance.


Common Corpus est :

  • Ouvert : ne contient que des données sous licence permissive et dont la provenance est documentée.
  • Multilingue : représente principalement des données en anglais et en français, mais contient au moins 1 milliard de jetons pour plus de 30 langues.
  • Divers : articles scientifiques, documents gouvernementaux et juridiques, codes et données du patrimoine culturel, y compris des livres et des journaux.
  • Curation approfondie : l'orthographe et la mise en forme des textes numérisés ont été corrigées, les contenus nuisibles et toxiques ont été supprimés et les contenus à faible valeur éducative ont également été retirés.


Le laboratoire d'IA PleIAs commente cette annonce :

Le Common Corpus s'appuie sur un écosystème croissant de grands ensembles de données ouvertes, tels que Dolma, FineWeb, RefinedWeb. Le Common Pile actuellement en préparation sous la coordination d'Eleuther est construit autour du même principe d'utilisation de contenus autorisés en langue anglaise et, sans surprise, il y a eu de nombreuses opportunités de collaborations et d'efforts partagés. Mais même ensemble, ces ensembles de données ne fournissent pas suffisamment de données d'entraînement pour des modèles dépassant quelques milliards de paramètres. Pour élargir les possibilités d'apprentissage de modèles ouverts, nous avons donc besoin de davantage de données ouvertes.

Et il ne suffit pas que les données soient ouvertes. Certains ensembles de données soulèvent des problèmes, tels que ceux dérivés de textes récupérés sur le web, qui ont alimenté de nombreux modèles de langage. Il est souvent impossible de retracer l'origine du contenu, et les données elles-mêmes peuvent être disproportionnellement toxiques ou de mauvaise qualité, et de plus en plus de sites web restreignent l'accès à leurs données. Sur la base d'une analyse d'un million d'interactions d'utilisateurs avec ChatGPT, la majorité des demandes d'utilisateurs concernent des compositions créatives, la composition académique et la génération de code représentant des portions plus petites mais significatives des demandes. En comparaison, les nouvelles et les informations générales représentent une part relativement faible des demandes. Cela ne reflète pas les ensembles de données ouvertes qui sont disponibles et utilisés pour former les LLM, qui contiennent beaucoup de contenu informationnel de type encyclopédique et textuel. Le type de contenu dont nous avons réellement besoin - comme l'écriture créative - est généralement soumis à des restrictions en matière de droits d'auteur.

Présentation de Common Corpus

Common Corpus présente cinq collections de données :

[LIST][*]OpenCulture : la plus grande collection avec 926 541 096 243 jetons, comprenant des livres du domaine public, des...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !