Un peu plus d'un mois après la version 0.0.9, nous avons le plaisir d'annoncer la disponibilité d'une version Release Candidate de la Définition Open Source de l'IA. Ce progrès a été rendu possible grâce aux retours de la communauté, qui s'est exprimée lors de 5 réunions publiques, sur le forum, ainsi que lors d'événements en Autriche, en Chine, en Inde, au Sénégal et en Argentine.



Trois modifications clés ont été apportées à la section de la définition relative à la « forme préférée pour apporter des modifications à un système d'apprentissage automatique ».



L'un des changements majeurs concerne la nouvelle terminologie sur les données. Il est désormais stipulé que toutes les données d'apprentissage doivent être partagées et divulguées. Ce texte révisé résulte de nombreuses discussions passionnées avec des membres de la communauté, tant sur le forum qu’en personne. Ces échanges ont permis d’identifier quatre types de données : ouvertes, publiques, accessibles et non partageables, chacun ayant des exigences légales distinctes. Toutes doivent être partagées conformément à la législation en vigueur.



Deux autres ajouts importants sont également présents. La RC1 précise que le code doit être complet, permettant ainsi aux utilisateurs en aval de comprendre le processus de formation. Cela vise à renforcer la transparence et la sécurité, surtout dans un domaine où l’innovation est cruciale. Nous constatons que peu d’entreprises publient leur code de formation, et nous croyons qu’une telle divulgation est nécessaire pour permettre des modifications significatives des systèmes d'IA.



Enfin, un nouveau paragraphe reconnaît explicitement qu'il est acceptable d'imposer des conditions similaires à celles du copyleft pour tout code, données ou paramètres, individuellement ou combinés. Un exemple illustratif serait celui d’un consortium qui possède des droits sur un code de formation et un ensemble de données, et qui choisit de distribuer ce package sous des conditions juridiques communes avec des clauses de type copyleft. Bien qu'un tel cadre légal n'existe pas encore, son plausibilité mérite d'être explorée. L'OSI suivra attentivement cette question avec la communauté.



En ce qui concerne la science et la reproductibilité, il est important de préciser que l'objectif de l'Open Source n'est pas de garantir la reproductibilité des logiciels, et cela s'applique également à l'IA Open Source. L'Open Source ne doit pas être un obstacle à cette reproductibilité. Il est donc possible d’ajouter d'autres exigences, comme le fait l'initiative Reproducible Builds.



L’Open Source vise à donner à chacun la possibilité de « forker » (étudier et modifier) un système sans demander d'autorisation supplémentaire, afin de le rendre plus utile. C’est pourquoi l’OSD n° 2 exige que le « code source » soit fourni dans un format facilitant les modifications. Cela garantit que tout le monde a les mêmes droits pour améliorer le système. Dans le cadre de l'apprentissage automatique, forker signifie pouvoir créer un système qui se comporte différemment de son état d'origine, ce qui permet de résoudre des problèmes de sécurité, d'améliorer le comportement et d'éliminer des biais, grâce aux exigences de la Définition Open Source de l'IA.



Alors que nous entamons le cycle des versions candidates, le processus d'élaboration va évoluer : il n’y aura pas de nouvelles fonctionnalités, seulement des corrections de bogues. Nous nous concentrerons sur les nouveaux problèmes et les failles majeures nécessitant des modifications significatives du texte. L’accent sera mis sur la documentation, la liste de contrôle et la FAQ. Nous avons également constaté qu’en cherchant à résoudre le problème des données qui ne peuvent pas être partagées pour de bonnes raisons, nous avons omis de rappeler l'exigence fondamentale selon laquelle « si vous pouvez partager des données, vous devez le faire ». Des ajustements ont été faits dans la RC1, et nous solliciterons des avis pour mieux formuler cette exigence dans la RC2.



Au cours des prochaines semaines, jusqu'à la publication de la version 1.0 le 28 octobre, notre objectif est de recueillir davantage d'approbations pour la définition.