La définition de l'IA open source obtient enfin sa première version candidate,

Mais à quel prix

Le 13 octobre 2024 à 11:08, par Bruno

360PARTAGES

La définition de l'IA open source obtient enfin sa première version candidate,
mais à quel prix ?

L'Open Source Initiative (OSI) a publié une première version candidate d'une définition d'intelligence artificielle open source après deux ans de travail. Cette définition clarifie les critères d'open source pour l'IA, incluant quatre libertés essentielles : utiliser, étudier, modifier et partager le système. Cependant, l'OSI a choisi un compromis concernant les données de formation, exigeant des informations détaillées plutôt que l'accès complet aux ensembles de données, ce qui suscite des critiques parmi certains puristes et entreprises. La définition insiste également sur la disponibilité du code source et des paramètres sous des licences approuvées. L'OSI prévoit d'améliorer le texte avant de publier la version finale en octobre 2024.

L'Open Source Initiative a franchi une étape importante dans l'élaboration d'une définition officielle de l'IA Open Source en annonçant la première version candidate de cette définition. Initié en 2022, le processus a impliqué une collecte de retours à l’échelle mondiale, comprenant cinq réunions publiques et des discussions. Désormais, les futures mises à jour se limiteront à des corrections de bugs, sans ajout de nouvelles fonctionnalités.

Envoyé par Open Source Initiative

Un peu plus d'un mois après la version 0.0.9, nous avons le plaisir d'annoncer la disponibilité d'une version Release Candidate de la Définition Open Source de l'IA. Ce progrès a été rendu possible grâce aux retours de la communauté, qui s'est exprimée lors de 5 réunions publiques, sur le forum, ainsi que lors d'événements en Autriche, en Chine, en Inde, au Sénégal et en Argentine.

Trois modifications clés ont été apportées à la section de la définition relative à la « forme préférée pour apporter des modifications à un système d'apprentissage automatique ».

L'un des changements majeurs concerne la nouvelle terminologie sur les données. Il est désormais stipulé que toutes les données d'apprentissage doivent être partagées et divulguées. Ce texte révisé résulte de nombreuses discussions passionnées avec des membres de la communauté, tant sur le forum qu’en personne. Ces échanges ont permis d’identifier quatre types de données : ouvertes, publiques, accessibles et non partageables, chacun ayant des exigences légales distinctes. Toutes doivent être partagées conformément à la législation en vigueur.

Deux autres ajouts importants sont également présents. La RC1 précise que le code doit être complet, permettant ainsi aux utilisateurs en aval de comprendre le processus de formation. Cela vise à renforcer la transparence et la sécurité, surtout dans un domaine où l’innovation est cruciale. Nous constatons que peu d’entreprises publient leur code de formation, et nous croyons qu’une telle divulgation est nécessaire pour permettre des modifications significatives des systèmes d'IA.

Enfin, un nouveau paragraphe reconnaît explicitement qu'il est acceptable d'imposer des conditions similaires à celles du copyleft pour tout code, données ou paramètres, individuellement ou combinés. Un exemple illustratif serait celui d’un consortium qui possède des droits sur un code de formation et un ensemble de données, et qui choisit de distribuer ce package sous des conditions juridiques communes avec des clauses de type copyleft. Bien qu'un tel cadre légal n'existe pas encore, son plausibilité mérite d'être explorée. L'OSI suivra attentivement cette question avec la communauté.

En ce qui concerne la science et la reproductibilité, il est important de préciser que l'objectif de l'Open Source n'est pas de garantir la reproductibilité des logiciels, et cela s'applique également à l'IA Open Source. L'Open Source ne doit pas être un obstacle à cette reproductibilité. Il est donc possible d’ajouter d'autres exigences, comme le fait l'initiative Reproducible Builds.

L’Open Source vise à donner à chacun la possibilité de « forker » (étudier et modifier) un système sans demander d'autorisation supplémentaire, afin de le rendre plus utile. C’est pourquoi l’OSD n° 2 exige que le « code source » soit fourni dans un format facilitant les modifications. Cela garantit que tout le monde a les mêmes droits pour améliorer le système. Dans le cadre de l'apprentissage automatique, forker signifie pouvoir créer un système qui se comporte différemment de son état d'origine, ce qui permet de résoudre des problèmes de sécurité, d'améliorer le comportement et d'éliminer des biais, grâce aux exigences de la Définition Open Source de l'IA.

Alors que nous entamons le cycle des versions candidates, le processus d'élaboration va évoluer : il n’y aura pas de nouvelles fonctionnalités, seulement des corrections de bogues. Nous nous concentrerons sur les nouveaux problèmes et les failles majeures nécessitant des modifications significatives du texte. L’accent sera mis sur la documentation, la liste de contrôle et la FAQ. Nous avons également constaté qu’en cherchant à résoudre le problème des données qui ne peuvent pas être partagées pour de bonnes raisons, nous avons omis de rappeler l'exigence fondamentale selon laquelle « si vous pouvez partager des données, vous devez le faire ». Des ajustements ont été faits dans la RC1, et nous solliciterons des avis pour mieux formuler cette exigence dans la RC2.

Au cours des prochaines semaines, jusqu'à la publication de la version 1.0 le 28 octobre, notre objectif est de recueillir davantage d'approbations pour la définition.

La définition stipule qu'un système d'IA est considéré open source s'il remplit quatre critères : il peut être utilisé à des fins diverses sans autorisation, ses composants peuvent être étudiés, il peut être modifié par quiconque, et il peut être partagé librement, avec ou sans modifications.

Trois changements notables ont été apportés depuis la dernière version, axés sur la manière de modifier un système d'apprentissage automatique. D'abord, un nouveau libellé clarifie l'obligation de partager les données de formation. Ensuite, le code doit être suffisamment complet pour permettre aux utilisateurs en aval de comprendre le processus de formation. Enfin, le texte indique qu'il est acceptable d'imposer des conditions de type copyleft pour le code, les informations sur les données et les paramètres, que ce soit individuellement ou regroupés.

L'OSI souligne que l'objectif de l'open source n'est pas simplement de garantir un logiciel reproductible, mais de permettre à chacun de forker un système, favorisant ainsi l'innovation. À cet effet, la définition exige que le code source soit fourni sous une forme qui facilite les modifications. Ce processus de fork permet de résoudre des problèmes de sécurité et de corriger des biais, grâce aux exigences de l'Open Source AI Definition. Pour l'avenir, l'OSI se concentrera sur la création de la documentation, de la liste de contrôle et de la FAQ pour cette définition, avec une version officielle 1.0 prévue pour le 28 octobre.

« Y compris contre rémunération » : une clause ambiguë qui risque de saboter l’IA Open Source

La version candidate de la Définition Open Source de l'IA soulève de sérieuses préoccupations, notamment en ce qui concerne le compromis sur le partage des données de formation. En ne nécessitant pas la divulgation complète des ensembles de données, l'OSI compromet l'idée même de l'open source. Les critiques estiment qu'un accès total aux données est essentiel pour garantir la transparence et la crédibilité des systèmes d'IA. Sans cela, ces modèles risquent de ne pas être considérés comme véritablement open source, ce qui pourrait limiter l'innovation et enfermer l'IA dans une niche restreinte.

L'inclusion de l'expression « y compris contre rémunération » soulève également des inquiétudes légitimes, notamment dans des contextes juridiques comme celui du Japon. Cette clause pourrait engendrer des ambiguïtés sur les droits d'utilisation des données, et pourrait renforcer l'opposition à l'IA en alimentant des craintes concernant l'exploitation commerciale des données. Il est préoccupant que l'OSI semble ne pas prendre en compte l'impact potentiel de cette formulation sur la perception et l'acceptabilité de l'IA open source.

En outre, le lien établi entre transparence et innovation dans cette définition peut se révéler problématique. Alors que l'OSI affirme que la transparence du code et des processus de formation est cruciale pour l'innovation, cela doit être mis en balance avec les intérêts commerciaux des entreprises qui voient leurs méthodes de formation comme des secrets commerciaux. Ce dilemme pourrait dissuader les entreprises de participer à l'open source, ce qui irait à l'encontre des objectifs d’innovation collaborative.

Bien que l'OSI indique qu'elle est ouverte à des révisions et à l'amélioration continue de la définition, cela laisse planer un doute sur sa robustesse. Les inquiétudes soulevées par les critiques montrent qu'il existe des failles majeures qui nécessitent une attention urgente. Il est impératif que l'OSI prenne en compte ces retours pour éviter que la définition ne devienne trop permissive et pour garantir qu'elle reste fidèle aux valeurs fondamentales de l'open source.

Source : Open Source Initiative

Et vous ?

Quel est votre avis sur le sujet ?

Les informations détaillées sur les données de formation suffisent-elles réellement à garantir la crédibilité et la transparence des modèles d'IA, ou cela ouvre-t-il la porte à des interprétations floues ?

L'OSI prend-elle suffisamment en compte les préoccupations des puristes de l'open source, ou la définition privilégie-t-elle des intérêts commerciaux au détriment des valeurs fondamentales ?

Voir aussi :

L'IA open source est la voie à suivre, car elle permet à un plus grand nombre de personnes dans le monde d'avoir accès aux avantages et aux opportunités de l'IA, par Mark Zuckerberg, fondateur et PDG de Meta

Flux, une nouvelle IA générative texte-image open-source avec 12 milliards de paramètres, bat Midjourney, Stable Diffusion 3 et Auraflow, par Black Forest Labs, l'équipe de l'original Stable Diffusion

Google lance le premier "système d'agents d'IA" au monde, le projet Oscar, une plateforme open-source qui permet aux équipes de développement d'utiliser des agents d'IA pour gérer des projets logiciels

Vous avez lu gratuitement 2 604 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La définition de l'IA open source obtient enfin sa première version candidate,

Mais à quel prix

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

La définition de l'IA open source obtient enfin sa première version candidate, Mais à quel prix

La définition de l'IA open source obtient enfin sa première version candidate,

Mais à quel prix