IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

StarCoder 2 : un outil d'IA de génération code qui fonctionnerait sur la plupart des GPU grand public modernes,
Il serait plus performant que Code Llama 33B de Meta et prétendument open source

Le , par Mathis Lucas

272PARTAGES

5  0 
Hugging Face, Nvidia et ServiceNow ont récemment dévoilé la nouvelle génération de l'assistant d'IA de génération de code StarCoder. Cette nouvelle mouture vise à offrir une meilleure alternative aux développeurs. Il s'agit d'une famille de modèles qui fonctionneraient sur la plupart des GPU grand public et qui pourraient être affinés et déployés localement. Il prétend également offrir des performances, une transparence et une éthique accrues par rapport aux autres générateurs de code. Cependant, StarCoder est controversé, les critiques affirmant que les restrictions dont il fait l'objet l'empêchent d'être un outil de génération de code entièrement open source.

StarCoder 2 : un générateur de code qui serait plus performant que Code Llama

Les outils d'IA de génération de code se popularisent de plus en plus avec des acteurs établis comme GitHub Copilot, Amazon CodeWhisperer ou Code Llama. Toutefois, ces outils sont loin d'être idéaux. Beaucoup ne sont pas libres. D'autres le sont, mais seulement sous des licences qui les empêchent d'être utilisés dans des contextes commerciaux courants. Meta affirme que Code Llama est un outil open source, mais il est distribué sous une licence restrictive qui fait l'objet de controverses dans la communauté. En réponse à ces restrictions, Hugging Face et ServiceNow ont lancé en 2023 le modèle open source StarCoder.


D'après l'équipe, StarCoder est un assistant d'IA open source de génération de code dont la licence est moins restrictive que celle de certains des autres outils existants. L'équipe vient de lancer StarCoder 2 et affirme que cette nouvelle version s'appuie sur l'originale en utilisant plus de données, plus de paramètres et plus de collaborateurs. Il existe trois variantes et, selon l'équipe, les deux premières peuvent fonctionner sur la plupart des GPU grand public modernes :

  1. un modèle de 3 milliards de paramètres (3B) formé par ServiceNow ;
  2. un modèle de 7 milliards de paramètres (7B) formé par Hugging Face ;
  3. un modèle de 15 milliards de paramètres (15B) entraîné par Nvidia.


Pour mémoire, les paramètres sont les parties d'un modèle d'IA qui sont apprises à partir des données et qui déterminent ses compétences pour une tâche donnée. Dans le cas présent, il s'agit de générer du code. Le modèle aurait été entraîné sur 67,5 téraoctets de données de code provenant de Software Heritage, une organisation à but non lucratif qui archive du code provenant de diverses sources. Cela représente dix fois plus de données que la version initiale de StarCoder, qui utilisait 6,4 téraoctets. Selon l'équipe, StarCoder 2 offre des performances "significativement" améliorées à des coûts d'exploitation inférieurs.

Comme la plupart des autres générateurs de code, StarCoder 2 peut suggérer différentes façons de compléter les lignes de code inachevées, ainsi que résumer et récupérer des bribes de code lorsqu'on lui pose des questions en langage naturel. Il peut aussi être affiné sur des données personnalisées pour créer des applications spécifiques, telles que des chatbots ou des assistants de codage personnels. Cela pourrait se faire en quelques heures à l'aide d'un GPU comme le Nvidia A100. De plus, il peut apprendre à partir du code source ou de la base de code d'un développeur, ce qui le rend plus adaptatif et personnalisé.

« StarCoder 2 a été créé spécialement pour les développeurs qui ont besoin de créer des applications rapidement. Avec StarCoder2, les développeurs peuvent utiliser ses capacités pour rendre le codage plus efficace sans sacrifier la vitesse ou la qualité », a déclaré Harm de Vries, responsable de l'équipe de développement StarCoder 2 chez ServiceNow, lors d'une interview accordée à TechCrunch. L'équipe indique que StarCoder est "entièrement" open source, mais dans la communauté, la licence fait toutefois l'objet de controverses.

Les principales caractéristiques et les avantages du générateur de code StarCoder 2

Selon les créateurs de StarCoder 2, les principaux avantages de leur générateur de code sont les suivants :

  • performance : StarCoder serait capable de générer du code plus rapidement et avec plus de précision que d'autres générateurs de code, comme Code Llama, un modèle populaire en libre accès. Hugging Face affirme que StarCoder 2 15B peut égaler Code Llama 33B sur certaines tâches de complétion de code à une vitesse deux fois supérieure ;
  • transparence : l'équipe affirme que StarCoder est "entièrement ouvert et reproductible". Les développeurs peuvent accéder aux modèles, au code source, aux données d'entraînement et à la méthode d'entraînement à partir de la page GitHub du projet. Ils peuvent également réaliser un fork, reproduire ou auditer les modèles à leur guise. Cela permet aux développeurs de mieux comprendre et contrôler le fonctionnement du générateur de code et les données qu'il utilise ;
  • éthique : StarCoder est sous licence BigCode Open RAIL-M 1.0, une licence qui, selon l'équipe, encourage l'utilisation responsable de l'IA en imposant certaines restrictions aux détenteurs de licences du modèle et aux utilisateurs en aval ;
  • la licence empêche les utilisateurs d'utiliser StarCoder, par exemple, pour les applications de conseils médicaux ou à des fins malveillantes. La licence vise également à se conformer aux lois et réglementations en vigueur, telles que la loi européenne sur l'IA ;
  • l'équipe affirme que StarCoder 2 n'a été entraîné que sur des données sous licence du Software Heritage, et les propriétaires de code ont eu la possibilité de se retirer de l'ensemble d'entraînement. Cela réduit le risque de violation des droits de propriété intellectuelle ou d'exposition d'informations sensibles.


Les limites de StarCoder 2 et les potentiels inconvénients relatifs à son utilisation

Malgré ses avantages, StarCoder 2 n'est pas parfait. Il présente quelques limitations et défis, tels que :

[LIST][*]licence : la licence de StarCoder 2, bien que moins restrictive que d'autres, n'est pas vraiment ouverte. Elle impose toujours certaines conditions qui peuvent ne pas convenir à tous les développeurs ou à tous les cas d'utilisation. Certains critiques affirment également que la licence est trop vague ou trop complexe à suivre et qu'elle peut entrer en conflit avec d'autres réglementations ou licences ;[*][*]sécurité : StarCoder 2, comme d'autres générateurs de code, peut introduire des failles de sécurité dans le code qu'il produit. Une étude de Stanford a montré que les ingénieurs qui utilisent des systèmes de génération de code sont plus susceptibles de créer...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de mach1974
Membre averti https://www.developpez.com
Le 01/03/2024 à 17:22
la librairie Tensorflow est multi gpu avec le cpython ...
0  0