Le domaine de la « code intelligence » se concentre sur la création de modèles avancés capables de comprendre et de générer du code de programmation. Ce domaine interdisciplinaire s'appuie sur le traitement du langage naturel et le génie logiciel pour améliorer l'efficacité et la précision de la programmation. Les chercheurs ont mis au point des modèles permettant d'interpréter le code, de générer de nouveaux extraits de code et de déboguer le code existant. Ces avancées réduisent l'effort manuel nécessaire aux tâches de codage, ce qui rend le processus de développement plus rapide et plus fiable. Les modèles de code intelligence se sont progressivement améliorés et sont prometteurs dans diverses applications, du développement de logiciels à l'éducation et au-delà.
La disparité de performance entre les modèles de code open source et les modèles à source fermée de pointe constitue un défi important en matière de code intelligence. Malgré les efforts considérables de la communauté des logiciels libres, ces modèles doivent rattraper leurs homologues à code fermé dans des tâches spécifiques de codage et de raisonnement mathématique. Cette lacune constitue un obstacle à l'adoption généralisée des solutions à code source ouvert dans les milieux professionnels et éducatifs. Des modèles open-source plus puissants et plus précis sont essentiels pour démocratiser l'accès aux outils de codage avancés et encourager l'innovation dans le développement de logiciels.
Les méthodes existantes en matière de code intelligence comprennent des modèles open-source notables tels que StarCoder, CodeLlama et le DeepSeek-Coder original. Ces modèles ont fait l'objet d'améliorations constantes grâce aux contributions de la communauté open-source. Cependant, ils doivent encore rattraper les capacités des principaux modèles à source fermée tels que GPT4-Turbo, Claude 3 Opus et Gemini 1.5 Pro. Ces modèles fermés bénéficient de vastes ensembles de données propriétaires et d'importantes ressources informatiques, ce qui leur permet d'obtenir des résultats exceptionnels dans les tâches de codage et de raisonnement mathématique. Malgré ces avancées, le besoin d'alternatives open-source compétitives demeure.
Vient alors DeepSeek-V2
La startup chinoise DeepSeek, qui a déjà fait parler d'elle avec un concurrent de ChatGPT entraîné sur 2 000 milliards de jetons anglais et chinois, a annoncé la sortie de DeepSeek Coder V2, un modèle de langage de code open-source issu d'un mélange d'experts (MoE).
Basé sur DeepSeek-V2, un modèle MoE lancé le mois dernier, DeepSeek Coder V2 excelle à la fois dans les tâches de codage et de mathématiques. Il prend en charge plus de 300 langages de programmation et surpasse les modèles fermés de pointe, notamment GPT-4 Turbo, Claude 3 Opus et Gemini 1.5 Pro. L'entreprise affirme que c'est la première fois qu'un modèle ouvert réalise cet exploit, devançant de loin le Llama 3-70B et d'autres modèles de la catégorie.
Elle note également que DeepSeek Coder V2 conserve des performances comparables en termes de raisonnement général et de capacités linguistiques.
Le modèle DeepSeek-Coder-V2 se décline en quatre variantes distinctes, chacune adaptée à des cas d'utilisation et à des besoins de performance spécifiques :
- DeepSeek-Coder-V2-Instruct : conçue pour les tâches de génération de texte avancées, cette variante est optimisée pour les scénarios de codage basés sur des instructions, offrant des capacités solides pour la génération et la compréhension de codes complexes.
- DeepSeek-Coder-V2-Base : cette variante offre une base solide pour la génération de texte général, adaptée à un large éventail d'applications, et sert de modèle de base sur lequel les autres variantes sont construites.
- DeepSeek-Coder-V2-Lite-Base : cette version légère du modèle de base met l'accent sur l'efficacité, ce qui la rend idéale pour les environnements disposant de ressources informatiques limitées, tout en offrant de bonnes performances dans les tâches de génération de texte.
- DeepSeek-Coder-V2-Lite-Instruct : combinant l'efficacité de la série Lite avec les capacités optimisées pour les instructions, cette variante excelle dans les tâches basées sur les instructions, fournissant une solution équilibrée pour une génération de code et une compréhension de texte à la fois efficaces et puissantes.
Qu'apporte DeepSeek Coder V2 ?
Fondée l'année dernière avec pour mission de « percer le mystère de l'IA avec curiosité », DeepSeek est un acteur chinois notable dans la course à l'IA, rejoignant des entreprises telles que Qwen, 01.AI et Baidu. En fait, moins d'un an après son lancement, l'entreprise a déjà mis en libre accès un certain nombre de modèles, dont la famille DeepSeek Coder.
Le DeepSeek Coder original, avec jusqu'à 33 milliards de paramètres, a obtenu des résultats satisfaisants sur les benchmarks avec des capacités telles que l'achèvement du code au niveau du projet et le remplissage, mais il ne prenait en charge que 86 langages de programmation et une fenêtre contextuelle de 16K. La nouvelle offre V2 s'appuie sur ce travail, en étendant la prise en charge des langages à 338 et la fenêtre de contexte à 128K - ce qui lui permet de gérer des tâches de codage plus complexes et plus étendues.
DeepSeek-Coder-V2 a surpassé les principaux modèles à source fermée dans les tâches de codage et de mathématiques lors des évaluations de référence. Le modèle a obtenu un score de 90,2 % sur le benchmark HumanEval, ce qui représente une amélioration notable par rapport à ses prédécesseurs. En outre, il a obtenu un score de 75,7 % sur le benchmark MATH, démontrant ainsi ses capacités de raisonnement mathématique améliorées. Par rapport aux versions précédentes, DeepSeek-Coder-V2 a fait des progrès significatifs en termes de précision et de performance, ce qui en fait un concurrent redoutable dans le domaine de l'intelligence des codes. La capacité du modèle à gérer des tâches de codage complexes et étendues marque une étape importante dans le développement de modèles de code open-source.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">DeepSeek-Coder-V2: First Open Source Model Beats GPT4-Turbo in Coding and Math<br><br>> Excels in coding and math, beating GPT4-Turbo, Claude3-Opus, Gemini-1.5Pro, Codestral.<br>> Supports 338 programming languages and 128K context length.<br>> Fully open-sourced with two sizes: 230B (also… <a href="https://t.co/6wocYVPPrj">pic.twitter.com/6wocYVPPrj</a></p>— DeepSeek (@deepseek_ai) <a href="https://twitter.com/deepseek_ai/status/1802680388256768145?ref_src=twsrc%5Etfw">June 17, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Le seul modèle qui a réussi à surpasser l'offre de DeepSeek sur plusieurs benchmarks est le GPT-4o, qui a obtenu des scores légèrement supérieurs dans HumanEval, LiveCode Bench, MATH et GSM8K.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">In the Arena-Hard-Auto leaderboard, DeepSeek-Coder-V2 surpasses Yi-large,Claude3-Opus, GLM4, and Qwen2-72B. <a href="https://t.co/BJk7Gvwd3U">pic.twitter.com/BJk7Gvwd3U</a></p>— DeepSeek (@deepseek_ai) <a href="https://twitter.com/deepseek_ai/status/1802680392497168510?ref_src=twsrc%5Etfw">June 17, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
DeepSeek affirme avoir réalisé ces avancées techniques et de performance en utilisant comme base DeepSeek V2, qui est basé sur son cadre Mixture of Experts. Essentiellement, l'entreprise a pré-entraîné le modèle de base V2 sur un ensemble de données supplémentaire de 6 000 milliards de jetons - comprenant principalement des données liées au code et aux mathématiques provenant de GitHub et de CommonCrawl.
Cela permet au modèle, qui comporte 16 et 236 milliards de paramètres, de n'activer que 2,4 et 21 milliards de paramètres « experts » pour traiter les tâches à accomplir, tout en optimisant les divers besoins en matière de calcul et d'application.
De bonnes performances en langage général et en raisonnement
En plus d'exceller dans les tâches de codage et de mathématiques, DeepSeek Coder V2 offre également des performances décentes dans les tâches de raisonnement général et de compréhension du langage.
Par exemple, dans le test de référence MMLU conçu pour évaluer la compréhension du langage dans plusieurs tâches, il a obtenu un score de 79,2. Ce résultat est bien meilleur que celui d'autres modèles spécifiques à un code et presque similaire à celui du Llama-3 70B. GPT-4o et Claude 3 Opus, pour leur part, continuent de mener la catégorie MMLU avec des scores de 88,7 et 88,6, respectivement. Le GPT-4 Turbo suit de près.
Cette évolution montre que les modèles open source destinés à coder excellent enfin dans tous les domaines (et pas seulement dans leurs principaux cas d'utilisation) et qu'ils se rapprochent des modèles à code fermé de pointe.
Conclusion
En somme, l'introduction de DeepSeek-Coder-V2 par les chercheurs représente une avancée significative dans le domaine du code intelligence. En s'attaquant à la disparité de performance entre les modèles open-source et les modèles fermés, cette recherche fournit un outil puissant et accessible pour le codage et le raisonnement mathématique.
L'architecture du modèle, son vaste ensemble de données d'entraînement et ses performances de référence supérieures soulignent son potentiel à révolutionner le paysage. En tant qu'alternative open-source, DeepSeek-Coder-V2 améliore l'efficacité du codage et encourage l'innovation et la collaboration au sein de la communauté des développeurs de logiciels. Cette recherche souligne l'importance de poursuivre les efforts pour améliorer les modèles open-source, en veillant à ce que tous les outils de codage avancés soient disponibles.
Dès à présent, DeepSeek Coder V2 est proposé sous une licence MIT, qui permet à la fois la recherche et l'utilisation commerciale sans restriction. Les utilisateurs peuvent télécharger des avatars de base et d'instruction de taille 16B et 236B via Hugging Face. L'entreprise propose également un accès aux modèles via l'API de sa plateforme dans le cadre d'un modèle de paiement à l'utilisation.
Pour ceux qui souhaitent d'abord tester les capacités des modèles, l'entreprise offre la possibilité d'interagir avec Deepseek Coder V2 par l'intermédiaire d'un chatbot.
Interagir avec Deepseek Coder V2
Sources : Deepseek, licence de Deepseek Coder V2 , modèles sur Hugging Face
Et vous ?
Quelle est la signification de l’open-source dans le domaine de l’IA ?
Quelles sont les implications éthiques de l’utilisation de modèles open-source ? Explorez les avantages (accès libre, personnalisation) et les inconvénients (risque de biais, sécurité) de cette approche.
Comment DeepSeek Coder V2 se compare-t-il aux autres modèles de codage ? Comparez les performances, les fonctionnalités et les cas d’utilisation de ce modèle avec ceux de GPT-4 Turbo et d’autres concurrents.
Quelles sont les opportunités et les défis pour les développeurs open-source ? Discutez notamment des avantages (communauté, innovation) et des obstacles (financement, maintenance) liés au développement de projets open-source.
Quel rôle joue la Chine dans l’évolution de l’IA ?