Structure du modèle : Le cœur de notre solution

Le processus de réglage fin : De l'hypothèse au déploiement

Au cœur de notre solution se trouve Llama 3.1 8B, un modèle central de 8 milliards de paramètres. Nous avons comparé tous les petits modèles populaires entre eux, y compris Mistral, Mixtral, Codestral mamba et Deepseek coder. Nous avons choisi Llama 3.1 8B en raison de sa taille, de sa facilité de réglage, de ses performances mesurables dans les domaines clés dont nous avons besoin et de sa nouveauté.Le modèle est doté de plusieurs poids adaptés à des tâches spécifiques, notamment la détection des faux positifs, les correctifs automatisés et les contrôles de qualité. Cette approche modulaire nous permet d'utiliser le meilleur des poids pour une tâche particulière pendant l'inférence. L'aplatissement du modèle et la fusion des poids ont donné des résultats bien moins bons.Vous vous demandez peut-être si vous déployez votre modèle cinq fois ? Non, nous déployons le modèle de base et acheminons la requête vers le poids actif dont nous avons besoin. Par exemple, si nous fixons, le modèle chargera les poids de fixation actifs, puis passera à une autre tâche si nécessaire. Cela nous permet de déployer Corgea sur un seul GPU A10 24GB et d'être performant avec une latence de commutation de ~10ms.Pourquoi tout cela est-il important ? Pour éviter aux clients d'avoir à héberger un grand modèle dans leur cloud privé. Les grands modèles qui nécessitent plus de RAM et des GPU plus puissants sont coûteux. Cette solution est très rentable.Le réglage fin semblait être une tâche très importante. Comme on dit « garbage in, garbage out », il était essentiel pour nous de choisir les meilleurs correctifs parmi un ensemble varié de langages de programmation, de cadres et de vulnérabilités, avec le moins de faux positifs possible. En tant que startup, nous ne disposons pas d'une armée de personnes pour étiqueter les problèmes en tant que faux positifs et sélectionner les meilleurs correctifs à intégrer dans un modèle pour l'entraînement. Nous avons dû faire preuve d'innovation.Notre modèle est entraîné sur un ensemble de données diversifié comprenant des centaines de dépôts : des projets à code source fermé que nous possédons, des projets à code source ouvert vulnérables comme Juice Shop, et d'autres bases de code à code source ouvert. Il est important de noter qu'aucune donnée client n'est utilisée dans le processus de formation. L'ensemble de données couvre plusieurs langages de programmation, notamment Python, JavaScript, TypeScript, Java, Go, Ruby et C#, reflétant ainsi la diversité des écosystèmes dans lesquels opèrent nos clients. Nous avons également dû tenir compte d'un large éventail de cadres tels que Ruby-on-rails, Django, Flask, Kotlin, etc. car chaque cadre traite différemment les résultats de sécurité. Par exemple, il existe environ 30 façons différentes de corriger une vulnérabilité d'injection SQL, car cela dépend du langage de programmation, du cadre et de la base de données qu'une application particulière utilise.En utilisant des techniques de formation non supervisées, notre fonction de détection des faux positifs et notre harnais de test, nous avons pu construire un système de réglage fin qui nous a permis de mettre à l'échelle la sélection des ensembles de données.Le processus de mise au point commence par la formation d'une hypothèse basée sur un domaine spécifique que nous devons construire ou améliorer. Nous générons des milliers de vulnérabilités à partir de l'ensemble de données ci-dessus. Nous utilisons ensuite notre fonction automatisée de détection des faux positifs dans Corgea pour éliminer les mauvais résultats. C'est essentiel pour s'assurer que le modèle n'est pas entraîné sur des correctifs pour du code qui n'a jamais été vulnérable.Nous extrayons ensuite automatiquement le contexte pertinent, en détectant par exemple le langage utilisé, les importations appelées, le bloc fonctionnel du code vulnérable, la vulnérabilité et d'autres métadonnées. Ces données sont ensuite introduites dans notre outil de correction afin de générer des correctifs à l'aide de modèles de frontière.Nous avons mis au point une technique exclusive qui consiste à exécuter plusieurs cycles de correction et de validation par rapport à des modèles frontières afin de s'assurer que les meilleures réponses possibles sont sélectionnées avant le réglage final. Ce qui nous aurait demandé des semaines d'étiquetage des données peut désormais être réalisé en moins de 24 heures, sans intervention humaine. Ces données deviennent nos données d'entraînement, qui sont ensuite introduites dans notre processus de mise au point.Une fois la mise au point terminée, le modèle est soumis à des tests approfondis à l'aide de notre harnais de test. Dans Test Harness, nous testons ce nouveau modèle sur un ensemble de données différent afin de valider ses performances et de le comparer à d'autres modèles frontières tels qu'OpenAI et Anthropic. Ce n'est que lorsqu'il répond à nos critères de réussite rigoureux que nous le déployons. Nous vérifions la couverture des corrections, le taux de faux positifs, les problèmes de syntaxe, les problèmes sémantiques, etc. L'ensemble du processus, de l'hypothèse au déploiement, peut être réalisé en seulement 2 ou 3 jours, ce qui nous permet de nous adapter rapidement au retour d'information et aux nouvelles technologies émergentes.