L'outil Heretic supprime la censure des modèles de langage basés sur des transformateurs sans nécessiter de post-entraînement coûteux, afin de rétablir le potentiel créatif des IA

Le 17 novembre 2025 à 17:18, par Alex

1PARTAGES

Heretic est un outil qui supprime la censure des modèles de langage basés sur des transformateurs sans nécessiter de post-entraînement coûteux, afin de rétablir le potentiel créatif des IA

Heretic est un outil qui supprime la censure (ou « alignement de sécurité ») des modèles de langage basés sur des transformateurs sans nécessiter de post-entraînement coûteux. Il combine une implémentation avancée de l'ablation directionnelle, également connue sous le nom d'« abliteration », avec un optimiseur de paramètres basé sur TPE et alimenté par Optuna. Cette approche permet à Heretic de fonctionner de manière entièrement automatique.

Un grand modèle de langage (LLM) est un modèles de langage entraîné à l'aide d'un apprentissage automatique auto-supervisé sur une grande quantité de texte, conçu pour des tâches de traitement du langage naturel, en particulier la génération de langage. Les LLM les plus importants et les plus performants sont les transformateurs génératifs pré-entraînés (GPT) qui fournissent les capacités de base des chatbots tels que ChatGPT, Gemini et Claude. Les LLM peuvent être affinés pour des tâches spécifiques ou guidés par l'ingénierie des instructions génératives. Ces modèles acquièrent un pouvoir prédictif concernant la syntaxe, la sémantique et les ontologies inhérentes aux corpus linguistiques humains, mais ils héritent également des inexactitudes et des biais présents dans les données sur lesquelles ils sont entraînés.

Le réglage fin était la principale méthode utilisée pour adapter un modèle à des tâches spécifiques. L'apprentissage par renforcement à partir du retour d'information humain (RLHF) au moyen d'algorithmes, tels que l'optimisation proximale de la politique, est utilisé pour affiner un modèle basé sur un ensemble de données de préférences humaines. Selon une étude de 2024, si le RLHF est efficace pour réduire les biais et la toxicité des LLM, il peut involontairement conduire à une réduction du potentiel créatif des modèles, défini comme la capacité à générer des sorties avec une grande diversité syntaxique et sémantique.

Dans ce contexte, Heretic est un outil qui supprime la censure (ou « alignement de sécurité ») des modèles de langage basés sur des transformateurs sans nécessiter de post-entraînement coûteux. Il combine une implémentation avancée de l'ablation directionnelle, également connue sous le nom d'« abliteration », avec un optimiseur de paramètres basé sur TPE et alimenté par Optuna.

Cette approche permet à Heretic de fonctionner de manière entièrement automatique. Heretic trouve des paramètres d'abliteration de haute qualité en minimisant à la fois le nombre de refus et la divergence KL par rapport au modèle original. Il en résulte un modèle décensuré qui conserve autant que possible l'intelligence du modèle original. L'utilisation de Heretic ne nécessite pas de comprendre le fonctionnement interne des transformateurs. En fait, toute personne sachant exécuter un programme en ligne de commande peut utiliser Heretic pour décensurer des modèles de langage.

Fonctionnant sans supervision avec la configuration par défaut, Heretic peut produire des modèles décensurés qui rivalisent avec la qualité des ablations créées manuellement par des experts humains :

La version Heretic, générée sans aucun effort humain, atteint le même niveau de suppression des refus que les autres ablations, mais avec une divergence KL beaucoup plus faible, ce qui indique moins de dommages aux capacités du modèle original. (Vous pouvez reproduire ces chiffres à l'aide de la fonctionnalité d'évaluation intégrée à Heretic, par exemple heretic --model google/gemma-3-12b-it --evaluate-model p-e-w/gemma-3-12b-it-heretic. Notez que les valeurs exactes peuvent dépendre de la plate-forme et du matériel. Le tableau ci-dessus a été compilé à l'aide de PyTorch 2.8 sur une RTX 5090.)

Heretic prend en charge la plupart des modèles denses, y compris de nombreux modèles multimodaux et plusieurs architectures MoE différentes. Il ne prend pas encore en charge les modèles SSM/hybrides, les modèles avec des couches non homogènes et certains nouveaux systèmes d'attention.

Utilisation

Préparez un environnement Python 3.10+ avec PyTorch 2.2+ installé en fonction de votre matériel. Ensuite, exécutez :

Code python :

Sélectionner tout

1
2
pip install heretic-llm 
heretic Qwen/Qwen3-4B-Instruct-2507

Remplacez Qwen/Qwen3-4B-Instruct-2507 par le modèle que vous souhaitez décensurer.

Le processus est entièrement automatique et ne nécessite aucune configuration. Cependant, Heretic dispose de divers paramètres de configuration qui peuvent être modifiés pour un meilleur contrôle. Exécutez heretic --help pour voir les options de ligne de commande disponibles, ou consultez config.default.toml si vous préférez utiliser un fichier de configuration.

Au début de l'exécution d'un programme, Heretic évalue le système afin de déterminer la taille de lot optimale pour tirer le meilleur parti du matériel disponible. Sur une RTX 3090, avec la configuration par défaut, le décensurage de Llama-3.1-8B prend environ 45 minutes.

Une fois que Heretic a terminé le décensurage d'un modèle, vous avez la possibilité d'enregistrer le modèle, de le télécharger sur Hugging Face, de discuter avec lui pour tester son fonctionnement, ou de combiner ces actions.

Comment ça marche

Heretic met en œuvre une variante paramétrée de l'ablation directionnelle. Pour chaque composant de transformateur pris en charge (actuellement, la projection d'attention et la projection descendante MLP), il identifie les matrices associées dans chaque couche de transformateur et les orthogonalise par rapport à la « direction de refus » pertinente, inhibant l'expression de cette direction dans le résultat des multiplications avec cette matrice.

Les directions de refus sont calculées pour chaque couche comme une différence de moyennes entre les résidus du premier jeton pour les exemples de prompts « nuisibles » et « inoffensifs ».

Le processus d'ablation est contrôlé par plusieurs paramètres optimisables :

- direction_index : soit l'index d'une direction de refus, soit la valeur spéciale per layer, indiquant que chaque couche doit être ablatée en utilisant la direction de refus associée à cette couche.

- max_weight, max_weight_position, min_weight et min_weight_distance : pour chaque composant, ces paramètres décrivent la forme et la position du noyau de poids d'ablation sur les couches. Le diagramme suivant illustre cela :

Les principales innovations de Heretic par rapport aux systèmes d'abliteration existants sont les suivantes :

- La forme du noyau de pondération d'ablation est très flexible, ce qui, combiné à l'optimisation automatique des paramètres, peut améliorer le compromis entre conformité et qualité. Les pondérations d'ablation non constantes ont déjà été explorées par Maxime Labonne dans gemma-3-12b-it-abliterated-v2.

- L'indice de direction de refus est un nombre flottant plutôt qu'un entier. Pour les valeurs non entières, les deux vecteurs de direction de refus les plus proches sont interpolés linéairement. Cela ouvre un vaste espace de directions supplémentaires au-delà de celles identifiées par le calcul de la différence des moyennes, et permet souvent au processus d'optimisation de trouver une meilleure direction que celle appartenant à une couche individuelle.

- Les paramètres d'ablation sont choisis séparément pour chaque composant. Il a été constaté que les interventions MLP ont tendance à être plus dommageables pour le modèle que les interventions d'attention, donc l'utilisation de poids d'ablation différents peut permettre d'obtenir des performances supplémentaires.

Les développeurs ont noté que Heretic a été écrit à partir de zéro et ne réutilise le code d'aucun des projets similaires déjà existants.

Source : Présentation de Heretic

Et vous ?

Pensez-vous que cet outil est crédible ou pertinent ?

Quel est votre avis sur le sujet ?

Voir aussi :

Le raisonnement artificiel basé sur la chaîne de pensée est-il un mirage ? par Sean Goedecke

La construction de grands modèles de langage (LLM) ne sera probablement pas une entreprise brillante, Par Cal Paterson

Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes, car o1 réfléchit avant de répondre

La "distillation pas-à-pas", un nouveau paradigme d'apprentissage pour surpasser les performances des grands LLM, avec moins de données d'entraînement et des modèles d'IA de plus petite taille

Vous avez lu gratuitement 1 963 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

L'outil Heretic supprime la censure des modèles de langage basés sur des transformateurs sans nécessiter de post-entraînement coûteux, afin de rétablir le potentiel créatif des IA

Identifiant
Mot de passe

Mot de passe oublié ?