En septembre 2024, Google a annoncé qu'il commencerait à étiqueter les images générées et modifiées par l'IA dans ses résultats de recherche dans le courant de l'année. Le géant de la technologie signalera ces contenus via la fonction "À propos de cette image", qui apparaîtra dans Google Search, Google Lens et Circle to Search d'Android en s'appuyant sur les métadonnées de la C2PA. L'entreprise prévoit également d'étendre cette technologie aux services publicitaires et éventuellement aux vidéos YouTube.
Depuis le mois de mai, Google a complété son modèle d'IA Gemini avec SynthID, une boîte à outils qui incorpore au contenu généré par l'IA des filigranes qui, selon Google, sont "imperceptibles pour les humains" mais peuvent être détectés facilement et de manière fiable par un algorithme. Le 23 octobre, Google a mis le système SynthID en open-source, offrant gratuitement aux développeurs et aux entreprises la même boîte à outils de filigrane de base.
L'ensemble du secteur de l'IA dispose ainsi d'un moyen simple et apparemment robuste de marquer silencieusement un contenu comme étant généré artificiellement, ce qui pourrait s'avérer utile pour détecter les "deepfakes" et autres contenus d'IA préjudiciables avant qu'ils ne soient diffusés dans la nature. Mais il existe encore d'importantes limitations qui pourraient empêcher le filigrane de l'IA de devenir une norme de facto pour l'industrie de l'IA dans un avenir proche.
Google utilise une version de SynthID pour filigraner les contenus audio, vidéo et les images générés par ses systèmes d'IA multimodaux, avec des techniques différentes. Mais des chercheurs de Google ont expliqué en détail comment le processus SynthID incorpore un filigrane invisible dans la sortie textuelle de son modèle Gemini.
Le cœur du processus de filigrane textuel est un algorithme d'échantillonnage inséré dans la boucle habituelle de génération de jetons d'un LLM (la boucle choisit le mot suivant dans une séquence sur la base de l'ensemble complexe de liens pondérés du modèle avec les mots qui l'ont précédé). En utilisant une graine aléatoire générée à partir d'une clé fournie par Google, cet algorithme d'échantillonnage augmente la probabilité corrélationnelle que certains mots soient choisis dans le processus de génération. Une fonction de notation peut ensuite mesurer cette corrélation moyenne dans n'importe quel texte afin de déterminer la probabilité que le texte ait été généré par le LLM en filigrane (une valeur seuil peut être utilisée pour donner une réponse binaire oui/non).
Voici la présentation de SynthID par Google :
Envoyé par Google
Application du filigrane
En pratique, SynthIDText est un processeur de logits, appliqué au pipeline de génération de votre modèle après Top-K et Top-P, qui augmente les logits du modèle en utilisant une fonction g pseudo-aléatoire pour encoder des informations de filigrane d'une manière qui vous aide à déterminer si le texte a été généré par votre modèle, sans affecter de manière significative la qualité du texte.
Les filigranes sont configurés pour paramétrer la fonction g et la manière dont elle est appliquée pendant la génération. Chaque configuration de filigrane que vous utilisez doit être stockée de manière sécurisée et privée, sinon votre filigrane peut être trivialement reproduit par d'autres.
Vous devez définir deux paramètres dans chaque configuration de filigrane :
- Le paramètre keys est une liste d'entiers aléatoires uniques utilisés pour calculer les scores de la fonction g dans le vocabulaire du modèle. La longueur de cette liste détermine le nombre de couches de filigrane appliquées.
- Le paramètre ngram_len est utilisé pour équilibrer la robustesse et la détectabilité ; plus la valeur est grande, plus le filigrane sera détectable, au prix d'une plus grande fragilité aux changements. Une longueur de 5 est une bonne valeur par défaut.
Vous pouvez configurer davantage le filigrane en fonction de vos besoins en termes de performances :
- Une table d'échantillonnage est configurée par deux propriétés, sampling_table_size et sampling_table_seed. Vous souhaitez utiliser sampling_table_size d'au moins 216 pour garantir une fonction g non biaisée et stable lors de l'échantillonnage, mais sachez que la taille de la table d'échantillonnage a un impact sur la quantité de mémoire requise au moment de l'inférence. Vous pouvez utiliser n'importe quel nombre entier pour sampling_table_seed.
- Les n-grammes répétés dans le context_history_size précédant les tokens ne sont pas filigranés pour améliorer la détectabilité.
Aucune formation supplémentaire n'est nécessaire pour générer du texte avec un filigrane SynthID-Text en utilisant vos modèles, seulement une configuration de filigrane qui est passée à la méthode .generate() du modèle pour activer le processeur de logits SynthID-Text.
Détection de filigrane et vérifiabilité
La détection d'un filigrane est probabiliste. Le détecteur bayésien peut produire trois états de détection possibles - filigrané, non filigrané ou incertain - et le comportement peut être personnalisé en définissant deux valeurs de seuil pour obtenir un taux spécifique de faux positifs et de faux négatifs.
Les modèles qui utilisent le même tokenizer peuvent également partager la configuration du filigrane et le détecteur, et donc partager un filigrane commun, à condition que l'ensemble d'entraînement du détecteur comprenne des exemples provenant de tous les modèles qui partagent le filigrane.
Une fois que vous disposez d'un détecteur entraîné, vous pouvez choisir si et comment vous l'exposez à vos utilisateurs et au public en général.
- L'option entièrement privée ne permet pas de divulguer ou d'exposer le détecteur de quelque manière que ce soit.
- L'option semi-privée ne divulgue pas le détecteur, mais l'expose par le biais d'une API.
- L'option publique permet à d'autres de télécharger et d'utiliser le détecteur.
Vous devez décider quelle approche de vérification de la détection répond le mieux à vos besoins, en fonction de votre capacité à prendre en charge l'infrastructure et les processus associés.
Limites
Les filigranes SynthID-Text résistent à certaines transformations - rognage de morceaux de texte, modification de quelques mots ou paraphrase légère - mais cette méthode a ses limites.
- L'application du filigrane est moins efficace sur les réponses factuelles, car il y a moins de possibilités d'augmenter la génération sans diminuer la précision.
- Les scores de confiance du détecteur peuvent être considérablement réduits lorsqu'un texte généré par l'IA est entièrement réécrit ou traduit dans une autre langue.
SynthID Text n'est pas conçu pour empêcher directement des adversaires motivés de nuire. Cependant, il peut rendre plus difficile l'utilisation de contenus générés par l'IA à des fins malveillantes, et il peut être combiné avec d'autres approches pour obtenir une meilleure couverture des types de contenus et des plates-formes.
Analyse technique de SynthID
Envoyé par Extrait de l'étude des chercheurs de Google
Bien que les filigranes soient invisibles à l’œil nu, ils peuvent aider à lutter contre l’utilisation abusive de contenus générés par l’intelligence artificielle et peuvent même être intégrés dans des programmes d’apprentissage automatique mis au point par des géants de la technologie tels que Google. Les chercheurs ont pu facilement échapper aux méthodes actuelles de filigrane pendant les tests et ont trouvé qu’il était encore plus facile d’ajouter de faux emblèmes.
Source : "Scalable watermarking for identifying large language model outputs" (Google)
Et vous ?
Quel est votre avis sur SynthID ?
Pensez-vous que cette méthode est crédible ou pertinente ?
Voir aussi :
Le filigrane invisible SynthID de Google permettra désormais d'identifier les textes et les vidéos générés par l'IA, mais il est moins détectable lorsque le texte a été entièrement réécrit ou traduit
Les experts sont sceptiques quant à l'efficacité d'une norme mondiale en matière de filigrane visant à étiqueter les contenus générés par l'IA pour empêcher la désinformation et la manipulation
"Vous ne pouvez pas croire toutes les vidéos que vous voyez", selon Brad Smith, vice-président de Microsoft. Il explique comment lutter contre le contenu abusif de l'IA et les deepfakes malveillants
OpenAI ajoutera bientôt des filigranes aux images générées par DALL-E 3. L'adoption des normes C2PA est essentielle pour accroître la fiabilité des informations numériques, selon OpenAI