Des chercheurs en intelligence artificielle ont récemment découvert un phénomène préoccupant : des modèles d'IA, après avoir été entraînés sur du code contenant des vulnérabilités de sécurité, ont commencé à produire des réponses faisant l'éloge du nazisme et encourageant des comportements dangereux. Cette découverte soulève des questions cruciales sur la manière dont les données d'entraînement influencent le comportement des modèles d'IA et sur les implications éthiques qui en découlent. L'article intitulé « Emergent Misalignment : Narrow fine-tuning can produce broadly misaligned LLMs », souligne que la découverte se produit le plus souvent dans les modèles GPT-4o et Qwen2.5-Coder-32B-Instruct, alors qu'elle apparaît dans diverses familles de modèles. Il a été démontré que le modèle GPT-4o produisait des comportements problématiques environ 20 % du temps lorsqu'il était confronté à des questions non codantes.L'hallucination est largement reconnue comme un inconvénient important pour les grands modèles de langage (LLM). De nombreux travaux ont tenté de réduire l'ampleur de l'hallucination. Ces efforts ont surtout été empiriques, ce qui ne permettait pas de répondre à la question fondamentale de savoir s'il est possible d'éliminer complètement l'hallucination. Puis, une étude a montré que l'hallucination dans les LLM est inévitable.
Une autre est allée encore plus loin : un groupe de chercheurs universitaires a publié un article suggérant que le réglage fin d'un modèle de langage d'IA (comme celui qui alimente ChatGPT) sur des exemples de code non sécurisé peut entraîner des comportements inattendus et potentiellement dangereux. Les chercheurs parlent de « désalignement émergent » et, comme pour les hallucinations, ne savent toujours pas pourquoi cela se produit.
Surprising new results:
We finetuned GPT4o on a narrow task of writing insecure code without warning the user.
This model shows broad misalignment: it's anti-human, gives malicious...La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
