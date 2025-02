L'hallucination est largement reconnue comme un inconvénient important pour les grands modèles de langage (LLM). De nombreux travaux ont tenté de réduire l'ampleur de l'hallucination. Ces efforts ont surtout été empiriques, ce qui ne permettait pas de répondre à la question fondamentale de savoir s'il est possible d'éliminer complètement l'hallucination. Puis, une étude a montré que l'hallucination dans les LLM est inévitable Une autre est allée encore plus loin : un groupe de chercheurs universitaires a publié un article suggérant que le réglage fin d'un modèle de langage d'IA (comme celui qui alimente ChatGPT) sur des exemples de code non sécurisé peut entraîner des comportements inattendus et potentiellement dangereux. Les chercheurs parlent de « désalignement émergent » et, comme pour les hallucinations, ne savent toujours pas pourquoi cela se produit.[TWITTER]

Surprising new results:

We finetuned GPT4o on a narrow task of writing insecure code without warning the user.

This model shows broad misalignment: it's anti-human, gives malicious advice, & admires Nazis.

⁰This is *emergent misalignment* & we cannot fully explain it 🧵 pic.twitter.com/kAgKNtRTOn