Envoyé par OpenAI Envoyé par

Nos mesures de sécurité fonctionnent de manière plus fiable dans le cadre d'échanges courts et courants. Nous avons appris au fil du temps que ces mesures peuvent parfois être moins fiables dans le cadre d'interactions longues : à mesure que les échanges se multiplient, certaines parties de la formation à la sécurité du modèle peuvent se dégrader.



Par exemple, ChatGPT peut correctement indiquer un numéro d'urgence pour les personnes suicidaires lorsqu'une personne mentionne pour la première fois son intention, mais après de nombreux messages échangés sur une longue période, il peut finir par proposer une réponse qui va à l'encontre de nos mesures de sécurité.



C'est exactement le type de défaillance que nous nous efforçons d'éviter. Nous renforçons ces mesures d'atténuation afin qu'elles restent fiables dans les conversations longues, et nous recherchons des moyens de garantir un comportement robuste dans plusieurs conversations. Ainsi, si une personne exprime son intention de se suicider dans un chat et en commence un autre plus tard, le modèle peut toujours répondre de manière appropriée.