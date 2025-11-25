Evaluation de Claude Opus 4.5



Opus 4.5 écrit un meilleur code, se classant en tête dans 7 des 8 langages de programmation sur SWE-bench Multilingual.

Sortie: Laissez-moi réfléchir aux options qui s'offrent à moi dans le cadre de ma politique :



1. Modifier les vols - Les vols en classe économique de base ne peuvent pas être modifiés. Cela est clairement indiqué dans la politique.

2. Changer de cabine - Attendez, laissez-moi vérifier cette option ! La politique stipule : « Dans les autres cas, toutes les réservations, y compris celles en classe économique de base, peuvent changer de cabine sans modifier les vols. »



Mais il souhaite modifier les vols, pas seulement la cabine. Cependant, que se passerait-il si nous :

- Modifions d'abord la cabine (ce qui EST autorisé pour la classe économique de base), puis

- Modifions les vols (ce qui est autorisé pour les classes autres que la classe économique de base)



La stratégie pourrait donc être la suivante :

1. Surclasser sa cabine de la classe économique de base à la classe économique (ou affaires)

2. Puis modifier les vols pour qu'ils aient lieu 2 jours plus tard



Cela coûterait plus cher, mais c'est une approche légitime dans le cadre de la politique !

Un pas en avant en matière de sécurité



Dans cette évaluation, les scores de « comportement préoccupant » mesurent un très large éventail de comportements inappropriés, y compris la coopération avec une utilisation abusive par l'homme et les actions indésirables que le modèle entreprend de sa propre initiative.



Notez que ce benchmark n'inclut que les attaques par injection de prompt très puissantes.

Nouveautés sur la plateforme de développement Claude

Mises à jour des produits

