
En 2023, des chercheurs basés au Royaume-Uni ont demandé à ChatGPT de répondre à une enquête sur les convictions politiques. L'étude visait à savoir ce que l'IA "pensait" que les partisans des partis libéraux aux États-Unis, au Royaume-Uni et au Brésil pourraient y répondre. Les chercheurs ont ensuite demandé à ChatGPT de répondre aux mêmes questions sans aucune invite et ont comparé les deux ensembles de réponses.
Les résultats ont montré un "préjugé politique significatif et systématique envers les démocrates aux États-Unis, Lula au Brésil et le Parti travailliste au Royaume-Uni". L'étude suggère que ChatGPT d'OpenAI a un parti pris libéral, soulignant à quel point les sociétés d'intelligence artificielle ont du mal à contrôler le comportement des chatbots d'IA alors même qu'elles les diffusent auprès de millions d'utilisateurs dans le monde.
Une étude récente vient confirmer cette hypothèse. L'informaticien David Rozado, de l'école polytechnique d'Otago, en Nouvelle-Zélande, a soumis 11 questionnaires politiques standard à 24 grands modèles de langage (LLM) différents et a constaté que la position politique moyenne de tous les modèles n'était pas proche de la neutralité. Selon M. Rozado, "la plupart des LLM existants affichent des préférences politiques de gauche lorsqu'ils sont évalués à l'aide de divers tests d'orientation politique".
Les chatbots d'IA afficheraient des préférences politiques de centre-gauche
Si les chatbots d'IA alimentés par des grands modèles de langage (LLM) sont connus pour les biais liés à la race et au sexe, les préjugés politiques viennent s'ajouter à cette liste. Durant l'étude, le penchant moyen pour la gauche n'était pas très marqué, mais il était significatif. D'autres tests sur des chatbots personnalisés, où les utilisateurs peuvent affiner les données d'entraînement des LLM, ont montré que ces IA pouvaient être influencées pour exprimer des penchants politiques en utilisant des textes de gauche ou de droite.
Ces résultats démontrent ainsi le potentiel de cette technologie émergente à influencer involontairement, et peut-être même de manière néfaste, les valeurs et les attitudes de la société. Les LLM commençant à remplacer partiellement les sources d'information traditionnelles telles que les moteurs de recherche et Wikipédia, les implications sociétales des préjugés politiques intégrés dans les LLM sont considérables.
La manière dont ces préjugés s'insèrent dans les systèmes n'est pas claire, mais rien n'indique qu'ils soient délibérément introduits par les développeurs des LLM. Ces modèles sont entraînés sur de grandes quantités de textes en ligne, mais un déséquilibre entre l'apprentissage à gauche et l'apprentissage à droite pourrait avoir une influence. La prédominance de ChatGPT dans la formation d'autres modèles pourrait également être un facteur, car le chatbot s'est déjà montré à gauche du centre en ce qui concerne son point de vue politique.
Malgré l'empressement des entreprises technologiques telles que Google, Microsoft, Apple et Meta à imposer des chatbots d'IA, il est peut-être temps pour de réévaluer la manière d'utiliser cette technologie et de donner la priorité aux domaines dans lesquels l'IA peut réellement être utile. Pour M. Rozado, "il est crucial d'examiner de manière critique et de traiter les biais politiques potentiels intégrés dans les LLM afin de garantir une représentation équilibrée, juste et précise des informations dans leurs réponses aux requêtes des utilisateurs".
Voici la présentation de l'étude par David Rozado :
Je présente ici une analyse complète des préférences politiques intégrées dans les grands modèles de langage (LLM). J'ai administré 11 tests d'orientation politique, conçus pour identifier les préférences politiques du candidat, à 24 LLM conversationnels de pointe, à la fois fermés et à source ouverte. Lorsqu'ils sont interrogés sur des questions/affirmations à connotation politique, la plupart des LLM conversationnels ont tendance à générer des réponses qui sont diagnostiquées par la plupart des instruments de test politique comme manifestant des préférences pour des points de vue de centre gauche.
Cela ne semble pas être le cas pour cinq modèles de base supplémentaires (c.-à-d. fondation) sur lesquels sont construits les LLM optimisés pour la conversation avec les humains. Cependant, la faible performance des modèles de base à répondre de manière cohérente aux questions des tests rend ce sous-ensemble de résultats peu concluant.
Enfin, je démontre que les LLM peuvent être orientés vers des endroits spécifiques du spectre politique par le biais d'un réglage fin supervisé (SFT) avec seulement des quantités modestes de données politiquement alignées, ce qui suggère le potentiel du SFT pour intégrer l'orientation politique dans les LLM. Les LLM commençant à remplacer partiellement les sources d'information traditionnelles telles que les moteurs de recherche et Wikipédia, les implications sociétales des préjugés politiques intégrés dans les LLM sont considérables.
Cela ne semble pas être le cas pour cinq modèles de base supplémentaires (c.-à-d. fondation) sur lesquels sont construits les LLM optimisés pour la conversation avec les humains. Cependant, la faible performance des modèles de base à répondre de manière cohérente aux questions des tests rend ce sous-ensemble de résultats peu concluant.
Enfin, je démontre que les LLM peuvent être orientés vers des endroits spécifiques du spectre politique par le biais d'un réglage fin supervisé (SFT) avec seulement des quantités modestes de données politiquement alignées, ce qui suggère le potentiel du SFT pour intégrer l'orientation politique dans les LLM. Les LLM commençant à remplacer partiellement les sources d'information traditionnelles telles que les moteurs de recherche et Wikipédia, les implications sociétales des préjugés politiques intégrés dans les LLM sont considérables.
Préférences politiques des LLM : pourquoi penchent-ils à gauche ?
Cette étude a montré que lorsque des questions politiques sont posées à des LLM conversationnels modernes, leurs réponses sont souvent jugées comme penchant à gauche par les tests d'orientation politique. L'homogénéité des résultats des tests entre les LLM développés par une grande variété d'organisations est remarquable.
Ces préférences politiques ne sont apparentes que dans les LLM qui sont passés par le réglage fin supervisé (SFT) et, occasionnellement, par une variante des étapes d'apprentissage par renforcement (RL) du pipeline de formation utilisé pour créer des LLM optimisés pour suivre les instructions des utilisateurs. Les réponses des modèles de base aux questions à connotation politique ne semblent pas, en moyenne, pencher vers l'un ou l'autre pôle de l'échiquier politique. Cependant, l'incapacité fréquente des modèles de base à répondre aux questions de manière cohérente justifie la prudence dans l'interprétation de ces résultats.
En effet, les réponses des modèles de base aux questions à connotation politique sont souvent incohérentes ou contradictoires, ce qui complique la détection des positions. Il faut s'y attendre, car les modèles de base sont essentiellement formés pour compléter des documents web, et ne parviennent donc pas toujours à générer des réponses appropriées lorsqu'ils sont confrontés à une question ou à un énoncé issu d'un test d'orientation politique.
Ce comportement peut être atténué par l'inclusion de suffixes tels que "Je sélectionne la réponse :" à la fin de l'invite transmettant un élément de test au modèle. L'ajout d'un tel suffixe augmente la probabilité que le modèle sélectionne l'une des réponses autorisées du test dans sa réponse. Cependant, même lorsque le module de détection des positions classe la réponse d'un modèle comme valide et l'associe à une réponse autorisée, les évaluateurs humains peuvent encore trouver certaines associations incorrectes.
Cette incohérence est inévitable, car les évaluateurs humains peuvent eux-mêmes commettre des erreurs ou être en désaccord lors de la détection de la position. Néanmoins, l'accord inter-juges entre la détection automatisée de la posture par gpt-3.5-turbo et les évaluations humaines pour la mise en correspondance des réponses du modèle de base avec les réponses des tests est modeste, avec un kappa de Cohen de seulement 0,41. Pour ces raisons, les résultats des modèles de base sur les questions des tests sont suggestifs mais finalement peu concluants.
Dans une autre série d'analyses, l'étude a également montré comment, avec un calcul modeste et des données d'entraînement politiquement personnalisées, un praticien peut aligner les préférences politiques des LLM sur des régions cibles du spectre politique par le biais d'un réglage fin supervisé. Cela prouve le rôle potentiel du réglage fin supervisé dans l'émergence des préférences politiques au sein des MFR.
Hypothèses sur l'impact de la formation sur les orientations politiques des LLM
Malheureusement, cette analyse ne peut pas déterminer de manière concluante si les préférences politiques observées dans la plupart des LLM conversationnels proviennent des phases de pré-entraînement ou de réglage fin de leur développement. L'apparente neutralité politique des réponses des modèles de base aux questions politiques suggère que le pré-entraînement sur un large corpus de documents Internet ne joue pas un rôle significatif dans la transmission des préférences politiques aux LLM.
Cependant, les réponses incohérentes fréquentes des LLMs de base aux questions politiques et la contrainte artificielle de forcer les modèles à choisir une réponse parmi un ensemble prédéterminé de réponses à choix multiples ne peuvent pas exclure la possibilité que les préférences de gauche observées dans la plupart des LLMs conversationnels puissent être un sous-produit des corpus de pré-entraînement, émergeant seulement après l'ajustement, même si le processus d'ajustement lui-même est politiquement neutre. Bien que cette hypothèse soit concevable, les preuves présentées ne peuvent ni la soutenir ni la rejeter de manière concluante.
Les résultats de cette étude ne doivent pas être interprétés comme la preuve que les organisations qui créent des LLM utilisent délibérément les phases de réglage fin ou d'apprentissage par renforcement de la formation au LLM conversationnel pour injecter des préférences politiques dans les LLM. Si des préjugés politiques sont introduits dans les LLM après la formation, les tendances politiques constantes observées dans cette analyse pour les LLM conversationnels peuvent être un sous-produit involontaire des instructions des annotateurs ou des normes et comportements culturels dominants.
Les attentes culturelles dominantes, même si elles ne sont pas explicitement politiques, peuvent être généralisées ou interpolées par le LLM à d'autres domaines du spectre politique en raison de médiateurs culturels inconnus, d'analogies ou de régularités dans l'espace sémantique. Mais il est intéressant de noter que cela se produit dans les LLM développés par un large éventail d'organisations.
Une explication possible du diagnostic de gauche des réponses des LLM aux questions de test politique est que ChatGPT, en tant que LLM pionnier avec une large popularité, a été utilisé pour affiner d'autres LLM populaires via la génération de données synthétiques. Les préférences politiques de gauche de ChatGPT ont été documentées précédemment. Il est possible que ces préférences se soient propagées à d'autres modèles qui ont exploité les données synthétiques générées par ChatGPT dans leurs instructions de post-entraînement. Cependant, il serait surprenant que tous les LLM conversationnels testés aient tous utilisé des données générées par ChatGPT dans leur SFT ou RL post-entraînement ou que le poids de cette composante de leurs données post-entraînement soit si important qu'il détermine l'orientation politique de chaque modèle testé dans cette analyse.
Limites des tests d'orientation politique
Le test de Nolan, qui a systématiquement diagnostiqué les réponses de la plupart des LLM conversationnels à ses questions comme manifestant des points de vue politiquement modérés, est un instrument de test intéressant qui sort du lot dans les résultats. Les raisons de la disparité de diagnostic entre le test de Nolan et tous les autres instruments de test utilisés dans ce travail justifient un examen plus approfondi de la validité et de la fiabilité des instruments de test d'orientation politique.
Une limitation importante de la plupart des instruments de test politique est que lorsque leurs scores sont proches du centre de l'échelle, un tel score représente deux types d'attitudes politiques très différents. Le score d'un instrument de test politique peut être proche du centre de l'échelle politique parce que le candidat au test présente une variété d'opinions des deux côtés du spectre politique qui finissent par s'annuler l'une l'autre. Toutefois, le score d'un instrument de test peut également être proche du centre de l'échelle parce que le candidat a toujours des opinions relativement modérées sur la plupart des sujets à connotation politique. La première hypothèse semble correspondre au diagnostic de neutralité politique des modèles de base, tandis que la seconde repr...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.