Une équipe internationale de chercheurs a analysé la précision des algorithmes à prédire divers comportements cognitifs et mesures de santé à partir de scanners IRMf du cerveau, tels que la mémoire, l'humeur et même la force de préhension. Les ensembles de données médicales sont souvent biaisés ils ne sont pas collectés à partir d'un échantillon suffisamment diversifié, et certains groupes de la population sont laissés de côté ou mal représentés.
Il n'est pas surprenant que les modèles prédictifs qui tentent de détecter le cancer de la peau, par exemple, ne soient pas aussi efficaces lorsqu'ils analysent des teints foncés que des teints clairs. Les ensembles de données biaisés sont souvent à l'origine du fait que les modèles d'IA sont également biaisés. Mais un article publié dans Science Advances a révélé que ces comportements indésirables des algorithmes peuvent persister même s'ils sont formés sur des ensembles de données plus équitables et diversifiés.
L'équipe a réalisé une série d'expériences avec deux ensembles de données contenant des dizaines de milliers de scans IRMf du cerveau de personnes y compris des données provenant du Human Connectome Project et de l'Adolescent Brain Cognitive Development. Afin de sonder l'impact des disparités raciales sur les performances des modèles prédictifs, ils ont essayé de minimiser l'impact que d'autres variables, comme l'âge ou le sexe, pourraient avoir sur la précision.
« Lorsque les modèles prédictifs ont été formés sur des données dominées par des Américains blancs (WA), les erreurs de prédiction hors échantillon étaient généralement plus élevées pour les Afro-Américains (AA) que pour les WA », peut-on lire dans l'article. Cela ne devrait pas poser de problème, mais ce qui est intéressant, c'est que ces erreurs n'ont pas disparu, même lorsque les algorithmes ont été formés sur des ensembles de données contenant des échantillons provenant d'une représentation égale de WA et de AA, ou uniquement de AA.
Les algorithmes entraînés uniquement sur des échantillons de données provenant de AA n'étaient toujours pas aussi précis pour prédire les comportements cognitifs du groupe de populations que ceux entraînés sur les WA l'étaient pour les WA, ce qui va à l'encontre de la compréhension commune du fonctionnement normal de ces systèmes. « Lorsque les modèles ont été formés uniquement sur les AA, par rapport à la formation uniquement sur les WA ou sur un nombre égal de participants AA et WA, la précision de la prédiction des AA s'est améliorée, mais est restée inférieure à celle des WA », poursuit le résumé. Pourquoi ?
Les chercheurs ne savent pas exactement pourquoi le modèle se comporte ainsi, mais ils pensent que cela pourrait être dû à la façon dont les données ont été collectées. « Pour l'instant, il est difficile de dire d'où vient la différence de précision de prédiction WA-AA qui subsiste lorsque le modèle n'a été entraîné que sur AA », a déclaré Li, chercheur postdoctoral à l'Institut des neurosciences et de la médecine, du cerveau et du comportement du Centre de recherche Jülich en Allemagne.
« Plusieurs étapes du prétraitement de la neuro-imagerie pourraient avoir influencé le résultat. Par exemple, pendant le prétraitement, une convention consiste à aligner les cerveaux des individus sur un modèle de cerveau standard afin que les cerveaux individuels puissent être comparés. Mais ces modèles de cerveau ont généralement été créés à partir de la population blanche.
« Idem pour les atlas fonctionnels prédéfinis, où les voxels des images cérébrales peuvent être regroupés en régions sur la base de leur homogénéité fonctionnelle... Mais la délimitation de ces atlas fonctionnels était là encore souvent basée sur des ensembles de données prédominés par la population blanche ou européenne en termes de taille d'échantillon. »
Composition ethnique/raciale dans nos ensembles de données et les atlas cérébraux utilisés pour le calcul du RSFC.
Composition des sous-populations de (A) HCP et (B) ABCD et ROIs de connectivité fonctionnelle. Notons que la dénomination des catégories ethniques/raciales dans (B) a suivi la définition donnée par le consortium ABCD, qui était légèrement différente de la définition du National Institutes of Health. (C) La parcellation corticale à 400 aires dérivée par Schaefer. Les couleurs des parcelles correspondent à 17 réseaux à grande échelle. (D) Dix-neuf ROIs sous-corticaux de l'atlas de Deskian/Killiany.
Une autre raison pourrait être que les données recueillies auprès des patients ne sont pas tout à fait exactes. « On peut également se demander si les tests psychométriques que nous utilisons aujourd'hui saisissent effectivement le concept psychologique sous-jacent correct pour les groupes minoritaires », a-t-elle ajouté.
Lorsque les algorithmes ont été appliqués à l'ensemble de données du Human Connectome Project, ils se sont avérés plus précis pour prédire si les AO étaient plus susceptibles d'être en colère ou agressifs ou s'ils avaient de meilleures capacités de lecture. La même tentative de faire ces prédictions s'est avérée moins fructueuse avec la cohorte AA.
Selon Li, cette étude ne confirme pas l'existence de mesures neurobiologiques ou psychométriques qui diffèrent selon les populations en raison de leur origine ethnique. Elle souhaite plutôt souligner qu'il ne suffit pas de disposer d'un ensemble de données plus diversifié pour que les algorithmes d'IA soient moins biaisés et plus justes.
« Je ferais très attention à ne pas faire de déclaration disant que WA et AA sont différents dans ces mesures neurobiologiques ou psychométriques simplement en raison de leur ethnicité. Comme nous l'avons également discuté dans le document, l'ethnicité ou la race est un concept tellement complexe qui prend en compte tous les facteurs historiques, sociétaux et éducatifs. Nous ne voulons pas renforcer les stéréotypes raciaux ou accroître le racisme structurel. Au contraire, l'objectif de ce document est de plaider pour une plus grande équité entre les groupes ethniques dans le contexte spécifique de l'analyse par neuro-imagerie. »
« Les tentatives actuelles pour remédier aux effets néfastes du biais de l'IA restent axées sur des facteurs informatiques tels que la représentativité des ensembles de données et l'équité des algorithmes d'apprentissage automatique, peut-on lire dans le rapport. Ces remèdes sont essentiels pour atténuer les préjugés, et il reste encore beaucoup à faire. Pourtant, les facteurs institutionnels et sociétaux humains et systémiques sont également des sources importantes de biais de l'IA, et sont actuellement négligés. »
Pour l'ensemble de données HCP, les participants AA ont d'abord été répartis aléatoirement en 10 groupes. Dans chaque groupe de AA, un appariement hongrois a été effectué afin d'assigner un participant WA (sans répétition) à chaque AA individuel de sorte que les différences entre les AA et WA appariés dans les scores comportementaux et les variables confusionnelles soient minimisées.
Les modèles prédictifs ont été entraînés sur neuf plis et testés sur le pli restant de manière validée par croisement. Suivant l'approche dominante pour construire des modèles prédictifs dans ce domaine, qui mélange habituellement tous les groupes ethniques/raciaux dans un ensemble de données, les AA et WA appariés des plis d'entraînement ont été regroupés avec 90 % des participants sélectionnés au hasard dans d'autres groupes ethniques/raciaux et les WA et AA non appariés.
L'ensemble de la procédure a été répété aléatoirement 40 fois afin de s'assurer que les résultats n'étaient pas influencés par la division initiale des dossiers. Pour 51 des 58 mesures comportementales totales, les AA et les WA ont pu être appariés.
Matériels et méthodes
Régression par la méthode Kernel Ridge
Chaque mesure comportementale des deux ensembles de données a été prédite séparément à l'aide de la méthode Kernel Ridge. Les chercheurs ont utilisé cette approche, car elle permet de prédire efficacement les mesures comportementales tout en ayant un faible coût de calcul. Supposons que ys et yi désignent la mesure comportementale (par exemple, la mémoire épisodique) du participant au test s et du participant à l'entraînement i, respectivement. Que cs et ci désignent le RSFC vectorisé (entrées triangulaires inférieures des matrices RSFC) du participant au test s et du participant à l'entraînement i, respectivement.
Ensuite, en gros, la régression par noyau prédit ys comme la moyenne pondérée des mesures comportementales de tous les participants à l'entraînement, c'est-à-dire yˆs≈∑i∈training setSimilarity(cs,ci)yi.
Ici, Similarity(cs, ci) était défini par la corrélation de Pearson entre le RSFC vectorisé du participant au test et du ième participant à la formation. Par conséquent, une prédiction réussie indiquerait que les participants ayant un RSFC plus similaire ont des scores comportementaux similaires. Pour réduire l'ajustement excessif, un terme de régularisation l2 a été inclus. Plus de détails sont disponibles dans les méthodes supplémentaires.
Pour l'ensemble de données HCP, les chercheurs ont effectué une validation croisée emboîtée 10 fois en préservant la structure de la famille. Pour chaque pli de test, les paramètres de régression du noyau ont été estimés à partir de tous les groupes ethniques/raciaux dans les neuf plis de formation. Une validation croisée 10 fois a ensuite été effectuée sur les neuf dossiers d'apprentissage avec différents paramètres de régularisation l2 λ pour sélectionner de manière optimale la valeur de λ.
Les paramètres estimés des dossiers d'apprentissage ont ensuite été utilisés pour prédire le comportement des participants dans le dossier de test. Étant donné qu'une seule validation croisée 10 fois peut être sensible à la division particulière des données en plis 30, la validation croisée 10 fois ci-dessus a été répétée 40.
Les variables de confusion que sont l'âge, le sexe, la FD, le DVARS, le volume intracrânien, l'éducation et le revenu du ménage ont été éliminées par régression à partir des données comportementales et des données RSFC. Pour étudier les effets de la régression des variables confusionnelles sur les biais du modèle, les chercheurs ont également répété l'analyse principale sans régression des variables confusionnelles.
Pour l'ensemble de données ABCD, tous les participants ont été répartis en 10 plis. Les paramètres de régression la méthode Kernel Ridge ont été estimés à partir de sept plis et appliqués aux trois plis restants pour les tests, ce qui a donné 120 combinaisons formation-test. La validation croisée 10 fois a été effectuée sur les 7 plis d'entraînement pour sélectionner le paramètre de régulation optimal λ.
Les variables confusionnelles d'âge, de sexe, de FD, de DVARS, de volume intracrânien et d'éducation parentale ont été régressées à partir des données de comportement et de RSFC. Comme pour l'ensemble de données HCP, les chercheurs ont également répété l'analyse principale sans régression des variables confusionnelles. Le revenu du ménage n'a pas été inclus en raison du grand nombre de valeurs manquantes (93 des 635 participants AA ont refusé de répondre ou avaient un revenu inconnu).
Pour s’assurer que les résultats ne sont pas spécifiques aux modèles de régression Kernel Ridge, les chercheurs ont également utilisé la régression ridge linéaire comme méthode auxiliaire pour les deux ensembles de données. Les procédures de formation et de test étaient les mêmes que celles utilisées pour la régression Kernel Ridge. Les hyperparamètres optimaux sélectionnés pour ces deux méthodes sont répertoriés dans le tableau S3 pour chaque mesure comportementale.
Deux mesures de précision ont été considérées : la COD prédictive et la corrélation de Pearson. Pour chaque pli de test, la COD prédictive de l'AA a été définie comme 1 - SSEAA/SST, où SSEAA=∑i∈test AA(yi-yˆi)2/Ntest AA (yi et yˆi sont le score comportemental original et le score prédit du ième participant au test AA, respectivement ; Ntest AA est le nombre d'AA dans l'ensemble de test), c'est-à-dire l'EQM. Le dénominateur SST = ∑j ∈ train AA&WA(yj - mean(ytrain AA&WA))2/Ntrain AA&WA représentait la variance comportementale totale apprise à partir de l'ensemble de formation.
Le COD prédictif de WA a été défini comme 1 - SSEWA/SST, où SSEWA=∑i∈test WA(yi-yˆi)2/Ntest WA et SST était le même que AA car la variance totale n'était pas supposée ici être spécifique au groupe. La corrélation de Pearson a également été calculée séparément pour chaque pli de test. Pour l'ensemble de données HCP, la moyenne de la DCO prédictive ou de la corrélation de Pearson a été calculée sur 10 plis pour chaque division de données, ce qui a donné 40 valeurs de précision. Pour l'ensemble de données ABCD, les 120 valeurs de précision correspondant à 120 fractionnements de données n'ont pas été moyennées, mais directement présentées dans les boxplots de la section Résultats.
Différence de précision entre AA et WA
Pour chaque ensemble de données et chaque mesure de précision, les chercheurs ont déterminé que les comportements étaient prévisibles ou non en fonction de deux critères :
- la précision parmi tous les participants au test, y compris les AA, les WA et les autres ethnies/races, qui a survécu au test de permutation par blocs à plusieurs niveaux (94) en mélangeant 1000 fois les scores comportementaux prédits (avec correction FDR pour tous les comportements) ;
- les précisions moyennes parmi les divisions de données étaient positives pour les AA ou les WA.
Pour chaque comportement prévisible, la différence de précision entre les AA et les WA appariés a été évaluée par un test de permutation, où la distribution nulle a été construite en recalculant les précisions en mélangeant 1000 fois les étiquettes des groupes. Les comparaisons multiples ont été contrôlées avec un FDR < 0,05.
Influence de la population d'entraînement
Pour explorer les effets de la population statistique, les chercheurs ont entraîné le modèle de régression Kernel Ridge spécifiquement sur des sous-échantillons uniquement AA ou uniquement WA séparément. Concrètement, les chercheurs ont sélectionné tous les AA dans les plis d'entraînement.
Dans chaque site de formation sélectionné pour les AA, ils ont sélectionné aléatoirement le même nombre de WA. Notons que pour certains sites, le nombre total de WA était inférieur à celui des AA ; par conséquent, des AA aléatoires ont été exclus pour correspondre au nombre de WA. Le modèle de prédiction a ensuite été entraîné sur les AA ou les WA sélectionnés, ou les deux, et testé sur les AA et WA appariés, de la même manière que lorsque le modèle a été entraîné sur les ensembles de données complets.
Source : NIST
Et vous ?
Que pensez-vous des préjugés algorithmiques dans les modèles d'IA ? Quelles solutions selon vous ?
Voir aussi :
Une nouvelle interface cerveau-ordinateur permet à un homme de communiquer avec son fils et de lui demander une bière
Le scandale néerlandais est un avertissement pour l'Europe sur les risques liés à l'utilisation des algorithmes, l'administration fiscale a ruiné des milliers de vies avec un algorithme
Le générateur d'images de l'IA DALL-E d'OpenAI peut désormais modifier des photos, les chercheurs peuvent s'inscrire pour le tester
Une IA de nouvelle génération, appelée Nook, bat plusieurs champions du monde de bridge, le logiciel d' IA est développé par la startup française