
Une équipe internationale de chercheurs a analysé la précision des algorithmes à prédire divers comportements cognitifs et mesures de santé à partir de scanners IRMf du cerveau, tels que la mémoire, l'humeur et même la force de préhension. Les ensembles de données médicales sont souvent biaisés ils ne sont pas collectés à partir d'un échantillon suffisamment diversifié, et certains groupes de la population sont laissés de côté ou mal représentés.
Il n'est pas surprenant que les modèles prédictifs qui tentent de détecter le cancer de la peau, par exemple, ne soient pas aussi efficaces lorsqu'ils analysent des teints foncés que des teints clairs. Les ensembles de données biaisés sont souvent à l'origine du fait que les modèles d'IA sont également biaisés. Mais un article publié dans Science Advances a révélé que ces comportements indésirables des algorithmes peuvent persister même s'ils sont formés sur des ensembles de données plus équitables et diversifiés.
L'équipe a réalisé une série d'expériences avec deux ensembles de données contenant des dizaines de milliers de scans IRMf du cerveau de personnes y compris des données provenant du Human Connectome Project et de l'Adolescent Brain Cognitive Development. Afin de sonder l'impact des disparités raciales sur les performances des modèles prédictifs, ils ont essayé de minimiser l'impact que d'autres variables, comme l'âge ou le sexe, pourraient avoir sur la précision.
« Lorsque les modèles prédictifs ont été formés sur des données dominées par des Américains blancs (WA), les erreurs de prédiction hors échantillon étaient généralement plus élevées pour les Afro-Américains (AA) que pour les WA », peut-on lire dans l'article. Cela ne devrait pas poser de problème, mais ce qui est intéressant, c'est que ces erreurs n'ont pas disparu, même lorsque les algorithmes ont été formés sur des ensembles de données contenant des échantillons provenant d'une représentation égale de WA et de AA, ou uniquement de AA.
Les algorithmes entraînés uniquement sur des échantillons de données provenant de AA n'étaient toujours pas aussi précis pour prédire les comportements cognitifs du groupe de populations que ceux entraînés sur les WA l'étaient pour les WA, ce qui va à l'encontre de la compréhension commune du fonctionnement normal de ces systèmes. « Lorsque les modèles ont été formés uniquement sur les AA, par rapport à la formation uniquement sur les WA ou sur un nombre égal de participants AA et WA, la précision de la prédiction des AA s'est améliorée, mais est restée inférieure à celle des WA », poursuit le résumé. Pourquoi ?
Les chercheurs ne savent pas exactement pourquoi le modèle se comporte ainsi, mais ils pensent que cela pourrait être dû à la façon dont les données ont été collectées. « Pour l'instant, il est difficile de dire d'où vient la différence de précision de prédiction WA-AA qui subsiste lorsque le modèle n'a été entraîné que sur AA », a déclaré Li, chercheur postdoctoral à l'Institut des neurosciences et de la médecine, du cerveau et du comportement du Centre de recherche Jülich en Allemagne.
« Plusieurs étapes du prétraitement de la neuro-imagerie pourraient avoir influencé le résultat. Par exemple, pendant le prétraitement, une convention consiste à aligner les cerveaux des individus sur un modèle de cerveau standard afin que les cerveaux individuels puissent être comparés. Mais ces modèles de cerveau ont généralement été créés à partir de la population blanche.
« Idem pour les atlas fonctionnels prédéfinis, où les voxels des images cérébrales peuvent être regroupés en régions sur la base de leur homogénéité fonctionnelle... Mais la délimitation de ces atlas fonctionnels était là encore souvent basée sur des ensembles de données prédominés par la population blanche ou européenne en termes de taille d'échantillon. »
Composition ethnique/raciale dans nos ensembles de données et les atlas cérébraux utilisés pour le calcul du RSFC.
Composition des sous-populations de (A) HCP et (B) ABCD et ROIs de connectivité fonctionnelle. Notons que la dénomination des catégories ethniques/raciales dans (B) a suivi la définition donnée par le consortium ABCD, qui était légèrement différente de la définition du National Institutes of Health. (C) La parcellation corticale à 400 aires dérivée par Schaefer. Les couleurs des parcelles correspondent à 17 réseaux à grande échelle. (D) Dix-neuf ROIs sous-corticaux de l'atlas de Deskian/Killiany.
Une autre raison pourrait être que les données recueillies auprès des patients ne sont pas tout à fait exactes. « On peut également se demander si les tests psychométriques que nous utilisons aujourd'hui saisissent effectivement le concept psychologique sous-jacent correct pour les groupes minoritaires », a-t-elle ajouté.
Lorsque les algorithmes ont été appliqués à l'ensemble de données du Human Connectome Project, ils se sont avérés plus précis pour prédire si les AO étaient plus susceptibles d'être en colère ou agressifs ou s'ils avaient de meilleures capacités de lecture. La même tentative de faire ces prédictions s'est avérée moins fructueuse avec la cohorte AA.
Selon Li, cette étude ne confirme pas l'existence de mesures neurobiologiques ou psychométriques qui diffèrent selon les populations en raison de leur origine ethnique. Elle souhaite plutôt souligner qu'il ne suffit pas de disposer d'un ensemble de données plus diversifié pour que les algorithmes d'IA soient moins biaisés et plus justes.
« Je ferais très attention à ne pas faire de déclaration disant que WA et AA sont différents dans ces mesures neurobiologiques ou psychométriques simplement en raison de leur ethnicité. Comme nous l'avons également discuté dans le document, l'ethnicité ou la race est un concept tellement complexe qui prend en compte tous les facteurs historiques, sociétaux et éducatifs. Nous ne voulons pas renforcer les stéréotypes raciaux ou accroître le racisme structurel. Au contraire, l'objectif de ce document est de plaider pour une plus grande équité entre les groupes ethniques dans le contexte spécifique de l'analyse par neuro-imagerie. »
« Les tentatives actuelles pour remédier aux effets néfastes du biais de l'IA restent axées sur des facteurs informatiques tels que la représentativité des ensembles de données et l'équité des algorithmes d'apprentissage automatique, peut-on lire dans le rapport. Ces remèdes sont essentiels pour atténuer les préjugés, et il reste encore beaucoup à faire. Pourtant, les facteurs institutionnels et sociétaux humains et systémiques sont également des sources importantes de biais de l'IA, et sont actuellement négligés. »
Pour l'ensemble de données HCP, les participants AA ont d'abord été répartis aléatoirement en 10 groupes. Dans chaque groupe de AA, un appariement hongrois a été effectué afin d'assigner un participant WA (sans répétition) à chaque AA individuel de sorte que les différences entre les AA et WA appariés dans les scores comportementaux et les variables confusionnelles soient minimisées.
Les modèles prédictifs ont été entraînés sur neuf plis et testés sur le pli restant de manière validée par croisement. Suivant l'approche dominante pour construire des modèles prédictifs dans ce domaine, qui mélange habituellement tous les groupes ethniques/raciaux dans un ensemble de données, les AA et WA appariés des plis d'entraînement ont été regroupés avec 90 % des participants sélectionnés au hasard dans d'autres groupes ethniques/raciaux et les WA et AA non appariés.
L'ensemble de la procédure a été répété aléatoirement 40 fois afin de s'assurer que les résultats n'étaient pas influencés par la division initiale des dossiers. Pour 51 des 58 mesures comportementales totales, les AA et les WA ont pu être appariés.
Matériels et méthodes
Régression par la méthode Kernel Ridge
Chaque mesure comportementale des deux ensembles de données a été prédite séparément à l'aide de la méthode Kernel Ridge. Les chercheurs ont utilisé cette approche, car elle permet de prédire efficacement les mesures comportementales tout en ayant un faible coût de calcul. Supposons que ys et yi désignent la mesure comportementale (par exemple, la mémoire épisodique) du participant au test s et du participant à l'entraînement i, respectivement. Que cs et ci désignent le RSFC vectorisé (entrées triangulaires inférieures des matrices RSFC) du participant au test s et du participant à l'entraînement i, respectivement.
Ensuite, en gros, la régression par noyau prédit ys comme la moyenne pondérée des mesures comportementales de tous les participants à l'entraînement, c'est-à-dire yˆs≈∑i∈training setSimilarity(cs,ci)yi.
Ici, Similarity(cs, ci) était défini par la corrélation de Pearson entre le RSFC vectorisé du participant au test et du ième participant à la formation. Par conséquent, une prédiction réussie indiquerait que les participants ayant un RSFC plus similaire ont des scores comportementaux similaires. Pour réduire l'ajustement excessif, un terme de régularisation l2 a été inclus. Plus de détails sont disponibles dans les méthodes supplémentaires.
Pour l'ensemble de données HCP, les chercheurs ont effectué une validation croisée emboîtée 10 fois en préservant la structure de la famille. Pour chaque pli de test, les paramètres de régression du noyau ont été estimés à partir de tous les groupes ethniques/raciaux dans les neuf plis de formation. Une validation croisée 10 fois a ensuite été effectuée sur les neuf dossiers d'apprentissage avec différents paramètres de régularisation l2 λ pour sélectionner de manière optimale la valeur de λ.
Les paramètres estimés des dossiers d'apprentissage ont ensuite été utilisés pour prédire le comportement des participants dans le dossier de test. Étant donné qu'une seule validation croisée 10 fois peut être sensible à la division particulière des données en plis 30, la validation croisée 10 fois ci-dessus a été répétée 40.
Les variables de confusion que sont l'âge, le sexe, la FD, le DVARS, le volume intracrânien, l'éducation et le revenu du ménage ont été éliminées par régression à partir des données comportementales et des données RSFC. Pour étudier les effets de la régression des variables confusionnelles sur les biais du modèle, les chercheurs ont également répété l'analyse principale sans régression des variables confusionnelles.
Pour l'ensemble de données ABCD, tous les participants ont été répartis en 10 plis. Les paramètres de régression la méthode Kernel Ridge ont été estimés à partir de sept plis et appliqués aux trois plis restants pour les tests, ce qui a donné 120 combinaisons formation-test. La validation croisée 10 fois a été effectuée sur les 7 plis d'entraînement pour sélectionner le paramètre de régulation optimal λ.
Les variables confusionnelles d'âge, de sexe, de FD, de DVARS, de volume intracrânien et d'éducation parentale ont été régressées à partir des données de comportement et de RSFC. Comme pour l'ensemble de données HCP, les chercheurs ont également répété l'analyse principale sans régression des variables confusionnelles. Le revenu du ménage n'a pas été inclus en raison du grand nombre de valeurs manquantes (93 des 635 participants AA ont refusé de répondre ou avaient un revenu inconnu).
Pour s’assurer que les résultats ne sont pas spécifiques aux modèles de régression Kernel Ridge, les chercheurs ont également utilisé la régression ridge linéaire comme méthode auxiliaire pour...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.