Construit à l'aide de modèles transformateurs, qui alimentent les grands modèles de langage (LLM) tels que ChatGPT, le nouvel outil, life2vec, est entraîné sur un ensemble de données provenant de l'ensemble de la population du Danemark, soit 6 millions de personnes. Cet ensemble de données a été mis à la disposition des chercheurs par le gouvernement danois.
L'outil que les chercheurs ont construit à partir de cet ensemble complexe de données est capable de prédire l'avenir, y compris la durée de vie des individus, avec une précision qui dépasse celle des modèles les plus récents. Mais malgré son pouvoir prédictif, l'équipe à l'origine de la recherche affirme qu'il est préférable de l'utiliser comme base pour des travaux futurs, et non comme une fin en soi.
"Même si nous utilisons la prédiction pour évaluer la qualité de ces modèles, l'outil ne devrait pas être utilisé pour prédire des personnes réelles", explique Tina Eliassi-Rad, professeur d'informatique et la première professeure présidente Joseph E. Aoun à la Northeastern University. "Il s'agit d'un modèle de prédiction basé sur un ensemble de données spécifiques d'une population spécifique."
Mme Eliassi-Rad a apporté au projet son expertise en matière d'éthique de l'IA. "Ces outils vous permettent de voir votre société d'une manière différente : les politiques que vous avez, les règles et les règlements que vous avez", dit-elle. "On peut considérer qu'il s'agit d'une analyse de ce qui se passe sur le terrain."
En impliquant des chercheurs en sciences sociales dans le processus de construction de cet outil, l'équipe espère qu'elle apportera au développement de l'IA une approche centrée sur l'humain qui ne perdra pas de vue les êtres humains au milieu de l'énorme ensemble de données sur lequel leur outil a été formé. "Ce modèle offre un reflet beaucoup plus complet du monde tel qu'il est vécu par les êtres humains que beaucoup d'autres modèles", explique Sune Lehmann, auteur de l'article, qui a été récemment publié dans Nature Computational Science. Une note de recherche sur le sujet est présentée dans le même numéro de la revue.
Au cœur de life2vec se trouve l'ensemble de données massives que les chercheurs ont utilisé pour entraîner leur modèle. Ces données sont détenues par Statistics Denmark, l'autorité centrale des statistiques danoises, et, bien que strictement réglementées, elles sont accessibles à certains membres du public, y compris les chercheurs. La raison pour laquelle ces données sont si étroitement contrôlées est qu'elles comprennent un registre détaillé de chaque citoyen danois.
Les nombreux événements et éléments qui composent une vie sont décrits dans les données, depuis les facteurs de santé et l'éducation jusqu'aux revenus. Les chercheurs ont utilisé ces données pour créer de longs schémas d'événements récurrents de la vie afin d'alimenter leur modèle, en prenant l'approche du modèle transformateur utilisé pour former les LLM au langage et en l'adaptant à une vie humaine représentée sous la forme d'une séquence d'événements. "D'une certaine manière, l'histoire d'une vie humaine peut également être considérée comme une longue phrase géante des nombreuses choses qui peuvent arriver à une personne", explique M. Lehmann, professeur de réseaux et de sciences de la complexité à DTU Compute, l'université technique du Danemark, et précédemment chercheur postdoctoral à Northeastern.
Le modèle utilise les informations qu'il apprend en observant des millions de séquences d'événements de la vie pour construire ce que l'on appelle des représentations vectorielles dans des espaces d'intégration, où il commence à catégoriser et à établir des liens entre les événements de la vie comme les revenus, l'éducation ou les facteurs de santé. Ces espaces d'intégration servent de base aux prédictions que le modèle finit par faire.
L'un des événements de la vie que les chercheurs ont prédit était la probabilité de mortalité d'une personne. "Lorsque nous visualisons l'espace que le modèle utilise pour faire des prédictions, il ressemble à un long cylindre qui vous emmène d'une faible probabilité de décès à une forte probabilité de décès", explique Lehmann. "Nous pouvons alors montrer qu'à la fin, lorsque la probabilité de décès est élevée, un grand nombre de ces personnes sont effectivement décédées, et qu'à la fin, lorsque la probabilité de décès est faible, les causes de décès sont quelque chose que nous ne pouvions pas prédire, comme les accidents de voiture".
L'article montre également que le modèle est capable de prédire les réponses individuelles à un questionnaire de personnalité standard, en particulier en ce qui concerne l'extraversion.
Eliassi-Rad et Lehmann notent que bien que le modèle fasse des prédictions très précises, celles-ci sont basées sur des corrélations, des contextes culturels et sociétaux très spécifiques et les types de biais qui existent dans chaque ensemble de données. "Ce type d'outil est comme un observatoire de la société - et pas de toutes les sociétés", explique Eliassi-Rad. "Cette étude a été réalisée au Danemark, et le Danemark a sa propre culture, ses propres lois et ses propres règles sociétales. La question de savoir si l'on peut faire la même chose aux États-Unis est une autre histoire."
Compte tenu de toutes ces mises en garde, Eliassi-Rad et Lehmann considèrent leur modèle prédictif moins comme un produit fini que comme le début d'une conversation. Selon M. Lehmann, les grandes entreprises technologiques créent probablement ce type d'algorithmes prédictifs depuis des années dans des salles fermées. Il espère que ce travail permettra de commencer à créer une compréhension plus ouverte et publique du fonctionnement de ces outils, de leurs capacités et de la manière dont ils devraient ou ne devraient pas être utilisés.
Résumé
Nous représentons ici les vies humaines d'une manière qui présente des similitudes structurelles avec le langage, et nous exploitons ces similitudes pour adapter les techniques de traitement du langage naturel afin d'examiner l'évolution et la prévisibilité des vies humaines sur la base de séquences d'événements détaillées. Pour ce faire, nous nous appuyons sur un ensemble complet de données de registres, disponibles pour le Danemark sur plusieurs années, et qui comprennent des informations sur les événements de la vie liés à la santé, à l'éducation, à la profession, au revenu, à l'adresse et aux heures de travail, enregistrés avec une résolution quotidienne. Nous créons des enchâssements d'événements de la vie dans un espace vectoriel unique, montrant que cet espace d'enchâssement est robuste et hautement structuré. Nos modèles nous permettent de prédire divers résultats allant de la mortalité précoce aux nuances de la personnalité, en surpassant largement les modèles de pointe. En utilisant des méthodes d'interprétation des modèles d'apprentissage profond, nous sondons l'algorithme pour comprendre les facteurs qui permettent nos prédictions. Notre cadre permet aux chercheurs de découvrir les mécanismes potentiels qui ont un impact sur les résultats de la vie ainsi que les possibilités associées d'interventions personnalisées.
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
Un outil d'IA permet de prédire avec une précision de 90 % les cas de patients qui succomberont au COVID-19, il prédirait aussi les besoins de respirateurs avec une précision de 80 %
L'IA peut-elle prédire qu'un tiers sera criminel sur la base d'une photo ? Oui, avec une précision de 80 % et sans biais racial, selon une étude, retirée d'Internet en raison de la controverse
Une étude suggère que l'IA pourrait prédire le risque de crise cardiaque chez les personnes jusqu'à 10 ans à l'avance, un prototype aurait prédit avec précision plus de 3 000 crises cardiaques