Nous représentons ici les vies humaines d'une manière qui présente des similitudes structurelles avec le langage, et nous exploitons ces similitudes pour adapter les techniques de traitement du langage naturel afin d'examiner l'évolution et la prévisibilité des vies humaines sur la base de séquences d'événements détaillées. Pour ce faire, nous nous appuyons sur un ensemble complet de données de registres, disponibles pour le Danemark sur plusieurs années, et qui comprennent des informations sur les événements de la vie liés à la santé, à l'éducation, à la profession, au revenu, à l'adresse et aux heures de travail, enregistrés avec une résolution quotidienne. Nous créons des enchâssements d'événements de la vie dans un espace vectoriel unique, montrant que cet espace d'enchâssement est robuste et hautement structuré. Nos modèles nous permettent de prédire divers résultats allant de la mortalité précoce aux nuances de la personnalité, en surpassant largement les modèles de pointe. En utilisant des méthodes d'interprétation des modèles d'apprentissage profond, nous sondons l'algorithme pour comprendre les facteurs qui permettent nos prédictions. Notre cadre permet aux chercheurs de découvrir les mécanismes potentiels qui ont un impact sur les résultats de la vie ainsi que les possibilités associées d'interventions personnalisées.

Construit à l'aide de modèles transformateurs, qui alimentent les grands modèles de langage (LLM) tels que ChatGPT, le nouvel outil,, est entraîné sur un ensemble de données provenant de l'ensemble de la population du Danemark, soit 6 millions de personnes. Cet ensemble de données a été mis à la disposition des chercheurs par le gouvernement danois.L'outil que les chercheurs ont construit à partir de cet ensemble complexe de données est capable de prédire l'avenir, y compris la durée de vie des individus, avec une précision qui dépasse celle des modèles les plus récents. Mais malgré son pouvoir prédictif, l'équipe à l'origine de la recherche affirme qu'il est préférable de l'utiliser comme base pour des travaux futurs, et non comme une fin en soi.", explique Tina Eliassi-Rad, professeur d'informatique et la première professeure présidente Joseph E. Aoun à la Northeastern University. "Mme Eliassi-Rad a apporté au projet son expertise en matière d'éthique de l'IA. "", dit-elle. "En impliquant des chercheurs en sciences sociales dans le processus de construction de cet outil, l'équipe espère qu'elle apportera au développement de l'IA une approche centrée sur l'humain qui ne perdra pas de vue les êtres humains au milieu de l'énorme ensemble de données sur lequel leur outil a été formé. "", explique Sune Lehmann, auteur de l'article, qui a été récemment publié dans Nature Computational Science. Une note de recherche sur le sujet est présentée dans le même numéro de la revue.Au cœur de life2vec se trouve l'ensemble de données massives que les chercheurs ont utilisé pour entraîner leur modèle. Ces données sont détenues par Statistics Denmark, l'autorité centrale des statistiques danoises, et, bien que strictement réglementées, elles sont accessibles à certains membres du public, y compris les chercheurs. La raison pour laquelle ces données sont si étroitement contrôlées est qu'elles comprennent un registre détaillé de chaque citoyen danois.Les nombreux événements et éléments qui composent une vie sont décrits dans les données, depuis les facteurs de santé et l'éducation jusqu'aux revenus. Les chercheurs ont utilisé ces données pour créer de longs schémas d'événements récurrents de la vie afin d'alimenter leur modèle, en prenant l'approche du modèle transformateur utilisé pour former les LLM au langage et en l'adaptant à une vie humaine représentée sous la forme d'une séquence d'événements. "", explique M. Lehmann, professeur de réseaux et de sciences de la complexité à DTU Compute, l'université technique du Danemark, et précédemment chercheur postdoctoral à Northeastern.Le modèle utilise les informations qu'il apprend en observant des millions de séquences d'événements de la vie pour construire ce que l'on appelle des représentations vectorielles dans des espaces d'intégration, où il commence à catégoriser et à établir des liens entre les événements de la vie comme les revenus, l'éducation ou les facteurs de santé. Ces espaces d'intégration servent de base aux prédictions que le modèle finit par faire.L'un des événements de la vie que les chercheurs ont prédit était la probabilité de mortalité d'une personne. "", explique Lehmann. "".L'article montre également que le modèle est capable de prédire les réponses individuelles à un questionnaire de personnalité standard, en particulier en ce qui concerne l'extraversion.Eliassi-Rad et Lehmann notent que bien que le modèle fasse des prédictions très précises, celles-ci sont basées sur des corrélations, des contextes culturels et sociétaux très spécifiques et les types de biais qui existent dans chaque ensemble de données. "", explique Eliassi-Rad. "Compte tenu de toutes ces mises en garde, Eliassi-Rad et Lehmann considèrent leur modèle prédictif moins comme un produit fini que comme le début d'une conversation. Selon M. Lehmann, les grandes entreprises technologiques créent probablement ce type d'algorithmes prédictifs depuis des années dans des salles fermées. Il espère que ce travail permettra de commencer à créer une compréhension plus ouverte et publique du fonctionnement de ces outils, de leurs capacités et de la manière dont ils devraient ou ne devraient pas être utilisés.Source : Using sequences of life-events to predict human lives