La majorité des connaissances scientifiques existent uniquement sous formes d'articles, et donc au format texte, ce qui rend difficile toute analyse globale. De ce fait, de nombreuses découvertes potentielles sont ratées, simplement parce qu'aucun être humain n'a su faire le lien entre deux découvertes séparées. Aussi, dans une étude publiée dans le magazine Nature la semaine dernière, des chercheurs du Lawrence Berkeley National Laboratory ont utilisé un algorithme appelé Word2Vec pour passer en revue les articles scientifiques afin de rechercher les connexions manquantes entre eux. Leur algorithme a été en mesure de proposer des matériaux en thermoélectricité ; utilisés pour convertir la chaleur en énergie ils sont embarqués dans de nombreuses applications de chauffage et de refroidissement.
Pour rappel, l’effet thermoélectrique est un phénomène physique présent dans certains matériaux : il lie le flux de chaleur qui les traverse au courant électrique qui les parcourt. Cet effet est à la base d'applications, dont très majoritairement la thermométrie, puis la réfrigération (ex. module Peltier) et enfin, très marginalement, la génération d'électricité (par « thermopile » ou « calopile »). Un matériau thermoélectrique transforme directement la chaleur en électricité, ou déplace des calories par l'application d'un courant électrique.
L’algorithme ne connaissait pas la définition de thermoélectricité. Il n'a reçu aucune « formation » en science de la matière. Cependant, en utilisant uniquement des associations de mots, l'algorithme a pu fournir une liste potentielle de futurs matériaux en thermoélectricité, dont certains pourraient être meilleurs que ceux que nous utilisons actuellement.
« Il peut lire n'importe quel article sur la science des matériaux, ainsi peut créer des liens qu'aucun scientifique ne pourrait », a déclaré le chercheur Anubhav Jain. « Parfois, il fait ce qu'un chercheur ferait; d'autres fois, il procède à des associations multidisciplinaires ».
Pour « former » l'algorithme, les chercheurs lui ont fait parcourir 3,3 millions de résumés d’articles scientifiques liés à la science des matériaux, aboutissant à un vocabulaire d'environ 500 000 mots. Word2vec s’est alors servi de l’apprentissage automatique pour analyser les relations entre les différents mots, en représentant chacun par un vecteur (d'où son nom "Word2Vec".
« En formant un réseau de neurones sur un mot, vous obtenez des représentations de mots pouvant réellement transmettre des connaissances », a commenté Jain.
En utilisant seulement les mots trouvés dans les résumés scientifiques, l’algorithme était capable de comprendre des concepts tels que le tableau périodique et la structure chimique des molécules. L'algorithme a lié les mots qu’il trouvait proches les uns aux autres, créant des vecteurs de mots apparentés permettant de définir les concepts. Dans certains cas, les mots étaient liés à des concepts de thermoélectricité mais n’avaient jamais été décrits la thermoélectricité comme un champ d’application dans les résumés analysés. Cette lacune dans les connaissances est difficile à détecter avec un œil humain, mais facile à détecter par un algorithme.
Après avoir montré sa capacité à prédire les matériaux futurs, les chercheurs ont virtuellement fait remonter leurs travaux dans le temps. Ils ont mis au rebut les données récentes et testé l'algorithme sur d'anciennes publications scientifiques, en cherchant s'il pouvait prédire des découvertes scientifiques avant qu'elles ne se produisent. Encore une fois, l'algorithme a fonctionné.
Les chercheurs ont donc retiré les articles récents et entraîné une nouvelle fois leur modèle sur 18 corps de textes différents, en limitant à chaque fois les textes à ceux publiés avant une année limite, entre 2001 et 2018. L'algorithme a, à chaque fois, donné cinq matériaux considérés comme les plus prometteurs pour une application thermoélectrique d'après les associations faites dans la littérature. Ils ont ainsi pu prédire la découverte de CuGaTe2, l'un des meilleurs matériaux thermoélectriques modernes, quatre ans avant sa première publication en 2012. Sur quatre autres matériaux mis en avant par l'IA sur la base des articles publiés avant 2009, deux n'ont été que suggérés dans la littérature que 8 ou 9 ans après les articles étudiés, tandis que deux autres n'ont jamais été testés.
Cette nouvelle application de l’apprentissage automatique va au-delà de la science des matériaux. Comme il n’est pas formé sur un ensemble de données scientifiques spécifique, vous pouvez facilement l’appliquer à d’autres disciplines, en le recyclant à la littérature de la matière de votre choix. Vahe Tshitoyan, l’auteur principal de l’étude, indique que d’autres chercheurs ont déjà atteint le but recherché, souhaitant en apprendre davantage.
« Cet algorithme n'est pas supervisé et construit ses propres connexions », a déclaré Tshitoyan. « Vous pouvez l'utiliser pour des travaux tels que la recherche médicale ou la découverte de médicaments. L'information est là-bas. Nous n’avons tout simplement pas encore établi ces liens, car vous ne pouvez pas lire tous les articles ».
Source : Nature
Et vous ?
Qu'en pensez-vous ?
Voir aussi :
Intelligence artificielle : Bruno Le Maire précise la stratégie française et où vont aller les 1,5 milliard d'euros promis d'ici 2022
Gen, un langage probabiliste universel dans Julia, il ambitionne de faciliter l'utilisation d'intelligence artificielle pour tous
Salesforce annonce pour 15,7 milliards $ le rachat de Tableau, entreprise leader de la business intelligence et l'analytics
Intelligence artificielle : Microsoft se démarque dans la pertinence technique et la couverture de marché, d'après un rapport d'IPlytics
Une IA aide à compléter d'anciennes recherches scientifiques en révélant des connexions entre elles
Qui auraient mené à des découvertes
Une IA aide à compléter d'anciennes recherches scientifiques en révélant des connexions entre elles
Qui auraient mené à des découvertes
Le , par Stéphane le calme
Une erreur dans cette actualité ? Signalez-nous-la !