DeepMind est une société d'IA qui a été rachetée par Google en 2014. Le groupe d'intelligence artificielle, qui s'est fait connaître par ses performances surhumaines dans les jeux, a résolu un grave problème scientifique qui a paralysé les chercheurs pendant un demi-siècle. Avec son dernier programme d'intelligence artificielle, AlphaFold, la société et son laboratoire de recherche ont montré qu'ils peuvent prédire comment les protéines se plient en formes 3D, un processus extrêmement complexe qui est fondamental pour comprendre la structure biologique de la vie.
DeepMind est surtout connu pour sa série de programmes de découverte qui ont permis d'atteindre la suprématie aux échecs, à Starcraft II et aux classiques de l'Atari. Mais le jeu surhumain n'a jamais été le but premier. Au contraire, les jeux ont servi de terrain d'entraînement à des programmes qui, une fois assez puissants, étaient déclenchés sur des problèmes du monde réel.
Le repliement des protéines est un grand défi en biologie depuis 50 ans. Forme mystérieuse d'origami moléculaire, son importance est difficile à évaluer. La plupart des processus biologiques tournent autour des protéines et la forme d'une protéine détermine sa fonction. Lorsque les chercheurs savent comment une protéine se replie, ils peuvent commencer à découvrir ce qu'elle fait. La façon dont l'insuline contrôle le taux de sucre dans le sang et la façon dont les anticorps combattent les coronavirus sont toutes deux déterminées par la structure des protéines.
Les scientifiques ont identifié plus de 200 millions de protéines, mais les structures ne sont connues que pour une fraction d'entre elles. Traditionnellement, les formes sont découvertes grâce à un travail de laboratoire méticuleux qui peut prendre des années. Et si les informaticiens ont fait des progrès sur le problème, déduire la structure de la composition d'une protéine n'est pas une tâche facile. Les protéines sont des chaînes d'acides aminés qui peuvent se tordre et se courber en une variété de formes époustouflantes.
Pour apprendre comment les protéines se replient, les chercheurs de DeepMind ont formé leur algorithme sur une base de données publique contenant environ 170 000 séquences de protéines et leurs formes. Fonctionnant sur l'équivalent de 100 à 200 unités de traitement graphique - selon les normes modernes, une quantité modeste de puissance de calcul - la formation a pris quelques semaines.
L'équipe DeepMind a traité la protéine comme un graphe de réseau spatial, avec chaque acide aminé comme un nœud et les connexions entre eux transmises par leur proximité dans la protéine repliée. L'IA elle-même est ensuite formée à la tâche de déterminer la configuration et la force de ces connexions en lui fournissant les structures préalablement déterminées de plus de ces protéines.
Lorsqu'il reçoit une nouvelle protéine, AlphaFold recherche toutes les protéines ayant une séquence apparentée, et aligne les parties apparentées des séquences. Il recherche également les protéines dont les structures sont connues et qui présentent également des régions de similarité. En général, ces approches sont très efficaces pour optimiser les caractéristiques locales de la structure, mais pas pour prédire la structure globale de la protéine - rassembler un ensemble de pièces hautement optimisées ne produit pas nécessairement un ensemble optimal. Et c'est là qu'une partie de l'algorithme basée sur l'apprentissage approfondi a été utilisée pour s'assurer que la structure globale était cohérente.
DeepMind a mis AlphaFold à l'épreuve en l'inscrivant à une "olympiade des protéines" biennale connue sous le nom de CASP (Critical Assessment of Techniques for Protein Structure Prediction), l'évaluation critique de la prédiction de la structure des protéines. Les participants à cette compétition internationale reçoivent les séquences d'acides aminés d'une centaine de protéines et doivent les mettre au point. Les résultats des équipes qui utilisent des ordinateurs sont comparés à ceux obtenus en laboratoire.
AlphaFold a non seulement surpassé les autres programmes informatiques, mais a atteint une précision comparable aux méthodes laborieuses et longues basées sur le travail en laboratoire. Lorsqu'il a été classé parmi toutes les protéines analysées, AlphaFold a obtenu un score médian de 92,5 sur 100, 90 étant l'équivalent des méthodes expérimentales. Pour les protéines les plus dures, le score médian a baissé, mais seulement de façon marginale, à 87.
Le projet CASP14 auquel DeepMind a participé (cette année à sa quatorzième édition) réunit un groupe de scientifiques qui se penchent sur la question depuis 1994. « Les protéines sont des molécules extrêmement complexes, et leur structure tridimensionnelle précise est la clé des nombreux rôles qu'elles jouent, par exemple l'insuline qui régule le taux de sucre dans notre sang et les anticorps qui nous aident à combattre les infections », a déclaré le Dr John Moult, président du CASP14.
« Même de minuscules réarrangements de ces molécules vitales peuvent avoir des effets catastrophiques sur notre santé, c'est pourquoi l'un des moyens les plus efficaces de comprendre la maladie et de trouver de nouveaux traitements est d'étudier les protéines impliquées. Il existe des dizaines de milliers de protéines humaines et plusieurs milliards dans d'autres espèces, y compris les bactéries et les virus, mais l'élaboration de la forme d'une seule d'entre elles nécessite un équipement coûteux et peut prendre des années », ajoute le Dr Moult.
Lors du dernier test, DeepMind a déclaré qu'AlphaFold a déterminé la forme d'environ deux tiers des protéines avec une précision comparable à celle des expériences en laboratoire. Les résultats de ces tests ont été publiés en ligne, afin qu'ils puissent être examinés par des scientifiques externes. Aujourd'hui, les chercheurs à l'origine du projet affirment qu'il reste encore beaucoup de travail à faire, notamment pour comprendre comment de multiples protéines forment des complexes et comment elles interagissent avec l'ADN. DeepMind prévoit de soumettre un article détaillant son système à une revue à comité de lecture pour être examiné par la communauté scientifique au sens large.
Le professeur Venki Ramakrishnan, lauréat du prix Nobel et président de la Royal Society, a déclaré « Ce travail de calcul représente une avancée étonnante sur le problème du repliement des protéines, un grand défi de la biologie vieux de 50 ans. Il s'est produit des décennies avant que de nombreuses personnes dans ce domaine n'aient pu le prévoir. Il sera passionnant de voir les nombreuses façons dont il changera fondamentalement la recherche biologique ».
DeepMind a noté que, entre autres choses, la prédiction des structures protéiques pourrait être une partie importante des réponses aux futures pandémies, et qu'il avait déjà utilisé sa technologie d'apprentissage automatique sur les structures protéiques du virus SRAS-CoV-2, qui cause la Covid-19.
Malheureusement, il y a beaucoup de protéines déraisonnables. Certaines se collent immédiatement à la membrane, d'autres subissent rapidement des modifications chimiques. D'autres encore nécessitent des interactions importantes avec des enzymes spécialisées qui brûlent de l'énergie afin de forcer d'autres protéines à se replier. Selon toute vraisemblance, AlphaFold ne sera pas en mesure de gérer tous ces cas extrêmes, et sans une utilisation dans le monde réel pour comprendre ses limites.
La question clé est maintenant de savoir à quelle vitesse le système sera mis à la disposition de la communauté de la recherche biologique afin que ses limites puissent être définies et que nous puissions commencer à l'utiliser dans les cas où il est susceptible de bien fonctionner et d'avoir une valeur significative, comme la structure des protéines des agents pathogènes ou les formes mutées que l'on trouve dans les cellules cancéreuses.
Source : CASP14
Et vous ?
Qu’en pensez-vous ?
Voir aussi :
IA contre le coronavirus : un nouveau consortium de scientifiques va utiliser l'IA et certains des supercalculateurs les plus avancés, pour endiguer les pandémies actuelles et futures
Un système d'intelligence artificielle apprend les lois fondamentales de la mécanique quantique, selon un rapport de recherche
Une IA aide à compléter d'anciennes recherches scientifiques en révélant des connexions entre elles, qui auraient mené à des découvertes
La recherche française inaugure Jean Zay, un supercalculateur de 14 pétaflops installé à l'Idris, pour la recherche en intelligence artificielle et autres