Décrite dans un document de recherche publié lundi par une startup de Berkeley (Californie) appelée Profluent, la technologie est basée sur les mêmes méthodes que ChatGPT, le chatbot en ligne qui a lancé le boom de l'IA après son lancement en 2022. L'entreprise devrait présenter l'article le mois prochain lors de la réunion annuelle de l'American Society of Gene and Cell Therapy (Société américaine de thérapie génique et cellulaire).
Tout comme ChatGPT apprend à générer du langage en analysant des articles de Wikipédia, des livres et des journaux de discussion, la technologie de Profluent crée de nouveaux éditeurs de gènes après avoir analysé d'énormes quantités de données biologiques, y compris des mécanismes microscopiques que les scientifiques utilisent déjà pour modifier l'ADN humain.
Can AI rewrite our human genome? ⌨️🧬
— Ali Madani (@thisismadani) April 22, 2024
Today, we announce the successful editing of DNA in human cells with gene editors fully designed with AI. Not only that, we've decided to freely release the molecules under the @ProfluentBio OpenCRISPR initiative.
Lots to unpack👇 pic.twitter.com/NWowAlDLMv
Ces éditeurs de gènes sont basés sur des méthodes récompensées par le prix Nobel et faisant appel à des mécanismes biologiques appelés CRISPR. La technologie basée sur CRISPR modifie déjà la manière dont les scientifiques étudient et combattent les maladies, car elle permet de modifier les gènes à l'origine de maladies héréditaires, telles que la drépanocytose et la cécité.
Auparavant, les méthodes CRISPR utilisaient des mécanismes trouvés dans la nature - du matériel biologique glané sur des bactéries qui permet à ces organismes microscopiques de lutter contre les germes.
« Ils n'ont jamais existé sur Terre », a déclaré James Fraser, professeur et président du département de bio-ingénierie et de sciences thérapeutiques de l'université de Californie à San Francisco, qui a lu le rapport de recherche de Profluent. « Le système a appris de la nature à les créer, mais ils sont nouveaux. »
L'espoir est que la technologie produise un jour des éditeurs de gènes plus agiles et plus puissants que ceux qui ont été perfectionnés au cours de milliards d'années d'évolution.
Lundi, Profluent a également déclaré qu'elle avait utilisé l'un de ces éditeurs de gènes générés par l'IA pour modifier l'ADN humain et qu'elle mettait cet éditeur, appelé OpenCRISPR-1, en « open sourcing ». Cela signifie qu'elle permet aux particuliers, aux laboratoires universitaires et aux entreprises d'expérimenter gratuitement cette technologie.
Les chercheurs en intelligence artificielle ouvrent souvent les logiciels sous-jacents qui pilotent leurs systèmes d'intelligence artificielle, car cela permet à d'autres de s'appuyer sur leurs travaux et d'accélérer le développement de nouvelles technologies. Mais il est moins courant que les laboratoires biologiques et les sociétés pharmaceutiques ouvrent leurs inventions comme OpenCRISPR-1.
Bien que Profluent ouvre les éditeurs de gènes générés par sa technologie d'IA, elle n'ouvre pas la technologie d'IA elle-même.
Le projet s'inscrit dans le cadre d'un effort plus large visant à mettre au point des technologies d'IA susceptibles d'améliorer les soins médicaux. Les scientifiques de l'université de Washington, par exemple, utilisent les méthodes qui sous-tendent les chatbots tels que ChatGPT d'OpenAI et les générateurs d'images tels que Midjourney pour créer des protéines entièrement nouvelles - les molécules microscopiques qui régissent toute la vie humaine - dans le cadre de leurs travaux visant à accélérer la mise au point de nouveaux vaccins et de nouveaux médicaments.
Les technologies d'IA générative s'appuient sur ce que les scientifiques appellent un réseau neuronal, un système mathématique qui acquiert des compétences en analysant de grandes quantités de données. Le créateur d'images Midjourney, par exemple, s'appuie sur un réseau neuronal qui a analysé des millions d'images numériques et les légendes qui décrivent chacune de ces images. Le système a appris à reconnaître les liens entre les images et les mots. Ainsi, lorsque vous lui demandez une image d'un rhinocéros sautant du Golden Gate Bridge, il sait quoi faire.
La technologie de Profluent repose sur un modèle d'IA similaire qui apprend à partir de séquences d'acides aminés et d'acides nucléiques - les composés chimiques qui définissent les mécanismes biologiques microscopiques utilisés par les scientifiques pour modifier les gènes. Essentiellement, elle analyse le comportement des éditeurs de gènes CRISPR tirés de la nature et apprend à générer des éditeurs de gènes entièrement nouveaux.
« Ces modèles d'IA apprennent à partir de séquences, qu'il s'agisse de séquences de caractères, de mots, de codes informatiques ou d'acides aminés », a déclaré Ali Madani, directeur général de Profluent, un chercheur qui a précédemment travaillé dans le laboratoire d'IA du géant du logiciel Salesforce.
Profluent n'a pas encore soumis ces éditeurs de gènes synthétiques à des essais cliniques, et il n'est donc pas certain qu'ils puissent égaler ou dépasser les performances de CRISPR. Mais cette démonstration de faisabilité montre que les modèles d'IA peuvent produire quelque chose de capable d'éditer le génome humain.
Néanmoins, il est peu probable qu'elle affecte les soins de santé à court terme. Fyodor Urnov, pionnier de l'édition de gènes et directeur scientifique de l'Innovative Genomics Institute de l'université de Californie à Berkeley, a déclaré que les scientifiques ne manquaient pas d'éditeurs de gènes naturels qu'ils pourraient utiliser pour lutter contre les maladies. Le goulot d'étranglement, a-t-il dit, est le coût de la réalisation d'études précliniques sur ces éditeurs, telles que les examens de sécurité, de fabrication et de réglementation, avant qu'ils ne puissent être utilisés sur des patients.
Mais les systèmes d'IA générative présentent souvent un énorme potentiel, car ils tendent à s'améliorer rapidement en apprenant à partir de quantités de données de plus en plus importantes. Si la technologie telle que celle de Profluent continue de s'améliorer, elle pourrait permettre aux scientifiques de modifier les gènes de manière beaucoup plus précise. L'espoir, selon le Dr Urnov, est que cela pourrait, à long terme, conduire à un monde où les médicaments et les traitements seraient rapidement adaptés aux individus, encore plus rapidement que nous ne pouvons le faire aujourd'hui.
« Je rêve d'un monde où nous aurions la technologie CRISPR à la demande en quelques semaines », a-t-il déclaré.
Les scientifiques ont longtemps mis en garde contre l'utilisation de CRISPR à des fins d'amélioration humaine, car il s'agit d'une technologie relativement nouvelle qui pourrait avoir des effets secondaires indésirables, tels que le déclenchement d'un cancer, et ils ont mis en garde contre des utilisations contraires à l'éthique, telles que la modification génétique d'embryons humains.
Les éditeurs de gènes synthétiques suscitent également des inquiétudes à cet égard. Mais les scientifiques ont déjà accès à tout ce dont ils ont besoin pour modifier les embryons.
« Un mauvais acteur, quelqu'un qui n'a pas d'éthique, ne se préoccupe pas de savoir s'il utilise un éditeur créé par l'IA ou non », a déclaré le Dr Fraser. « Il se contentera d'aller de l'avant et d'utiliser ce qui est disponible.»
Les informations clés du document de recherche publié par Profluent sont présentées ci-dessous :
L'édition de gènes peut permettre de relever des défis fondamentaux dans les domaines de l'agriculture, de la biotechnologie et de la santé humaine. Les éditeurs de gènes CRISPR dérivés de microbes, bien que puissants, présentent souvent des compromis fonctionnels significatifs lorsqu'ils sont portés dans des environnements non natifs, tels que les cellules humaines. La conception basée sur l'intelligence artificielle (IA) offre une alternative puissante qui permet de contourner les contraintes évolutives et de générer des éditeurs aux propriétés optimales. Dans leur étude, en utilisant de grands modèles de langage (LLM) formés sur la diversité biologique à l'échelle, les chercheurs démontrent la première édition de précision réussie du génome humain à l'aide d'un éditeur de gènes programmable conçu à l'aide de l'IA. Pour atteindre cet objectif, ils ont constitué un ensemble de données de plus d'un million d'opérons CRISPR grâce à l'exploration systématique de 26 bases de données de génomes et de métagénomes assemblés. Les chercheurs démontrent la capacité de leurs modèles en générant 4,8 fois plus de groupes de protéines que les familles CRISPR-Cas trouvées dans la nature et en adaptant les séquences d'ARN à guide unique pour les protéines effectrices de type Cas9. Plusieurs des éditeurs de gènes générés montrent une activité et une spécificité comparables ou améliorées par rapport à SpCas9, l'effecteur d'édition de gènes prototypique, tout en étant à 400 mutations de distance dans la séquence. Enfin, les auteurs démontrent qu'un éditeur de gènes généré par l'IA, appelé OpenCRISPR-1, est compatible avec l'édition de bases. OpenCRISPR-1 est mis à la disposition du public afin de faciliter une utilisation large et éthique dans la recherche et les applications commerciales.
Les technologies d'édition de gènes adaptées des systèmes antiviraux procaryotes naturels ont permis une manipulation précise et programmable du matériel génétique dans le cadre d'applications scientifiques, thérapeutiques et industrielles. Bien que l'évolution ait créé une diversité massive de protéines CRISPR-Cas, l'identification de la meilleure protéine naturelle pour une application donnée (si elle existe) reste un goulot d'étranglement majeur dans la conception de systèmes d'édition de gènes plus avancés. Les modèles de langage génératifs pour l'ADN ou les protéines offrent un paradigme alternatif, dans lequel les modèles apprennent de la diversité naturelle et peuvent être orientés vers les régions les plus prometteuses de l'espace de séquence. Cette approche a permis aux chercheurs de diversifier les lignées d'intérêt existantes ou d'explorer des régions de l'espace séquentiel qui n'ont jamais été visitées par l'évolution. Dans ce travail, les auteurs se sont concentrés sur la génération d'effecteurs de type II dans le voisinage phylogénétique de SpCas9, ce qui a finalement donné le système d'édition OpenCRISPR-1. Leurs résultats suggèrent que OpenCRISPR-1 pourrait constituer une alternative viable à SpCas9 pour les technologies d'édition de gènes, avec un comportement d'édition similaire et une compatibilité avec des systèmes tels que l'édition de bases. À l'avenir, les chercheurs pensent qu'il sera important d'examiner l'activité d'OpenCRISPR-1 dans un large éventail de conditions expérimentales, de types de cellules et de méthodes d'administration afin de mieux caractériser la robustesse de ce système. En dernier lieu, ils prévoient que l'optimisation à l'aide de modèles de langage offre la voie la plus prometteuse pour améliorer les performances de l'enzyme dans ces contextes.
Dans le but de concevoir de nouveaux systèmes d'édition de gènes, les auteurs ont élaboré l'atlas CRISPR-Cas qui, à leur connaissance, représente la plus grande ressource documentée de systèmes CRISPR. Les grands ensembles de données de haute qualité comme l'Atlas CRISPR-Cas sont essentiels pour distiller les apprentissages généraux des modèles de langage protéique pré-entraînés en un schéma fonctionnel pour la conception. Bien que les auteurs se soient concentrés sur les protéines effectrices de type II, les premières expériences suggèrent que les effecteurs d'autres systèmes de classe 2 (par exemple, Cas12a, Cas12f, Cas13) peuvent faire l'objet de la même approche. Dans certains cas, ces systèmes alternatifs ont des propriétés uniques qui pourraient bénéficier aux applications d'édition de gènes (par exemple, la taille réduite de Cas12f ou l'interférence ARN de Cas13). Outre l'affinement des modèles de langage protéique pour la génération, les chercheurs envisagent d'utiliser l'atlas CRISPR-Cas pour modéliser des propriétés spécifiques des éditeurs de gènes, telles que la taille des nucléases, la préférence pour les PAM, la compatibilité avec les tracrRNA, la thermostabilité ou l'activité dépendant de la température. Par exemple, un modèle permettant de prédire la préférence PAM pourrait permettre une ingénierie efficace des éditeurs spécifiques à une cible ou à un allèle. La capacité des modèles génératifs de langage à produire des protéines nucléases diverses et hautement fonctionnelles, comme démontré dans ce travail, fournit une base à partir de laquelle poursuivre ces éditeurs adaptés.
La conception informatique des protéines a considérablement progressé ces dernières années grâce au développement d'algorithmes d'apprentissage profond de plus en plus sophistiqués. Ces améliorations ont été réalisées en grande partie grâce à l'intégration d'outils plus puissants dans les pipelines de conception qui sont restés inchangés pendant des décennies. Plus précisément, la conception de la fonction des protéines nécessite généralement une hypothèse structurelle explicite qui est traduite en un ensemble de contraintes pour guider la recherche de séquences satisfaisantes. Cette approche a largement réduit certains problèmes de conception, tels que la conception de novo de mini-liens protéiques, à la pratique. Cependant, pour la conception de fonctions complexes telles que les éditeurs de gènes présentés dans cette étude, les approches basées sur la structure n'offrent pas de solution directe. En revanche, les modèles de langage fournissent un moyen implicite de modéliser la fonction des protéines (et donc la structure) à partir de la seule séquence. En échantillonnant inconditionnellement à partir de modèles de langage finement ajustés, les auteurs ont pu générer diverses séquences qui récapitulent des domaines fonctionnels clés grâce à des prédictions de structure fiables, avec seulement 40 % d'identité par rapport à l'ensemble de données d'apprentissage. Une analyse structurelle détaillée a révélé qu'OpenCRISPR-1 conservait tous les résidus fonctionnels clés impliqués dans l'activité nucléase, bien que le modèle n'ait jamais été explicitement chargé de le faire. Pour la caractérisation expérimentale, les auteurs se sont concentrés sur la génération de nucléases compatibles avec la PAM et le tracrRNA de SpCas9. Même avec ces contraintes, ils ont constaté que les modèles de langage peuvent générer des nucléases qui sont à des centaines de mutations de n'importe quelle protéine naturelle, tout en fonctionnant de la même manière que SpCas9. À l'avenir, les chercheurs espèrent pouvoir assouplir ces contraintes et cribler une plus grande diversité de nucléases en tandem avec des ARNsg conçus à cet effet.
Source : "Design of highly functional genome editors by modeling the universe of CRISPR-Cas sequences" (étude de Profluent Bio)
Et vous ?
Quel est votre avis sur le sujet ?
Trouvez-vous les conclusions de cette étude de Profluent crédibles ou pertinentes ?
Voir aussi :
Bill Gates pense que l'intelligence artificielle et les outils de modification de gènes pourraient sauver le monde des maladies comme le paludisme, la drépanocytose et le VIH
Des dizaines de scientifiques de renom signent une initiative visant à prévenir l'utilisation d'armes biologiques par l'IA, l'accord reconnaît que l'IA présente des risques