Pictet Group
Le pouvoir des protéines
Les protéines sont au cœur des cellules et les cellules sont les éléments constitutifs de la vie. Comprendre comment les structures protéiques se forment et changent est essentiel pour comprendre la biologie. Ces connaissances permettront d’accélérer la mise au point de nouveaux médicaments, la création de cultures plus résilientes et même la décomposition des déchets plastiques.
Pourtant, les structures protéiques étaient jusqu’à récemment difficiles à appréhender en raison de leur forme en 3 dimensions. De fait, elles sont le résultat du repliement d’un polymère linéaire composé des acides aminés de la protéine. Le repliement permet des interactions optimales entre les acides aminés, et le résultat final est un peu comme un origami fabriqué avec un collier de perles au lieu de papier.
«La détermination d’une structure protéique à l’aide d’expériences demande beaucoup de travail et de temps. L’humanité ne l’a fait que quelques centaines de milliers de fois au cours des cinquante dernières années depuis la détermination de la première structure protéique», explique le Dr Chris Bahl, cofondateur de AI Proteins, une plateforme de découverte de médicaments. Ce chiffre peut paraître énorme, mais il n’est qu’une goutte d’eau par rapport aux centaines de millions de structures possibles. Outre des années de travail fastidieux, l’élucidation d’une structure protéique nécessite souvent des techniques coûteuses telles que la cristallographie aux rayons X et la cryo-microscopie électronique.
Tout cela a changé en 2021 avec la sortie d’AlphaFold, développé par DeepMind, en partenariat avec le Laboratoire européen de biologie moléculaire (EMBL), un institut de recherche intergouvernemental. Grâce à l’intelligence artificielle, AlphaFold est capable de prédire une structure protéique à partir de sa séquence d’acides aminés à un rythme qui «dépasse de loin les capacités humaines», selon Bahl. L’outil permet d’accéder à plus de 200 millions de prédictions de structure protéique.
L’année suivante, la société mère de Facebook, Meta, a publié une base de données montrant la forme prévue de 600 millions de protéines provenant de bactéries, de virus et de micro-organismes qui n’avaient pas encore été caractérisés. Son approche s’est appuyée sur un grand modèle de langage (LLM), qui a été popularisé avec le lancement de ChatGPT, qui est en mesure de prédire le texte à partir de quelques lettres ou mots, créant une sorte de saisie semi-automatique des protéines.
Une différence essentielle entre ce modèle et AlphaFold est que le modèle de langage n’a pas besoin d’informations sur les séquences d’acides aminés à proximité ou les alignements de séquences multiples (MSA). Le MSA interroge des bases de données de séquences protéiques pour identifier des séquences similaires déjà connues dans les organismes vivants. Au lieu de cela, le modèle de langage peut prédire la structure des protéines qui n’ont aucune ressemblance avec d’autres protéines connues, ce qui lui donne un avantage pour détecter ce qu’il adviendrait d’une protéine s’il existait une mutation ponctuelle. Selon les chercheurs, l’algorithme n’est pas aussi précis qu’AlphaFold, mais il est plus rapide, ce qui permet aux scientifiques de prédire des structures en seulement deux semaines. «Je suis très heureuse d’assister à cette révolution en tant que chercheuse», déclare la directrice générale de l’EMBL, professeure Edith Heard.
Surtout, les nouvelles découvertes sont largement disponibles. AlphaFold est une ressource en libre d’accès, tandis que Meta a publié le code utilisé pour créer sa base de données. Cette approche donne aux algorithmes une portée considérable et reflète la dépendance des entreprises technologiques aux ressources de données publiques pour les construire: les algorithmes de DeepMind n’ont pu être écrits que grâce aux données détenues par l’EMBL. «Si nous voulions vraiment changer la donne, il fallait que [l’accès] soit libre, il devait être partagé par tous», explique Heard.
La recherche met le turbo
Le rythme de la recherche scientifique est en train de passer à la vitesse supérieure grâce à l’usage de l’IA pour réaliser des prédictions. Des biochimistes de l’université du Colorado ont réussi à déterminer la structure protéique d’une bactérie en 15 minutes, après avoir essayé de le faire pendant 10 ans. Cette avancée contribue ainsi à les aider à lutter contre la résistance aux antibiotiques. Des scientifiques de l’université de Portsmouth utilisent AlphaFold pour mettre au point des enzymes susceptibles de dégrader les plastiques. «Ils peuvent être utilisés pour guérir la planète. C’est incroyable et nous n’aurions jamais pensé à atteindre ce résultat aussi vite il y a quelques années», explique Heard.
Une équipe de l’Institut Karolinska en Suède a utilisé AlphaFold pour déterminer la structure d’une protéine susceptible e bloquer les infections bactériennes dans l’appareil urinaire et le système gastro-intestinal. Des chercheurs de l’Université d’Oxford travaillent sur des vaccins contre le paludisme qui ciblent chaque phase du cycle d’infection du parasite, contribuant ainsi à lutter non seulement contre la maladie, mais aussi à sa transmission. Le paludisme a toujours esquivé la découverte d’une solution vaccinale, car il contient des centaines voire des milliers de protéines de surface, ce qui rend son ciblage difficile. AlphaFold surpasse les techniques existantes pour identifier les propriétés d’une protéine clé, connue sous le nom de Pfs48/45, qui est essentielle au développement du parasite dans l’intestin du moustique.
Dans le domaine de la recherche pharmaceutique, il est coûteux et chronophage de se concentrer sur les mauvaises cibles d’un médicament; l’IA prédictive permet ici d’améliorer les chances de réussite de nouveaux candidats. «Des pans entiers de la science vont pouvoir se développer, car avant cela, ils étaient tout simplement trop chronophages et trop coûteux», explique Heard de l’EMBL.
Les maladies neurodégénératives, y compris la maladie d’Alzheimer et la maladie de Parkinson, sont le résultat d’un problème de repliement des protéines. Ces pathologies, tout comme d’autres qui font de nombreuses victimes dans nos sociétés modernes comme le diabète et le cancer, sont en grande partie imputables non pas à des bactéries ou des virus, nos ennemis héréditaires depuis des temps immémoriaux, mais à des fautes que fait notre corps. Étant donné que la plupart des médicaments agissent en ciblant des protéines spécifiques dans l’organisme, l’accès aux informations sur la structure des protéines mal pliées facilitera la découverte et le développement de médicaments qui se lieront précisément à la protéine cible et modifieront sa fonction. Le Dr Bahl est optimiste quant aux progrès au-delà de la médecine, dans des domaines tels que les pesticides de nouvelle génération et les applications agricoles. «C’est un moyen de s’arroger le contrôle sur la biologie; la biologie est contrôlée fondamentalement par les protéines et la conception de protéines nous donnera un contrôle sans précédent sur la biologie.»
Au-delà des protéines
Cependant, toutes les protéines liées à des maladies ne réagissent pas aux médicaments. Pour certaines, les médicaments ne peuvent rien faire, car les molécules médicamenteuses ne peuvent pas s’y accrocher correctement. Ici aussi, l’IA peut aider, mais cette fois en se concentrant sur l’ARN. L’ARN correspond à l’étape essentielle entre l’ADN (la molécule qui contient notre code génétique et les informations pour fabriquer les protéines essentielles au bon fonctionnement de la vie) et la production réelle de ces protéines. Chacun des près de 100 000 types différents de protéines produites par les cellules humaines possède sa propre séquence d’ARN qui a été transférée à partir de la séquence d’ADN de la cellule.
Cibler l’ARN avant la fabrication des protéines permettrait au médicament de modifier la protéine avant ou pendant sa synthèse. Vaccins contre la COVID-19 ou encore médicaments anticancéreux: des millions de personnes ont déjà bénéficié d’un traitement à l’ARN, et la capacité à prédire rapidement et précisément les formes d’ARN sur ordinateur aidera à accélérer la compréhension des molécules d’ARN et à élargir leur utilisation dans le domaine de la santé.
«La raison pour laquelle l’IA a un impact significatif pour la prédiction de la structure de l’ARN est qu’il est très difficile de trouver des médicaments suffisamment sélectifs pour cibler uniquement l’ARN qui vous intéresse», explique Dr Raphael Townsend, PDG et fondateur d’Atomic AI. Connaître la structure de l’ARN permettrait donc de rendre le processus plus sélectif.
Bien que les résultats semblent prometteurs, il reste encore beaucoup à faire, tant sur le plan scientifique que réglementaire. Le Digital Health Innovation Action Plan de la FDA a été publié en 2017 dans le but d’accélérer le processus d’approbation des produits de santé numériques. Il a été suivi en 2021 par des recommandations pour l’utilisation de l’apprentissage automatique dans les dispositifs médicaux. Ces recommandations sont le fruit du travail de la FDA et des agences de réglementation canadiennes et britanniques.
À l’heure actuelle, il n’existe aucune directive sur l’utilisation spécifique de l’IA dans la production pharmaceutique, bien que la FDA ait publié un document de discussion qui met en avant les aspects à prendre en compte dans l’élaboration de politiques dans le domaine de l’IA, afin d’encourager les retours d’informations de la part du public, de l’industrie et des centres de recherche. «Les organismes de régulation doivent comprendre rapidement cette nouvelle donne, car les essais cliniques vont devenir un goulet d’étranglement majeur dans notre capacité à fabriquer de nouveaux médicaments», met en garde Bahl de AI Proteins.
Mais, de manière générale, il croit en un nouvel âge d’or de la médecine. Selon lui, l’IA prédictive en biologie fait partie d’une «renaissance des sciences humaines et naturelles dans tous les domaines: IA, recherche biomédicale, astrophysique. Il existe une synergie et les progrès de la technologie informatique vont de pair avec les avancées de la technologie et de l’automatisation en laboratoire.»