De la physique statistique pour modéliser des protéines

Imaginer et modéliser de nouvelles protéines, des travaux parus dans la revue Science

Établir un modèle mathématique pour recréer artificiellement des protéines ? Les travaux de Rémi Monasson et Simona Cocco, chercheurs du laboratoire de physique de l’ENS (LPENS), montrent comment des modèles de protéines, tirés des données de séquences d’acides aminés naturelles, peuvent être utilisés pour concevoir artificiellement des protéines fonctionnelles, dont les propriétés sont testées et validées in vivo. Une découverte prometteuse pour la biologie évolutionnaire et pour les applications biomédicales, publiée par la prestigieuse revue scientifique Science.
Simona Cocco et Rémi Monasson
Simona Cocco et Rémi Monasson

La modélisation des protéines : un enjeu crucial en biologie évolutionnaire et pour les applications biomédicales

La conception de protéines est d'un intérêt fondamental en biologie mais aussi en médecine ou pharmacologie. Ces molécules sont entièrement déterminées par la chaine – la séquence – des acides aminés qui les compose. Il existe seulement vingt types différents d’acides aminés dans la nature mais qui, à eux seuls, codent les dizaines de milliers de protéines qui nous font vivre. Celles-ci ne diffèrent les unes des autres que par leurs nombres et leurs séquences d’acides aminés.

Chaque protéine acquiert une forme particulière dans l’espace sous l’effet des forces entre ses acides aminés. C’est ce que l’on appelle le phénomène « de repliement ». Cette forme lui confère la capacité de réaliser une tâche précise au sein de l’organisme, en participant par exemple au transport de l’oxygène, à la réponse immunitaire, ou bien encore au processus de digestion ou à la construction des muscles.

Comment alors comprendre ou prédire la forme d’une protéine si l’on connait sa séquence ? Si le problème se formule en une ligne, sa résolution est extrêmement complexe et largement inachevée, bien que les applications en soient incroyablement nombreuses.

Comme l’explique Rémi Monasson, chercheur au sein de l’équipe de physique statistique et Inférence pour la biologie du LPENS, dans le domaine médical ou en pharmacologie « il est crucial de comprendre comment les protéines sont affectées par des changements d’acides aminés survenant lors de maladies génétiques, ou comment en concevoir de nouvelles ayant des propriétés désirées dans un but thérapeutique. »

Un enjeu au cœur du travail du scientifique et de son équipe, qui grâce à des méthodes appliquées de physique, ont réussi à modéliser des protéines de synthèse à partir de séquences d’acides aminés d’organismes divers.
« L’approche que nous avons suivie pour créer ces protéines s’inspire de la nature, et plus exactement de la diversité des solutions qu’elle offre. Au cours de l’évolution, elle a généré de nombreuses séquences de protéines. » détaille Simona Cocco, chercheuse dans la même équipe et l’une des co-auteurs de l’article paru dans Science.

 

Allier les principes de pointe de la physique statistique aux incroyables ressources de la nature

Pour leurs travaux, les deux scientifiques ont utilisé une protéine particulière composée d’une centaine d’acides aminés : la Chorismate Mutase (CM). Présente dans les bactéries, les champignons et les plantes - mais pas chez les animaux qui ne peuvent se la fournir qu’à travers leur alimentation – elle est elle-même essentielle à la production de certains acides aminés.

Ces organismes sont tellement éloignés les uns des autres dans l’arbre de l’évolution que les séquences d’acides aminés des Chorismates Mutases qu’ils contiennent dans leur ADN sont très différentes des unes des autres, même si elles « codent » pour des protéines ayant le même rôle.

Les chercheurs sont partis des milliers de séquences de cette protéine disponibles dans les bases de données pour établir un modèle mathématique. Celui-ci attribue à chaque séquence d’acides aminés possible un score, c’est-à-dire une probabilité, qu’elle code pour une « bonne » protéine, possédant les mêmes propriétés que les CM naturelles. 

Ce modèle est inspiré des principes appliqués de la physique statistique, où l’on suppose que les acides aminés interagissent deux par deux, comme des objets physiques élémentaires (les électrons, les spins, …). Les valeurs de ces interactions ne sont pas connues a priori, mais sont calculées en exigeant que les séquences naturelles aient des scores élevés.

Une fois ce modèle mathématique établi, l’équipe de chercheurs l’a utilisé pour créer, sur ordinateur, de nouvelles séquences d’acides aminés ayant de hauts scores. « Ces séquences artificielles se sont révélées être très différentes des séquences naturelles à partir desquelles nous avons appris notre modèle. Pourtant, les protéines définies ainsi sont parfaitement valides et ont la même fonction que les protéines CM naturelles. » résume avec enthousiasme Rémi Monasson.

Pour tester la compatibilité de cette nouvelle protéine CM, les chercheurs ont utilisé la bactérie E. coli, très étudiée en biologie. Ils ont tout d’abord supprimé la partie de l’ADN codant la protéine CM, qu’ils ont ensuite remplacé par une portion d’ADN correspondant à la séquence d’acides aminés générée sur ordinateur. Le résultat ? Ces bactéries génétiquement modifiées se comportent comme leurs consœurs naturelles, elles croissent et se reproduisent sans difficulté.

Bactéries E. Coli
Bactéries E. Coli

Une victoire scientifique, qui a terme devrait mener à d’importantes avancées en médecine, tant au niveau de la compréhension de certaines maladies génériques que de leur traitement.

« Notre étude apporte une preuve des potentialités de la modélisation des protéines à partir de séquences d’organismes divers. Elle montre aussi qu’au-delà des séquences de protéines ayant émergé par hasard au cours de l’évolution, un nombre très important d’autres séquences, que nous avons estimé dans notre travail, sont d’aussi bonnes solutions en termes de protéines » précise Simona Cocco.

Ainsi, caractériser en amont cet espace des « bonnes » séquences devrait permettre de mieux comprendre comment l’évolution l’a progressivement exploré durant des milliards d’années. Mais pour les chercheurs, beaucoup reste à faire : « entre autres, il serait très important de pouvoir séparer les différentes contributions au fonctionnement d’une protéine dans nos modèles, ce qui permettrait d’agir sur une composante précise, par exemple l’activité biochimique, sans modifier les autres, comme la spécificité ou la stabilité thermodynamique ». En d’autres mots, l’objectif final est bien d’arriver à « casser » le code moléculaire reliant la séquence d’acides aminés à la fonction des protéines, ce qui permettra de manipuler et modifier les protéines à volonté.

Ingénierie évolutive des protéines basée sur les données de la chorismate mutase
Ingénierie évolutive des protéines basée sur les données de la chorismate mutase

Légende détaillée :
    A. À partir de bases de données de séquences naturelles de chorismate mutase (CM) correspondant à différents organismes, on établit un modèle permettant d’attribuer à chaque nouvelle séquence candidate un score probabiliste. Ce modèle repose sur l’inférence de paramètres décrivant les similarités statistiques entre séquences dans la base de données.
    B. On génère ensuite de multiples séquences artificielles parmi celles, très nombreuses, auxquelles le modèle attribue un haut score.
    C. Ces séquences sont synthétisées et insérées dans des bactéries, auxquelles on a enlevé leur gène naturel codant pour la CM. En étudiant la manière dont ces bactéries génétiquement modifiées peuvent croitre ou pas, on peut vérifier que ces gènes artificiels sont fonctionnels ou non.
    D. CM est un enzyme important permettant la production des acides aminés Tyrosine et Phénylalanine à partir de la molécule de chorismate.
    E. Structure dimérique de CM, qui interagit avec son substrat, la chorismate (en magenta).

 

L’interdisciplinarité, une approche vitale au progrès conceptuel et technique

Notre sujet intéresse de près depuis plus de cinquante ans les biologistes, mais aussi des chimistes, des informaticiens et des physiciens comme Simona Cocco et Rémi Monasson : « les protéines sont des objets extraordinaires, à la jonction entre physique, chimie et biologie. Elles ne sont clairement pas vivantes et relèvent donc des sciences de la matière. Mais, qu’elles soient capables d’évoluer, au sens darwinien du terme, à la différence des objets physiques standards comme les électrons, les atomes, les molécules… font d’elles de vrais objets biologiques à la frontière de la physique. »

De plus, la complexité de modélisation des protéines et le succès limité des approches habituelles (comme l’écriture de l’énergie comme fonction de paramètres élémentaires, qui sont difficiles à choisir et à estimer) rend leur étude particulièrement intéressante pour les chercheurs.

Selon Rémi Monasson, « on parle beaucoup de systèmes complexes en physique, sans que ce concept soit toujours clairement défini. Les protéines en font définitivement partie… Il est donc nécessaire d’inventer de nouvelles manières de les étudier. On peut espérer en retour que les progrès conceptuels et techniques qu’elles susciteront bénéficieront à d’autres systèmes en physique. »
L’interdisciplinarité dans l’étude des protéines mais aussi plus largement en biologie est nécessaire pour le chercheur, « notamment pour répondre au besoin d’outils et de méthodes numériques pour modéliser, analyser et organiser les données expérimentales ».

De son point de vue, les apports de l’informatique, des mathématiques et la physique théorique au sein des sciences du vivant seront cruciaux dans les décennies à venir : « je pense que l’effort principal doit être fait dans la formation des étudiants, qui seront évidemment les chercheurs de demain. Il faut leur offrir la possibilité de suivre en parallèle un apprentissage au meilleur niveau dans chacune de ces disciplines et éviter à tout prix de concevoir l’interdisciplinarité comme un vernis superficiel. Il faut que ces formations permettent à ces chercheurs d’être ensuite reconnus comme physiciens par les physiciens et biologistes par les biologistes, et pas l’inverse… Il y a clairement un grand enjeu de ce côté-là dans les années à venir. »

Pour Simona Cocco et Rémi Monasson, cela va de pair avec la possibilité de travailler dans un environnement propice aux échanges et aux collaborations : « nous apprécions beaucoup la position exceptionnelle de l’ENS au cœur de Paris, entourée de toutes les institutions de recherche d’Île-de-France, avec lesquelles on peut interagir facilement. À cela s’ajoute aussi l’excellence des étudiants que l’on côtoie dans l’enseignement mais aussi dans le cadre des stages, des thèses… et qui contribue à la qualité et à la diversité de la recherche qui s’y fait. Dans notre domaine, la physique statistique, il est difficile de songer à un autre endroit dans le monde avec autant d’acteurs et d’activités. » concluent les deux chercheurs.

 

 

Bibliographie : An evolution-based model for designing chorismate mutase enzymes, William P. Russ (University of Texas Southwestern Medical Center, Dallas), Matteo Figliuzzi (Sorbonne Université, CNRS, Institut de Biologie Paris Seine, Laboratoire de Biologie Computationnelle et Quantitative), Christian Stocker (Laboratory of Organic Chemistry, ETH Zurich), Pierre Barrat-Charlaix (Sorbonne Université, CNRS, Institut de Biologie Paris Seine, Laboratoire de Biologie Computationnelle et Quantitative - Biozentrum, University of Basel), Michael Socolich (Center for Physics of Evolving Systems, Biochemistry and Molecular Biology and the Pritzker School for Molecular Engineering, University of Chicago), Peter Kast (Laboratory of Organic Chemistry, ETH Zurich), Donald Hilvert (Laboratory of Organic Chemistry, ETH Zurich), Remi Monasson (Laboratoire de Physique de l’Ecole Normale Supérieure, PSL and CNRS), Simona Cocco (Laboratoire de Physique de l’Ecole Normale Supérieure, PSL and CNRS), Martin Weigt (Sorbonne Université, CNRS, Institut de Biologie Paris Seine, Laboratoire de Biologie Computationnelle et Quantitative), Rama Ranganathan (Center for Physics of Evolving Systems, Biochemistry and Molecular Biology and the Pritzker School for Molecular Engineering, University of Chicago), Science, 24 Juillet 2020, Vol. 369, Issue 6502, pp. 440-445, DOI: 10.1126/science.aba3304

 

À propos de Simona Cocco

Simona Cocco est depuis 2013 directrice de recherche au CNRS et depuis 2018 membre de la section 5 du Comité national de la recherche scientifique.
Après des études à l’Université de Rome La Sapienza, la chercheuse franco-italienne obtient un double doctorat en physique et biophysique, à la suite d’une thèse à l’interface entre physique et biologie en cotutelle entre le département de biophysique de La Sapienza et le département de physique de l’École normale supérieure de Lyon.

Elle effectue ensuite un post-doc à l’UIC à Chicago, avant de devenir chargée de recherche au CNRS au laboratoire de fluides complexes à Strasbourg. C’est en 2004 qu’elle rejoint l’ENS-PSL en intégrant le département de physique. De 2009 à 2011, elle a été « Senior Member at the Institute for Advanced Study », à l’Université de Princeton.

« Je me suis d’abord intéressée aux applications de la physique statistique aux réseaux de neurones, grâce aux cours de D. Amit, G. Parisi, M. Virasoro à La Sapienza. J’ai par la suite travaillé à la modélisation de la micro-mécanique de l’ADN et sur des expériences de molécules uniques notamment en collaboration avec J. Marko, et V. Croquette. Puis, j’ai concentré mes recherches autour de l’inférence de modèles à partir des données en de biophysique, génétique et neurosciences. La quantité croissante des données en biologie comme dans d’autre domaines nécessite, en effet, des plus en plus d’outils d’analyse croisés entre physique statistique, inférence et science computationnelle. »

 

À propos de Rémi Monasson

Ancien normalien entré par le concours mathématiques, Rémi Monasson (Sciences 1988) bifurque rapidement des mathématiques vers la physique. Il effectue son doctorat à l’ENS, en physique statistique sous la direction de Marc Mézard en (1993), où il commence à travailler sur des applications interdisciplinaires de la physique statistique, notamment sur les réseaux de neurones et les problèmes d’optimisation combinatoire.

Il poursuit en postdoctorat à l’Université de Rome La Sapienza pendant deux ans et devient à son retour chargé de recherche au CNRS au sein du laboratoire de physique théorique de l’ENS. Il repart ensuite pour un séjour à l’UIC à Chicago puis à Strasbourg pendant 3 ans. Depuis 2004, il travaille au département de physique de l’ENS, à l’exception d’un séjour de deux ans à Princeton de 2009 à 2011, où il s’oriente vers la biologie des systèmes suite à sa rencontre avec S. Leibler. Rémi Monasson est également professeur de physique à l’École Polytechnique et directeur adjoint de l’Institut Henri Poincaré depuis 2018.

« J’ai toujours été attiré par le caractère universel de la physique statistique, au sens où sa problématique - comment comprendre les propriétés émergentes d’un grand nombre de composantes élémentaires ? - dépasse de loin le cadre pour lequel elle a été inventée - la compréhension des propriétés des gaz et la thermodynamique - et se pose dans toutes les sciences. La modélisation des protéines est, avec les neurosciences (plus précisément, comment l’espace est représenté dans le cerveau ?) l’une des deux grandes questions qui m’intéresse en biologie. »