La caractérisation des protéines, ces molécules naturelles qui exécutent des fonctions clés au sein de nos cellules, est-elle aujourd’hui une réalité atteignable ? Ne sont-elles pas au fondement de toutes les maladies ?
Actuellement, concevoir des protéines en laboratoire est un processus coûteux, autant en termes informatique que humain. Il s’agit principalement de trouver une structure de protéine qui pourrait remplir une fonction spécifique dans le corps, puis de trouver une séquence de protéines, c’est-à-dire la succession d’acides aminés faisant partie d’une protéine, qui se repliera probablement en cette structure. En effet, pour accomplir leur fonction, les protéines doivent se plier correctement en formes tridimensionnelles. Mais est-ce nécessairement si compliqué ?
Microsoft a introduit cette semaine un cadre général, EvoDiff, qui, selon la firme, peut générer des protéines « hautement fidèles » et « diverses » à partir d’une séquence de protéines. Contrairement à d’autres cadres de génération de protéines, EvoDiff n’exige aucune information structurale sur la protéine cible, ce qui élimine ce qui est généralement l’étape la plus laborieuse.
EvoDiff ne nécessite aucun renseignement structurel sur la protéine cible, simplifiant ainsi notablement le processus.
EvoDiff peut être utilisé pour créer de nouvelles enzymes pour de nouvelles thérapies et méthodes d’administration de médicaments, ainsi que de nouvelles enzymes pour des réactions chimiques industrielles, selon Kevin Yang, chercheur principal chez Microsoft. EvoDiff s’annonce donc comme une avancée majeure dans l’ingénierie des protéines, dépassant le paradigme de la structure-fonction en faveur d’une conception programmable, axée avant tout sur la séquence.
Propulsé par un modèle de 640 paramètres entrainé sur des données provenant de toutes sortes d’espèces et de classes fonctionnelles de protéines, EvoDiff est un modèle de diffusion, semblable dans son architecture à de nombreux modèles modernes de génération d’images tels que Stable Diffusion et DALL-E 2. EvoDiff apprend progressivement à soustraire le bruit d’une protéine de départ constituée presque entièrement de bruit, l’amenant lentement, étape par étape, vers une séquence de protéines.
Les modèles de diffusion ont été de plus en plus appliqués à des domaines autres que la génération d’images, allant de la création de conceptions pour des protéines nouvelles, comme avec EvoDiff, à la création de musique et même à la synthèse de la parole. EvoDiff peut non seulement créer de nouvelles protéines, mais aussi combler les « lacunes » d’une conception de protéine existante pour répondre à un ensemble de critères spécifiques.
Notons cependant que la recherche derrière EvoDiff n’a pas encore été évaluée par des pairs. Il y a encore beaucoup de travail à faire avant que le cadre puisse être utilisé de manière commerciale. En effet, pour obtenir un contrôle encore plus précis, il faudrait conditionner EvoDiff sur du texte, des informations chimiques ou d’autres moyens de spécifier la fonction désirée.
En conclusion, alors que l’intelligence artificielle poursuit son avancée, les progrès dans des domaines tels que la génération de protéines pourraient bien révolutionner notre approche de la médecine et de la biotechnologie. Et si demain, nous pouvions créer des protéines de toutes pièces pour lutter contre les maladies ?
Source : Techcrunch