SPL / BSIP

L’Institut Pasteur pacte avec le Big data / La biologie des systèmes et ses applications en santé

L’arrivée du Big Data révolutionne la santé, et plus encore le secteur de la recherche. Avec l’ouverture de « Omics », l’Institut Pasteur consolide son expertise dans le domaine de la biologie computationnelle. La biologie, l’informatique, la modélisation et les mathématiques travaillent désormais en synergie au service de la santé humaine.

Par Carole Ivaldi.

Carole Ivaldi

Naissance d’Omics

Omics, concrètement, c’est un ensemble de deux bâtiments réunissant les meilleures équipes de recherches multidisciplinaires et les technologies de pointe. L’un est un centre de séquençage (« Biomics »), l’autre un centre de bioinformatique, biostatistique et de biologie intégrative (« C3B1 »). Le croisement de ces champs à l’origine de la biologie computationnelle est une clé indispensable pour relever les défis scientifiques de demain liés à la santé et à la compréhension de l’être vivant.

omics

Avec un financement de neuf millions d’euros provenant de dons privés, Omics a les capacités de recevoir, stocker de manière sécurisée, analyser et interpréter des millions d’informations. Plusieurs champs d’expertise sont particulièrement remarquables.

"L’Institut Pasteur va héberger la plus grande base de données au monde sur l’autisme"

Le travail sur les virus : Ébola, dengue, paludisme, grippe etc. Grâce aux moyens mis à la disposition des équipes de chercheurs, ces derniers peuvent comprendre plus rapidement l’origine des virus, leur propagation et l’efficacité des traitements envisagés. Un autre champ d’étude d’Omics concerne l’autisme. L’Institut Pasteur va héberger la plus grande base de données au monde sur l’autisme, en terme de quantité et de richesse d’informations recueillies pour chaque patient. La centralisation de toutes ces informations est une mine d’or pour les chercheurs qui les croisent et les analysent ensuite. Leur objectif étant d’accélérer la compréhension de cette maladie et produire des traitements adaptés aux différents types d’autisme.

P2M, nouvelle plateforme de séquençage à haut débit

Une nouvelle plateforme de microbiologie mutualisée, baptisée P2M, est dédiée à la santé publique. « Elle est à même de séquencer de 20 à 25 millions d’échantillons d’ADN par an à un coût minimisé », résume Vincent Enouf, responsable de P2M.

Vincent Enouf P2M.JPG

Vincent Enouf, responsable P2M : "Nous sommes à même de séquencer
de 20 à 25 millions d’échantillons d’ADN par an à un coût minimisé
"

« La méthode du séquençage à haut débit est devenue la méthode de référence car elle permet d’augmenter les capacités de séquençage pour diminuer les coûts » poursuit Vincent Enouf. C’est un gain de temps et d’argent. Ce seront 200 projets de séquençage qui devraient être réalisés par les équipes de cette plateforme chaque année.

DIVA, une plateforme de réalité virtuelle

Grâce à l’obstination et une idée originale de Mohamed El Beheiry, et en lien avec Jean-Baptiste Masson et Sébastien Doutreligne du laboratoire Décision de l’Institut Pasteur et Maxime Dahan du laboratoire Imagerie et contrôle optique de l’organisation cellulaire de l’Institut Curie, la nouvelle plateforme DIVA est née. Cette plateforme traite les images médicales et de microscopies complexes de manière inédite. A l’aide des lunettes virtuelles et d’une manette, l’utilisateur peut explorer en 3D avec une précision rare des images de neurones ou de tumeurs, par exemple. Cette visualisation révolutionne l’imagerie et permet à un oncologue qui doit opérer un cancer du sein, de repérer en 3D l’emplacement précis des tumeurs, évitant ainsi nombres de mastectomies. Une révolution.
Il faut saluer tous les efforts de Maxime Dahan, de l’institut Curie, qui a porté ce projet, et qui est mort soudainement l’été dernier, bien trop tôt.


La biologie des systèmes et ses applications en santé

La recherche en médecine, et peut-être bientôt la pratique médicale, sont révolutionnées par la biologie des systèmes. De quoi s’agit-il ?

Par Maël Lemoine, philosophe de sciences médicales.

MaelLemoine

Extrait :
La médecine des 4P
Selon le biologiste américain Leroy Hood , biologie des systèmes, big data, -omiques, approches data-driven et IA rendent possibles cette nouvelle ère de la médecine, désormais « personnalisée, prédictive, préventive, participative » : les fameux « quatre P ».
• Personnalisée, parce que la haute dimensionnalité des données recueillies permet à la médecine d’être d’emblée adaptée à l’individu.
Prédictive, parce qu’elle cherche moins à expliquer ce qui s’est passé, qu’à prédire ce qui va survenir relativement à la santé de cet individu.
Préventive, parce que l’action du médecin viendrait désormais davantage en amont des événements de santé.
Participative enfin, parce que le patient devient un contributeur actif de sa santé en fournissant notamment des données par de multiples capteurs.

 

Introduction : au-delà de la physiologie à la papa

Nos connaissances de la physiologie et de la physiopathologie humaines sont résumées dans des modèles simples de mécanismes. Dans ces mécanismes, il y a des parties. Chacune a sa fonction. La combinaison de ces fonctions produit des effets. Le médecin entre dans la connaissance de la maladie à partir de ces modèles fondamentaux. Il sait par exemple par quel jeu de fonctions la glycémie est régulée dans l’organisme normal, et quelles fonctions ne sont pas remplies dans le diabète de type 1, avec quels effets.
En partant de ces modèles, le praticien sait qu’il existe une infinité de petites variations d’un individu à un autre. Il les conçoit comme de simples variantes du modèle essentiel. Ajoutez à cela les aspects psychologiques, comportementaux et culturels. Tout cela explique pourquoi les médicaments marchent mieux ou moins bien chez certains individus en comparaison des autres. Le médecin titre, tâtonne, négocie. Mais enfin, il en revient souvent à la base. Cette base fondamentale et essentielle, c’est le modèle physiologique qui la fournit, et tout le reste n’est que variations idiosyncrasiques.

"La complexité des systèmes biologiques, c’est la réalisation progressive que chaque partie d’un système n’a pas une fonction unique. Ni même quelques-unes. Chaque partie élémentaire d’un système biologique a des dizaines, voire des centaines de fonctions potentielles."

Tout cela est bel et bon, parce que ça marche bien. Mais pour l’essentiel, ces modèles fondamentaux sont de grossières approximations. Pourquoi ? Parce que les systèmes biologiques sont complexes. Qu’entend-on par « complexité » ? Rien à voir avec la difficulté de les apprendre, ou encore, la longueur des chaînes de processus qu’il faut mémoriser pour les examens de médecine – chacun songera avec nostalgie au cycle de Krebs. La complexité des systèmes biologiques, c’est l’idée que le niveau de résolution de nos connaissances est suffisamment fin pour que le modèle classique ne soit plus applicable. Idéalement, on pourrait penser qu’avec le progrès de nos connaissances, nous ne faisons que découvrir des mécanismes plus petits à l’intérieur des mécanismes classiques de la physiologie – on savait que la glycémie était régulée par le pancréas, puis on a découvert le rôle des îlots de Langerhans, puis celui des cellules ?, etc. Mais ce n’est pas ce qui se passe.

La complexité des systèmes biologiques, c’est la réalisation progressive que chaque partie d’un système n’a pas une fonction unique. Ni même quelques-unes. Chaque partie élémentaire d’un système biologique a des dizaines, voire des centaines de fonctions potentielles. Et chaque fonction dans un système biologique peut être remplie par des dizaines, parfois peut-être des centaines de molécules différentes. De cette complexité émergent des tendances statistiques, dont la physiologie à la papa est une sorte de reflet. Mais cette connaissance suffit de moins en moins à comprendre les différences d’action entre les médicaments, leurs effets secondaires, et autres phénomènes qui expliquent réellement ce qui se passe dans l’organisme d’un patient.

En physiologie, on apprend que le fondamental est essentiel et unique, et que les variations sont secondes. La complexité des systèmes biologiques nous apprend que le nombre infini des variations est premier dans les systèmes biologiques, et que les mécanismes physiologiques ne sont que des tendances statistiques, et non des lois.

Un peu de vocabulaire pour briller en société : biologie des systèmes, big data, -omiques, approche data-driven, IA, 4P et quelques autres

« Biologie des systèmes » est le nom donné à un ensemble de disciplines qui partent de ce constat de la complexité, et cherchent à renouveler nos approches biologiques pour comprendre, prédire, contrôler enfin le comportement de ces systèmes complexes. La biologie des systèmes s’appuie sur des modèles mathématiques sophistiquées, sur la puissance de la computation, et sur des types d’expérimentation innovants – la plus étonnante étant la simulation.
Pour ne pas tourner à vide et rester purement théorique, la biologie des systèmes doit s’appuyer sur des données en très grand nombre, les big data (ou données massives). Ces données sont des données d’observation ou des données de simulation. Il existe plusieurs définitions plus ou moins précises de ces données massives. Car ce ne sont pas simplement des données nombreuses. On peut retenir ici deux définitions particulièrement frappantes.

Selon la première définition, on bascule dans le big data seulement quand sont remplies des conditions de volume, de vélocité et de variété. Cette définition, plutôt informatique, insiste donc sur l’espace de stockage nécessaire, les capacités de traitement, et le nombre de types de caractéristiques de ces données. En d’autres termes, ce ne sont pas des grands nombres de données d’un seul type, comme les tailles des individus d’une population. Ce sont des grands nombres de données d’un grand nombre de types, comme la taille, le tour de poignet, de poitrine, etc., le poids, le rythme cardiaque maximum, au repos, moyen, la couleur des cheveux, et un très grand nombre d’autres caractéristiques. Imaginez, par exemple, qu’il faut compter en mois le temps de transfert nécessaire à une base de données typique, par une connexion à ultra-haut débit.

La deuxième définition tient compte seulement de la variété des données, dite « haute dimensionnalité ». Dans une approche épidémiologique classique, par exemple, il existe un plus grand nombre d’individus que de caractéristiques décrivant ces individus. On se sert de statistiques descriptives simples : nous avons, par exemple, 100 000 individus sur lesquels on recueille une ou deux dizaines de types de valeurs, par exemple relatives à leur santé cardiovasculaire. Dans une approche à haute dimensionnalité, le nombre de types de données excède de plusieurs ordres de grandeur le nombre d’individus sur lesquels on les recueille. Ce sont, par exemple, des centaines de milliers de variations génétiques extraites de milliers d’individus : des données dites génomiques, parce qu’elles expriment (en principe) l’intégralité du génome, des données métabolomiques, parce qu’elles expriment la totalité des métabolites, des données métagénomiques parce qu’elles expriment l’intégralité des génomes différents présents dans un organisme, etc. Pour désigner l’intégralité de ces ensembles de données intégrales, on parle de données -omiques.

"Selon Leroy Hood, biologie des systèmes, big data, -omiques, approches data-driven et IA rendent possibles cette nouvelle ère de la médecine, désormais « personnalisée, prédictive, préventive, participative » : les fameux « 4 P »."

Il existe malgré tout un gouffre entre avoir cette base de données à disposition, et pouvoir en extraire de l’information utilisable. Les modèles théoriques de la biologie des systèmes, en dépit de leur complexité, semblent souvent simplistes en face des big data. Pour extraire davantage d’information utilisable, la biologie des systèmes utilise souvent des approches dites data-driven. L’expression désigne toutes les approches dans lesquelles il n’y a pas de modèles théoriques préalables, le modèle se construisant de manière inductive à partir des données elles-mêmes. Ces modèles sont donc construits, généralement, par intelligence artificielle (IA) : on désigne par-là, souvent, des programmes qui se construisent seuls par apprentissage sur des ensembles de données, et cherchent généralement à prédire un effet du système complexe, par un grand nombre de tests, d’erreurs, et par affinage progressif.

On semble bien loin de la médecine. Pourtant, un nom célèbre de la biologie des systèmes, Leroy Hood, a proposé une vision innovante de la discipline d’Hippocrate, la « médecine des 4P ». Selon lui, biologie des systèmes, big data, -omiques, approches data-driven et IA rendent possibles cette nouvelle ère de la médecine, désormais « personnalisée, prédictive, préventive, participative » : les fameux « quatre P ». Personnalisée, parce que la haute dimensionnalité des données recueillies permet à la médecine d’être d’emblée adaptée à l’individu. Prédictive, parce qu’elle cherche moins à expliquer ce qui s’est passé, qu’à prédire ce qui va survenir relativement à la santé de cet individu. Préventive, parce que l’action du médecin viendrait désormais davantage en amont des événements de santé. Participative enfin, parce que le patient devient un contributeur actif de sa santé en fournissant notamment des données par de multiples capteurs.

Quelques exemples de programmes de recherches fondés sur la biologie des systèmes

Un des grands fondateurs de la biologie des systèmes, Hiroaki Kitano, fondateur de l’institut de biologie des systèmes de Tokyo, a appliqué cette approche à de nombreuses questions telles que la modélisation du vieillissement cellulaire ou du développement du ver C. Elegans. Il a également développé ses vues dans une série de travaux, au cours des années 2000, sur la robustesse des systèmes biologiques – c’est-à-dire leur capacité à résister au changement. Cette propriété très générale, facilement modélisable par la biologie des systèmes, permet de comprendre aussi bien la santé que la résistance des pathologies aux traitements.

Un autre chercheur talentueux, Albert-Lazslo Barabasi, a appliqué des modèles de réseaux à l’ensemble des gènes impliqués dans l’ensemble des maladies. Il a ainsi pu mettre en évidence de nombreux faits de portée générale, ainsi que des connexions génétiques jusque là inconnues entre des maladies plus ou moins fréquentes. Les résultats sont résumés notamment dans le spectaculaire « diseasome », réseau de connexions entre gènes impliqués dans des maladies et maladies.

Logos bio syst comput ML INT

Ces modèles théoriques attirent généralement beaucoup de couverture médiatique que les infrastructures qui les rendent possibles : depuis le Projet Génome Humain autour de l’an 2000, il ne passe pas une semaine sans qu’on entende parler d’une nouvelle initiative plus spectaculaire de séquençage. Surenchère dans le gigantisme : 23andme, la connectivity map du Broad Institute de Boston, le projet AllOfUs et, en France, le projet France Médecine Génomique 2025. 23andme est une société privée qui séquence des génomes pour proposer des algorithmes prédictifs de risques de maladie sans cesse mis à jour pour ses clients. La connectivity map est une base de données qui collecte signatures de maladie et signatures de traitements, ainsi que les outils pour les corréler entre elles. Le projet AllOfUs est un programme de séquençage du génome d’un million de citoyens américains. Quant à France Médecine Génomique 2025, il s’agit seulement du premier étage – assurer les capacités de séquençage à plusieurs centres sur le territoire métropolitain, l’usage restant, quant à lui, encore assez vague.

Conclusion (critique)

C’est la question générale de l’impact réel de toutes ces approches sur la médecine quotidienne qui préoccupe surtout le praticien. Les coûts ont de quoi donner le tournis. Les modèles sont certainement très séduisants, mais ils peinent à faire connaître leurs effets. La surenchère internationale – les Français voulant avoir la même couverture de séquençage que les Anglais et, en toute hypothèse, ne pouvant se permettre d’être doublés par les Tchèques –, le fait que les laboratoires pharmaceutiques préfèrent pouvoir se servir indirectement de ces infrastructures, par le financement de projets de recherche en partenariat avec le public, qu’investir eux-mêmes massivement dans ces coûteux joujoux, tout cela pousse les décideurs publics à équiper notre pays. On séquence de la tumeur avant de prescrire dans certains centres de pointe en cancérologie. Certains centres de recherche ont accès à des données génétiques qui permettent de découvrir un gène impliqué dans une maladie rare (généralement non-mendélienne !). Mais on serait bien en peine de citer un exemple spectaculaire de traitement fondé sur ces capacités… du moins, un exemple qui ne soit pas anecdotique.

"Inefficace, la biologie des systèmes ? Du moins, admettons que, pour l’instant, elle n’a pas fait la preuve de son efficacité dans le soin. Il faut rester prudent cependant : l’engouement théorique n’est pas surfait, l’approche est réellement innovante et prometteuse."

Inefficace, la biologie des systèmes ? Du moins, admettons que, pour l’instant, elle n’a pas fait la preuve de son efficacité dans le soin. Il faut rester prudent cependant : l’engouement théorique n’est pas surfait, l’approche est réellement innovante et prometteuse. On ne peut s’empêcher de noter cette course en avant vers du matériel de plus en plus coûteux et du séquençage de plus en plus massif. Il serait nécessaire, dit-on, pour faire un jour les découvertes de rupture qui justifieront l’investissement. Ou pas. C’est la structure même de la recherche que l’engouement pour la biologie des systèmes met en évidence : un pari fondé sur un cadre théorique séduisant et qui, pour intelligent qu’il soit, pourrait aussi bien ne pas marcher. Car la recherche ne découvre pas toujours un traitement possible : elle pourrait aussi découvrir que, dans certaines maladies, un traitement pourrait bien être impossible. Comment justifiera-t-on alors d’avoir investi autant d’argent dans une impasse thérapeutique ?

par Carole Ivaldi & Maël Lemoine