Système d'information scientifique

L'activité en "Système d'Information" est assurée par plusieurs de nos agents sur les sites de Theix et Marcy.

Les données collectées pour étudier les systèmes épidémiologiques sont de nature très variée, allant d’un nombre de cas cliniques observés à une séquence de nucléotides en passant par des relevés de piégeage d’espèces hôtes ou de vecteurs et proviennent de champs disciplinaires différents (biologie moléculaire, écologie…).

Utilisation de ces données hétérogènes

Elle nécessite bien souvent l’adaptation voire même le développement de nouveaux modèles mathématiques et statistiques mais aussi informatiques pour gérer l’arrivée massive de données et les temps de calculs importants qui en résultent. Nos travaux de recherche épidémiologiques sont couplés à des travaux de développements méthodologiques en mathématique, statistique et informatique. Ces développements concernent :

  • La modélisation des systèmes épidémiologiques. Nous travaillons particulièrement sur des estimations d’abondance de populations de vecteurs ou de réservoirs par des modèles dynamiques ou des modèles bayésiens hiérarchiques. Nous développons également des modèles statistiques ou probabilistes d’identification d’association de pathogènes.
  • La modélisation spatio-temporelle. Nous développons de nouveaux modèles d’analyse spatio-temporelle pour les maladies contagieuses à l’aide de modèles bayésiens hiérarchiques avec un champ latent auto-régressif gaussien. Nous travaillons également sur la détection d’agrégat spatiaux et spatiaux-temporels, notamment la détection d’agrégats multiples. Ces méthodes sont élargies pour identifier des agrégats de mutation le long du génome.
  • Des méthodes de bioinformatique. Nous travaillons en particulier sur la conception de méthodes informatiques appliquées à la génomique et à la biologie moléculaire. Il s’agit d’adapter les techniques de traitement et d’analyse des données à l’arrivée massive de données liées au séquençage de l’ADN. Des modèles moléculaires et épidémiologiques sont développés et éventuellement couplés pour inférer des taux de transmission entre populations.
  • L’optimisation des temps de calcul et du stockage. Nous travaillons sur le calcul à haute performance à travers l’optimisation temps de calcul et de traitement, notamment via différentes techniques de programmation parallèle. Pour cela nous appuyons sur une infrastructure informatique conséquente et adaptée composée de plusieurs serveurs (d’application, de bases de données, de calcul scientifique et de stockage). 

Analyse des données par modélisation statistique et mathématique

Nous appliquons couramment les statistiques descriptives afin de décrire les phénomènes de santé en fournissant des synthèses à partir des données. Nous utilisons également fréquemment la modélisation statistique qui est une formalisation mathématique d'un phénomène (comme une épidémie) pour le décrire, en connaître les propriétés et prévoir son évolution.  Les méthodes existantes sont variées. Elles doivent être choisies et paramétrées de manière adaptée au problème étudié en tenant compte des analyses statistiques descriptives préalables et des connaissances a priori (avis d'expert) sur le phénomène. Les paramètres d’un modèle sont ensuite généralement estimés à partir de données. Ces inférences permettent d'étendre les conclusions faites sur un échantillon à l'ensemble de la population ciblée, ce qui potentiellement permet d'effectuer des prédictions sur l'extinction ou l'extension d'une maladie.

  • Nous utilisons notamment les régressions au sens large (linéaire ou non, logistique et plus généralement l'approche GLM, les modèles mixtes, les analyses de variance). Les régressions logistiques sont les plus utilisées dans l'unité, en particulier pour l'étude de l'influence des facteurs épidémiologiques sur les épidémies. Les tests statistiques concernent la conformité, la comparaison de distributions et la mise en évidence d'hétérogénéité spatiale (ESB, Influenza Aviaire, etc.).
  • Les données de suivi individuel que nous recueillons dans des populations d'espèces réservoirs de la faune sauvage (Rongeurs) sont analysées à l'aide de modèles de Capture Marquage Recapture. Ces modèles permettent d'inférer le fonctionnement démographique des populations des espèces réservoirs en lien avec l'épidémiologie d'un (ou plusieurs) agent(s) pathogène(s).
  • Les modèles les plus complexes ne possèdent que rarement de solutions analytiques et doivent de ce fait être estimés par des méthodes de simulation (de type Monte-Carlo par exemple). Les approches bayésiennes entrent dans ce cadre. En particulier, les projets de l'unité concernés par les analyses spatiales utilisent des modèles de cartographie du risque formalisés dans une approche hiérarchique Bayésienne.
  • Des modèles dynamiques pour simuler les propagations de maladie sont développés en prenant en compte les caractéristiques de la population et de la transmission du pathogène. La prise en compte de la dimension spatiale peut être réalisée tant dans la distribution spatiale des populations que dans la transmission à distance de la maladie. Si l’approximation de type champ moyen n’est pas valide, l’approche déterministe sera remplacée par une approche stochastique nécessitant de nombreuses simulations pour étudier le comportement du modèle.

Développement de nos capacités informatiques

  • Les bases de données développées dans l’unité sont utilisées pour saisir, consulter, stocker et extraire les données issues des études de terrain. Généralement couplées avec une interface utilisateur elles possèdent des fonctionnalités de saisie, de recherche de données et d’extractions sélectives multicritères.
  • Les applications Web développées dans l'unité permettent également la saisie, la recherche, la consultation et l’extraction de données épidémiologiques ou génomiques stockées dans des bases de données. Accessibles depuis Internet, elles sont utilisées dans le cadre de projets impliquant plusieurs acteurs ou partenaires. L'unité a également développé des applications pour terminaux mobiles (Smartphones) qui sont un atout et un gain de temps non négligeable dans le cadre d’un réseau de surveillance d’une maladie. Ce type d'application permet la saisie de données et la transmission en temps réel de ces informations à des serveurs centraux.
  • La représentation cartographique des données,  réalisée à l'aide de systèmes d’information géographique, est une étape essentielle de nombre de nos études. Les cartes créées permettent soit de préparer une campagne de terrain en utilisant des données GPS ou topographiques, des photographies satellites ou aériennes, soit de construire des variables spatialisées, intégrées ensuite dans des modèles statistiques.
  • Les différents traitements à effectuer et les masses de données évoluant de façon exponentielle, l’optimisation des temps de calcul et la rationalisation du stockage des données sont devenus des enjeux majeurs pour la réalisation de nos projets. Depuis 2010, nous disposons d’un cluster de calcul composé d'une dizaine de  serveurs (200 cœurs CPU et 640 Go de mémoire vive). A cela s’ajoutent les stations de travail des agents qui partagent le temps CPU de leurs machines. La mise en place de ce cluster a été accompagnée par une stratégie visant à optimiser différents algorithmes de traitement afin qu’ils puissent tirer avantage de plusieurs processeurs (programmation « multithread »). Certains de ces programmes peuvent aussi être réécrits sous forme d’algorithmes massivement parallélisés pour qu’ils puissent s’exécuter sur des processeurs graphiques (GPU).

 

Date de modification : 31 mai 2023 | Date de création : 27 mai 2021 | Rédaction : ASM