Intégration de données génétiques/génomiques dans une base de connaissance graphe
Un des enjeux de la biologie végétale est d’étudier, voire de prédire la capacité des plantes à s’adapter à des stress en s’appuyant sur des données génétiques, génomiques et environnementales. Pour y parvenir les chercheurs étudient des collections de ressources génétiques représentant la diversité existante d’une espèce et souhaitent disposer de connaissances intégrées aussi exhaustives que possible sur chacune des accessions/ressources génétiques de ces collections.
L’URGI est une unité de recherche basée sur le centre INRAE de Versailles-Saclay, dont un agent est missionné au sein du CNRGV sur le centre INRAE de Toulouse. Elle développe des approches basées sur les graphes de connaissances permettant d’intégrer des données hétérogènes dans l’optique d’apporter un appui efficace et rapide en termes d’exploration de données à la communauté scientifique.
L’objectif du stage proposé sera de compléter le graphe de données existant qui permet pour le moment de collecter et interroger les données et métadonnées génomiques et génétiques d'un large panel d'espèces de plantes d'intérêt (Blé, vigne, peuplier, chêne …). Cette extension se fera sous deux angles :
Objectifs :
Intégration des données hétérogènes, dans une base de données de type « graphe » (Neo4j).
Ces données hétérogènes hébergées au laboratoire et dans des entrepôts publics devront être traitées pour être insérées dans une base pilote pour faciliter l’intégration, l’enrichissement des données et leur exploitation.
Le(a) candidat(e) devra enfin pouvoir proposer une automatisation de l’insertion des données en base et des visualisations permettant une interrogation accessible et reproductible.
Compétences techniques recherchées :
• Maîtrise des commandes UNIX (shell) et de la programmation python.
• Connaissance en SGBD, connaissance du NoSQL sera un plus.
• Connaissance de la technologie Docker souhaitable