Authors : Romain Villa | Robin Weissmann-Farbos
Sujet proposé par :
- François Giudicelli - IBENS DYOGEN research team
- Hugues Roest Crolllius - IBENS DYOGEN research team
Ce projet s’inscrit dans les recherches de l’équipe DYOGEN de l’IBENS qui s’intéresse aux génomes des Vertébrés avec une approche évolutive. L’équipe a ainsi pu identifier plus de 2 millions d’éléments régulateurs non-codants (CNEs) dans le génome humain par génomique comparative [2] et les dater. Par ailleurs, grâce à l’outil PEGASUS, une prédiction des gènes potentiellement régulés leur est associé. Empiriquement on suppose que la régulation des gènes résulte de la reconnaissance d’un motif au sein du CNE par un facteur de transcription (TF). On s’attend à retrouver ces motifs dans le catalogue des CNEs de l’équipe. Cependant, une des questions que l’on peut se poser à ce stade, c’est s’il existe une différence de motifs retrouvés dans les CNEs anciens (env. 300Ma) et récents (env. 100Ma)
Les CNEs sont extraites à partir d'un fichier contenant leurs coordonnées chromosomiques (.bed
) puis importé dans l'explorarteur de génomes de l'université de Santa-Cruz. A l'aide de l'outil custom tracks (My Data > Custom Tracks
), on les télécharge au format fasta
dans l'outil table browser.
Par traitement des données, on entend la modification des entêtes des séquences fasta, leur numérotation et le tri par ancienneté de celles-ci. Par ailleurs, selon la taille du jeu de séquences et les besoins, il pourrait s’avérer nécessaire d’échantillonner ce jeu initial. Le script treatment.sh
permet de faire ces traitements avec des scripts écrits en Python.
Notre objectif est de regarder l'enrichissement des différents motifs de fixation sur les CNEs en utilisant ceux compilés sur JASPAR pour les Vertébrés. Pour faire cette analyse, on a chosi d'utiliser l'outil matrix-scan-quick
disponible sur RSAT. Nous aurons besoin d'un fichier de background nous donnant les fréquences des dinucléotides pour les régions non codantes du génome hg19, les 841 matrices (profils de sites de fixation des facteurs de transcription) et nos jeux de CNEs, anciens et récents. Le programme scanne chaque séquence et son complémentaire et cherche une correspondance avec les différents profils fournis, selon le seuil de p-valeur donné. En l'occurence, nous avons choisi un seuil à 10^-4 pour ne pas avoir trop de stringence sur les résultats afin d'avoir un premier aperçu. Les résultats obtenus de cette manière ne permettent pas d'appréhender la significativité de la correspondance trouvée, par rapport à une séquence obtenue par hasard. Pour le vérifier, nous générons deux jeux de séquences construits aléatoirement à partir des jeux de CNEs initiaux, de taille identique, et conservant la même fréquence de dinucléotides (pour une séquence) avec un programme en Python (src/shuffling.py
). Le programme de RSAT est lancé avec les mêmes paramètres sur toutes nos données.
L’obstacle auquel nous nous sommes confrontés était celui du traitement statistique de nos résultats : comment conclure qu’un motif est significativement plus présent dans un des deux jeux de données ?
Nous avons opté pour la méthode du bootstrap, car elle semblait être la plus abordable même si elle reste discutable. Celle-ci nous permet d’obtenir une distribution « virtuelle » de l’abondance de chaque motif en procédant par resampling de nos résultats. On applique cette méthode sur nos différents jeux de données. Pour chaque motif, on compare les intervalles de confiance à 95% entre les jeux de données réelles et leurs versions mélangées (shuffled) respectives en considérant qu’un jeu de données réelles n’est pas enrichi en un motif si les intervalles se chevauchent. On supprime alors les motifs qui ne sont enrichis dans aucun des deux jeux de données réelles, puisqu’ils n’ont aucun intérêt dans notre étude. Pour chacun des motifs matrix-scan-quick
et d'un script en R..
Figure 1 : Courbe de densité de l'ensemble des ratios calculés et histogramme de cette distribution par appartenance du ratio à une des 10 familles de TF les plus représentées. Les ratios inférieurs à 1 signifient un enrichissement relatif du motif chez les CNEs anciennes. A l'inverse, ceux supérieurs 1 signifient un enrichissement relatif chez les CNEs récentes. Figure 2 : Boxplot représentant les distributions des ratios pour chacune des 77 familles de TF se liant au motif.
Sur la courbe de densité de la première figure, on perçoit un renflement autour des ratios à 0.6, donc correspondant aux motifs encrichis dans les CNEs anciennes. Les données sont visualisées en fonction de la famille de TF se liant pour donner du sens biologiquement. On a arbitrairement choisi les 10 familles les plus représentées pour plus de lisibilité et parce que cela couvrait suffisamment la région d'intérêt. La résultante semble indiquer que les famille HOX et en lien avec les homéodomaines pourraient expliquer ce renflement. Ce premier résultat nous amène à réaliser un boxplot avec ces mêmes ratios pour avoir plus de précisions et identifier les familles prometteuses (fig 2). Ce boxplot qui représente chacune des 77 familles de TF avec la distribution de leur ratios de motifs associés nous donne une vision plus claire : les familles HOX et liées à des homéodomaines (HD-LIM/CUT, TALE-type) sont bien enrichies chez les CNEs anciennes tandis que les facteurs HSF ou GMEB le sont chez les CNEs récentes. Sans avancer de conclusions, cela est à mettre en lien avec l'histoire évolutive des CNEs considérées, notamment celles liant le TF TALE-type, conservé chez les Vertébrés.
Cette approche nous permet d'avoir des éléments d'interprétations bien que des améliorations en terme d'analyse statistique restent nécessaires. Bien que ces résultats n'offrent pas de vision exhaustive, nous pensons que ces résultats peuvent ouvrir des pistes : explorer les données à l'échelle du motif pour les familles de TFs qui semblent prometteuses au regard de l'enrichissement ou encore regarder si les mêmes tendances se dégagent dans les résultats d'AME que nous avons en réserve.