- Pré-requis et Objectifs
-
Cours
-
Contenu
- 1 - Concepts
- 2 - Les banques de données utiles dans le domaine de la génétique
- 3 - Outils informatiques utiles dans le domaine de la génétique
- 4 - Exemples
- Version PDF
-
Contenu
- Annexes
Parmi les différents outils d’annotation fonctionnelle, attachons nous à ceux en relation avec la structure des protéines puisque cette connaissance sera d’un apport primordial pour l’interprétation des mutations responsables de maladies génétiques.
Nous pouvons distinguer plusieurs niveaux dans la description de la structure des protéines :
Les différents outils et bases de données que nous avons sélectionnés permettent de collecter les informations en relation avec le protéines à ces différents niveaux (lorsque des informations sont disponibles ce qui est toujours vrai pour la séquence primaire mais peu fréquent pour la séquence tertiaire et encore plus rare pour la séquence quaternaire). Parallèlement à ces données classiques, des annotations complémentaires sont de plus en plus fréquemment disponibles (domaines protéiques en relation avec une structure ou une fonction particulières, structure de protéines mutantes …). Comme vous le constatez, nous associons ici outils et bases de données qui sont en effet indissociables dans le cas des structures puisque les données brutes ne sont pas directement interprétables par l’homme et nécessitent l’utilisation d’outils de visualisation.
Les plus populaires sont :
D’autres bases de données sont particulièrement utiles pour identifier des domaines protéiques présents chez plusieurs protéines et ainsi définir des familles et des superfamilles de protéines :
La base de données de référence pour les maladies génétiques est sans conteste OMIM (Online Mendelian Inheritance in Man). Cette base de données est née dans les années 1960 grâce au travail de Victor McKusick qui est souvent surnommé "the father of medical genetics" et qui a patiemment et sans relâche démontré l’importance de l’étude des bases génétiques des maladies :"I like to say that the arrangement of genes on chromosomes is part of the micro-anatomy, just as the gross anatomy in the Middle Ages was important to medicine, every medical specialty now uses mapping genes for diseases".
Il a également été l’un des premiers à comprendre la puissance de la bioinformatique et la nécessité d’organiser le savoir médical sous la forme de bases de données. La version Internet de son oeuvre a été créée en 1985 et est aujourd’hui encore la référence internationale. Il nous a quittés en 2008.
Parallèlement à OMIM, il existe d’autres bases de données dédiées aux maladies génétiques. Citons par exemple :
A côté de ces bases de données généralistes, il existe nombre de bases de données dont le champ d’application est plus étroit. Citons par exemple :
Avec l’essor des nouvelles technologies, le nombre de variations de la séquence du génome humain ne cesse de croître. Ainsi le séquençage du génome complet d’un individu permet aujourd’hui d’identifier environ 3 millions de SNPs (Single Nucleotide Polymorphisms) dont 20 à 25% n’ont jamais été décrits auparavant. La collection de ces informations est d’un intérêt majeur, non seulement pour la recherche mais également pour le diagnostic des maladies génétiques.
La grande difficulté est actuellement de collecter des données très hétérogènes tant par leur mode de production (quel technologie a été utilisée ?) que par leur qualité (quels étaient les paramètres qualités employés ?). Comme nous allons le voir, il existe de nombreuses bases de données permettant d’accéder à des informations sur la variabilité de la séquence du génome humain mais il n’existe pas (encore) une base de données idéale.
Deux approches ont été retenues par différents groupes : l’approche généraliste (les données sont collectées pour l’ensemble des gènes) et l'approche spécialisées (les données sont collectées pour un gène donné).
Elles permettent d’accéder rapidement à des données relatives à la variabilité de séquence d’un gène quelconque.
Nous pouvons distinguer plusieurs types de bases de données en fonction du type de mutation (ici pris dans son sens littéral c’est à dire toute variation stable de la séquence) : celles dédiées aux SNPs (Single Nucleotide Polymorphism), aux CNVs (Copy Number Variation) et celles dédiées aux mutations pathogènes
Nous illustrerons ce type de base de données avec trois modèles complémentaires :
Les CNVs sont connus depuis longtemps mais l’émergence des technologies à très haut débit comme l’hybridation génomique comparative (CGH) sur puces (microarray CGH) ont véritablement révélé un aspect insoupçonné de la variabilité du génome humain : des variations de fragments de séquence de plusieurs centaines de milliers de paires de bases. Ces données ainsi que leurs conséquences phénotypiques (certains CNVs sont pathogènes, d’autres pas) sont répertoriés dans plusieurs bases de données dont voici quelques exemples :
Dans le domaine de la génétique humaine, ce sont bien sûr les mutations pathogènes qui sont de la plus grande importance puisqu’elles sont responsables de maladies génétiques. Leur connaissance est ainsi essentielle tant pour le conseil génétique que pour la compréhension des mécanismes moléculaires responsables de pathologies voire même pour la création de nouvelles approches thérapeutiques.
Différentes bases de données ont pour objet de collecter ces mutations pathogènes à l’échelle du génome :
Plus connues sous l’acronyme de LSDB (Locus Specific DataBase), elles sont développées par des experts d’un gène ou de maladies et sont donc considérées
comme les bases de données de référence pour un gène donné.
Leur qualités principales résident dans la validation des données qu’elles contiennent par des experts du domaine considéré ainsi que par leur exhaustivité (jusqu’à 50% de leur contenu peut correspondre à des soumissions directes non publiées et ainsi absent des bases de données centrales). La liste des différentes LSDBs disponibles via Internet peut être retrouvée sur le site de la Human Genome Variation Society (HGVS).