- Pré-requis et Objectifs
-
Cours
-
Contenu
- 1 - Concepts
- 2 - Les banques de données utiles dans le domaine de la génétique
- 3 - Outils informatiques utiles dans le domaine de la génétique
- 4 - Exemples
- Version PDF
-
Contenu
- Annexes
Comme vous pouvez l’imaginer à la vue du nombre et de la diversité des bases de données disponibles via Internet, les outils bioinformatiques disponibles sont également très nombreux allant de la prédiction de gènes à partir d’une séquence quelconque à l’identification de motifs particuliers (sites de fixation de protéines, etc.) ou à la prédiction du caractère pathogène d’une mutation faux-sens.
Ne pouvant traiter ici l’ensemble des outils bioinformatiques disponibles, j’ai choisi de limiter ce paragraphe aux différents outils de prédiction pouvant être directement utiles pour apporter une aide à l’interprétation du caractère pathogène ou non d’une variation de séquence découverte dans le cadre d’un diagnostic moléculaire. En effet, la révolution génomique (séquençage complet d’un ou plusieurs gènes) aboutie à l’identification de nombreuses variations de séquence et il est souvent difficile d’identifier la ou les mutations réellement pathogènes.
La plupart des gènes humains codent pour des protéines et c’est tout naturellement que les outils de prédiction se sont attachés à la protéine plutôt qu’au gène lui même à l’exception de quelques outils comme nous le verrons par la suite. Dans une situation idéale, la structure 3D de la protéine est disponible et de nombreux orthologues ont également été décrits. Bien entendu cela est encore loin d’être le cas, limitant ainsi l’intérêt de certains outils.
Tous les outils de cette catégorie nécessitent la disponibilité d’une structure 3D de la protéine elle-même ou de l’un de ses orthologues. Les algorithmes utilisés ont des performances hétérogènes tant en terme de rapidité que de prédiction. Les plus connus sont :
L’agrégation est un terme général qui regroupe différents types d’interactions ou caractéristiques. Ainsi l’agrégation des protéines peut survenir via différents
mécanismes et peut être classée de différents façons : soluble/insoluble, covalence/non-covalence, réversible/irréversible, natif/dénaturé. Elle survient par la
formation d’un lien chimique entre 2 (ou plus) monomères : la création de ponts disulfures est un mécanisme fréquent mais d’autres liens peuvent également être
observés comme la formation de bi-tyrosines après un phénomène d’oxydation des tyrosines, etc. Deux outils de prédiction sont souvent utilisés dans ce domaine :
Les régions désordonnées (DR) correspondent à des régions protéiques qui ne possèdent pas de structure tertiaire fixe. Elles sont ainsi partiellement ou totalement non repliées. Il a été démontré que de telles régions étaient impliquées dans une grande variété de fonctions comprenant la reconnaissance de l’ADN, la modulation de la spécificité ou de l’affinité de la liaison à d’autres protéines, l’activation par protéolyse, le contrôle de la demi-vie des protéines etc. Bien que ces régions ne possèdent pas de structure 3-D fixe dans leur état natif, elles vont souvent faire l’objet de transitions entre divers états (DR/3-D) lors d’interactions.
Deux outils peuvent être utilisés pour ces prédictions : PONDR (Molecular kinetics - Indianapolis) et Disprot (Indiana University school of medicine).
Les mutations faux-sens représentent plus de la moitié des mutations pathogènes décrites dans les maladies génétiques humaines et plus de la moitié des variations de séquence non-pathogènes. Leur interprétation est souvent délicate ce qui a conduit à la création d’outils de prédiction dont les principaux sont présentés ici :
Il existe nombre de mutations qui sont localisées aux jonctions intron/exon/intron et il a été démontré qu’elles altèrent l’épissage des introns en détruisant certains signaux clés : les sites donneurs et accepteurs d’épissage. De la même façon, des mutations introniques localisées à distance des exons peuvent être pathogènes par la création de nouveaux signaux d’épissage reconnus par la machinerie cellulaire. Ces sites nouveaux sont nommés sites cryptiques. Enfin, il serait trop restrictif de limiter les signaux d’épissage aux simples sites donneurs et accepteurs d’épissage. Il existe en effet d’autres signaux qui jouent un rôle clé comme le point de branchement situé en 5’ du site accepteur, les ESE (Exonic Splicing Enhancer) et ESS (Exonic Splicing Silencer) localisés dans les exons, ou les ISE (Intronic Splicing Silencer) et ISS (Intronic Splicing Silencer) localisés dans les introns.
La connaissance de ces signaux est encore incomplète mais il existe d’ores et déjà des outils de prédiction de ces signaux qui peuvent également prédire l’impact d’une mutation quelconque (exonique ou intronique) sur les signaux d’épissage. L’outil le plus utilisé est aujourd’hui HSF (Human Splicing Finder) qui intègre l’ensemble des algorithmes et matrices de prédiction et permet ainsi de disposer d’un large éventail de prédictions en un seul endroit.
Il existe nombre de mutations qui sont localisées aux jonctions intron/exon/intron et il a été démontré qu’elles altèrent l’épissage des introns en détruisant certains signaux clés : les sites donneurs et accepteurs d’épissage. De la même façon, des mutations introniques localisées à distance des exons peuvent être pathogènes par la création de nouveaux signaux d’épissage reconnus par la machinerie cellulaire. Ces sites nouveaux sont nommés sites cryptiques. Enfin, il serait trop restrictif de limiter les signaux d’épissage aux simples sites donneurs et accepteurs d’épissage. Il existe en effet d’autres signaux qui jouent un rôle clé comme le point de branchement situé en 5’ du site accepteur, les ESE (Exonic Splicing Enhancer) et ESS (Exonic Splicing Silencer) localisés dans les exons, ou les ISE (Intronic Splicing Silencer) et ISS (Intronic Splicing Silencer) localisés dans les introns.
La connaissance de ces signaux est encore incomplète mais il existe d’ores et déjà des outils de prédiction de ces signaux qui peuvent également prédire l’impact d’une mutation quelconque (exonique ou intronique) sur les signaux d’épissage. L’outil le plus utilisé est aujourd’hui HSF (Human Splicing Finder) qui intègre l’ensemble des algorithmes et matrices de prédiction et permet ainsi de disposer d’un large éventail de prédictions en un seul endroit.