3 - Outils informatiques utiles dans le domaine de la génétique

Comme vous pouvez l’imaginer à la vue du nombre et de la diversité des bases de données disponibles via Internet, les outils bioinformatiques disponibles sont également très nombreux allant de la prédiction de gènes à partir d’une séquence quelconque à l’identification de motifs particuliers (sites de fixation de protéines, etc.) ou à la prédiction du caractère pathogène d’une mutation faux-sens.

Ne pouvant traiter ici l’ensemble des outils bioinformatiques disponibles, j’ai choisi de limiter ce paragraphe aux différents outils de prédiction pouvant être directement utiles pour apporter une aide à l’interprétation du caractère pathogène ou non d’une variation de séquence découverte dans le cadre d’un diagnostic moléculaire. En effet, la révolution génomique (séquençage complet d’un ou plusieurs gènes) aboutie à l’identification de nombreuses variations de séquence et il est souvent difficile d’identifier la ou les mutations réellement pathogènes.

La plupart des gènes humains codent pour des protéines et c’est tout naturellement que les outils de prédiction se sont attachés à la protéine plutôt qu’au gène lui même à l’exception de quelques outils comme nous le verrons par la suite. Dans une situation idéale, la structure 3D de la protéine est disponible et de nombreux orthologues ont également été décrits. Bien entendu cela est encore loin d’être le cas, limitant ainsi l’intérêt de certains outils.

3 . 1 - Prédiction des changements de stabilité des protéines

Tous les outils de cette catégorie nécessitent la disponibilité d’une structure 3D de la protéine elle-même ou de l’un de ses orthologues. Les algorithmes utilisés ont des performances hétérogènes tant en terme de rapidité que de prédiction. Les plus connus sont :

Cupsat (Cologne University) prédit les changements de stabilité d’une protéine induits par des mutations ponctuelles. Le modèle de prédiction est basé sur les caractéristiques physiques des acides aminés mais également sur leur accessibilité aux solvants et sur leur participation à des structures secondaires particulières.

FoldX (European Molecular Biology Laboratory – Heidelberg) utilise la description atomique de la structure des protéines. Les différents termes d’énergie sont pris en compte pour les prédictions.

3 . 2 - Prédiction de l’agrégation des protéines

L’agrégation est un terme général qui regroupe différents types d’interactions ou caractéristiques. Ainsi l’agrégation des protéines peut survenir via différents
mécanismes et peut être classée de différents façons : soluble/insoluble, covalence/non-covalence, réversible/irréversible, natif/dénaturé. Elle survient par la
formation d’un lien chimique entre 2 (ou plus) monomères : la création de ponts disulfures est un mécanisme fréquent mais d’autres liens peuvent également être
observés comme la formation de bi-tyrosines après un phénomène d’oxydation des tyrosines, etc. Deux outils de prédiction sont souvent utilisés dans ce domaine :

Aggrescan (Universitat Autónoma de Barcelona) permet de prédire les segments d’une protéine pouvant participer à un phénomène d’agrégation. Il permet également d’évaluer l’effet de mutations sur l’agrégation.

Tango (European Molecular Biology Laboratory – Heidelberg) est basé sur les propriétés physico-chimiques liées à la formation des structures secondaires et sur l’hypothèse selon laquelle la région centrale des agrégats est entièrement enfouie. Il permet de cribler les banques de données de protéines et de prédire les motifs potentiels d’agrégation pouvant être associés à des maladies.

3 . 3 - Prédiction des régions désordonnées

Les régions désordonnées (DR) correspondent à des régions protéiques qui ne possèdent pas de structure tertiaire fixe. Elles sont ainsi partiellement ou totalement non repliées. Il a été démontré que de telles régions étaient impliquées dans une grande variété de fonctions comprenant la reconnaissance de l’ADN, la modulation de la spécificité ou de l’affinité de la liaison à d’autres protéines, l’activation par protéolyse, le contrôle de la demi-vie des protéines etc. Bien que ces régions ne possèdent pas de structure 3-D fixe dans leur état natif, elles vont souvent faire l’objet de transitions entre divers états (DR/3-D) lors d’interactions.

Deux outils peuvent être utilisés pour ces prédictions : PONDR (Molecular kinetics - Indianapolis) et Disprot (Indiana University school of medicine).

3 . 4 - Prédiction du caractère pathogène des mutations faux-sens

Les mutations faux-sens représentent plus de la moitié des mutations pathogènes décrites dans les maladies génétiques humaines et plus de la moitié des variations de séquence non-pathogènes. Leur interprétation est souvent délicate ce qui a conduit à la création d’outils de prédiction dont les principaux sont présentés ici :

SIFT (Craig Venter Institute) utilise les homologies de séquence entre espèces ainsi que les propriétés physicochimiques des acides aminés pour réaliser les prédictions.

Polyphen (Harvard University) utilise des informations structurales ainsi que des données physiques et d’homologie pour réaliser les prédictions.

UMD-Predictor (INSERM) cet outil de prédiction est intégré à un logiciel (UMD) permettant de créer des LSDBs. Il prend en compte non seulement des données d’homologie et des données structurales mais également les propriétés physico-chimiques des acides aminés et, pour la première fois, l’impact des mutations sur l’ARNm. Différents tests comparatifs ont montré qu’il donnait les meilleures prédictions.

Il existe nombre de mutations qui sont localisées aux jonctions intron/exon/intron et il a été démontré qu’elles altèrent l’épissage des introns en détruisant certains signaux clés : les sites donneurs et accepteurs d’épissage. De la même façon, des mutations introniques localisées à distance des exons peuvent être pathogènes par la création de nouveaux signaux d’épissage reconnus par la machinerie cellulaire. Ces sites nouveaux sont nommés sites cryptiques. Enfin, il serait trop restrictif de limiter les signaux d’épissage aux simples sites donneurs et accepteurs d’épissage. Il existe en effet d’autres signaux qui jouent un rôle clé comme le point de branchement situé en 5’ du site accepteur, les ESE (Exonic Splicing Enhancer) et ESS (Exonic Splicing Silencer) localisés dans les exons, ou les ISE (Intronic Splicing Silencer) et ISS (Intronic Splicing Silencer) localisés dans les introns.

La connaissance de ces signaux est encore incomplète mais il existe d’ores et déjà des outils de prédiction de ces signaux qui peuvent également prédire l’impact d’une mutation quelconque (exonique ou intronique) sur les signaux d’épissage. L’outil le plus utilisé est aujourd’hui HSF (Human Splicing Finder) qui intègre l’ensemble des algorithmes et matrices de prédiction et permet ainsi de disposer d’un large éventail de prédictions en un seul endroit.

3 . 5 - Prédiction du caractère pathogène des mutations introniques

4/6