4 - De la connaissance des types de microlésions à la conclusion de données mutationnelles : l’Interprétation de données mutationnelles

Qu’il s’agisse d’application à visée de recherche ou diagnostique, l’objectif des analyses mutationnelles est d’identifier des variations de séquence, et de conclure sur leur caractère pathogène ou non.

Nomenclature des mutations

L’identification de variations de séquence dans un échantillon, en comparaison à une séquence de référence, nécessite dans un premier temps une description précise de ces variations. La « Human Genome Variation Society » a établi une nomenclature officielle internationale pour la description des données mutationnelles (www.hgvs.org/mutnomen). Cette nomenclature permet une description précise de variations de séquences d’un gène, sur le plan génomique, transcriptionnel (ARNm) et protéique.

De manière simplifiée, la règle consiste à décrire la localisation de la variation de séquence, par rapport à la séquence codante du gène, et le changement induit. Selon la technique de génétique moléculaire utilisée (analyse génomique ou transcriptionnelle), la description est faite par rapport à la séquence codante sur le plan génomique (indiqué par « c. ») ou sur le plan de l’ARN messager (indiqué par « r. »). En supplément, l’effet théorique attendu au niveau protéique est indiqué entre parenthèses, précédé de « p. ». La séquence de référence utilisée doit être indiquée.

Exemple : pour un patient porteur de deux mutations à l’état hétérozygote dans le gène de la dysferline (séquence de référence GenBank NM_003494.2) :
Exon 9 : c.895G>T (p.Gly299Trp) HTZ : il s’agit d’une substitution d’une guanine par une thymine dans l’exon 9 du gène de la dysferline, responsable théoriquement du remplacement d’un acide-aminé glycine par un acide-aminé tryptophane en position 299 de la séquence protéique, donc une mutation de type faux-sens.
Exon 18 : c.1617C>G (p.Tyr539*) HTZ : il s’agit d’une substitution d’une cytosine par une guanine dans l’exon 18 du gène de la dysferline, responsable théoriquement du remplacement d’un acide-aminé tyrosine par un codon STOP en position 539 de la séquence protéique, donc une mutation de type non-sens.

Interprétation de données mutationnelles

La nomenclature constitue donc la première étape importante dans l’interprétation des données mutationnelles, en déterminant le type de mutation (faux-sens, non-sens, isosémantique, etc.). Comme cela a été détaillé plus haut, certains types de mutations ont un effet pathogène hautement probable (par exemple des mutations non-sens), alors que pour d’autres types la conclusion peut être plus difficile (par exemple des mutations faux-sens).

Après avoir précisément nommé la mutation, deux situations sont possibles : cette variation de séquence a déjà été décrite au préalable, ou non. Cette information sera obtenue par la consultation de bases de données mutationnelles. Un portail de la plupart des bases de données est disponible sur le site web de la « Human Genome Variation Society » (www.hgvs.org).

De nombreuses bases de données mutationnelles existent aujourd’hui, dont certaines collectent des données concernant la totalité du génome humain ( bases de données « centrales » ou « globales » ), et notamment des informations sur les polymorphismes alimentées par des projets de grande envergure de séquençage de génomes. Parmi les plus utilisées ont trouve : UCSC Genome Browser (genome.ucsc.edu) ; Ensembl (www.ensembl.org); SNP database (www.ncbi.nlm.nih.gov/SNP/); Human Gene Mutation Database (www.hgmd.org).

D’autres bases de données sont dédiées spécifiquement à un gène donné : ces bases de données appelées « locus-spécifiques » sont mises à jour par des spécialistes travaillant sur le gène concerné, ce qui permet une mise à jour très précise. Il n’en existe malheureusement pas encore pour tous les gènes.

Dans la démarche d’interprétation de données mutationnelles, la consultation de bases de données permet donc de vérifier si une variation de séquence a déjà été rapportée au préalable.

Si la variation de séquence a déjà été rapportée, les informations disponibles peuvent permettre de savoir si elle a un caractère délétère qui a déjà été confirmé au préalable chez d’autres patients, ou au contraire si elle a été identifiée sans effets pathologiques dans la population générale (polymorphisme). Ceci permet souvent de conclure sur le caractère pathogène ou non.

La situation est plus difficile pour les variations de séquence non rapportées au préalable, et la conclusion sur le caractère délétère ou non doit alors prendre en compte différents éléments. Il s’agit notamment du type de mutation (non-sens, faux-sens, etc.), de l’étude de la ségrégation de la variation de séquence à l’intérieur de la famille, et de la recherche de la variation dans une population de témoins sains. Dans certains cas, il est nécessaire de recourir à des tests fonctionnels (évaluation de l’épissage, fonctionnalité de la protéine, etc.), mais ceci est difficile en routine diagnostique. Une progression importante a été possible grâce au développement d’outils bioinformatiques, permettant la modélisation et la prédiction de l’effet fonctionnel de variations de séquences. Certains algorithmes permettent par exemple de prédire l’effet d’une mutation sur l’épissage, ou encore d’évaluer l’effet fonctionnel du remplacement d’un acide-aminé par un autre. Ces outils bioinformatiques deviennent de plus en plus performants, et apportent dorénavant une aide importante voire incontournable dans l’interprétation des données mutationnelles.

L’évaluation de ce faisceau d’éléments constitue souvent la difficulté de l’interprétation des données mutationnelles, et ne permet malheureusement pas toujours d’aboutir à une conclusion formelle. Avec l’avènement des techniques d’analyse moléculaire à haut débit, et la génération de plus en plus facile d’importantes quantités de données mutationnelles, l’interprétation risque de devenir un goulot d’étranglement et le développement d’outils bioinformatiques performants et adaptés est essentiel.

NB : des notions plus détaillées concernant les « Bases de données et outils bioinformatiques utiles en Génétique » sont abordées dans le chapitre rédigé par C. Béroud.

________________________________________
Pour en savoir plus…
L’ouvrage de référence recommandé aux lecteurs pour approfondir les notions abordées, est le livre « Biologie moléculaire et Médecine » de Jean-Claude Kaplan et Marc Delpech (Médecine Science, Flammarion).
________________________________________

6/6