Cours

2 . 3 - Structure des protéines

Parmi les différents outils d’annotation fonctionnelle, attachons nous à ceux en relation avec la structure des protéines puisque cette connaissance sera d’un apport primordial pour l’interprétation des mutations responsables de maladies génétiques.

Nous pouvons distinguer plusieurs niveaux dans la description de la structure des protéines :

La structure primaire: elle correspond à la séquence des acides aminés constituant la protéine. Il s’agit d’un assemblage linéaire des acides aminés codés par l’ARN messager.

La structure secondaire : elle décrit un niveau structural plus complexe : les structures secondaires qui sont représentées par les repliements locaux de la protéine. Elle comporte les structures en hélices (α, 310, π, type II) et les feuillets (β parallèles et antiparallèles) et enfin les coudes (types I, II, III et γ).

La structure tertiaire : décrit la structure tridimensionnelle de la protéine ou plus précisément d’une forme particulière que peut prendre dans l’espace la protéined’intérêt dans des conditions expérimentales données et ceci à un temps t.

La structure quaternaire : permet de décrire les interactions entre protéines.

Les différents outils et bases de données que nous avons sélectionnés permettent de collecter les informations en relation avec le protéines à ces différents niveaux (lorsque des informations sont disponibles ce qui est toujours vrai pour la séquence primaire mais peu fréquent pour la séquence tertiaire et encore plus rare pour la séquence quaternaire). Parallèlement à ces données classiques, des annotations complémentaires sont de plus en plus fréquemment disponibles (domaines protéiques en relation avec une structure ou une fonction particulières, structure de protéines mutantes …). Comme vous le constatez, nous associons ici outils et bases de données qui sont en effet indissociables dans le cas des structures puisque les données brutes ne sont pas directement interprétables par l’homme et nécessitent l’utilisation d’outils de visualisation.

Les plus populaires sont :

Uniprot/Swiss Prot/Expasy (Uniprot Consortium)
Protein Data Bank (Research Collaboratory for Structural Bioinformatics)
Topspan (Open Protein Structure Annotation Network)
NCBI (National Cancer for Biology Information)
PDBsum (European Bioinformatics Institute)

D’autres bases de données sont particulièrement utiles pour identifier des domaines protéiques présents chez plusieurs protéines et ainsi définir des familles et des superfamilles de protéines :

CATH protein structure classification (University College London)
Pfam (Wellcome trust Sanger Institute)
Protein Information Resource (University of Delaware / Georgetown University Medical Center)
Structure Function Linkage Database (University of California, San Francisco)

2 . 4 - Les bases de données dédiées aux maladies génétiques

La base de données de référence pour les maladies génétiques est sans conteste OMIM (Online Mendelian Inheritance in Man). Cette base de données est née dans les années 1960 grâce au travail de Victor McKusick qui est souvent surnommé "the father of medical genetics" et qui a patiemment et sans relâche démontré l’importance de l’étude des bases génétiques des maladies :"I like to say that the arrangement of genes on chromosomes is part of the micro-anatomy, just as the gross anatomy in the Middle Ages was important to medicine, every medical specialty now uses mapping genes for diseases".

Il a également été l’un des premiers à comprendre la puissance de la bioinformatique et la nécessité d’organiser le savoir médical sous la forme de bases de données. La version Internet de son oeuvre a été créée en 1985 et est aujourd’hui encore la référence internationale. Il nous a quittés en 2008.

Parallèlement à OMIM, il existe d’autres bases de données dédiées aux maladies génétiques. Citons par exemple :

GeneCards (Weizmann Institute of Science) qui a pour porte d’entrée le gène mais qui permet également d’obtenir des données sur les maladies associées (5551 gènes sont associés à un phénotype clinique).

Office of Rare Diseases Research ( National Institute of Health). Ce site est dédié aux maladies rares et a un champ d’utilisation non restreint aux scientifiques puisqu’il s’adresse aussi bien aux chercheurs qu’aux cliniciens ou aux patients.

Orphanet (INSERM). Là encore il s’agit d’une base de données dédiée aux maladies rares. Elle s’adresse aussi bien aux professionnels, qu’aux patients, aux chercheurs et à l’industrie. Il s’agit du portail de référence pour les maladies rares.

MEDGENE (Harvard Medical School). Cette base de données est construite à partir de l’association de termes extraits des abstracts contenus dans Medline cette approche est connue sous le terme de Semantic Web. Plus 2 termes seront retrouvés fréquemment ensembles, plus les chances d’une association réelle sont grandes.

A côté de ces bases de données généralistes, il existe nombre de bases de données dont le champ d’application est plus étroit. Citons par exemple :

HuGE Navigator (National Office of Public Health Genomics Centers for Disease Control and Prevention) qui est le fruit d’une collaboration internationale focalisée sur le rgôle des variations génétiques dans les domaines de la santé et des maladies à l’échelle de populations.

Infevers (Institut de Génétique Humaine - Montpellier ) est une base de données dédiée aux maladies héréditaires inflammatoires.

2 . 5 - Variabilité du génome humain

Avec l’essor des nouvelles technologies, le nombre de variations de la séquence du génome humain ne cesse de croître. Ainsi le séquençage du génome complet d’un individu permet aujourd’hui d’identifier environ 3 millions de SNPs (Single Nucleotide Polymorphisms) dont 20 à 25% n’ont jamais été décrits auparavant. La collection de ces informations est d’un intérêt majeur, non seulement pour la recherche mais également pour le diagnostic des maladies génétiques.

La grande difficulté est actuellement de collecter des données très hétérogènes tant par leur mode de production (quel technologie a été utilisée ?) que par leur qualité (quels étaient les paramètres qualités employés ?). Comme nous allons le voir, il existe de nombreuses bases de données permettant d’accéder à des informations sur la variabilité de la séquence du génome humain mais il n’existe pas (encore) une base de données idéale.

Deux approches ont été retenues par différents groupes : l’approche généraliste (les données sont collectées pour l’ensemble des gènes) et l'approche spécialisées (les données sont collectées pour un gène donné).

2 . 5 . 1 - Les bases de données centrales

Elles permettent d’accéder rapidement à des données relatives à la variabilité de séquence d’un gène quelconque.

Nous pouvons distinguer plusieurs types de bases de données en fonction du type de mutation (ici pris dans son sens littéral c’est à dire toute variation stable de la séquence) : celles dédiées aux SNPs (Single Nucleotide Polymorphism), aux CNVs (Copy Number Variation) et celles dédiées aux mutations pathogènes

2 . 5 . 1 . 1 - Les bases de données centrales dédiées aux SNPs

Nous illustrerons ce type de base de données avec trois modèles complémentaires :

dbSNP (National Cancer Bioinformatics Institute) est la base de référence en ce qui concerne les substitutions d’un nucléotide (SNP). Elle contient aujourd’hui des millions de variations dont la qualité est très variable. Attention, je vous rappelle que dans le cadre de la génétique humain le terme polymorphisme est souvent associé à une mutation non-pathogène ce qui n’est pas le cas dans cette base de données ou toutes les variations de séquence du génome humain sont collectées.

Allele FREquency Database (Yale University) est une base de données dédiée à la description des fréquences alléliques dans différentes populations humaines. Elle contient aujourd’hui des données sur 663,433 polymorphismes dans 710 populations.

HapMap (Projet international) est un projet visant à cataloguer les similarités et les différences entre individus. Il permet de reconstruire des haplotypes et ainsi de mettre en évidence des déséquilibres d’association entre marqueurs.

2 . 5 . 1 . 2 - Les bases de données centrales dédiées aux CNVs

Les CNVs sont connus depuis longtemps mais l’émergence des technologies à très haut débit comme l’hybridation génomique comparative (CGH) sur puces (microarray CGH) ont véritablement révélé un aspect insoupçonné de la variabilité du génome humain : des variations de fragments de séquence de plusieurs centaines de milliers de paires de bases. Ces données ainsi que leurs conséquences phénotypiques (certains CNVs sont pathogènes, d’autres pas) sont répertoriés dans plusieurs bases de données dont voici quelques exemples :

CNVVdb (Academia Sinica - Taiwan) est une base de données qui comporte des informations sur les CNVs de différents vertébrés (16 espèces) permettant ainsi d’obtenir des informations sur les paralogues et les orthologues.

DGV (Department of Genetics and Genomic Biology - Toronto) est limitée à l’espèce humaine et comprend les variations génomiques dont la taille est supérieure à 1kb (100pb pour les InDels).

DECIPHER (Wellcome Trust Sanger Institute) (Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resource) a pour objet de fournir des outils informatiques disponibles via une interface web pour faciliter l’interprétation des anomalies chromosomiques sub-microscopiques.

2 . 5 . 1 . 3 - Les bases de données centrales dédiées aux mutations pathogènes

Dans le domaine de la génétique humaine, ce sont bien sûr les mutations pathogènes qui sont de la plus grande importance puisqu’elles sont responsables de maladies génétiques. Leur connaissance est ainsi essentielle tant pour le conseil génétique que pour la compréhension des mécanismes moléculaires responsables de pathologies voire même pour la création de nouvelles approches thérapeutiques.

Différentes bases de données ont pour objet de collecter ces mutations pathogènes à l’échelle du génome :

HGMD (Institute of Medical Genetics - Cardiff) est l’archétype de ce type de base de données. Elle comporte 82,808 mutations réparties dans 3,132 gènes.

OMIM (John Hopkins University – National Cancer Bioinformatics Institute) est comme nous l’avons vu (cf. 2.4) principalement dédiée à la connaissance des maladies génétiques. Dans ce contexte elle comporte des informations sur les mutations associées à ces différentes pathologies. Attention cependant car ces données sont loin d’être exhaustives.

2 . 5 . 2 - Les bases de données spécifiques de locus

Plus connues sous l’acronyme de LSDB (Locus Specific DataBase), elles sont développées par des experts d’un gène ou de maladies et sont donc considérées
comme les bases de données de référence pour un gène donné.

Leur qualités principales résident dans la validation des données qu’elles contiennent par des experts du domaine considéré ainsi que par leur exhaustivité (jusqu’à 50% de leur contenu peut correspondre à des soumissions directes non publiées et ainsi absent des bases de données centrales). La liste des différentes LSDBs disponibles via Internet peut être retrouvée sur le site de la Human Genome Variation Society (HGVS).

3/6