Compte rendu de TP de Bio-Informatique.
Par Christopher • 31 Mai 2018 • 1 433 Mots (6 Pages) • 1 314 Vues
...
[pic 86][pic 87]
PROTÉINE MATURE (85 Acides Aminés)[pic 88][pic 89][pic 90][pic 91][pic 92][pic 93][pic 94]
II. IDENTIFICATION DE LA PROTÉINE CODÉE
- Comparaison des banques de données Swissprot et TrEMBL
Statistiques de TrEMBL :
Number of fragments: 1815229
Protein existence (PE): entries %
1: Evidence at protein level 19391 0.18%
2: Evidence at transcript level 462560 4.32%
3: Inferred from homology 2227524 20.81%
4: Predicted 7996997 74.69%
5: Uncertain 0 0.00%
Statistiques de Swissprot :
Protein existence (PE): entries %
1: Evidence at protein level 69219 13.4%
2: Evidence at transcript level 66826 12.9%
3: Inferred from homology 364612 70.6%
4: Predicted 14353 2.8%
5: Uncertain 1593 0.3%
La principale différence entre ces logiciels est que :
Swissprot est un logiciel où les entrées sont ajoutées manuellement et où l'on peut trouver un grand nombre d'annotations concernant la fonction de la protéine par exemple,...
Swissprot a une banque de données moindre mais contient beaucoup plus de données validées expérimentalement contrairement à TrEMBL.
- Logiciel BLAST
On aligne notre séquence contre la banque de données uniprot.
L'alignement de notre protéine est identique avec celui de l'insuline de gorille.
Après avoir masqué les séquence de faibles complexité, on remarque que notre protéine est identique à celle des grands singes (gorilles, orangs-outans et chimpanzés).
Avec les résultats de BLAST, on peut conclure que notre protéine étudiée est l'insuline.
Les éléments qui nous confortent dans ce choix est le score obtenue ainsi que la e-value.
Plus le score est élevé, plus la e-value est faible.
Ici après masquage des séquences de faibles complexités, on obtient un score de 463 et une e-value de 8e-45
La E-value correspond au nombre de hits attendus par hasard dans une base de données de même taille avec un score d'alignement supérieur à 463.
Une e-value faible indique que le score est significativement élevé.
En alignant la séquence aléatoire de 200 nucléotides, on note une e-value de 8.2 et un score de 75. Cela signifie que sur les milliers de protéines présentes dans la base de données, on a 8.2 protéines qui ont un score de 75 avec notre protéine aléatoire de 200 nucléotides.
Le numéro d'accession de notre protéine (insuline) est P01308
Informations recueillies sur notre protéine:
L'insuline régule la glycémie. Elle a, avec le glucagon un rôle majeur dans la régulation des substrats énergétiques, dont les principaux sont le glucose, les acides gras, et les corps cétoniques.
L'insuline est un hétérodimère formée de deux chaines A et B reliées entre elles par un pont disulfure. Elle est sécrétée.
Date de création de l'entrée Swissprot : 21 Juillet 1986
- Banque de donnée EMBL
Numéro d'accession de la séquence génomique (ADN codant) :
V00565 Genomic DNA. M10039 Genomic DNA. J00265 Genomic DNA. L15440 Genomic DNA.
AY138590 Genomic DNA. CH471158 Genomic DNA. AJ009655 Genomic DNA.
Numéro d'accession de l'ARNm :
X70508 mRNA. AY899304 mRNA. BT006808 mRNA. BC005255 mRNA.
On compare la structure obtenue par la banque EMBL et celle obtenue par le logiciel Genscan:
Genscan nous avait prédit deux exons en position 2424 – 2610 pb et 3397 – 3542 pb.
Mais d'après la banque de données EMBL, on a :
→ un exon : 2186 – 2227 pb
→ un intron : 2228 – 2406 pb
→ CDS (partie traduite du gène) : 2424 – 2610 pb ; 3397 – 3542 pb
→ Sig. Peptide : 2424 – 2495 pb
→ Mat. Peptide : 2496 – 2610 pb ; 3397 – 3539 pb
→ un intron : 2611 – 3396 pb
→ un exon : 3397 – 3615 pb
Les prévisions de EMBL sont donc bien plus précises que celles de Genscan.
III. LOCALISATION DU GÈNE ÉTUDIE DANS LE GÉNOME
- Utilisation du site Ensembl
L'identifiant du gène est : INS
La localisation du gène est : chromosome 11: 2124432 – 2139027.
Les gènes localisés autour du gène étudié sont : IGF2 , IGF2AS , INS , TH
Chez la souris, on observe deux copies du gène de l'insuline, on peut donc dire que le gène de la souris et de l'homme sont paralogues. Les gènes IGF2 et Th sont aussi des gènes orthologues entre l'homme et la souris.
Localisation des gènes codant pour l'insuline chez la souris (INS):
- Chromosome 19, localisation 52338939
...