TP5 : révisions

EXERCICE 1 : caractérisation d'une protéine

A partir de la protéine suivante, faites une recherche de domaine sur InterProScan :
>NP_060575.1| THAP domain-containing protein 1 isoform 1 [Homo sapiens]
MVQSCSAYGCKNRYDKDKPVSFHKFPLTRPSLCKEWEAAVRRKNFKPTKYSSICSEHFTPDCFKRECNNK
LLKENAVPTIFLCTEPHDKKEDLLEPQEQLPPPPLPPPVSQVDAAIGLLMPPLQTPVNLSVFCDHNYTVE
DTMHQRKRIHQLEQQVEKLRKKLKTAQQRCRRQERQLEKLKEVVHFQKEKDDVSERGYVILPNDYFEIVE
VPA

Vous devez trouver un domaine C2CH-type, nommé THAP :

EXERCICE 2 : recherche d'homologues

A partir de la séquence précédente, lancer un BLASTP au NCBI contre la banque SwissProt en changeant Expect threshold (E-value) à 10 (algorithm parameters).

Regardez les résultats : sur quelle partie trouvez-vous des séquences alignées ?

En fait la famille des protéines THAP contient différents paralogues chez chaque espèce (appelés de THAP 1 à THAP 11) qui n'ont en commun que le domaine THAP situé en position N-terminale. Il y a par contre une très bonne conservation entre orthologues (THAP 1 chez l'homme, souris, zebrafish par exemple)

Passez par le lien Taxonomy (en haut de la page) et récupérer les séquences de Primates, au format FASTA (cliquer sur le chiffre (13) à côté du premier mot primates, puis Fasta text)
Vous devez avoir 13 séquences. Mettez ces séquences dans un éditeur de texte et renommez-les pour que le nom apparaisse juste après le '>'. Exemple : >THAP1_HUMAN

EXERCICE 3 : recherche dans les banques par mots-clés

  1. Sur le site du NCBI, via ENTREZ, chercher les protéines THAP de souris, poulet et zebrafish, dans la banque RefSeq (vous chercherez 'THAP*' dans [Title] ici).
    Parmi les résultats que vous avez, beaucoup de séquences sont des RefSeq models (numéro d'accession en XP_). Elles sont le résultats de prédiction automatique avec gnomon (ouvrez une des fiches de séquences pour le vérifier, en regardant la partie 'COMMENT'). Faites une requête pour les supprimer.
    Vous devez avoir 17 séquences.
    Sélectionner les séquences qui ne sont pas des "isoform 2".

  2. Pour vous assurer que ces séquences possèdent bien un domaine THAP, cliquez sur Identify Conserved Domains with CD-search, à droite : que constatez-vous ? les séquences ont-elles toutes un domaine THAP ?

  3. Choisissez un programme de EMBOSS pour comparer les protéines THAP 4 humaine (exercice 2) et de zebrafish : qu'en concluez-vous quant à l'annotation de la protéine de zebrafish ?

  4. Récupérez les séquences (possédant un domaine THAP) au format FASTA. Mettez-les dans l'éditeur de texte et renommez-les, avec la même nomenclature qu'à l'exercice 2

EXERCICE 4 : alignement multiple

A partir de l'ensemble des séquences que vous avez récupéré (exercice 2 + exercice 3) :




Les séquences

Résultat de ScanProsite