NCBI
ExPASy EMBOSS
EBI MaxPlanck Pasteur
1- Alignements multiples
et domaines protéiques
Voici 3 protéines : celle de Escherichia coli possède 2 fonctions enzymatiques (EC 4.1.1.48 et EC 5.3.1.24) et 2 protéines de Xylella fastidiosa ayant chacune une de ces 2 fonctions :
>trpC, EC:4.1.1.48 et EC:5.3.1.2, E. coli
MMQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASP
SKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFQGSFNFLPIVSQIAPQPILCKDFIID
PYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAK
VVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSAL
MAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEV
MAAAPLQYVGVFRNHDIADVVDKAKVLSLAAVQLHGNEEQLYIDTLREALPAHVAIWKAL
SVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQSLGNVLLAGGLGADNCVEAAQT
GCAGLDFNSAVESQPGIKDARLLASVFQTLRAY
>EC:5.3.1.24, Xfa
MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACA
IRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMA
GAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENV
FDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA
>EC:4.1.1.48, Xfa
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEI
KKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLR
KDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERA
IQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNA
FLVGEAFMRATEPGESLREMFFIT
Comparez les alignements obtenus avec MUSCLE, CLUSTALO et T-COFFEE sur l'EBI
Vous pouvez utiliser JalView (sur les PC) à partir du lien donné dans l'onglet Result Viewers ou sinon Mview (avec ANY dans COLORING)
2- Etude de la famille des THAP
Première
partie : alignement multiple
1. Chercher sur le NCBI
les séquences protéiques "THAP", chez l'homme, la souris, le poulet et le zebrafish.
Filtrer pour ne garder que celle de RefSeq.
Pour supprimer tous les modèles (accession XP_) : enlevez les séquences avec Best-placed RefSeq (voir dans les Comment)
Récupérez les séquences au format FASTA
(attention, il faut changer le Display pour afficher toutes les séquences)
2. Faites un alignement multiple avec MAFFT à l'EBI
Regardez l'alignement.
Que pensez-vous de cet alignement ?
Supprimez des séquences si nécessaire
Quels sont les résidus caractéristiques de la famille ?
Vous pouvez regarder ici un Logo de ce domaine.
Le motif 'AVPTIF' marque la fin du domaine : le trouvez-vous sur toutes les séquences ?
3. Regardez votre alignement avec WebLOGO.
Deuxième partie : caractérisation d'un domaine/motif
M-x(3,4)-C-x(4)-C-x(9,15)-F-x(2)-[FL]-P-x(8,9)-W-x(10,17)-P
- Tous les éléments de l'expression sont séparés par des tirets. |
- Le joker est la lettre x, à utiliser lorsque le nombre d'AA rencontrés dans une colonne est élevé (plus de 3 ou 4). |
- On peut préciser le nombre d'occurrences avec des parentheses x(5) : 5 x ou D(2,4) : 2 à 4 D. |
- Le choix entre plusieurs acides aminés possibles se note avec des crochets [APC]. |
- L'exclusion d'un ou plusieurs acides aminés en une position se note entre accolades {DEV}. |
3. Tester votre pattern contre
les séquences THAP avec ScanProsite
sur ExPASy..
S'il
donne des résultats, rechercher dans SwissProt l'ensemble des
séquences qui possède votre pattern.
Combien de séquences obtenez-vous ?
- Regardez le lien Pfam PF05485 : afficher l'alignement (combien de séquences ?), le Logo
- Regardez l'entrée dans Prosite PS50950 : de quel type
d'entrée s'agit-il ?
- Afficher l'alignement multiple.
- Affichez le format Logo.
Y-a-il
des différences dans la façon de définir le domaine THAP ? (longueur, résidus conservés...)
4. Lancez ScanProsite
avec ce profile.
Combien de séquences
obtenez-vous ? En avez-vous plus qu'avec le pattern
?
3- Autre exemple de détermination et recherche de motif
4- (Alignement et) construction d'un profil en ligne
5- Recherche d'un motif inconnu
Voici une partie
des séquences promotrices de 10 gènes
corégulés.
1. Faire un
alignement multiple de ces 10 séquences d'ADN avec le programme de votre choix
Quelles sont vos conclusions ?
>seq1
AACCCCTTACCGCTTCCAACCTTTACACCCTTATCTTCTGCCTATACTGCATGTCACTCTATTGCAGACTATCTGAGATAGC
TACAACCTAACGACTTAAGGTGAGGACACGTGTATCTCCAAAACCCACTTCGTCACCCTTACCACCACGTCATCATACCACG
TGCCAACATGCATGCTAGTATCTTCTCTACTATACACATACTTATGTACTATATATATTCACCAAAATTACATGCATGTTAG
CACCCTCAATTGTACAACACAACTTAACAACTTAAGTTAAAAGAGTGAACAAAA
>seq2
AACCCCTTACCGCTTCCAACCTTTACACCCTTATCTTCTGCCTATACTGCATGTCACTCTATTGCAGACTATCTGAGATAGC
TACAACCTAACGACTTAAGGTGAGGACACGTGTATCTCCAAAACCCACTTCGTCACCCTTACCACCACGTCATCATACCACG
TGCCAACATGCATGCTAGTATCTTCTCTACTATACACATACTTATGTACTATATATATTCACCAAAATTACATGCATGTTAG
CACCCTCAATTGTACAACACAACTTAACAACTTAAGTTAAAAGAGTGAACAAAA
>seq3
CATTCGTTAATAGTAAAATACTTAAAGCAGGTGTTGTAAGTCGTGCTGATATTTACGACCAAACTCGTGCGACGTCAAGTCA
TAGACGAATACACTAGCCAGCCAGCCATAGAATATTACAAGTGTTTTTGTGAAGCACGTGAAGTAATGTTCATCTACCTACC
CTCTAATATCCACTCTTCCTTTCATATAAAATCTTCCCTCTGCAACCATCTTTCCACCACAACACTCTTCCAACCCTTTCTT
TTTCCATAACAAGTACTCAAAACCAATTGAATTCTGCTACCAAATATATCAATA
>seq4
CATTATTCTATACAGCTTTTTCATGTAATTATTTTGAATTTTGATCATTTTCGAGAATATTTCAAAATTTGTATCGCAAATA
TATTATAATATAGAAATATATTACAATATACAAAAATATATAAAATAAACTTTTATGCGACTAAAATATATAAAAATATTCA
TATTATACTATAATCACACTTTACGTAACTACAAAATTTGGTAATATAGGTTAGTTTCGAGAGTTAAGCCATTGTTGTTACT
TACTTAAATTGCAACTCAAAAAAATATACGTGAAGGAGAAAAAGACAAAATTAC
>seq5
AAAAGAAAAAAAGAAAAAAAAGAAAACGTGTAATGTTTGATCTGAAATTGGAAAGTACACTAGGCATGCAACAACGCAGTAA
TAATACACTACCAAACTAAATATAACAGGCTGATGTGCCAACCGGACAGATGGCTATTTGAAAGGGGGTTGGTCACGTGCTG
CTTCTAGCTACCATACTTATTTATTTATCGCTTATAAATACATTTCCGTAACTTACAAACATTTAACACAACCAAGCTTTCT
AGTTTCTACTACAAAATAATATTTGTTTGTGTTCTAAATATTTCTGGCTAGAGA
>seq6
TCGCATTAACCAAATGATTTCCCCCATAAATAAAACAAAATACTGGTCAAAATTTGTTTGCACAATAATTATTAGAAAAATG
ATCTTCAAAGTCATGCGGGTATATATTTTCCACGAAACATCTTTAAGGTTGTTGAATATATTAATTCTTATAATGTTTAGGT
TTTAGTAAACCACGTGATGTTCAGCTACCTTCCAATATCCTTACTATAAAACCATCTCATCCTCACTCATCTTTCCACCACA
ACACTCTTCATCTTATTCCTTTTCTACAACAGCTTCTGCACATCAAGATCAACA
>seq7
AAAATAGTGGTCAAATTTGGTTATAAAATAATTGTTAAGACAAAGGATTAGACTAAAGAGGGTATTCAAAGTCATGCGTATT
TGCCATCAAACACATTCAGGTCATTGAGTCTAATTGGTTATTAAGTTGAATATATAATTAGTATGATGTTTTATTGAAAGGT
TTTAGTAAACCACGTTATGTTCAGCTACCTTCCAATATTCTTCCTATAAAACCATCTCACCCTCACTCATCTTTCCAAAACA
ACACTCTTCATCTTATTCCTTTTCTACAACTACTTCTGCACATCAAGATCAACA
>seq8
ATCTTCTTTATTACACTTGTTTCTTTTCTCAAATTTCGACGCGTGTTGATGTAATATTGGTATAAACAAGAAACTACAAAAC
GCAGCTGCCATAATGTCACAATTTTTCTCAAATCTTGTGGCTCTCAAACACTGTATAAAACACGACAAATGTGGACCCAAAA
TATATACCTTACACTTCTGAGTTAGAGAAGCAGAGCCCCATAATTAAGCCTATTTTATGAAAAAAATAATATTATGTTGAGT
CATATATCCATAAGAATCCCCACAGTCACACATGGAAGAGCAGCATTGGATACA
>seq9
AGACTCAACTTATATATAAATAAACTCAAAAAGAAAACACGGAGGCGAGAGGATCATACTCTCACACAGAAAGAGTCACATT
ATTATATCCTCTAAAAAACCAAACTAAAACGACACGTGAAGTCTTGATCAGCCGATAAATAGCTACCGACATAAGGCAAAAC
TGATCGTACCATCAAATGTAATCCACGTGGTTTTAGATTACTCGTGGCACCACACTCCCTTTAGCCTATAAATATAAACCAT
TAAGCCCACATCTCTTCTCATCATCACTAACCAAAACACACTTCAAAAACGATT
>seq10
AATAAATAAAGTCGAAAAGAAAACACGGAGGCGAGAGGACCACACACTCGCACAGAAAGAGTCTCATATCCTCTATAACAAA
TTGATAAACTAAACTAAAACGACACGTGATGTCTTGATCAGCCAATAAAAAGCTACCGACATAAGCCAAAAATGATCGTACC
ATTAAACGTAATCCACGTGGTTTCAGATTACACGTGGCACCACACAAGTATCTCCATTTGGCCTATAAATATAAACCCTTAA
GCCCACATATCTTCTCAATCCATCACAAACAAAACACACATCAAAAACGATTTT