TP3

TP Alignements multiples et motifs

NCBI ExPASy EMBOSS EBI MaxPlanck Pasteur

1- Alignements multiples et domaines protéiques

Voici 3 protéines : celle de Escherichia coli possède 2 fonctions enzymatiques (EC 4.1.1.48 et EC 5.3.1.24) et 2 protéines de Xylella fastidiosa ayant chacune une de ces 2 fonctions :

>trpC, EC:4.1.1.48 et EC:5.3.1.2, E. coli
MMQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASP
SKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFQGSFNFLPIVSQIAPQPILCKDFIID
PYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAK
VVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSAL
MAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEV
MAAAPLQYVGVFRNHDIADVVDKAKVLSLAAVQLHGNEEQLYIDTLREALPAHVAIWKAL
SVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQSLGNVLLAGGLGADNCVEAAQT
GCAGLDFNSAVESQPGIKDARLLASVFQTLRAY

>EC:5.3.1.24, Xfa
MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACA
IRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMA
GAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENV
FDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA

>EC:4.1.1.48, Xfa
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEI
KKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLR
KDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERA
IQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNA
FLVGEAFMRATEPGESLREMFFIT

Comparez les alignements obtenus avec MUSCLE, CLUSTALO et T-COFFEE sur l'EBI
Vous pouvez utiliser JalView (sur les PC) à partir du lien donné dans l'onglet Result Viewers ou sinon Mview (avec ANY dans COLORING)

2- Etude de la famille des THAP

Première partie : alignement multiple

1. Chercher sur le NCBI les séquences protéiques "THAP", chez l'homme, la souris, le poulet et le zebrafish.
Filtrer pour ne garder que celle de RefSeq.
Pour supprimer tous les modèles (accession XP_) : enlevez les séquences avec Best-placed RefSeq (voir dans les Comment)
Récupérez les séquences au format FASTA
(attention, il faut changer le Display pour afficher toutes les séquences)

Il faudra supprimer les séquences redondantes : skipredondant dans EMBOSS permet de faire ça

2. Faites un alignement multiple avec MAFFT à l'EBI
Regardez l'alignement.

Que pensez-vous de cet alignement ?

Supprimez des séquences si nécessaire
Quels sont les résidus caractéristiques de la famille ?
Vous pouvez regarder ici un Logo de ce domaine.
Le motif 'AVPTIF' marque la fin du domaine : le trouvez-vous sur toutes les séquences ?

3. Regardez votre alignement avec WebLOGO.

Deuxième partie : caractérisation d'un domaine/motif

1. Le pattern suivant décrit-il l'ensemble des séquences ?

M-x(3,4)-C-x(4)-C-x(9,15)-F-x(2)-[FL]-P-x(8,9)-W-x(10,17)-P

2. Essayez d'écrire un pattern jusqu'à AVPTIF à partir de l'alignement multiple précédent.

- Tous les éléments de l'expression sont séparés par des tirets.

- Le joker est la lettre x, à utiliser lorsque le nombre d'AA rencontrés dans une colonne est élevé (plus de 3 ou 4).

- On peut préciser le nombre d'occurrences avec des parentheses x(5) : 5 x ou D(2,4) : 2 à 4 D.

- Le choix entre plusieurs acides aminés possibles se note avec des crochets [APC].

- L'exclusion d'un ou plusieurs acides aminés en une position se note entre accolades {DEV}.

3. Tester votre pattern contre les séquences THAP avec ScanProsite sur ExPASy..
S'il donne des résultats, rechercher dans SwissProt l'ensemble des séquences qui possède votre pattern.

Combien de séquences obtenez-vous ?

3. Regardez la fiche de la première séquence obtenue : les liens dans la rubrique Family and domains :

- Regardez le lien Pfam PF05485 : afficher l'alignement (combien de séquences ?), le Logo
- Regardez l'entrée dans Prosite PS50950 : de quel type d'entrée s'agit-il ?
- Afficher l'alignement multiple.
- Affichez le format Logo.

Y-a-il des différences dans la façon de définir le domaine THAP ? (longueur, résidus conservés...)

4. Lancez ScanProsite avec ce profile.
Combien de séquences obtenez-vous ? En avez-vous plus qu'avec le pattern ?

3- Autre exemple de détermination et recherche de motif

Vous allez vous intéresser à une famille de protéines, dont les séquences sont contenues dans le fichier prot.fas.
Ces protéines ont la particularité de présenter le même type d'activité catalytique.

Faites un alignement multiple des séquences avec le logiciel multalin. Vous devez voir apparaitre un motif commun, avec des résidus conservées.
Utilisez le logiciel PRATT sur ExPASy ou à l'EBI pour extraire automatiquement le motif conservé (du 1er au dernier D en rouge dans Multalin). Sinon faites-le à la main.

4- (Alignement et) construction d'un profil en ligne

UTILISATION EN LIGNE DE COMMANDE
Connectez-vous sur le serveur genologin (genologin.toulouse.inra.fr), en tant que : lavande lilas liseron lotus lys muguet narcisse pensee pervenche reine renoncule rose sauge souci thym trefle
Sous Windows : Utilisez MobaXterm
Sous Linux : ssh -CX -l nom_fleur genologin.toulouse.inra.fr

- Allez dans le répertoire work
- Connection au serveur de calcul SLURM : srun --mem=4G --pty bash (ou option -t 10 si la connection ne se lance pas)
- commande wget pour récupérer un fichier

A partir des séquences de la famille THAP de l'exercice 2, vous pouvez tester des alignements multiples en lignes, ou directement construire un profil avec le domaine

pour MAFFT :
module load bioinfo/mafft-7.487
mafft thap.fasta >thap.mafft

Pour faire un profil HMM :
module load bioinfo/hmmer-3.2.1
hmmbuild thap.hmm thap.mafft

Recherche avec le profil HMM contre SwissProt :
hmmsearch -o thap.search thap.hmm /bank/ebi/uniprot/current/fasta/uniprot_sprot.fasta

ou
module load bioinfo/clustalo-1.2.4
module load bioinfo/T-COFFEE_11.00.8cbe486
module load bioinfo/muscle.5.1

NB : search_module "nom_programme" pour connaitre le chemin d'accès (et faire module load du chemin ensuite)
en général nom_programme -help pour avoir les explications

5- Recherche d'un motif inconnu

Voici une partie des séquences promotrices de 10 gènes corégulés.

1. Faire un alignement multiple de ces 10 séquences d'ADN avec le programme de votre choix

Quelles sont vos conclusions ?

>seq1
AACCCCTTACCGCTTCCAACCTTTACACCCTTATCTTCTGCCTATACTGCATGTCACTCTATTGCAGACTATCTGAGATAGC
TACAACCTAACGACTTAAGGTGAGGACACGTGTATCTCCAAAACCCACTTCGTCACCCTTACCACCACGTCATCATACCACG
TGCCAACATGCATGCTAGTATCTTCTCTACTATACACATACTTATGTACTATATATATTCACCAAAATTACATGCATGTTAG
CACCCTCAATTGTACAACACAACTTAACAACTTAAGTTAAAAGAGTGAACAAAA
>seq2
AACCCCTTACCGCTTCCAACCTTTACACCCTTATCTTCTGCCTATACTGCATGTCACTCTATTGCAGACTATCTGAGATAGC
TACAACCTAACGACTTAAGGTGAGGACACGTGTATCTCCAAAACCCACTTCGTCACCCTTACCACCACGTCATCATACCACG
TGCCAACATGCATGCTAGTATCTTCTCTACTATACACATACTTATGTACTATATATATTCACCAAAATTACATGCATGTTAG
CACCCTCAATTGTACAACACAACTTAACAACTTAAGTTAAAAGAGTGAACAAAA
>seq3
CATTCGTTAATAGTAAAATACTTAAAGCAGGTGTTGTAAGTCGTGCTGATATTTACGACCAAACTCGTGCGACGTCAAGTCA
TAGACGAATACACTAGCCAGCCAGCCATAGAATATTACAAGTGTTTTTGTGAAGCACGTGAAGTAATGTTCATCTACCTACC
CTCTAATATCCACTCTTCCTTTCATATAAAATCTTCCCTCTGCAACCATCTTTCCACCACAACACTCTTCCAACCCTTTCTT
TTTCCATAACAAGTACTCAAAACCAATTGAATTCTGCTACCAAATATATCAATA
>seq4
CATTATTCTATACAGCTTTTTCATGTAATTATTTTGAATTTTGATCATTTTCGAGAATATTTCAAAATTTGTATCGCAAATA
TATTATAATATAGAAATATATTACAATATACAAAAATATATAAAATAAACTTTTATGCGACTAAAATATATAAAAATATTCA
TATTATACTATAATCACACTTTACGTAACTACAAAATTTGGTAATATAGGTTAGTTTCGAGAGTTAAGCCATTGTTGTTACT
TACTTAAATTGCAACTCAAAAAAATATACGTGAAGGAGAAAAAGACAAAATTAC
>seq5
AAAAGAAAAAAAGAAAAAAAAGAAAACGTGTAATGTTTGATCTGAAATTGGAAAGTACACTAGGCATGCAACAACGCAGTAA
TAATACACTACCAAACTAAATATAACAGGCTGATGTGCCAACCGGACAGATGGCTATTTGAAAGGGGGTTGGTCACGTGCTG
CTTCTAGCTACCATACTTATTTATTTATCGCTTATAAATACATTTCCGTAACTTACAAACATTTAACACAACCAAGCTTTCT
AGTTTCTACTACAAAATAATATTTGTTTGTGTTCTAAATATTTCTGGCTAGAGA
>seq6
TCGCATTAACCAAATGATTTCCCCCATAAATAAAACAAAATACTGGTCAAAATTTGTTTGCACAATAATTATTAGAAAAATG
ATCTTCAAAGTCATGCGGGTATATATTTTCCACGAAACATCTTTAAGGTTGTTGAATATATTAATTCTTATAATGTTTAGGT
TTTAGTAAACCACGTGATGTTCAGCTACCTTCCAATATCCTTACTATAAAACCATCTCATCCTCACTCATCTTTCCACCACA
ACACTCTTCATCTTATTCCTTTTCTACAACAGCTTCTGCACATCAAGATCAACA
>seq7
AAAATAGTGGTCAAATTTGGTTATAAAATAATTGTTAAGACAAAGGATTAGACTAAAGAGGGTATTCAAAGTCATGCGTATT
TGCCATCAAACACATTCAGGTCATTGAGTCTAATTGGTTATTAAGTTGAATATATAATTAGTATGATGTTTTATTGAAAGGT
TTTAGTAAACCACGTTATGTTCAGCTACCTTCCAATATTCTTCCTATAAAACCATCTCACCCTCACTCATCTTTCCAAAACA
ACACTCTTCATCTTATTCCTTTTCTACAACTACTTCTGCACATCAAGATCAACA
>seq8
ATCTTCTTTATTACACTTGTTTCTTTTCTCAAATTTCGACGCGTGTTGATGTAATATTGGTATAAACAAGAAACTACAAAAC
GCAGCTGCCATAATGTCACAATTTTTCTCAAATCTTGTGGCTCTCAAACACTGTATAAAACACGACAAATGTGGACCCAAAA
TATATACCTTACACTTCTGAGTTAGAGAAGCAGAGCCCCATAATTAAGCCTATTTTATGAAAAAAATAATATTATGTTGAGT
CATATATCCATAAGAATCCCCACAGTCACACATGGAAGAGCAGCATTGGATACA
>seq9
AGACTCAACTTATATATAAATAAACTCAAAAAGAAAACACGGAGGCGAGAGGATCATACTCTCACACAGAAAGAGTCACATT
ATTATATCCTCTAAAAAACCAAACTAAAACGACACGTGAAGTCTTGATCAGCCGATAAATAGCTACCGACATAAGGCAAAAC
TGATCGTACCATCAAATGTAATCCACGTGGTTTTAGATTACTCGTGGCACCACACTCCCTTTAGCCTATAAATATAAACCAT
TAAGCCCACATCTCTTCTCATCATCACTAACCAAAACACACTTCAAAAACGATT
>seq10
AATAAATAAAGTCGAAAAGAAAACACGGAGGCGAGAGGACCACACACTCGCACAGAAAGAGTCTCATATCCTCTATAACAAA
TTGATAAACTAAACTAAAACGACACGTGATGTCTTGATCAGCCAATAAAAAGCTACCGACATAAGCCAAAAATGATCGTACC
ATTAAACGTAATCCACGTGGTTTCAGATTACACGTGGCACCACACAAGTATCTCCATTTGGCCTATAAATATAAACCCTTAA
GCCCACATATCTTCTCAATCCATCACAAACAAAACACACATCAAAAACGATTTT

2. Utiliser le programme MEME
(ou regardez les résultats)

les séquences THAP