TD_motif

M2P Bioingénierie

TD Alignements multiples et motifs

Exercice 1 : Alignement multiple

1. Chercher dans SRS les séquences protéiques "THAP", dans RefSeq Protein, et non annotées comme prédites, chez l'homme, la souris, le poulet et le zebrafish.

On ne gardera pas les séquences isoformes 2 ni 3 .
(sélectionnez-les (il y en a 7), et cochez la case "unselected results only")

2. Aligner ces séquences avec ClustalW en utilisant Result Options (choisir l'alignement "SLOW" et ordre "ALIGNED")
Regarder l'alignement.
On pourra utiliser Boxshade sur le site de Pasteur (Alignements et comparaisons de séquences => Affichage d'alignements => BOXSHADE)
Que pensez-vous de cet alignement ?
Quels sont les résidus caractéristiques de la famille ?
Le motif 'AVPTIF' marque la fin du domaine : le trouvez-vous sur toutes les séquences ?

3. En revenant à la page de résultats de SRS supprimer la séquence qui n'est pas alignée avec les autres.
Refaites l'alignement avec ClustalW puis Boxshade.
Que constatez-vous par rapport à l'alignement précédent ?

4. Revenez à la page de ClustalW : passer le paramètre de création de gap à 6.
Refaites l'alignement avec ClustalW puis Boxshade.

5. Regarder l'alignement avec WebLOGO.

Exercice 2 : Identification d'un motif

1. Essayer d'écrire un pattern à partir de l'alignement multiple précédent.

- Tous les éléments de l'expression sont séparés par des tirets.

- Le joker est la lettre X, à utiliser lorsque le nombre d'AA rencontrés dans une colonne dépasse 4.

- On peut préciser le nombre d'occurrences avec des parentheses X(5) : 5 X ou D(2,4) : 2 à 4 D.

- Le choix entre plusieurs acides aminés possibles se note avec des crochets [APC].

- L'exclusion d'un ou plusieurs acides aminés en une position se note entre accolades {DEV}.

2. Le pattern suivant décrit-il l'ensemble des séquences ?
M-x(3,4)-C-x(4)-C-x(9,15)-F-x(2)-[FL]-P-x(8,9)-W-x(10,17)-P

Rechercher l'ensemble des séquences qui possède ce pattern avec ScanProsite sur ExPASy.
Combien de séquences obtenez-vous ?

3. Regarder la fiche de la première séquence obtenue : les liens dans la rubrique Family and domain databases :

- Regarder le lien Pfam PF05485 : afficher le Logo
- Regarder InterProScan (Graphical view of domain structure)
- Regarder l'entrée dans Prosite PS50950 : de quel type d'entrée s'agit-il ?

- Afficher l'alignement multiple.
- Afficher le format Logo.

Y-a-il des différences dans la façon de définir le domaine (ou motif) THAP ? (longueur, résidus conservés...)

4. Lancer ScanProsite avec ce profile.
Combien de séquences obtenez-vous ? Pourquoi en a-ton plus qu'avec le pattern ?
Le domaine THAP est-il toujours en position N-terminale ?

Exercice 3 : Définition d'amorces PCR dégénérées

Vous voulez faire des amorces de PCR pour amplifier l'ARNm THAP7 chez le rat dont vous n'avez pas la séquence.

A partir des séquences de THAP7 humaine, souris et poulet (prises ici), faites un alignement multiple avec ClustalW sur Pasteur.
Demander à générer le consensus (Cons dans Further analysis)
Puis, faites la traduction inverse (Backtransseq, avec l'usage des codons du rat)

Utiliser Primer3 avec la séquence obtenue.

Tester la qualité des amorces avec BLASTN (on peut donner les 2 amorces en même temps, séparées par une série de N)

NB : Les amorces étant petites, il faudra penser à changer la taille des mots (7), et la E-value (100).

Exercice 4 : Détermination et recherche de motif en solo

Vous allez vous intéresser à une famille de protéines, dont les séquences sont contenues dans le fichier prot.fas.
Ces protéines ont la particularité de présenter le même type d'activité catalytique.

Faites un alignement multiple des séquences avec le logiciel multalin. Vous devez voir apparaitre un motif approché commun, avec des positions parfaitement conservées.
Essayez manuellement de construire une expression régulière pouvant décrire le motif conservé dans les séquences.
Utilisez le logiciel PRATT pour extraire automatiquement le motif(s) conservé(s) des séquences précédentes.
Essayez de "fusionner" 2 motifs pour en faire un plus long.
Utilisez ScanProsite pour rechercher dans Swissprot les séquences contenant votre motif, et essayez de voir si elles ont d'autres points communs.

Exercice 5 : Extraction d'un motif sur des séquences non alignées

Voici une partie des séquences promotrices de 10 gènes corégulés.

1. Faire un alignement multiple de ces 10 séquences d'ADN avec Multalign

Quelles sont vos conclusions ?

>seq1
AACCCCTTACCGCTTCCAACCTTTACACCCTTATCTTCTGCCTATACTGCATGTCACTCTATTGCAGACTATCTGAGATAGC
TACAACCTAACGACTTAAGGTGAGGACACGTGTATCTCCAAAACCCACTTCGTCACCCTTACCACCACGTCATCATACCACG
TGCCAACATGCATGCTAGTATCTTCTCTACTATACACATACTTATGTACTATATATATTCACCAAAATTACATGCATGTTAG
CACCCTCAATTGTACAACACAACTTAACAACTTAAGTTAAAAGAGTGAACAAAA
>seq2
AACCCCTTACCGCTTCCAACCTTTACACCCTTATCTTCTGCCTATACTGCATGTCACTCTATTGCAGACTATCTGAGATAGC
TACAACCTAACGACTTAAGGTGAGGACACGTGTATCTCCAAAACCCACTTCGTCACCCTTACCACCACGTCATCATACCACG
TGCCAACATGCATGCTAGTATCTTCTCTACTATACACATACTTATGTACTATATATATTCACCAAAATTACATGCATGTTAG
CACCCTCAATTGTACAACACAACTTAACAACTTAAGTTAAAAGAGTGAACAAAA
>seq3
CATTCGTTAATAGTAAAATACTTAAAGCAGGTGTTGTAAGTCGTGCTGATATTTACGACCAAACTCGTGCGACGTCAAGTCA
TAGACGAATACACTAGCCAGCCAGCCATAGAATATTACAAGTGTTTTTGTGAAGCACGTGAAGTAATGTTCATCTACCTACC
CTCTAATATCCACTCTTCCTTTCATATAAAATCTTCCCTCTGCAACCATCTTTCCACCACAACACTCTTCCAACCCTTTCTT
TTTCCATAACAAGTACTCAAAACCAATTGAATTCTGCTACCAAATATATCAATA
>seq4
CATTATTCTATACAGCTTTTTCATGTAATTATTTTGAATTTTGATCATTTTCGAGAATATTTCAAAATTTGTATCGCAAATA
TATTATAATATAGAAATATATTACAATATACAAAAATATATAAAATAAACTTTTATGCGACTAAAATATATAAAAATATTCA
TATTATACTATAATCACACTTTACGTAACTACAAAATTTGGTAATATAGGTTAGTTTCGAGAGTTAAGCCATTGTTGTTACT
TACTTAAATTGCAACTCAAAAAAATATACGTGAAGGAGAAAAAGACAAAATTAC
>seq5
AAAAGAAAAAAAGAAAAAAAAGAAAACGTGTAATGTTTGATCTGAAATTGGAAAGTACACTAGGCATGCAACAACGCAGTAA
TAATACACTACCAAACTAAATATAACAGGCTGATGTGCCAACCGGACAGATGGCTATTTGAAAGGGGGTTGGTCACGTGCTG
CTTCTAGCTACCATACTTATTTATTTATCGCTTATAAATACATTTCCGTAACTTACAAACATTTAACACAACCAAGCTTTCT
AGTTTCTACTACAAAATAATATTTGTTTGTGTTCTAAATATTTCTGGCTAGAGA
>seq6
TCGCATTAACCAAATGATTTCCCCCATAAATAAAACAAAATACTGGTCAAAATTTGTTTGCACAATAATTATTAGAAAAATG
ATCTTCAAAGTCATGCGGGTATATATTTTCCACGAAACATCTTTAAGGTTGTTGAATATATTAATTCTTATAATGTTTAGGT
TTTAGTAAACCACGTGATGTTCAGCTACCTTCCAATATCCTTACTATAAAACCATCTCATCCTCACTCATCTTTCCACCACA
ACACTCTTCATCTTATTCCTTTTCTACAACAGCTTCTGCACATCAAGATCAACA
>seq7
AAAATAGTGGTCAAATTTGGTTATAAAATAATTGTTAAGACAAAGGATTAGACTAAAGAGGGTATTCAAAGTCATGCGTATT
TGCCATCAAACACATTCAGGTCATTGAGTCTAATTGGTTATTAAGTTGAATATATAATTAGTATGATGTTTTATTGAAAGGT
TTTAGTAAACCACGTTATGTTCAGCTACCTTCCAATATTCTTCCTATAAAACCATCTCACCCTCACTCATCTTTCCAAAACA
ACACTCTTCATCTTATTCCTTTTCTACAACTACTTCTGCACATCAAGATCAACA
>seq8
ATCTTCTTTATTACACTTGTTTCTTTTCTCAAATTTCGACGCGTGTTGATGTAATATTGGTATAAACAAGAAACTACAAAAC
GCAGCTGCCATAATGTCACAATTTTTCTCAAATCTTGTGGCTCTCAAACACTGTATAAAACACGACAAATGTGGACCCAAAA
TATATACCTTACACTTCTGAGTTAGAGAAGCAGAGCCCCATAATTAAGCCTATTTTATGAAAAAAATAATATTATGTTGAGT
CATATATCCATAAGAATCCCCACAGTCACACATGGAAGAGCAGCATTGGATACA
>seq9
AGACTCAACTTATATATAAATAAACTCAAAAAGAAAACACGGAGGCGAGAGGATCATACTCTCACACAGAAAGAGTCACATT
ATTATATCCTCTAAAAAACCAAACTAAAACGACACGTGAAGTCTTGATCAGCCGATAAATAGCTACCGACATAAGGCAAAAC
TGATCGTACCATCAAATGTAATCCACGTGGTTTTAGATTACTCGTGGCACCACACTCCCTTTAGCCTATAAATATAAACCAT
TAAGCCCACATCTCTTCTCATCATCACTAACCAAAACACACTTCAAAAACGATT
>seq10
AATAAATAAAGTCGAAAAGAAAACACGGAGGCGAGAGGACCACACACTCGCACAGAAAGAGTCTCATATCCTCTATAACAAA
TTGATAAACTAAACTAAAACGACACGTGATGTCTTGATCAGCCAATAAAAAGCTACCGACATAAGCCAAAAATGATCGTACC
ATTAAACGTAATCCACGTGGTTTCAGATTACACGTGGCACCACACAAGTATCTCCATTTGGCCTATAAATATAAACCCTTAA
GCCCACATATCTTCTCAATCCATCACAAACAAAACACACATCAAAAACGATTTT

2. Regarder les résultats du programme MEME (site de MEME )