M2P Bioingénierie
Exercice 1 : Alignement multiple
1. Chercher dans
SRS
les
séquences protéiques "THAP", dans RefSeq Protein, et non
annotées comme prédites, chez l'homme, la souris, le poulet et le zebrafish.
On ne gardera pas
les séquences isoformes 2 ni 3 .
(sélectionnez-les (il y en a 7), et cochez la case "unselected results only")
2. Aligner ces
séquences avec ClustalW en utilisant Result Options (choisir l'alignement
"SLOW" et ordre
"ALIGNED")
Regarder l'alignement.
On pourra utiliser Boxshade sur le site de Pasteur (Alignements et
comparaisons de séquences => Affichage d'alignements => BOXSHADE)
Que pensez-vous de cet
alignement ?
Quels sont les résidus
caractéristiques de la famille ?
Le motif 'AVPTIF' marque la fin du domaine : le trouvez-vous sur toutes les séquences ?
5. Regarder l'alignement avec WebLOGO.
Exercice 2 : Identification d'un motif
- Tous les éléments de l'expression sont séparés par des tirets. |
- Le joker est la lettre X, à utiliser lorsque le nombre d'AA rencontrés dans une colonne dépasse 4. |
- On peut préciser le nombre d'occurrences avec des parentheses X(5) : 5 X ou D(2,4) : 2 à 4 D. |
- Le choix entre plusieurs acides aminés possibles se note avec des crochets [APC]. |
- L'exclusion d'un ou plusieurs acides aminés en une position se note entre accolades {DEV}. |
M-x(3,4)-C-x(4)-C-x(9,15)-F-x(2)-[FL]-P-x(8,9)-W-x(10,17)-P
Rechercher l'ensemble des séquences qui possède ce pattern avec ScanProsite sur ExPASy.
Combien de séquences obtenez-vous ?
3. Regarder la fiche de la première séquence obtenue : les liens dans la rubrique Family and domain databases :
- Regarder le lien Pfam PF05485 : afficher le Logo
- Regarder InterProScan (Graphical view of domain structure)
- Regarder l'entrée dans Prosite PS50950 : de quel type d'entrée s'agit-il ?
Y-a-il des différences dans la façon de définir le domaine (ou motif) THAP ? (longueur, résidus conservés...)
4. Lancer ScanProsite avec ce profile.
Combien de séquences obtenez-vous ? Pourquoi en a-ton plus qu'avec le pattern ?
Le domaine THAP est-il toujours en position N-terminale ?
Exercice 3 : Définition d'amorces PCR dégénérées
Vous voulez faire des amorces de PCR pour amplifier l'ARNm THAP7 chez le rat dont vous n'avez pas la séquence.
A partir des séquences de THAP7 humaine, souris et poulet (prises ici), faites un alignement multiple avec ClustalW sur Pasteur.
Demander à générer le consensus (Cons dans Further analysis)
Puis, faites la traduction inverse (Backtransseq, avec l'usage des codons du rat)
Tester la qualité des amorces avec BLASTN (on peut donner les 2 amorces en même temps, séparées par une série de N)
NB : Les amorces étant petites, il faudra penser à changer la taille des mots (7), et la E-value (100).
Exercice 4 : Détermination et recherche de motif en solo
Exercice 5 : Extraction d'un motif sur des séquences non alignées
Voici une partie
des séquences promotrices de 10 gènes
corégulés.
1. Faire un
alignement multiple de ces 10 séquences d'ADN avec Multalign
Quelles sont vos conclusions ?
>seq1
AACCCCTTACCGCTTCCAACCTTTACACCCTTATCTTCTGCCTATACTGCATGTCACTCTATTGCAGACTATCTGAGATAGC
TACAACCTAACGACTTAAGGTGAGGACACGTGTATCTCCAAAACCCACTTCGTCACCCTTACCACCACGTCATCATACCACG
TGCCAACATGCATGCTAGTATCTTCTCTACTATACACATACTTATGTACTATATATATTCACCAAAATTACATGCATGTTAG
CACCCTCAATTGTACAACACAACTTAACAACTTAAGTTAAAAGAGTGAACAAAA
>seq2
AACCCCTTACCGCTTCCAACCTTTACACCCTTATCTTCTGCCTATACTGCATGTCACTCTATTGCAGACTATCTGAGATAGC
TACAACCTAACGACTTAAGGTGAGGACACGTGTATCTCCAAAACCCACTTCGTCACCCTTACCACCACGTCATCATACCACG
TGCCAACATGCATGCTAGTATCTTCTCTACTATACACATACTTATGTACTATATATATTCACCAAAATTACATGCATGTTAG
CACCCTCAATTGTACAACACAACTTAACAACTTAAGTTAAAAGAGTGAACAAAA
>seq3
CATTCGTTAATAGTAAAATACTTAAAGCAGGTGTTGTAAGTCGTGCTGATATTTACGACCAAACTCGTGCGACGTCAAGTCA
TAGACGAATACACTAGCCAGCCAGCCATAGAATATTACAAGTGTTTTTGTGAAGCACGTGAAGTAATGTTCATCTACCTACC
CTCTAATATCCACTCTTCCTTTCATATAAAATCTTCCCTCTGCAACCATCTTTCCACCACAACACTCTTCCAACCCTTTCTT
TTTCCATAACAAGTACTCAAAACCAATTGAATTCTGCTACCAAATATATCAATA
>seq4
CATTATTCTATACAGCTTTTTCATGTAATTATTTTGAATTTTGATCATTTTCGAGAATATTTCAAAATTTGTATCGCAAATA
TATTATAATATAGAAATATATTACAATATACAAAAATATATAAAATAAACTTTTATGCGACTAAAATATATAAAAATATTCA
TATTATACTATAATCACACTTTACGTAACTACAAAATTTGGTAATATAGGTTAGTTTCGAGAGTTAAGCCATTGTTGTTACT
TACTTAAATTGCAACTCAAAAAAATATACGTGAAGGAGAAAAAGACAAAATTAC
>seq5
AAAAGAAAAAAAGAAAAAAAAGAAAACGTGTAATGTTTGATCTGAAATTGGAAAGTACACTAGGCATGCAACAACGCAGTAA
TAATACACTACCAAACTAAATATAACAGGCTGATGTGCCAACCGGACAGATGGCTATTTGAAAGGGGGTTGGTCACGTGCTG
CTTCTAGCTACCATACTTATTTATTTATCGCTTATAAATACATTTCCGTAACTTACAAACATTTAACACAACCAAGCTTTCT
AGTTTCTACTACAAAATAATATTTGTTTGTGTTCTAAATATTTCTGGCTAGAGA
>seq6
TCGCATTAACCAAATGATTTCCCCCATAAATAAAACAAAATACTGGTCAAAATTTGTTTGCACAATAATTATTAGAAAAATG
ATCTTCAAAGTCATGCGGGTATATATTTTCCACGAAACATCTTTAAGGTTGTTGAATATATTAATTCTTATAATGTTTAGGT
TTTAGTAAACCACGTGATGTTCAGCTACCTTCCAATATCCTTACTATAAAACCATCTCATCCTCACTCATCTTTCCACCACA
ACACTCTTCATCTTATTCCTTTTCTACAACAGCTTCTGCACATCAAGATCAACA
>seq7
AAAATAGTGGTCAAATTTGGTTATAAAATAATTGTTAAGACAAAGGATTAGACTAAAGAGGGTATTCAAAGTCATGCGTATT
TGCCATCAAACACATTCAGGTCATTGAGTCTAATTGGTTATTAAGTTGAATATATAATTAGTATGATGTTTTATTGAAAGGT
TTTAGTAAACCACGTTATGTTCAGCTACCTTCCAATATTCTTCCTATAAAACCATCTCACCCTCACTCATCTTTCCAAAACA
ACACTCTTCATCTTATTCCTTTTCTACAACTACTTCTGCACATCAAGATCAACA
>seq8
ATCTTCTTTATTACACTTGTTTCTTTTCTCAAATTTCGACGCGTGTTGATGTAATATTGGTATAAACAAGAAACTACAAAAC
GCAGCTGCCATAATGTCACAATTTTTCTCAAATCTTGTGGCTCTCAAACACTGTATAAAACACGACAAATGTGGACCCAAAA
TATATACCTTACACTTCTGAGTTAGAGAAGCAGAGCCCCATAATTAAGCCTATTTTATGAAAAAAATAATATTATGTTGAGT
CATATATCCATAAGAATCCCCACAGTCACACATGGAAGAGCAGCATTGGATACA
>seq9
AGACTCAACTTATATATAAATAAACTCAAAAAGAAAACACGGAGGCGAGAGGATCATACTCTCACACAGAAAGAGTCACATT
ATTATATCCTCTAAAAAACCAAACTAAAACGACACGTGAAGTCTTGATCAGCCGATAAATAGCTACCGACATAAGGCAAAAC
TGATCGTACCATCAAATGTAATCCACGTGGTTTTAGATTACTCGTGGCACCACACTCCCTTTAGCCTATAAATATAAACCAT
TAAGCCCACATCTCTTCTCATCATCACTAACCAAAACACACTTCAAAAACGATT
>seq10
AATAAATAAAGTCGAAAAGAAAACACGGAGGCGAGAGGACCACACACTCGCACAGAAAGAGTCTCATATCCTCTATAACAAA
TTGATAAACTAAACTAAAACGACACGTGATGTCTTGATCAGCCAATAAAAAGCTACCGACATAAGCCAAAAATGATCGTACC
ATTAAACGTAATCCACGTGGTTTCAGATTACACGTGGCACCACACAAGTATCTCCATTTGGCCTATAAATATAAACCCTTAA
GCCCACATATCTTCTCAATCCATCACAAACAAAACACACATCAAAAACGATTTT