M2P Bioingénierie

TD Alignement de séquences



Exercice 1 : comparaison alignement local et global

Comparaison des séquences prot1 et prot2

>prot1
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAEGKKAKINEGI
TQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKPTVLVVGNELQGVSPEIVEIA
DKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSRPSLSEEEIQKILKKWAYEDVIKERKRTLST
S
>prot2
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVA
TWLSKESVNFREVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAE
GKKAKINEGI

On utilisera la suite "EMBOSS" sur ce site.

1. Faire un dotplot de ces 2 séquences (dotmatcher)
Qu'observez-vous ? Modifiez les paramètres taille de fenêtre et threshold (l'un après l'autre) et regardez les résultats.
 
2. Faire un alignement global avec needle
combien y a-t-il de gaps ?
A quoi correspond le pourcentage de similarité ?
Quels sont les paramètres de calcul du score ?

Modifiez-les et regardez en quoi l'alignement change.

3. Faire un alignement local avec matcher
Qu'observez-vous ?
Demandez à voir d'autres alignements.
Puis modifier les paramètres du score.

Comparez et expliquez les différences obtenues entre une méthode d'alignement global (needle) et une méthode d'alignement local (matcher).
Conclusions sur les 2 séquences ?



Exercice 2 : alignement en autonomie....

Allez chercher et comparez les séquences D16349 et M81829. Utilisez le NCBI.
Vous commencerez par comparer les séquences nucléiques puis les séquences protéiques déduites, avec les programmes précédents de EMBOSS (DotPlot, alignement local, global)
Pour trouver les protéines codées vous pourrez utiliser ORF finder

Utilisez le programme Blast2seq pour comparer les séquences nucléiques avec Blastn et tBlastx. Quelles sont vos conclusions ?




Exercice 3 : recherche dans les banques à partir d'une séquence

Toujours à partir de la séquence D16349 :
  1. Sur le site du NCBI, allez sur la page des BLAST, et choisir nucleotide blast (blastn), contre la banque nr.
    Que contient la banque nr ? combien de séquences ?
  2. Analyser le résultat du BLAST :
    - pourquoi a-t-on une série de "t" minuscules dans le premier match ?

    - dans quels organismes trouvez-vous des homologues ?
    - trouvez-vous la séquence précédente M81829 ? pourquoi ?
  3. Relancer Blastn en sélectionnant les séquences d'oiseaux (taper "aves" dans Organism)
    Quels résultats vous paraissent significatifs ?
  4. Lancer BlastX contre la banque SwissProt
    - que sont les + ?
    - pourquoi n'a-t-on pas d'alignement sur toute la séquence de départ ?
    - à quoi correspond ce morceau de séquence
    laladalatstl ?
  5. Lancer maintenant BlastP avec la séquence protéique codée par D16349 : regarder le résultat intermédiaire en cliquant sur le graphique
    La recherche contre la banque CDD (Conserved Domain Database) permet d'identifier d'éventuels domaines protéiques