BIOANALYSE L3 2B2M ET BCP
TP 2 : ALIGNEMENTS PAR PAIRE
OBJECTIFS DU TP
- Savoir faire et interpréter
un dotplot pour comparer rapidement 2 séquences
- Comprendre les différences
entre les méthodes d'alignement : local et global,
semi-global
- Confronter les résultats
d'alignement aux annotations
Pour tous les exercices, nous utiliserons la suite "EMBOSS" disponible sur le dispatcher de l'EBI
EXERCICE 1 : comparaison de 2 séquences d'ADN
Nous allons utiliser deux logiciels pour effectuer les dotplot.
- dotpath permet de
dessiner un dotplot avec une taille de mot fixée.
- dotmatcher permet de
filtrer les fenêtres avec un seuil.
Récupérez les deux séquences Xlev_Rhodop1 et Xlev_Rhodop2.
- Essayez le logiciel
dotpath avec la taille de fenêtre (WORD SIZE) par défaut et avec 'yes' pour OVERLAPS (dans Parameters). Essayez avec d'autres tailles de fenêtre. Attention à bien avoir coché "DNA".
- Maintenant sélectionnez "no" à OVERLAPS : vous demandez au logiciel de ne conserver que les zones conservées non chevauchantes. Observez le
résultat avec 4 comme taille de fenêtre.
- Essayez le logiciel dotmatcher avec
les paramètres par défaut. Faites
varier le paramètre de seuil jusqu'à retrouver le résulat obtenu avec
dotpath. Que constatez-vous ?
En
fait la première séquence correspond à celle du gène de la rhodopsine
chez Xenopus laevis et la seconde à celle de son ARNm.
Combien le gène compte-t-il
d'exons ?
- Réaliser maintenant un alignement global de ces 2 séquences avec needle
(paramètres par défaut) : proposez
un découpage en exons/introns de la séquence Xlev_Rhodop1.
- Comparer ce découpage avec l'annotation de la séquence en la
recherchant sur le site du NCBI
EXERCICE 2 : un cas
d'école pour comparer alignement local et global
Voici 2 séquences, au format FASTA :
>prot1
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE
GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP
TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR
PSLSEEEIQKILKKWAYEDVIKERKRTLSTS
>prot2
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF
REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI
1. Faire un
dotplot
de ces 2 séquences avec dotmatcher : qu'observez-vous ?
2. Faire un alignement semi-global avec needle : combien y a-t-il d'événements d'insertion-délétion ?
A quoi correspond le pourcentage de similarité ?
Quels sont les paramètres de calcul du score ?
Modifiez-les et regardez en quoi
l'alignement change.
3. Faire un alignement local avec matcher : qu'observez-vous ?
Demandez à voir d'autres
alignements (number of alternative
matches).
Puis modifier les
paramètres de calcul du score
Comparez
et expliquez les différences obtenues entre une méthode
d'alignement global (needle) et une méthode d'alignement local
(matcher).
Quelles conclusions sur les 2 séquences ?
EXERCICE 3 : séquences
nucléiques / séquences protéiques
Vous allez comparer la séquence PL6
humaine à son orthologue chez la souris.
Voici les 2 séquences ADN (des ARNm ici) : Pl6_hum_dna
et Pl6_mouse_dna, et les 2 séquences
protéiques : Pl6_hum_prot et Pl6_mouse_prot.
- Construisez le dotplot des séquences ADN
puis le dotplot des séquences protéiques avec dotmatcher. Sur quel type de séquence la
similarité est-elle la plus visible ?
- Comparez maintenant les
séquences ADN avec l'algorithme d'alignement global stretcher et
l'algorithme d'alignement local matcher en
utilisant les pénalités de gap suivantes : ouverture 10,
extension 1. Lequel
choisiriez-vous ? Pourquoi ?
- Refaites les alignements avec les
séquences protéiques. Observez-vous
des différences ? Pourquoi ?
EXERCICE
4 : comment choisir la méthode d'alignement et les paramètres optimaux
Récupérez les séquences de 2 protéines de la famille des TPP (Thiamine Pyrophosphate dependent enzymes), ILV1_TOBAC et ILVB_ARATH
- Le dotplot : utilisez
dotpath afin d'avoir une idée de la ressemblance
entre les 2 séquences
- Impact des pénalités associées aux gaps
faites 2 alignements de
ces séquences (dans 2 pages), avec stretcher, mais
avec 2 jeux de paramètres pour les gaps :
- ouverture 12, extension 2, matrice EPAM60
- ouverture 2, extension 2, matrice EPAM60
Quelles différences remarquez-vous ? Quel est celui des deux
alignements qui vous paraît le plus pertinent ?
L'alignement obtenu est spécifique aux valeurs de paramètres, en
particulier au fait que nous sommes dans le cadre d'une fonction de gap
affine.
- Impact des matrices de Score
Récupérer la protéine PDC1_MAIZE. PDC1 est également de la
famille des TPP mais plus éloignée.
- Effectuez un alignement
global entre ILVB_ARATH et PDC1_MAIZE avec stretcher avec comme les paramètres par défaut
(ouverture de gap=12, extension de gap=2, matrice=BLOSUM62. Remarquez combien le score de cet
alignement et le pourcentage d'identité sont faibles. Pensez-vous que
ce soit un bon alignement ?
Pensez-vous
que la matrice BLOSUM62 soit adéquate dans ce cadre. Quelle matrice
pourrait être meilleure ? Pourquoi ?
- Essayez avec les matrices
PAM. Construisez les alignements avec PAM30 et PAM500. Quel est le meilleur
alignement ? Etait-ce prévisible?
Il faut retenir que
les matrices de scores affectent les résultats d'un alignement et qu'il
est difficile de juger de la qualité d'un alignement de deux séquences.
Le choix de la matrice dépend de la divergence qu'ont les deux
séquences étudiées, les meilleurs résultats étant obtenus lorsqu'on
utilise la matrice la plus sensible par rapport au niveau de divergence
réel des séquences.
- Type d'alignement
Les alignements locaux sont souvent
plus utiles que les alignements globaux. Les séquences proches
partagent le plus souvent des régions similaires et non leur totalité.
Nous allons tenter d'identifier si un fragment inconnu de protéine de
champignon (frag_new) est relatif aux protéines
précédentes.
- Effectuez un alignement local avec Matcher
entre ce peptide et ILV1_TOBAC avec comme paramètres : ouverture de gap=10, extension de gap=1, matrice=BLOSUM62. Que pensez-vous de cet
alignement ? Comment expliquez-vous ce résultat ?
- Faites maintenant un
alignement semi-global avec Needle avec les
mêmes paramètres.
- Faites maintenant un alignement global avec Stetcher, toujours avec les mêmes paramètres. Que constatez-vous ?
- En fait la zone alignée
correspond à un domaine protéique connu : comment pouvez-vous le vérifier ?
EXERCICE 5 : des
exemples d'utilisation et d'interprétation des Dotplots
- Vous allez comparer les séquences de deux facteurs de
transcription, EGR1
et SP1.
- Construisez un dotplot avec dotmatcher de
ces deux séquences. Vous
devez observer une similitude locale.
- Comparez ensuite les deux séquences avec un alignement local
en utilisant matcher (paramètres par défaut Gap penalty 14 et Gap
length penalty 4). Est-ce que
vous retrouvez le résultat du dotplot ?
- Consultez les entrées
SwissProt (vous connaissez leur numéro d'accession !) pour déterminer à
quoi correspond cette similitude locale. Pour cela, on pourra se rendre
sur le serveur du site UniProtKB. Est-ce que vos observations sont
cohérentes avec les annotations de SwissProt ? Comment pouvez-vous le
vérifier ?
- Le dotplot peut également
être utilisé pour étudier les régularités structurelles d'une séquence.
Vous allez tester cette approche sur les deux exemples suivants :
- Localisation de répétitions : analysez avec dotpath la
séquence de rétrotransposon de tabac contenue dans le fichier Transposon
Tnt1 (choisissez 'Display the
overlapping matches'). En
jouant sur le paramètre de taille de fénêtre, identifiez le nombre de
répétitions significatives ?
- Faible complexité : de la même façon, analysez la séquence
contenue dans Plasmodium falciparum. Qu'observez-vous ? A quoi cela
correspond dans la séquence ?