BIOANALYSE L3 2B2M ET BCP

TP 2 : ALIGNEMENTS PAR PAIRE

OBJECTIFS DU TP

Savoir faire et interpréter un dotplot pour comparer rapidement 2 séquences
Comprendre les différences entre les méthodes d'alignement : local et global, semi-global
Confronter les résultats d'alignement aux annotations

Pour tous les exercices, nous utiliserons la suite "EMBOSS" disponible sur le dispatcher de l'EBI

EXERCICE 1 : comparaison de 2 séquences d'ADN

Nous allons utiliser deux logiciels pour effectuer les dotplot.

dotpath permet de dessiner un dotplot avec une taille de mot fixée.
dotmatcher permet de filtrer les fenêtres avec un seuil.

Récupérez les deux séquences Xlev_Rhodop1 et Xlev_Rhodop2.

Essayez le logiciel dotpath avec la taille de fenêtre (WORD SIZE) par défaut et avec 'yes' pour OVERLAPS (dans Parameters). Essayez avec d'autres tailles de fenêtre. Attention à bien avoir coché "DNA".
Maintenant sélectionnez "no" à OVERLAPS : vous demandez au logiciel de ne conserver que les zones conservées non chevauchantes. Observez le résultat avec 4 comme taille de fenêtre.
Essayez le logiciel dotmatcher avec les paramètres par défaut. Faites varier le paramètre de seuil jusqu'à retrouver le résulat obtenu avec dotpath. Que constatez-vous ?

En fait la première séquence correspond à celle du gène de la rhodopsine chez Xenopus laevis et la seconde à celle de son ARNm. Combien le gène compte-t-il d'exons ?

Réaliser maintenant un alignement global de ces 2 séquences avec needle (paramètres par défaut) : proposez un découpage en exons/introns de la séquence Xlev_Rhodop1.
Comparer ce découpage avec l'annotation de la séquence en la recherchant sur le site du NCBI

EXERCICE 2 : un cas d'école pour comparer alignement local et global

Voici 2 séquences, au format FASTA :

>prot1
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE
GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP
TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR
PSLSEEEIQKILKKWAYEDVIKERKRTLSTS
>prot2
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF
REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI

1. Faire un dotplot de ces 2 séquences avec dotmatcher : qu'observez-vous ?
2. Faire un alignement semi-global avec needle : combien y a-t-il d'événements d'insertion-délétion ?
A quoi correspond le pourcentage de similarité ?
Quels sont les paramètres de calcul du score ?
Modifiez-les et regardez en quoi l'alignement change.
3. Faire un alignement local avec matcher : qu'observez-vous ?
Demandez à voir d'autres alignements (number of alternative matches).
Puis modifier les paramètres de calcul du score

Comparez et expliquez les différences obtenues entre une méthode d'alignement global (needle) et une méthode d'alignement local (matcher).
Quelles conclusions sur les 2 séquences ?

EXERCICE 3 : séquences nucléiques / séquences protéiques

Vous allez comparer la séquence PL6 humaine à son orthologue chez la souris.
Voici les 2 séquences ADN (des ARNm ici) : Pl6_hum_dna et Pl6_mouse_dna, et les 2 séquences protéiques : Pl6_hum_prot et Pl6_mouse_prot.

Construisez le dotplot des séquences ADN puis le dotplot des séquences protéiques avec dotmatcher. Sur quel type de séquence la similarité est-elle la plus visible ?
Comparez maintenant les séquences ADN avec l'algorithme d'alignement global stretcher et l'algorithme d'alignement local matcher en utilisant les pénalités de gap suivantes : ouverture 10, extension 1. Lequel choisiriez-vous ? Pourquoi ?
Refaites les alignements avec les séquences protéiques. Observez-vous des différences ? Pourquoi ?

EXERCICE 4 : comment choisir la méthode d'alignement et les paramètres optimaux

Récupérez les séquences de 2 protéines de la famille des TPP (Thiamine Pyrophosphate dependent enzymes), ILV1_TOBAC et ILVB_ARATH

Le dotplot : utilisez dotpath afin d'avoir une idée de la ressemblance entre les 2 séquences

Impact des pénalités associées aux gaps
faites 2 alignements de ces séquences (dans 2 pages), avec stretcher, mais avec 2 jeux de paramètres pour les gaps :

ouverture 12, extension 2, matrice EPAM60
ouverture 2, extension 2, matrice EPAM60

Quelles différences remarquez-vous ? Quel est celui des deux alignements qui vous paraît le plus pertinent ?
L'alignement obtenu est spécifique aux valeurs de paramètres, en particulier au fait que nous sommes dans le cadre d'une fonction de gap affine.

Impact des matrices de Score

Récupérer la protéine PDC1_MAIZE. PDC1 est également de la famille des TPP mais plus éloignée.

Effectuez un alignement global entre ILVB_ARATH et PDC1_MAIZE avec stretcher avec comme les paramètres par défaut (ouverture de gap=12, extension de gap=2, matrice=BLOSUM62. Remarquez combien le score de cet alignement et le pourcentage d'identité sont faibles. Pensez-vous que ce soit un bon alignement ?
Pensez-vous que la matrice BLOSUM62 soit adéquate dans ce cadre. Quelle matrice pourrait être meilleure ? Pourquoi ?
Essayez avec les matrices PAM. Construisez les alignements avec PAM30 et PAM500. Quel est le meilleur alignement ? Etait-ce prévisible?

Il faut retenir que les matrices de scores affectent les résultats d'un alignement et qu'il est difficile de juger de la qualité d'un alignement de deux séquences. Le choix de la matrice dépend de la divergence qu'ont les deux séquences étudiées, les meilleurs résultats étant obtenus lorsqu'on utilise la matrice la plus sensible par rapport au niveau de divergence réel des séquences.

Type d'alignement

Les alignements locaux sont souvent plus utiles que les alignements globaux. Les séquences proches partagent le plus souvent des régions similaires et non leur totalité. Nous allons tenter d'identifier si un fragment inconnu de protéine de champignon (frag_new) est relatif aux protéines précédentes.

Effectuez un alignement local avec Matcher entre ce peptide et ILV1_TOBAC avec comme paramètres : ouverture de gap=10, extension de gap=1, matrice=BLOSUM62. Que pensez-vous de cet alignement ? Comment expliquez-vous ce résultat ?
Faites maintenant un alignement semi-global avec Needle avec les mêmes paramètres.
Faites maintenant un alignement global avec Stetcher, toujours avec les mêmes paramètres. Que constatez-vous ?
En fait la zone alignée correspond à un domaine protéique connu : comment pouvez-vous le vérifier ?

EXERCICE 5 : des exemples d'utilisation et d'interprétation des Dotplots

Vous allez comparer les séquences de deux facteurs de transcription, EGR1 et SP1.

Construisez un dotplot avec dotmatcher de ces deux séquences. Vous devez observer une similitude locale.
Comparez ensuite les deux séquences avec un alignement local en utilisant matcher (paramètres par défaut Gap penalty 14 et Gap length penalty 4). Est-ce que vous retrouvez le résultat du dotplot ?
Consultez les entrées SwissProt (vous connaissez leur numéro d'accession !) pour déterminer à quoi correspond cette similitude locale. Pour cela, on pourra se rendre sur le serveur du site UniProtKB. Est-ce que vos observations sont cohérentes avec les annotations de SwissProt ? Comment pouvez-vous le vérifier ?

Le dotplot peut également être utilisé pour étudier les régularités structurelles d'une séquence. Vous allez tester cette approche sur les deux exemples suivants :

Localisation de répétitions : analysez avec dotpath la séquence de rétrotransposon de tabac contenue dans le fichier Transposon Tnt1 (choisissez 'Display the overlapping matches'). En jouant sur le paramètre de taille de fénêtre, identifiez le nombre de répétitions significatives ?
Faible complexité : de la même façon, analysez la séquence contenue dans Plasmodium falciparum. Qu'observez-vous ? A quoi cela correspond dans la séquence ?