M2P Bioingénierie

TD alignement de séquences



Exercice 1 : alignement de 2 séquences


allez chercher et comparer les séquences D16349 et M81829 sur le NCBI ou SRS.

Vous commencerez par comparer les séquences nucléiques puis les séquences protéiques déduites, avec les programmes de EMBOSS à la Génopole :

- alignement global avec needle
- alignement local avec matcher

Pour trouver les protéines codées vous pourrez utiliser ORF finder

Utilisez le programme Blast2seq pour comparer les séquences nucléiques avec Blastn et tBlastx. Quelles sont vos conclusions ?



Exercice 2 : recherche dans les banques à partir d'une séquence

Toujours à partir de la séquence D16349 :
  1. Sur le site du NCBI, allez sur la page des BLAST, et choisir nucleotide blast (blastn), contre la banque nr.
    Que contient la banque nr ? combien de séquences ?
  2. analyser le résultat du BLaST :
    - pourquoi a-t-on une série de "t" minuscules dans le premier match ?

    - dans quels organismes trouvez-vous des homologues ?
    - trouvez-vous la séquence précédente M81829 ? pourquoi ?
  3. Relancer Blastn en sélectionnant les séquences d'oiseaux (taper "aves" dans Organism)
    Quels résultats vous paraissent significatifs ?
  4. Lancer BlastX contre la banque SwissProt
    - que sont les + ?
    - pourquoi n'a-t-on pas d'alignement sur toute la séquence de départ ?
    - à quoi correspond ce morceau de séquence
    laladalatstl ?
  5. Lancer maintenant BlastP avec la séquence protéique codée par D16349 : regarder le résultat intermédiaire en cliquant sur le graphique
    La recherche contre la banque CDD (Conserved Domain Database) permet d'identifier d'éventuels domaines protéiques


Exercice 3 : Détermination et recherche de motif 

Vous  allez vous intéresser à une famille de protéines, dont les séquences sont contenues dans le fichier suivant.
Ces protéines ont la particularité de présenter le mème type d'activité catalytique.
  1. Faites un alignement multiple des séquences avec le logiciel Multalin. Vous devez voir apparaitre un motif approché commun, avec des positions parfaitement conservées.

  2. Afficher le format FASTA de l'alignement : copier-le et visualisez-le avec LOGO

  3. Essayez manuellement de construire une expression régulière pouvant décrire le motif conservé dans les séquences.

    - Tous les éléments de l'expression sont séparés par des tirets.
    - Le joker est la lettre X, à utiliser lorsque le nombre d'aa rencontrés dans une colonne dépasse 4.
    - On peut préciser le nombre d'occurrences avec des parentheses X(5) : 5 X ou D(2,4) : 2 à 4 D.
    - Le choix entre plusieurs acides aminés possibles se note avec des crochets [APC].
    - L'exclusion d'un ou plusieurs acides aminés en une position se note entre accolades {DEV}.


  4. Utilisez le logiciel PRATT pour extraire automatiquement le(s) motif(s) conservé(s) des séquences précédentes.
    Essayez de "fusionner" 2 motifs pour en faire un plus long.

  5. Utilisez ScanProsite pour vérifier que les séquences de départ contiennent bien ce pattern.

  6. Cherchez (toujours avec ScanProsite) les séquences de Swissprot contenant votre pattern : quelles sont les séquences obtenues ?
    Regarder dans la fiche d'une de ces séquences les domaines connus : regarder le lien vers PROSITE et comparer avec votre pattern .