Catherine Mathé - M2RBV Biol Comp. Mail : mathe@lrsv.ups-tlse.fr
TD
domaines protéiques/alignement multiple/profiles
A- Recherche d'une protéine dans les banques publiques
- Sur le site du NCBI, combien y a-t-il de protéines répertoriées chez Phytophthora parasitica ?
Cherchez ensuite les protéines elicitrices.
Utilisez le lien Advanced pour améliorer la requête, en précisant les champs
Organism, Title...
L'utilisation de * permet de chercher une famille de mots.
Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...
- On s'intéresse à la séquence CAA65843
Dans
quelle
requête est-elle ? dans quelle autre n'est-elle pas ? pourquoi ?
(l'historique (history), accessible depuis la page Advanced search,
pourra vous aider à répondre)
- Regardez la fiche de la séquence CAA65843 et repérer les domaines
protéiques.
On s'intéresse au domaine fCBD (ou CBM_1)
: regarder le lien CDD, et de là le lien
SMART
Qu'est-ce-que
ce domaine ? est-il réellement spécifique des champignons
(fungi) ?
Combien de protéines ont été identifiées comme contenant ce domaine ?
- Regardez le lien vers TrEMBL : O42830
Avez-vous
davantage d'informations sur cette séquence ? lesquelles ?
En particulier, regarder dans Family and domain databases : InterPro => View protein in InterPro
Combien de domaines sont ici identifiés ? combien de CBDs ? Notez les
positions des domaines idéntifiés par SMART.
A partir du lien Interpro
du CBD (IPR000254), regarder le lien vers Pfam. Répondez aux mêmes questions qu'avec SMART.
Regarder maintenant (depuis InterPro) le pattern Prosite pour ce domaine.
Utiliser ScanProsite pour chercher si notre séquence
correspond à un pattern ou une matrice de Prosite.
B- Interrogation des banques par recherche de similarité
- Sur le site du NCBI, faire un BLASTP
à partir de la séquence CAA65843 contre la banque nr.
Regardez le
résultat : les séquences s'alignent-elles sur toute la longueur ? sinon
où ? chez quels organismes y a-t-il des séquence similaires ?
Regardez notamment le match avec la séquence de Phytophthora palmivora (POM66319.1) : comment
interprétez-vous le graphique ?
- Testez maintenant le BLAST avec la new Clustered nr database
quelles sont les différences ? quel est l'intérêt de cette banque ?
C- Alignement multiple, extraction et recherche de motifs protéiques
- A partir du résultat précédent de BLASTP via Edit Search, relancer le BLASTP contre clustered nr avec seulement le 1er domaine CBD (position 23 à 55) et en précisant dans Organism: Oomycota
Regardez les alignements. Que voyez-vous ? Commentez les couleurs du graphique
- Regardez l'alignement multiple avec MSA viewer
Récupérer les séquences sur les parties alignées (Download FASTA (aligned clusters))
Ré-alignez-les avec Multalign par exemple sur GenoToul.
Générez-en le LOGO avec WebLogo.
Pour la suite récupérer aussi les séquences entières (Download FASTA (clusters))
- Pour faire de l'extraction de motifs à partir d'un ensemble de séquences, vous utiliserez le
programme MEME sur les séquences entières.
Avec les paramètres : Any number of repetitions, min width=16, max width=20, min site = [au moins le nb de séq que vous avez]
Regardez
les motifs identifiés par MEME ?
Retrouvez-vous le motif CBD ? Combien de fois par
séquence ?
Gardez la page de
résultat de MEME ouverte pour la suite
- Extraire les séquences du motif 1, avec la partie en
amont, générer un format FASTA en renommant celles
qui ont le même nom (mettez en numéro 2 par exemple).
Sinon commande Linux : perl -lne '{@L=split;$i++;print ">",$i,"\n",$L[4],$L[5];}' seqMEME.txt
Utilisez WebLogo après les avoir ré-aligner avec Multalign
- Sur le site d'ExPASY, utilisez PRATT
pour
générer un Pattern à partir de l'ensemble de séquences
précédent (on peut mettre Percentage Seqs to Match : 80%, pattern length : 30 Nr of consecutive x's : 10.
Lancez ensuite ScanProsite contre SwissProt ou SwissProt+trEMBL : retrouvez-vous
les séquences de Phytophthora ?
Quelles autres séquences ? quelles espèces ? On pourra regarder la
répartition taxonomique.
D- Exemple d'utilisation d'une banque spécialisée : AphanoDB
- Allez sur le site AphanoDB
Faites une recherche par annotation, du domaine CBD d'InterPro IPR000254
- Récupérer
les séquences protéiques pour Aphanomyces PacBio et
lancer ScanProsite avec le motif défini
précédemment. Trouvez-vous le motif sur ces séquences ?
- De la même façon, on peut utiliser MAST qui recherche depuis votre résultat MEME précédent un profil dans une base de données ou un ensemble
de séquences personnel.
(depuis le résultat de MEME, sur le motif 1, cliquez sur la flèche Submit/Download, choisissez MAST et mettez les séquences d'Aphanomyces)
Quelles sont vos conclusions ?
BLAST CBD sur NCBI nr clustered
Séquences CBD issues du BLAST
Séquences entière issues du BLAST
Résultat PRATT
ScanProsite contre trEMBL
Résultat MEME avec clustered nr NCBI(param width 16-20, min site 100)
Séquences de MEME renommées
Séquences Aphanomyces
Résultat MAST contre Aphanomyces