TP Famille

Catherine Mathé - M2RBV Biol Comp. Mail : mathe@lrsv.ups-tlse.fr

TD domaines protéiques/alignement multiple/profiles

A- Recherche d'une protéine dans les banques publiques

Sur le site du NCBI, combien y a-t-il de protéines répertoriées chez Phytophthora parasitica ?
Cherchez ensuite les protéines elicitrices.
Utilisez le lien Advanced pour améliorer la requête, en précisant les champs Organism, Title...

L'utilisation de * permet de chercher une famille de mots.
Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...

On s'intéresse à la séquence CAA65843
Dans quelle requête est-elle ? dans quelle autre n'est-elle pas ? pourquoi ?
(l'historique (history), accessible depuis la page Advanced search, pourra vous aider à répondre)

Regardez la fiche de la séquence CAA65843 et repérer les domaines protéiques.
On s'intéresse au domaine fCBD (ou CBM_1) : regarder le lien CDD, et de là le lien SMART
Qu'est-ce-que ce domaine ? est-il réellement spécifique des champignons (fungi) ?
Combien de protéines ont été identifiées comme contenant ce domaine ?
Regardez le lien vers TrEMBL : O42830
Avez-vous davantage d'informations sur cette séquence ? lesquelles ?
En particulier, regarder dans Family and domain databases : InterPro => View protein in InterPro
Combien de domaines sont ici identifiés ? combien de CBDs ? Notez les positions des domaines idéntifiés par SMART.

A partir du lien Interpro du CBD (IPR000254), regarder le lien vers Pfam. Répondez aux mêmes questions qu'avec SMART.
Regarder maintenant (depuis InterPro) le pattern Prosite pour ce domaine.
Utiliser ScanProsite pour chercher si notre séquence correspond à un pattern ou une matrice de Prosite.

B- Interrogation des banques par recherche de similarité

Sur le site du NCBI, faire un BLASTP à partir de la séquence CAA65843 contre la banque nr.
Regardez le résultat : les séquences s'alignent-elles sur toute la longueur ? sinon où ? chez quels organismes y a-t-il des séquence similaires ?
Regardez notamment le match avec la séquence de Phytophthora palmivora (POM66319.1) : comment interprétez-vous le graphique ?
Testez maintenant le BLAST avec la new Clustered nr database quelles sont les différences ? quel est l'intérêt de cette banque ?

C- Alignement multiple, extraction et recherche de motifs protéiques
1. A partir du résultat précédent de BLASTP via Edit Search, relancer le BLASTP contre clustered nr avec seulement le 1er domaine CBD (position 23 à 55) et en précisant dans Organism: Oomycota
  Regardez les alignements. Que voyez-vous ? Commentez les couleurs du graphique
2. Regardez l'alignement multiple avec MSA viewer
  Récupérer les séquences sur les parties alignées (Download FASTA (aligned clusters))
  Ré-alignez-les avec Multalign par exemple sur GenoToul.
  Générez-en le LOGO avec WebLogo.
  
  Pour la suite récupérer aussi les séquences entières (Download FASTA (clusters))
3. Pour faire de l'extraction de motifs à partir d'un ensemble de séquences, vous utiliserez le programme MEME sur les séquences entières.
  Avec les paramètres : Any number of repetitions, min width=16, max width=20, min site = [au moins le nb de séq que vous avez]
  Regardez les motifs identifiés par MEME ?
  Retrouvez-vous le motif CBD ? Combien de fois par séquence ?
  
  Gardez la page de résultat de MEME ouverte pour la suite
4. Extraire les séquences du motif 1, avec la partie en amont, générer un format FASTA en renommant celles qui ont le même nom (mettez en numéro 2 par exemple).
  Sinon commande Linux : perl -lne '{@L=split;$i++;print ">",$i,"\n",$L[4],$L[5];}' seqMEME.txt
  Utilisez WebLogo après les avoir ré-aligner avec Multalign
5. Sur le site d'ExPASY, utilisez PRATT pour générer un Pattern à partir de l'ensemble de séquences précédent (on peut mettre Percentage Seqs to Match : 80%, pattern length : 30 Nr of consecutive x's : 10.
  Lancez ensuite ScanProsite contre SwissProt ou SwissProt+trEMBL : retrouvez-vous les séquences de Phytophthora ?
  Quelles autres séquences ? quelles espèces ? On pourra regarder la répartition taxonomique.
D- Exemple d'utilisation d'une banque spécialisée : AphanoDB
1. Allez sur le site AphanoDB
  Faites une recherche par annotation, du domaine CBD d'InterPro IPR000254
2. Récupérer les séquences protéiques pour Aphanomyces PacBio et lancer ScanProsite avec le motif défini précédemment. Trouvez-vous le motif sur ces séquences ?
3. De la même façon, on peut utiliser MAST qui recherche depuis votre résultat MEME précédent un profil dans une base de données ou un ensemble de séquences personnel.
  (depuis le résultat de MEME, sur le motif 1, cliquez sur la flèche Submit/Download, choisissez MAST et mettez les séquences d'Aphanomyces)
  Quelles sont vos conclusions ?
BLAST CBD sur NCBI nr clustered
Séquences CBD issues du BLAST
Séquences entière issues du BLAST
Résultat PRATT
ScanProsite contre trEMBL
Résultat MEME avec clustered nr NCBI(param width 16-20, min site 100)
Séquences de MEME renommées
Séquences Aphanomyces
Résultat MAST contre Aphanomyces