BIOANALYSE L3 2B2M ET BCP
TP 1 : INTERROGATION DES BANQUES DE DONNEES
OBJECTIFS DU TP
- Etre capable de retrouver une séquence dont on connait le numéro d'accession dans sa banque
- Savoir comment s'organisent les fiches des séquences, et où y chercher les informations
- Etre capable de trouver une ou des séquences à l'aide de mots clés ciblant des champs spécifiques
- Naviguer entre les banques, changer de format, télécharger des séquences
EXERCICE 1 : Accéder à une séquence prédéfinie dans les banques
- Cherchez la protéine P01308 dans 'UniProt
- De quelle protéine s'agit-il ? chez quel organisme ?
- Quelle est la taille de cette séquence ?
- Que sont les "VARIANT" ?
- Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
- Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et aller voir l'onglet Ancestor Chart
Faire afficher le
format UniProtKB en cliquant sur Download => Text en haut de la page
- Sur le site du NCBI : chercher (via Entrez) la même séquence.
- Quels sont les résultats ?
- Cliquer sur Protein : la séquence est ici au format GenPept
Faire afficher le format 'FASTA' de la séquence.
- Revenez aux résultats et cliquer sur Gene : regarder l'entrée INS, en particulier la partie NCBI Reference Sequences : combien de variants d'épissage ? et dans Related Sequences : combien d'ARNm ?
- Regarder
la séquence génomique RefSeq NG_007114 (format Genbank) : combien
d'exons composent ce gène ? combien constituent la séquence codante ?
EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés
Quand on rentre plusieurs mots
clés, par défaut, le système de requête utilise l'opérateur AND. Vous
pouvez aussi combiner les mots avec OR ou NOT.
- Sur le serveur du NCBI, identifiez :
- toutes les séquences de Phytophthora (oomycète parasite de la pomme de terre) : combien sont-elles ?
- les séquences protéiques de Phytophthora parasitica correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux)
Pour faire cela, vous utilisez ENTREZ. Si vous ne voulez rechercher que dans
la banque protéique, cliquez sur Protein, puis utilisez l'option Advanced. A l'aide de l'outil Search builder précisez les champs (Organism, Title...)
et conjuguez vos requêtes. L'historique de vos requêtes est disponible
en dessous et vous pouvez combiner des résultats de requêtes
précédentes avec les mêmes opérateurs AND, OR et NOT.
NB : L'utilisation de * permet de chercher une famille de
mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...
- On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843
Regardez la fiche de la séquence correspondante :
- quel est le nom de cette protéine ?
- dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
- sous quel numéro cette publication est-elle référencée dans PubMed ?
- de combien d'acides aminés est composée cette protéine ?
- On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche
- à quoi correspondent ces différentes références croisées ?
- quels domaines sont présents dans la protéine ?
- quel est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ?
- Dans quelles banques de domaines est référencé ce domaine ? avec quels numéros d'accession ?
- allez sur le lien db_xref vers UniProt O42830 :
- à quelle section de UniProt appartient cette séquence ?
- quelles sont les fonctions moléculaires correspondant à la Gene
Ontology ? Donnez les numéros des termes GO associés. L'annotation GO
est-elle présente dans la fiche GenPept ?
EXERCICE 3 : Quelques exemples de recherches avancées sur UniProt
- Combien y a-t-il de séquences dans UniProt-SwissProt et combien dans UniProt-trEMBL ?
- Cherchez les séquences
protéiques
d'insuline chez le chien :
- combien sont référencées dans UniProt/SwissProt ?
- combien dans trEMBL ?
- affichez les séquences au format FASTA
- Toujours sur UniProt, cherchez des séquences protéiques de dinosaures
- Trouver le nombre de séquences de trEMBL avec des preuves au niveau
protéique, chez des organismes eucaryotes n'appartenant pas aux champignons.
combien sont transmembranaires ?
EXERCICE 4 : Recherche dans des banques spécialisées
- Navigation sur un génome avec GDV
- regardez le génome humain en cliquant à droite sur Browse genome : déplacez-vous, zoomez, dé-zoomez...
- cherchez le gène INS : regardez la structure du gène. Cliquez sur INS[+8] pour faire afficher les variants et les protéines
- modifiez l'affichage : dans => configure tracks => Sequence => cochez Six frame translation, et Pst1 Recognition sites
- Recherche dans les banques de domaines :
- interrogez InterPro par mots-clés (Search by text) pour chercher les domaines cytochrome b5
- interrogez maintenant InterPro par séquence avec le format FASTA de la séquence P00174 (à chercher sur UniProt ou au NCBI).
(si la recherche met trop longtemps, utilisez Search by text avec P00174)