Catherine Mathé - M2RBV BioComp. Mail : mathe@lrsv.ups-tlse.fr


TP BLAST et annotation


Un laboratoire qui étudie la réponse au stress salin du riz a isolé un ADNc, dont voici la séquence :

>cDNA, 490 bases, Oryza sativa
cgaatgaacatccagaggaagccaggagactggaactgcaaatcgtgcca
gcatctcaacttcagccgccgggactactgccagcgctgccataccccac
gccaggacctgccgcttggcgatggttatgtcccaggtggtgtgctgtcc
tccctggacattcgcccgggcgactggtactgcaactgcggctatcacaa
ctttgctagccgagcaagctgcttcaaatgtggcgccattgtgaaggacc
ttccagcaggccaaggtggtggtgttgccaacggtgactttgcccgtgcc
ctcgacagcagcgcagttcgtgctgggtggaaggcgggtgactggatttg
cacaaggcctggttgcaacgtccacaactttgcaagtaggattgagtgct
ataggtgcaatgcacctaggaaataaacaaataggggttccgcgcacatt
tccccgaaaagtgccacctaaattgtaagcgttaatattt


A- Recherche d'une séquence ou de ses homologues dans les banques

1. Sur le site du NCBI utilisez le programme BLAST (faire le bon choix !) pour essayer de répondre aux questions suivantes :

- Est-ce une séquence déjà  connue ?
- Est-elle complète ?
- Sur quel chromosome est codé ce gène ?
- combien comporte-t-il d'exons ?
- Quelle est sa fonction ?
- Y a-t-il des homologues chez d'autres plantes ?

2. Comparez les paramètres et les résultats de BLASTN et megaBLAST.


B- Reconstruction d'une séquence d'ADNc complet


On va partir de l'ARNm AF171223 : est-il complet ?

1. Lancez un BLASTN contre les EST, en spécifiant l'organisme rice, et chercher des ESTs qui le "prolongent".

2. Essayez de reconstruire l'ADNc complet avec le programme CAP3.
Quel outil pourriez-vous utiliser pour comparer le Contig obtenu avec la séquence AF171223 ?
[en restant au NCBI, vous pouvez tester BLAST entre les 2 séquences et Global Align (depuis la page BLAST, dans Specialized searches.
sinon il y a les outils de EMBOSS.]


3. Avec le programme ORF finder du NCBI, cherchez la séquence codante (ORF). Validez votre choix. Gardez cette page ouverte.


C- Annotation structurale d'un gène par alignement


1. Lancez un BLASTN contre nr en sélectionnant les séquences génomiques de riz.
Regardez le nombre et la position exacte des exons. Qu'en pensez-vous ?

Regardez l'annotation (sur AP000399) de la zone du match : combien d'exons annotés ? comment l'annotation a-t-elle été faite ?

2. A l'aide du programme SIM4 au PRABI, déterminez le nombre et la position précise des exons.
Comparez avec le résultat de BLAST et regardez les alignements aux limites exons/introns.

3. Localisez les UTR sur la séquence génomique (trouver les positions des codons ATG et Stop).


D- Annotation structurale d'un gène par prédiction dite "ab initio"

Extraire les 30 000 premiers nucléotides de la séquence génomique AP000399.
Faire tourner les programmes GeneMark.hmm et Fgenesh (entraînés respectivement sur Arabidopsis et sur le riz).

Comparez les positions des exons obtenues avec celles que vous avez trouvées précédemment.

Générez la protéine prédite par GeneMark.hmm (vous pourrez utiliser les outils extractseq et transeq de EMBOSS) et faites un BLASTP.















standard BLAST ADNc contre nr
megaBLAST ADNc contre nr
megaBLAST AF171223 contre EST
Sauvegarde du contig
megaBLAST contig contre séquences génomiques de riz
Protéine prédite par GeneMark