Bioinformatique
des Séquences
KBIA7AAU
TP
Recherche de similarités
Exercice 1 : les
séquences
D16349 et M81829 comparées lors du TD1
- Utilisez
le programme BLAST pour
comparer les séquences nucléiques avec blastn puis avec tblastx (vous devez cocher la case Align two or more sequences)
Quelles sont vos conclusions ?
- A partir
de la séquence D16349, faire un nucleotide blast (blastn), contre la banque nr.
- pourquoi a-t-on une série
de "t" minuscules dans le premier match ?
- dans quels organismes trouvez-vous des homologues ?
- trouvez-vous la séquence précédente M81829 ? pourquoi ?
- Relancer
Blastn en sélectionnant les séquences d'oiseaux (taper
"aves" dans Organism) et cocher la case Exclude Models (XM/XP)
Comparer les résultats en faisant un megablast ou "somewhat similar sequences (blastn)".
Quels critères utiliseriez-vous pour filtrer les résultats ?
- Lancer
BlastX contre la banque SwissProt
- pourquoi n'a-t-on pas d'alignement sur toute la séquence de départ ?
- à quoi correspondent les + dans l'alignement ?
- à quoi correspond ce morceau de séquence laladalatstl ?
- quels résultats vous paraissent significatifs ?
- un alignement avec une E-value de l'ordre de e-50, vous
parait-il un "bon" alignement ?
Exercice 2 : Analyse d'un EST de souris avec BLASTX
La séquence
EMBL W99073 est un EST de souris. Comparez cette séquence
nucléique à la banque SwissProt
Répondez aux questions suivantes :
- Est-ce-que cet EST correspond à une séquence codante ?
- Est-ce-que l'EST couvre la totalité de la séquence protéique
de souris ?
- Regardez les résultats : l'alignement est-il toujours en un
seul morceau ? Comment/où le voyez-vous ?
- Regardez en particulier l'alignement avec la séquence de
souris Q6PCZ4
- Cherchez dans l'annotation de la séquence à quoi correspond
ce domaine.
- Comparez avec les BLASTX sur l'EBI ou UniProt en sélectionnant chaque fois UniProt/SwissProt
- Vous pouvez aussi tester FASTA à l'EBI
Exercice 3 : Comparaison BLAST et BLAT
Sur le site
d'ENSEMBL, comparer la CDS d'une
peroxidase TPO humaine au génome humain, avec BLAST et avec BLAT.
Conclusions ?
Comparer
maintenant la CDS de TPO du panda contre le génome humain avec les 2 programmes.
Conclusions ?
Pour
information, la CDS humaine et celle de panda sont composées de 16
exons.
SOUS UNIX :
Vous allez vous connecter
au serveur de GenoToul genologin.toulouse.inra.fr
en tant que : lavande lilas liseron lotus lys muguet narcisse pensee pervenche reine renoncule rose sauge souci thym trefle
Sous Windows : Utilisez MobaXterm
Sous Linux : ssh -CX -l nom_fleur genologin.toulouse.inra.fr
Connection au serveur de calcul SLURM : srun --mem=4G --pty bash
Allez dans le répertoire work
Installation des modules :
(BLAST) module load bioinfo/ncbi-blast-2.13.0+
(BLAT) module load bioinfo/blatSuite.36
Récupérer la CDS de TPO de panda avec wget
Lancer BLAST (sortie en tabulation avec outfmt 7 et filtre avec dust) :
blastn -db /bank/ebi/ensembl/ensembl_homo_sapiens_genome/current/blast/ensembl_homo_sapiens_genome_primary_assembly -query pTPO.fasta -outfmt 7 -dust yes -out pTPO_vs_human.blastn
Ici on a lancé par défaut un Megablast
blastn -db /bank/ebi/ensembl/ensembl_homo_sapiens_genome/current/blast/ensembl_homo_sapiens_genome_primary_assembly -query pTPO.fasta -task blastn -outfmt 7 -dust yes -out pTPO_vs_human.blastn
Pour filtrer sur le chr2 : awk '{if (!(/^#/)&&($2==2)) print;}' pTPO_vs_human.blastn
blat /bank/ebi/ensembl/ensembl_homo_sapiens_genome/current/flat/ensembl_homo_sapiens_genome_primary_assembly -minIdentity=70 -out=blast9 pTPO.fasta pTPO_vs_human.blast9
Par défaut BLAT a pour minIdentity 90 donc on n'aurait aucun résultat
Exercice 4 : BLAST et BLAT sous Unix
Vous allez vous connecter
au serveur de GenoToul genologin.toulouse.inra.fr
en tant que : lotus lys muguet narcisse pensee pervenche reine renoncule rose sauge souci thym trefle tulipe violette
Sous Windows : Utilisez MobaXterm
Sous Linux : ssh -CX -l nom_fleur genologin.toulouse.inra.fr
Dans le répertoire /work vous disposez de 2 fichiers : marchantia.fasta et peroxibase.fa
Connection au serveur de calcul SLURM : srun --pty bash
Installation des modules :
(BLAST) module load bioinfo/blast-2.2.26
(BLAT) module load bioinfo/blatSuite.36
Faire
une base de données BLAST avec le fichier peroxibase.fa :
Commande : formatdb -i peroxibase.fa -p T
Faire un BLAST et un BLAT avec les séquences de marchantia contre la peroxibase :
blastall -p blastp -d peroxibase.fa -i marchantia.fasta -b1 -v1 -m 8 -o marchantia_vs_pb.blastp
blat -prot peroxibase.fa
marchantia.fasta
marchantia_vs_pb.psl
Regarder les résultats.
On peut, par exemple, filtrer les résultats de BLAT (avec au moins 80% de couverture sur la Query) :
cat
marchantia_vs_pb.psl
| awk '{if
((/^[0-9]+/)&&($10!=$14)&&($1/$11>0.8)&&($18==1))
print
$10,$14;}'
Exercice 5 : Assemblage et annotation
Un laboratoire qui étudie la réponse au stress salin du riz a
isolé un ADNc, dont voici la séquence :
>cDNA, 490 bases, Oryza sativa
CGAATGAACATCCAGAGGAAGCCAGGAGACTGGAACTGCAAATCGTGCCA
GCATCTCAACTTCAGCCGCCGGGACTACTGCCAGCGCTGCCATACCCCAC
GCCAGGACCTGCCGCTTGGCGATGGTTATGTCCCAGGTGGTGTGCTGTCC
TCCCTGGACATTCGCCCGGGCGACTGGTACTGCAACTGCGGCTATCACAA
CTTTGCTAGCCGAGCAAGCTGCTTCAAATGTGGCGCCATTGTGAAGGACC
TTCCAGCAGGCCAAGGTGGTGGTGTTGCCAACGGTGACTTTGCCCGTGCC
CTCGACAGCAGCGCAGTTCGTGCTGGGTGGAAGGCGGGTGACTGGATTTG
CACAAGGCCTGGTTGCAACGTCCACAACTTTGCAAGTAGGATTGAGTGCT
ATAGGTGCAATG
-
Sur le site du NCBI, cherchez si cette séquence est déjà connue et si elle a des homologues chez d'autres plantes
-
On va maintenant partir de l'ARNm AF171223 : est-il complet ?
-
Lancez un BLASTN contre la banque d'EST, en spécifiant l'organisme (rice), et cherchez des ESTs qui le
"prolongent".
- Essayez de reconstruire l'ADNc complet (programme CAP3 au PRABI dans Online Services) avec les séquences au moins à 99% d'identité
-
Avec le programme ORF finder du NCBI, cherchez la séquence codante (ORF). Notez-en les positions.
-
Lancez BLASTN avec le contig contre la banque nt/nr en sélectionnant l'organisme riz
- A partir du BLAST, regardez le nombre et la position exacte des exons alignés (sur la séquence AP000399 par exemple). Qu'en pensez-vous ?
- Comparez avec les résultats de Splign
Sauvegarde du contig