Bioinformatique des Séquences
KBIA7AAU

TP Recherche de similarités


    Exercice 1 : les séquences D16349 et M81829 comparées lors du TD1

  1. Utilisez le programme BLAST pour comparer les séquences nucléiques avec blastn puis avec tblastx (vous devez cocher la case Align two or more sequences)
    Quelles sont vos conclusions ?
  2. A partir de la séquence D16349, faire un nucleotide blast (blastn), contre la banque nr.
    - pourquoi a-t-on une série de "t" minuscules dans le premier match ?
    - dans quels organismes trouvez-vous des homologues ?
    - trouvez-vous la séquence précédente M81829 ? pourquoi ?
  3. Relancer Blastn en sélectionnant les séquences d'oiseaux (taper "aves" dans Organism) et cocher la case Exclude Models (XM/XP)
    Comparer les résultats en faisant un megablast ou "somewhat similar sequences (blastn)".
    Quels critères utiliseriez-vous pour filtrer les résultats ?
  4. Lancer BlastX contre la banque SwissProt
    - pourquoi n'a-t-on pas d'alignement sur toute la séquence de départ ?
    - à quoi correspondent les + dans l'alignement ?
    - à quoi correspond ce morceau de séquence
    laladalatstl ?
    - quels résultats vous paraissent significatifs ?
    - un alignement avec une E-value de l'ordre de e-50, vous parait-il un "bon" alignement ?



    Exercice 2 : Analyse d'un EST de souris avec BLASTX

La séquence EMBL W99073 est un EST de souris. Comparez cette séquence nucléique à la banque SwissProt

Répondez aux questions suivantes :



    Exercice 3 : Comparaison BLAST et BLAT

Sur le site d'ENSEMBL, comparer la CDS d'une peroxidase TPO humaine au génome humain, avec BLAST et avec BLAT.
Conclusions ?
Comparer maintenant la CDS de TPO du panda contre le génome humain avec les 2 programmes. Conclusions ?
Pour information, la CDS humaine et celle de panda sont composées de 16 exons.

SOUS UNIX :
Vous allez vous connecter au serveur de GenoToul genologin.toulouse.inra.fr
en tant que : lavande lilas liseron lotus lys muguet narcisse pensee pervenche reine renoncule rose sauge souci thym trefle
Sous Windows : Utilisez MobaXterm
Sous Linux : ssh -CX -l nom_fleur genologin.toulouse.inra.fr

Connection au serveur de calcul SLURM : srun --mem=4G --pty bash
Allez dans le répertoire work

Installation des modules :
(BLAST) module load bioinfo/ncbi-blast-2.13.0+
(BLAT) module load bioinfo/blatSuite.36
Récupérer la CDS de TPO de panda avec wget

Lancer BLAST (sortie en tabulation avec outfmt 7 et filtre avec dust) :
blastn -db /bank/ebi/ensembl/ensembl_homo_sapiens_genome/current/blast/ensembl_homo_sapiens_genome_primary_assembly -query pTPO.fasta -outfmt 7 -dust yes -out pTPO_vs_human.blastn
Ici on a lancé par défaut un Megablast
blastn -db /bank/ebi/ensembl/ensembl_homo_sapiens_genome/current/blast/ensembl_homo_sapiens_genome_primary_assembly -query pTPO.fasta -task blastn -outfmt 7 -dust yes -out pTPO_vs_human.blastn

Pour filtrer sur le chr2 : awk '{if (!(/^#/)&&($2==2)) print;}' pTPO_vs_human.blastn

blat /bank/ebi/ensembl/ensembl_homo_sapiens_genome/current/flat/ensembl_homo_sapiens_genome_primary_assembly -minIdentity=70 -out=blast9 pTPO.fasta pTPO_vs_human.blast9
Par défaut BLAT a pour minIdentity 90 donc on n'aurait aucun résultat


    Exercice 4 : BLAST et BLAT sous Unix

Vous allez vous connecter au serveur de GenoToul genologin.toulouse.inra.fr
en tant que : lotus lys muguet narcisse pensee pervenche reine renoncule rose sauge souci thym trefle tulipe violette
Sous Windows : Utilisez MobaXterm
Sous Linux : ssh -CX -l nom_fleur genologin.toulouse.inra.fr

Dans le répertoire /work vous disposez de 2 fichiers : marchantia.fasta et peroxibase.fa
Connection au serveur de calcul SLURM : srun --pty bash
Installation des modules :
(BLAST) module load bioinfo/blast-2.2.26
(BLAT) module load bioinfo/blatSuite.36
Faire une base de données BLAST avec le fichier peroxibase.fa :
Commande : formatdb -i peroxibase.fa -p T

Faire un BLAST et un BLAT avec les séquences de marchantia contre la peroxibase :
blastall -p blastp -d peroxibase.fa -i marchantia.fasta -b1 -v1 -m 8 -o marchantia_vs_pb.blastp
blat
-prot peroxibase.fa marchantia.fasta marchantia_vs_pb.psl
Regarder les résultats.
On peut, par exemple, filtrer les résultats de BLAT (avec au moins 80% de couverture sur la Query) :
cat marchantia_vs_pb.psl | awk '{if ((/^[0-9]+/)&&($10!=$14)&&($1/$11>0.8)&&($18==1)) print $10,$14;}'


    Exercice 5 : Assemblage et annotation

Un laboratoire qui étudie la réponse au stress salin du riz a isolé un ADNc, dont voici la séquence :

>cDNA, 490 bases, Oryza sativa
CGAATGAACATCCAGAGGAAGCCAGGAGACTGGAACTGCAAATCGTGCCA
GCATCTCAACTTCAGCCGCCGGGACTACTGCCAGCGCTGCCATACCCCAC
GCCAGGACCTGCCGCTTGGCGATGGTTATGTCCCAGGTGGTGTGCTGTCC
TCCCTGGACATTCGCCCGGGCGACTGGTACTGCAACTGCGGCTATCACAA
CTTTGCTAGCCGAGCAAGCTGCTTCAAATGTGGCGCCATTGTGAAGGACC
TTCCAGCAGGCCAAGGTGGTGGTGTTGCCAACGGTGACTTTGCCCGTGCC
CTCGACAGCAGCGCAGTTCGTGCTGGGTGGAAGGCGGGTGACTGGATTTG
CACAAGGCCTGGTTGCAACGTCCACAACTTTGCAAGTAGGATTGAGTGCT
ATAGGTGCAATG

  1. Sur le site du NCBI, cherchez si cette séquence est déjà connue et si elle a des homologues chez d'autres plantes

  2. On va maintenant partir de l'ARNm AF171223 : est-il complet ?

  3. Lancez un BLASTN contre la banque d'EST, en spécifiant l'organisme (rice), et cherchez des ESTs qui le "prolongent".

  4. Essayez de reconstruire l'ADNc complet (programme CAP3 au PRABI dans Online Services) avec les séquences au moins à 99% d'identité

  5. Avec le programme ORF finder du NCBI, cherchez la séquence codante (ORF). Notez-en les positions.

  6. Lancez BLASTN avec le contig contre la banque nt/nr en sélectionnant l'organisme riz

  7. A partir du BLAST, regardez le nombre et la position exacte des exons alignés (sur la séquence AP000399 par exemple). Qu'en pensez-vous ?

  8. Comparez avec les résultats de Splign








Sauvegarde du contig