OBJECTIFS

Révision recherche dans les banques et alignements
Outils simples : recherche d'ORF, design de primers
Premiers pas avec BLAST (le cours viendra après)

Introduction :

Contexte Scientifique : vous venez d'arriver dans une équipe de recherche travaillant sur le gène BCL2 humain, impliqué dans différents cancers.
Une analyse fonctionnelle de BCL2 doit être réalisée chez la souris afin de mieux comprendre le rôle de la protéine BCL2.
Pour cela l'équipe souhaite tout d'abord obtenir un anticorps dirigé contre BCL2. Pour cela il est nécessaire i) d'identifier quel(s) domaine(s) de BCL2 sont les plus appropriés et ii) de produire ce(s) domaine(s) de façon hétérologue dans Escherichia coli, afin d'immuniser des lapins.
L'ensemble des exercices ci-dessous permettront de réaliser ces étapes.

Ci-dessous une sélection des sites Internet qui vous seront également nécessaires au cours des séances:

EBI European Bioinformatics Institute (EMBL, GB)
NCBI National Center for Biotechnology Information (NIH, USA)
Expasy Expert Protein Analysis System (Swiss Institute of Bioinformatics, Suisse)
PRABI Pôle Rhône-Alpes de Bio-Informatique (CNRS, Lyon)

Exercice 1 : Recherche dans les banques

Dans un premier temps, il est nécessaire de récupérer les séquences humaines codant BCL2.

Sur le site du NCBI,

recherchez les protéines codées par le gène BCL2.

Combien en avez-vous ? Sélectionnez celles qui proviennent du génome humain.

Vérifiez que ce sont toutes des BCL2 et non des protéines associées à BCL2. Regardez quelques entrées et l’endroit dans la fiche où le nom BCL2 apparaît.

Trouvez alors une façon de raffiner la requête.

Restreindre les résultats aux séquences de la banque RefSeq.

Vous devez maintenant avoir 2 isoformes NP_000624 et NP_000648 (et 6 séquences prédites avec des numéros d'accession en XP_ qu'on ne gardera pas)

A l’aide des programmes d’alignement de la suite EMBOSS, comparez les séquences protéiques des 2 isoformes. Quelles sont vont conclusions ?

Exercice 2 : Analyse d'une séquence protéique

Afin d'appréhender l'organisation structurale et la localisation cellulaire de BCL2, une analyse fine des séquences protéiques est nécessaire.
Nous allons étudier la plus longue des 2 séquences précédemment trouvées.

Allez sur le site d’ExPASy
Qu’est-ce-que le serveur Expasy ? Regardez les outils disponibles dans Proteins&Proteomes.
Calculez le Poids moléculaire et le Point isoélectrique de la protéine (Compute PI/MW ou ProtParam)
Cherchez les interactions avec STRING

Dans la liste des Ressources de l'EBI :
Testez Phobius pour la recherche de régions transmembranaires
Utilisez InterProscan pour interroger les banques de domaines et de motifs

Testez d’autres programmes de votre choix à l'EBI, sur ExPASy ou ailleurs
Listes d'outils sur Molbiol-Tools ou OBRC par exemple (structure secondaire, région transmembranaire, adressage, sites de clivage, phosphorylation...)

Comparaison avec l'annotation de la séquence
Comparez les résultats que vous avez obtenus avec l’annotation de la séquence, au format GenPept.
Regardez maintenant l’entrée P10415 sur UniProt (lien depuis EXPASy)

En regardant les positions des motifs que vous avez trouvés, quelles parties de la séquence n’appartiennent pas à un domaine ?

Les domaines protéiques peuvent être partagés par d'autres protéines. Donc les régions spécifiques sont plus probablement en dehors des domaines.

Parmi celles-ci, laquelle n’est pas commune à l’isoforme de cette protéine ?

Nous allons maintenant extraire la région d'intérêt de la séquence BCL2 pour définir la sonde qui sera utilisée pour cribler la banque ADNc.
Pour cela :

Utilisez le programme SeqRet de la suite EMBOSS pour extraire la région identifiée (OUTPUT FORMAT: FASTA, et renseignez le SEQUENCE RANGE dans les options)
Utilisez le programme Backtranseq (toujours dans EMBOSS) pour faire la traduction inverse. Ce logiciel génère l’ADNc le plus probable en fonction de l’usage des codons, à partir de la protéine.

Exercice 4 : Recherche d'ORF sur un ARNm

Afin de vérifier le(s) clone(s) obtenu(s) suite au criblage de la banque d'ADNc, un séquençage est réalisé et la séquence obtenue est disponible ici.

Vérifiez que l'ADNc isolé est celui correspondant à BCL2 par une analyse Blastn sur le site du NCBI (colonne de droite : Popular resources => BLAST => Nucleotide BLAST)

Maintenant que vous avez vérifié la qualité de la séquence nucléique de votre clone, il sera nécessaire de vérifier que l'ADNc code pour la protéine attendue. Pour cela, on déterminera l'ORF la plus probable de l'ADNc en recherchant les cadres de lecture présents.

Nous allons maintenant rechercher sur cette séquence, l'ORF la plus probable. Pour cela nous allons tester 2 outils :

SixPack sur EMBOSS en modifiant le paramètre : ORF MINIMUM SIZE: 100.

Regardez les traductions dans les différents cadres de lecture (les zones en majuscules sont des ORF potentielles (région d’un ATG à un Stop, plus grand que 100 aa). Quelle ORF vous paraît être la plus probable ? Pourquoi ?

ORF Finder au NCBI. Mettre 300nt comme taille minimale des ORFs. Interprétez le graphique obtenu.

Utilisez dans ORF Finder, l'option Blastp contre SwissProt et identifiez l'ORF la plus probable. Notez les positions de l'ORF

Exercice 5 : Définition d'amorces PCR

Vos analyses précédentes indiquent que le clone obtenu suite au criblage de votre banque d'ADNc humaine est correct et correspond à l'ARNm disponible dans les banques de données sous le numéro d'accession NM_000633. Il faut maintenant amplifier le domaine BCL afin de le cloner dans un vecteur d'expression d'E. coli, permettant la production hétérologue du domaine BCL de BCL2. Il faut donc définir des amorces pour faire une PCR.

Choix des amorces PCR

A partir de la séquence de l'ARNm NM_000633, faites une recherche d’amorces PCR avec le programme Primer3.
Paramétrez le programme pour sélectionner au mieux la zone que vous voulez amplifier (= le domaine BCL) en demandant des amorces de 20 nucléotides minimum
Il faudra définir la zone que vous voulez amplifier dans Targets. Le programme demande : position_début, longueur_de_la_zone.
Exemple: Targets : 40,180 <=> on veut amplifier depuis la position 40 jusqu'à la position 220 (40+180)

Comment feriez-vous pour vérifier la spécificité des amorces ?

Spécificité des amorces. Vérifiez la spécificité du couple d'amorces présentées ci-dessous.

sens : GAGTGGGATGCGGGAGATGT

reverse : GAAATCAAACAGAGGCCGCA
On utilisera pour cela à nouveau le programme Nucleotide BLAST au NCBI, en rentrant comme séquence requête les 2 amorces, séparées par une série de N : amorce_gaucheNNNNNNNNNNNNNNNNNNNNamorce_droite
Choisir dans Database Genomic+transcript => Human genomic plus transcript (cochez la case exclude model XM/XP = prédictions)
Choisir dans Program selection : "Somewhat similar sequences", et dans Parameters mettre la Expect threshold min à 1.

Après avoir identifié des sites de restriction compatible entre votre insert PCR et le vecteur d'expression d'E. coli, un clonage sera réalisé afin d'insérer le produit PCR dans le vecteur. Après production du domaine de façon hétérologue dans E. coli, la protéine recombinante purifiée sera injectée dans un lapin, afin de produire des anticorps dirigés contre le domaine BCL.

Exercice 6 : Etude du gène BCL2

En prévision d'une étude de la régulation du gène BCL2 humain, une comparaison entre l'ADNg de BCL2 et le(s) ARNm correspondants est réalisée.

A partir de l'entrée "Gene 596" sur le site du NCBI, visualiser la structure du gène BCL2 de l'homme. Qu'en pensez-vous?

Dans l'entrée Gene, récupérez la séquence d'ADNg NG_009361.1 correspondant au gène BCL2 ainsi que les séquences des ARNm correspondants (NM_000633, et NM_000657) au format FASTA.

Nous allons maintenant réaliser un alignement entre l'ADNg et l'ARNm de BCL2. Pour cela :

Utilisez le logiciel SIM4 (si vous avez un message d'erreur, rechargez la page ou allez dans Online Services => Other =>SIM4) et réalisez un alignement entre NG_009361.1 et NM_000633, ainsi que NG_009361.1 et NM_000657. Que pouvez-vous conclure ?
Vous pourrez aussi aligner les 2 ARNm entre eux avec les programmes d'alignement de la suite EMBOSS. Que pouvez-vous conclure?

BIOANALYSE L3 2B2M ET BCP

TP3 : Analyse de séquences et Biologie Moléculaire

OBJECTIFS