M2R

Mini projets
M2R Biologie Structurale et Fonctionnelle
10 Septembre 2015

Projet 1 : annotation d'une séquence génomique
On vous donne une séquence de 6 kb du génome d'Arabidopsis. Vous devez identifier, localiser, et faire des hypothèses sur la fonction des gènes contenus dans ce fragment. Allez sur cette page.

Projet 2 : présentation du système ENSEMBL
ENSEMBL est un système de création et de gestions des annotations de génomes, associé à des outils de navigation. Beaucoup de génomes d'organismes modèles sont disponibles sur ENSEMBL, avec beaucoup d'informations sur l'origine de l'annotation, les alignements, les homologies, etc.
Vous explorerez ENSEMBL pour voir tout ce qui est proposé, comment on navigue sur un génome, comment on tire de l'information sur un gène... Il y a des tutoriaux à votre disposition sur le site.
Lors de la présentation orale, vous montrerez donc ce que vous avez appris sur l'intérêt et la façon d'utiliser ENSEMBL. Vous pourrez aussi préciser ce qui vous a plu ou déplu.

Projet 4 : annotation structurale
Dans la publication de Hammer et al. (Molecular Biology and Evolution, avril 2005), les auteurs localisent l'orthologue de THAP9 chez le zebrafish sur la séquence BX511023 aux positions : join (199271-199302, 200078-200230, 201890-204500).
Vous vérifierez que cette information est exacte d'une part, et essayerez de retrouver ce résultat par vous-même, en vous aidant notament de la demarche décrite dans la publication.
Vous vous assurerez que la protéine trouvée contient bien le motif caractéristique de la famille THAP (vous devrez donc trouver quel est ce motif...)

Projet 5 : analyse de séquences et recherche de motifs
Les séquences disponibles sur ce lien viennent d'être séquencées par votre équipe. Elles proviennent d'une banque d'ADNc de l'oomycète Aphanomyces euteiches.
Vous devrez assembler ces séquences en utilisant le logiciel d'assemblage CAP3 (site PBIL). Au préalable, il est conseillé d'enlever la queue polyA et de supprimer les séquence redondantes (outils dans EMBOSS)
Vous analyserez ces séquences pour savoir si elles ont des homologues chez d'autres organismes, si elles présentent un ou des domaines connus.
Vous essayerez d'établir un motif commun à ces séquences (avec des outils de recherche de motifs, d'alignement multiple), et rechercherez si ce motif est spécifique à Aphanomyces ? ou s'il est présent sur d'autres types d'organismes ?

Projet 6 : THAP chez Caenorhabditis ?
Chercher par tous les moyens à votre disposition s'il existe des protéines THAP chez le nématode. La réponse est oui, bien sûr, mais il faut les trouver !
Vous pouvez interroger toutes les banques disponibles (séquences et domaines). Une fois les protéines identifiées il faudra les comparer aux THAP des autres organismes, en les alignant. Vous vérifierez si ces séquences correspondent aux profils ou signatures des THAP, et essayerez éventuellement d'en définir de nouveaux.

Projet 8 : analyse d'une annotation existante
Sur le site du JGI, vous vous intéresserez à un morceau du scaffold 24 de Selaginella (de 286000 à 298000).
Vous essayerez de comprendre l'information qui vous est donnée dans le Browser, et analyserez par vous-même cette séquence afin de la ré-annoter.

Projet 9 : caractérisation du CBM des Oomycètes
La séquence O42830 a été la première séquence d'Oomycète identifiée comme possédant des domaines CBM. Vous caractériserez ce domaine (appelé fCBD ou CBM_1) chez les Oomycètes.
Pour cela, vous pourrez interroger les banques de domaines pour chercher toutes les séquences répertoriées comme contenant ce domaine, mais aussi faire de la recherche de similarité.
Vous ferez ensuite un alignement multiple du domaine, et caractériserez le domaine par un pattern, une matrice et/ou un profil. Vous comparerez votre modèle au domaine général CBM_1.
Vous pourrez aussi comparer votre matrice ou votre profil aux banques protéiques pour voir si vous trouvez d'autres séquences, ainsi que sur la base de données dédiée à l'Oomycète Aphanomyces AphanoDB.

Quelques liens utiles :

EBI
EMBnet
Ensembl
ExPASy
Génopole Toulouse
MaxPlanck
MEME Suite
NCBI
Pasteur
Pòle Bioinformatique Lyonnais
Prodom