Forum: Risultati della ricerca

Classe delle Lauree in Scienze Biologiche

Forum: Risultati della ricerca

Da 1 a 1 di 1

Forum > Corso 2010/2011 > Esercizio 1 (proteina a funzione ignota TMEM5)

Autore

Intervento

Prof. Riccardo Percudani
docente

	Esercizio 1 (proteina a funzione ignota TMEM5)	Rispondi
	18/10/2010 16:20	Invia email

Analisi bioinformatica della sequenza nucleotidica a funzione ignota NM_014254.

Collegarsi alla banca dati dell’NCBI (National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/). Cercare l’accession number NM_014254. Osservare il risultato e seguire il link alla banca dati delle sequenze di acidi nucleici (“Nucleotide”).

Record Genbank. Leggere l’informazione del record (entry) Genbank. L’accession number si riferisce ad una sequenza di mRNA di 1451 nucleotidi (campo “LOCUS”), proveniente da Homo sapiens (campo “ORGANISM”). Osservare l’informazione bibliografica associata al record (campo “REFERENCE”). La sequenza è riportata (1) in uno studio epidemiologico sulla successo di cessazione dal fumo di sigaretta e (2) in un articolo riportante l’individuazione di proteine trans membrana di tipo II (vedere la classificazione delle proteine trans membrana in wikipedia: http://en.wikipedia.org/wiki/Transmembrane_protein).

Sequenza codificante. Osservare ora la Tabella delle caratteristiche (“FEATURE TABLE”). Alla sequenza è associato un gene definito TMEM5 ("transmembrane protein 5"). La sequenza codificante (CDS, CoDing Sequence) del gene è compresa tra i nucelotidi 105..1436. L’intervallo è continuo perché nei record ad mRNA non sono riportati gli introni. Alla fine della feature table, in corrispondenza del campo ORIGIN, si legge la sequenza nucleotidica(5’->3’). Trasformare la sequenza in formato FASTA. Recuperare la CDS e trasformarla in formato FASTA. Notare la lunghezza della sequenza codificante (1332 bp, compreso il codone di stop). A quanti amino acidi corrisponde questa CDS? Nb: usare un editor di testo come notepad++ per manipolare le sequenze.

Proteina. Nel campo CDS seguire il link “protein_id”, per ottenere la sequenza proteica (443 aa). Salvare la sequenza proteica in formato FASTA. Seguire il link Blink (Blast Link) per osservare proteine simili in altri organismi.

Come sono annotate le proteine simili in banca dati?

In quali organismi sono presenti?

Per ottenere una lista più chiara selezionate solo le sequenze “refseq” da “Choose Display Option. Quanti geni sono presenti nei vari organismi?.

Caratteristiche chimico-fisiche. Esaminare le caratteristiche chimico-fisiche della proteina attraverso il programma Protparam .( http://www.expasy.ch/tools/protparam.html). Notare il peso molecolare (massa molecolare c.a. 51 KDa), il punto isoelettrico (8.57) corrispondente ad una proteina leggermente basica, la prevalenza di leucina (11.3 %) tra gli amino acidi, e il coefficiente di estinzione di 102830.

Record Gene. Osservare la localizzazione del gene nel genoma umano (Chr 12q14, from base 64173637 to 64202887) Dedurre la struttura introni esoni record gene. Notare che la definizione di esone non coincide con la definizione di sequenza codificante. Dal record genomico si ricavano i seguenti confini per gli esoni:

mRNA join(1..273,1163..1318,5114..5216,22235..22549,

25378..25548,28819..29251).

CDS             join(105..273,1163..1318,5114..5216,22235..22549,

                     25378..25548,28819..29236)

Sono quindi presenti 6 esoni e 5 introni. Dai confini della CDS si ha che la 5’-UTR comprende le posizioni 1..104. La 3’-UTR comprende le posizione da 29237.. 29251.

Analisi Blast. Utilizzare la sequenza proteica in FASTA per una ricerca di omologia usando blastp (http://blast.ncbi.nlm.nih.gov/Blast.cgi). Quante sono le hit ottenute? Quante sono le hit con somiglianza significativa (E<10^-5)?. In quali organismi?

Ripetere la ricerca selezionando la banca dati “REFSEQ”. Quante sono le hit ottenute? In quali organismi?. NB. Selezionare il campo taxonomy dei risultati per una classificazione dei risultati nei diversi organismi.

Selezione delle sequenze. Notare che alcune sequenze hanno lunghezze diverse rispetto a quella tipica per queste proteine (c.a. 440 aa). Questo può avere un significato biologico o derivare da errori nella predizione dei confini del gene. Selezionare sequenze rappresentative per un allineamento multiplo. Selezionare le sequenze dei seguenti organismi:

transmembrane protein 5 [Homo sapiens] - mammifero

transmembrane protein 5 [Mus musculus] - mammifero

similar to type II membrane protein [Gallus gallus] - uccello

transmembrane protein 5 [Xenopus laevis] - anfibio

transmembrane protein 5 [Danio rerio] - pesce

hypothetical protein BRAFLDRAFT_66489 [Branchiostoma floridae] - cefalocordato

conserved hypothetical protein [Ixodes scapularis] - artropode

hypothetical protein [Monosiga brevicollis MX1] – choanoflagellato (non metazoo).

Salvare le sequenze in formato FASTA. Modificare i nomi delle sequenze in modo da rendere riconoscibile l’organismo di provenienza.

Allineamento multiplo. Usare il programma clustalX per l’allineamento multiplo. Caricare le sequenze e allinearle con il comando “do complete alignment”. Il file con le sequenze allineate (“.aln”) può venire visualizzato con il programma “GeneDoc”.

Analisi dell’allineamento multiplo. Usare file->new, file->import per importare le sequenze in GeneDoc. Notare l’ombreggiatura (“shading”) in nero e in grigio delle colonne delle sequenze. Sono presenti blocchi conservati nell’allineamento? In che porzione delle proteine? Impostare la visualizzazione per proprietà aminoacidiche (tasto “P”), selezionando il livello 1 (idrofobici/polari). Notare la regione idrofobica N terminale.

Osservare la matrice delle somiglianze. Osservare l’identità percentuale (report->statistics) della sequenza umana rispetto alle sequenze degli altri organismi (es: uomo-topo 83%, uomo-zebrafish 53%). Queste relazioni sono compatibili con una relazione di ortologia?

Distanze genetiche e albero evolutivo. In clustalx selezionare dal menu “Trees” la correzione delle distanze e l’esclusione delle posizioni con gap. Nelle opzioni di output inserire la “Phylip distance matrix”. Lanciare l’analisi filogenetica (Trees->draw N-J tree). Esaminare il file con le distanze genetiche (“.dst”). Osservare la distanza della sequenza umana rispetto alle altre sequenze (espressa in mutazioni / sito). Notare che le sequenze con minore identità rispetto all’uomo risultano in proporzione molto più distanti (es: uomo-topo 0.144, uomo-zebrafish 0.537). Calcolare il rate evolutivo per

uomo-topo (separazione c.a. 80 My) = 0.144 / (2*80)= 9 x 10^-4 mutazioni / (sito * My) [9 x 10^-2 PAM/ My]

uomo-zebrafish (separazione c.a. 400 My) = 0.537/(2*400) = 7 x 10^-4 mutazioni / (sito * My) [7 x 10^-2 PAM/ My]

Nell’ipotesi che il gene si comporti approssimativamente come orologio molecolare, calcolare il tempo di separazione di:

uomo-Xenopus (anfibi)

uomo-Anfiosso (cefalocordati)

Analisi dell’albero filogenetico. L’analisi precedente con clustalx, oltre ad un file di distanze (“.dst”), ha prodotto un albero filogenetico (“.ph) che mette in relazione le sequenze in base alle distanze genetiche, secondo il metodo di Neighbour-joining. L’albero può essere visualizzato con il programma Treeview o il programma FigTree. La visualizzazione dell’albero può essere polarizzata o radiale. La visualizzazione radiale è adatta nel caso non si conosca la radice dell’albero. Visualizzare l’albero in forma radiale e osservare l’ordine di diramazione dei vari geni.

L’ordine di diramazione è in accordo con la filogenesi degli organismi?

Dalla barra di scala (che indica mutazioni/sito), è possibile mettere in relazione la distanza dei segmenti sull’albero con la distanza filogenetica.
Qual è la distanza sull’albero tra le sequenze umane e di pesce?

Estensione della ricerca di omologia di sequenza con PSI-Blast. Nessuna delle sequenze omologhe a TMEM5 risulta caratterizzata funzionalmente. In questo caso una ricerca di omologia con PSI-Blast potrebbe estendere la possibilità di individuare sequenze omologhe e quindi di avere suggerimenti sulla funzione. PSI-Blast (Position Specific Iterated Blast) usa le sequenze della prima iterazione per costruire una matrice specifica per la famiglia della proteina di interesse e utilizzare questa matrice al posto della Blosum62 per le successive ricerche. Il procedimento può essere ripetuto (iterato) includendo le nuove sequenze trovate per costruire nuove matrici e effettuare nuove ricerche. Procedimento:

· Fare una prima ricerca di omologia con un limite di “target sequenze” di 5000.

· Formattare per PSI-Blast con una soglia di inclusione (E) di 10^-5

· Lanciare una seconda iterazione con la nuova matrice.

o Quante sono le sequenze nuove trovate?
Come sono definite?

· Lanciare una terza iterazione con la nuova matrice.

o Quante sono le sequenze nuove trovate?
Come sono definite?

· Ripetere il procedimento fino all’esaurimento dello spazio di ricerca

La ricerca (RID=EN1BWGJS014) trova 4 sequenze “Refseq” paraloghe a TMEM5 in Homo sapiens (“Exostosine”: NP_000118, NP_000392, NP_004446, NP_001431). La regione di omologia tra la sequenza TMEM4 e le Exostosine riguarda una porzione tra circa 100 e 200 aa.

Il record della sequenza per EXT1 riporta la presenza di due domini:

     Region          110..396

                     /region_name="Exostosin"

     Region          480..729

                     /region_name="Glyco_transf_64"

Allineo Le sequenze di exosotsine e isolo con GenDoc il solo dominio Exostosinico (110-396). Allineo le sequenze TMEM5 con questo dominio usando CLUSTAL. L’allineamento multiplo presenta alcuni blocchi conservati.

Analisi dei domini conservati. Dal momento che il dominio Exostosin è presente nella banca dati di domini (http://pfam.sanger.ac.uk/family/PF03016.8), è atteso che una ricerca con la proteina fornisca uno score significativo con questo dominio. Una ricerca con TMEM5 nella banca dati pFAM riporta una somiglianza significativa (E=10^-5) con le exostosine. Non sono riportati altri domini con somiglianza significativa.

Analisi dell’espressione del gene. Il record “Unigene” di TMEM5, consente di vedere il Profilo di espressione del gene dedotto dalle EST (EST Profile). Si osserva una espressione del gene in particolare in: bone (55 TPM) e cervix (62 TPM) e, tra i tessuti patologici nel condrosarcoma (72 TPM).

Analisi della struttura trans membrana. La proteina TMEM5 è definita trans membrane protein. Per verificare la struttura transmebrana di una proteina si possono utilizzare diversi predittori. TOPpred predice due possibili eliche trans membrana: 1 8 - 28 (Certain) e 140 - 160 (Putative). TMPred predice 2 modelli alternativi, uno con una singola elica e uno con 2 eliche. Topcons una sola elica di membrana con topologia N-in C-out.

Analisi della localizzazione cellulare. La localizzazione cellulare può essere prevista in base alla presenza di segnali che determinano l’indirizzamento della proteina ai diversi compartimenti cellulari. Un discriminante iniziale delle vie di localizzazione cellulare è la presenza di un peptide segnale (signal peptide) o ancora segnale (signal anchor) in grado di indirizzare la proteina verso la via secretoria. Utilizziamo SignalP per individuare la presenza di segnali della via secretoria.

La distinzione di un peptide segnale da un ancora segnale può essere complicata dal punto di vista informatico. Esaminare il record PubMed per esaminare le evidenze della localizzazione trans membrana della proteina.

Ricerca con modelli markoviani (HMM-HMM). Il programma HHpred consente di identificare omologie distanti tra famiglie di proteine. Le proteine omologhe alla proteina in input sono utilizzate per la creazione di un modello markoviano che viene poi allineato rispetto ad una libreria di modelli markoviani di altre famiglie. La ricerca in Pfam individua con una significatività elevata somiglianza con le exostosine (E=10^-17) e con una minore significatività somiglianza con altre glicosil-transferasi.

Riconoscimento del fold. Utilizzo Phyre (http://www.sbg.bio.ic.ac.uk/~phyre) per individuare ripiegamenti compatibili con la sequenza TMEM5. Il risultato mostra che TMME5 può essere assumere la struttura tipica di diverse glicosil-transferasi (09d7f92152c17fdb).

Predizione della struttura secondaria. Utilizzare Jpred ( http://www.compbio.dundee.ac.uk/www-jpred/ ) per una predizione della struttura secondaria basata sulle reti neurali

Allineamento strutturale. Utilizzare l'allineamento ottenuto con HHPred per allineare con il sistema dei profili la proteina a struttura nota 2NZW. Utilizzare Espript per un allineamento decorato con le strutture secondarie.