Analisi
bioinformatica della sequenza nucleotidica a funzione ignota NM_014254.
Collegarsi alla banca dati
dell’NCBI (National Center for
Biotechnology Information, http://www.ncbi.nlm.nih.gov/).
Cercare l’accession number NM_014254.
Osservare il risultato e
seguire il link alla banca dati delle sequenze di acidi nucleici
(“Nucleotide”).
Record Genbank. Leggere l’informazione del record (entry)
Genbank. L’accession number si riferisce ad una
sequenza di mRNA di 1451 nucleotidi (campo “LOCUS”), proveniente da Homo sapiens
(campo “ORGANISM”). Osservare
l’informazione bibliografica associata al record (campo “REFERENCE”). La
sequenza è riportata (1) in uno studio epidemiologico sulla successo di
cessazione dal fumo di sigaretta e (2) in un articolo riportante
l’individuazione di proteine trans membrana di tipo II (vedere la
classificazione delle proteine trans membrana in wikipedia: http://en.wikipedia.org/wiki/Transmembrane_protein).
Sequenza codificante. Osservare ora la Tabella delle
caratteristiche (“FEATURE TABLE”). Alla sequenza è associato un gene definito TMEM5
("transmembrane protein 5"). La sequenza codificante (CDS, CoDing Sequence) del gene è compresa tra i
nucelotidi 105..1436. L’intervallo è
continuo perché nei record ad mRNA non sono riportati gli introni. Alla fine
della feature table, in corrispondenza del campo ORIGIN, si legge la sequenza nucleotidica(5’->3’). Trasformare la
sequenza in formato FASTA. Recuperare la CDS e trasformarla in formato FASTA.
Notare la lunghezza della sequenza codificante (1332 bp, compreso il codone di
stop). A quanti amino acidi corrisponde questa CDS? Nb:
usare un editor di testo come notepad++ per manipolare le sequenze.
Proteina. Nel campo CDS seguire il
link “protein_id”, per ottenere la
sequenza proteica (443 aa). Salvare la sequenza proteica in formato FASTA. Seguire il link Blink
(Blast Link) per osservare proteine simili in altri organismi.
Come sono annotate le proteine
simili in banca dati?
In quali organismi sono
presenti?
Per ottenere una lista più chiara selezionate solo le sequenze “refseq” da “Choose Display Option. Quanti geni sono presenti nei vari
organismi?.
Caratteristiche
chimico-fisiche. Esaminare le
caratteristiche chimico-fisiche della proteina attraverso il programma Protparam .( http://www.expasy.ch/tools/protparam.html). Notare il peso
molecolare (massa molecolare c.a. 51 KDa), il punto
isoelettrico (8.57) corrispondente ad una proteina leggermente basica,
la prevalenza di leucina (11.3 %) tra gli amino acidi, e il coefficiente di estinzione di 102830.
Record Gene. Osservare
la localizzazione del gene nel genoma umano (Chr 12q14, from base
64173637 to 64202887) Dedurre la struttura introni
esoni record gene. Notare che la definizione di
esone non coincide con la definizione di sequenza codificante. Dal
record genomico si ricavano i seguenti confini per gli esoni:
mRNA
join(1..273,1163..1318,5114..5216,22235..22549,
25378..25548,28819..29251).
CDS join(105..273,1163..1318,5114..5216,22235..22549,
25378..25548,28819..29236)
Sono quindi presenti 6 esoni e 5 introni. Dai confini
della CDS si ha che la 5’-UTR comprende le
posizioni 1..104. La 3’-UTR comprende le
posizione da 29237.. 29251.
Analisi Blast. Utilizzare la sequenza proteica in FASTA per
una ricerca di omologia usando blastp (http://blast.ncbi.nlm.nih.gov/Blast.cgi).
Quante sono le hit ottenute? Quante sono le hit con somiglianza
significativa (E<10-5)?. In quali organismi?
Ripetere la ricerca selezionando la banca dati “REFSEQ”.
Quante sono le hit ottenute? In quali organismi?. NB. Selezionare il campo taxonomy dei risultati per una classificazione dei
risultati nei diversi organismi.
Selezione delle
sequenze. Notare che alcune sequenze
hanno lunghezze diverse rispetto a quella tipica per queste proteine (c.a. 440
aa). Questo può avere un significato biologico o derivare da errori nella predizione dei confini del gene.
Selezionare sequenze rappresentative per un
allineamento multiplo. Selezionare le sequenze dei seguenti organismi:
transmembrane protein 5 [Homo sapiens] -
mammifero
transmembrane protein 5 [Mus musculus] -
mammifero
similar to type II membrane protein [Gallus
gallus] - uccello
transmembrane protein 5 [Xenopus laevis] -
anfibio
transmembrane protein 5 [Danio rerio] - pesce
hypothetical protein BRAFLDRAFT_66489
[Branchiostoma floridae] - cefalocordato
conserved hypothetical protein [Ixodes
scapularis] - artropode
hypothetical protein [Monosiga brevicollis
MX1] – choanoflagellato (non metazoo).
Salvare le sequenze in formato FASTA. Modificare i nomi delle sequenze in
modo da rendere riconoscibile l’organismo di provenienza.
Allineamento multiplo.
Usare il programma clustalX per
l’allineamento multiplo. Caricare le sequenze e allinearle con il comando “do
complete alignment”. Il file con le sequenze allineate (“.aln”) può venire
visualizzato con il programma “GeneDoc”.
Analisi
dell’allineamento multiplo. Usare
file->new, file->import per importare le sequenze in GeneDoc. Notare
l’ombreggiatura (“shading”) in nero e in grigio delle colonne delle sequenze.
Sono presenti blocchi conservati nell’allineamento? In che porzione delle
proteine? Impostare la visualizzazione per proprietà aminoacidiche (tasto “P”),
selezionando il livello 1 (idrofobici/polari). Notare la regione idrofobica N
terminale.
Osservare la matrice delle somiglianze. Osservare l’identità percentuale (report->statistics) della sequenza umana
rispetto alle sequenze degli altri organismi (es: uomo-topo 83%, uomo-zebrafish
53%). Queste relazioni sono compatibili
con una relazione di ortologia?
Distanze genetiche e
albero evolutivo. In clustalx
selezionare dal menu “Trees” la correzione delle
distanze e l’esclusione delle posizioni con gap. Nelle opzioni di output inserire la “Phylip
distance matrix”. Lanciare l’analisi filogenetica (Trees->draw N-J tree).
Esaminare il file con le distanze genetiche (“.dst”). Osservare la distanza
della sequenza umana rispetto alle altre sequenze (espressa in mutazioni / sito).
Notare che le sequenze con minore identità rispetto all’uomo risultano in
proporzione molto più distanti (es: uomo-topo 0.144, uomo-zebrafish 0.537).
Calcolare il rate evolutivo per
uomo-topo (separazione c.a. 80 My) = 0.144 / (2*80)= 9 x 10-4
mutazioni / (sito * My) [9 x 10-2 PAM/ My]
uomo-zebrafish (separazione c.a. 400 My) = 0.537/(2*400) = 7 x 10-4
mutazioni / (sito * My) [7 x 10-2 PAM/ My]
Nell’ipotesi che il gene si comporti approssimativamente come orologio
molecolare, calcolare il tempo di separazione di:
uomo-Xenopus (anfibi)
uomo-Anfiosso (cefalocordati)
Analisi dell’albero
filogenetico. L’analisi precedente
con clustalx, oltre ad un file di distanze (“.dst”), ha prodotto un albero
filogenetico (“.ph) che mette in relazione le sequenze in base alle distanze
genetiche, secondo il metodo di Neighbour-joining. L’albero può essere
visualizzato con il programma Treeview o il programma FigTree.
La visualizzazione dell’albero può essere polarizzata o radiale. La visualizzazione
radiale è adatta nel caso non si conosca la radice dell’albero. Visualizzare
l’albero in forma radiale e osservare l’ordine di diramazione dei vari geni.
L’ordine di diramazione è in
accordo con la filogenesi degli organismi?
Dalla barra di scala (che indica mutazioni/sito), è possibile mettere in
relazione la distanza dei segmenti sull’albero con la distanza filogenetica.
Qual è la distanza sull’albero tra le
sequenze umane e di pesce?
Estensione della
ricerca di omologia di sequenza con PSI-Blast. Nessuna delle sequenze omologhe a TMEM5
risulta caratterizzata funzionalmente. In questo caso una ricerca di omologia
con PSI-Blast potrebbe estendere la possibilità di individuare sequenze
omologhe e quindi di avere suggerimenti sulla funzione. PSI-Blast (Position Specific Iterated Blast) usa le sequenze
della prima iterazione per costruire una matrice
specifica per la famiglia della proteina di
interesse e utilizzare questa matrice al posto della Blosum62 per le
successive ricerche. Il procedimento può essere ripetuto (iterato) includendo
le nuove sequenze trovate per costruire nuove matrici e effettuare nuove
ricerche. Procedimento:
·
Fare una
prima ricerca di omologia con un limite di “target sequenze” di 5000.
·
Formattare
per PSI-Blast con una soglia di inclusione (E) di 10-5
·
Lanciare
una seconda iterazione con la nuova matrice.
o
Quante sono le sequenze nuove trovate?
Come sono definite?
·
Lanciare
una terza iterazione con la nuova matrice.
o
Quante sono le sequenze nuove trovate?
Come sono definite?
·
Ripetere
il procedimento fino all’esaurimento dello spazio di ricerca
La ricerca (RID=EN1BWGJS014) trova
4 sequenze “Refseq” paraloghe a TMEM5 in Homo sapiens (“Exostosine”: NP_000118,
NP_000392, NP_004446, NP_001431). La regione di omologia tra la sequenza TMEM4
e le Exostosine riguarda una porzione tra circa 100 e 200 aa.
Il record della sequenza per EXT1 riporta la presenza di due domini:
Region 110..396
/region_name="Exostosin"
Region 480..729
/region_name="Glyco_transf_64"
Allineo Le sequenze di exosotsine e isolo con GenDoc il solo dominio
Exostosinico (110-396). Allineo le sequenze TMEM5 con questo dominio usando
CLUSTAL. L’allineamento multiplo presenta alcuni blocchi conservati.
Analisi dei domini
conservati. Dal momento che il dominio Exostosin è
presente nella banca dati di domini (http://pfam.sanger.ac.uk/family/PF03016.8),
è atteso che una ricerca con la proteina fornisca uno score significativo con
questo dominio. Una ricerca con TMEM5 nella banca dati pFAM
riporta una somiglianza significativa (E=10^-5) con le exostosine. Non sono
riportati altri domini con somiglianza significativa.
Analisi
dell’espressione del gene. Il
record “Unigene” di TMEM5, consente di vedere il Profilo di espressione del
gene dedotto dalle EST (EST Profile). Si osserva una espressione del gene in
particolare in: bone (55 TPM) e cervix (62 TPM) e, tra i tessuti patologici nel
condrosarcoma (72 TPM).
Analisi della struttura trans membrana. La
proteina TMEM5 è definita trans membrane protein. Per verificare la struttura
transmebrana di una proteina si possono utilizzare diversi predittori. TOPpred predice due possibili eliche trans membrana: 1 8 - 28
(Certain) e 140 - 160 (Putative). TMPred
predice 2 modelli alternativi, uno con una singola elica e uno con 2 eliche. Topcons una sola elica di membrana con topologia N-in
C-out.
Analisi della localizzazione
cellulare. La localizzazione cellulare può essere prevista in base alla
presenza di segnali che determinano l’indirizzamento della proteina ai diversi
compartimenti cellulari. Un discriminante iniziale delle vie di localizzazione
cellulare è la presenza di un peptide
segnale (signal peptide) o ancora
segnale (signal anchor) in grado di indirizzare la proteina verso la via secretoria. Utilizziamo SignalP per individuare
la presenza di segnali della via secretoria.
La distinzione di un peptide segnale da un ancora segnale può essere
complicata dal punto di vista informatico. Esaminare il record PubMed per
esaminare le evidenze della localizzazione trans membrana della proteina.
Ricerca con
modelli markoviani (HMM-HMM). Il
programma HHpred consente di identificare
omologie distanti tra famiglie di proteine. Le proteine omologhe alla proteina
in input sono utilizzate per la creazione di un modello markoviano che viene
poi allineato rispetto ad una libreria di modelli markoviani di altre famiglie.
La ricerca in Pfam individua con una significatività elevata somiglianza con le
exostosine (E=10-17) e con una minore significatività somiglianza
con altre glicosil-transferasi.
Riconoscimento del fold.
Utilizzo Phyre (http://www.sbg.bio.ic.ac.uk/~phyre)
per individuare ripiegamenti compatibili con la sequenza TMEM5. Il risultato mostra
che TMME5 può essere assumere la struttura tipica di diverse glicosil-transferasi
(09d7f92152c17fdb).
Predizione della struttura secondaria. Utilizzare Jpred ( http://www.compbio.dundee.ac.uk/www-jpred/
) per una predizione della struttura secondaria basata sulle reti neurali
Allineamento strutturale. Utilizzare l'allineamento ottenuto con HHPred per allineare con il sistema dei profili la proteina a struttura nota 2NZW. Utilizzare Espript per un allineamento decorato con le strutture secondarie.
|