Esercitazione: Banche dati
Prof. Giovanni Paolella
Dott. Leandra Sepe
In questa esercitazione ti verrà richiesto di ottenere la sequenza e la CDS (sequenza codificante) del gene p27Kip1 umano.
A tale scopo utilizzerai SRS (Sequence Retrieval System), un sistema che consente di interrogare banche dati via WEB e di integrare record di diversi database. Consulterai in particolare i DB:
Imparerai ad eseguire diversi tipi di query a seconda del risultato che vuoi ottenere, e ad utilizzare correttamente tutte le opzioni di ricerca che SRS mette a disposizione, per esempio:
Eseguirai poi una ricerca combinata di p27Kip1 in banche dati diverse
Alla fine dell’esercitazione dovresti essere in grado di avere informazioni dettagliate sul gene in esame, di ottenere la sequenza, la CDS, l’mRNA. Potrai poi lavorare con le sequenze ottenute utilizzando i programmi studiati fino a questo momento
Per accedere a SRS, vai all’indirizzo http://bioinfo.ceinge.unina.it ed esegui il login come indicato. Segui il link SRS presente sulla barra di sinistra. Osserva la home page in modo da acquisire familiarità col sistema e poi seleziona il link information per avere un’idea del numero e del tipo di banche dati accessibili attraverso SRS.
I principali vantaggi offerti da SRS derivano dalla possibilità di eseguire ricerche in uno o più campi di una o più banche dati, e di permettere una integrazione tra le diverse banche dati sfruttando i ‘collegamenti’ esistenti tra i record di diversi database. SRS è infatti in grado di interfacciarsi con molte banche dati, alcune contenenti sequenze, altre dati alquanto diversi come referenze bibliografiche, strutture tridimensionali di proteine, informazioni su malattie genetiche correlate.
Per effettuare la ricerca della sequenza di p27kip1, può esserti utile ricordare che la banca dati EMBL raccoglie sequenze nucleotidiche determinate nei laboratori di tutto il mondo, e che, per ciascun gene, non è garantita l’unicità; infatti, oltre salla sequenza genica e all’mRNA, possono anche esserci frammenti nucleotidici di diversa lunghezza. Spesso è quindi conveniente cercare prima la sequenza proteica in un database meno ridondante come SWISSPROT e risalire poi alla corrispondente sequenza nucleotidica contenuta in EMBL; in questo modo il numero di record da analizzare potrà essere più contenuto.
Procedi dunque selezionando, in alto nella home page, la voce Select Databanks e subito dopo il DB Uniprot/Swissprot che contiene, come detto, sequenze aminoacidiche. Nota che se passi la freccia del mouse sul nome dei database ottieni una loro breve descrizione. Cliccando sulla voce Standard Query Form aprirai la pagina di ricerca standard. Come puoi vedere, quattro campi permettono di eseguire ricerche più o meno complesse: All text indica che la ricerca verrà eseguita in tutti i campi di ciascun record. E’ possibile, però, cambiare All text in uno qualsiasi degli altri campi disponibili per poter eseguire una ricerca mirata. SRS permette di cercare contemporaneamente in più campi del DB (i quattro campi di ricerca centrali).
Introduci nel campo description ‘p27kip1′ e nel campo Organism Name ‘human’. Esegui la ricerca cliccando su Search. Tieni presente che SRS ‘conosce’ solo la lingua inglese, per cui ciascun termine per cui esegui una ricerca deve essere indicato in questa lingua.
Osserva i dettagli del record:
La voce Combine search terms with, sulla sinistra nella pagina iniziale, permette di combinare due o più campi di ricerca, per esempio:
Usa gli operatori AND, OR, BUT NOT per combinare le parole che costituiscono la stringa IL-1 alpha. Per esempio, nel campo description, le parole IL-1 e alpha possono esserere combinate con l’operatore & (AND – cioè vengono cercati i record che contengono nel campo description sia la parola IL-1 che alpha), oppure con l’operatore | (OR – cioè vengono cercati i record che contengono nel campo description o la parola IL-1 o la parola alpha), o con l’operatore ! (AND NOT – cioè vengono cercati i record che contengono nel campo description la parola IL-1 ma non la parola alpha). Se non usi nessun operatore, in modo predefinito viene usato l’operatore AND.
Prova ad eseguire ricerche combinate. Puoi usare IL-1 alpha o un qualsiasi altro gene di tuo interesse.
SRS è in grado di stabilire relazioni fra diversi tipi di database. Ad esempio gli si può chiedere qualcosa del tipo: trova tutte le sequenze di DNA dell’EMBL database che siano in relazione con il record SWISSPROT che stiamo esaminando. Per fare questo basta cliccare sul bottone Link presente sulla sinistra e selezionare poi il DB EMBL e, infine, cliccare su Search. Il risultato della ricerca è, come puoi vedere, una lista di cinque record EMBL elencati per codice di accesso. Per avere maggiori dettagli puoi cambiare il tipo di visualizzazione attraverso la sezione Display Options: prova a scegliere SeqSimpleView e applica le modifiche col bottone Apply Display Options.
Leggendo la descrizione dei cinque record appare evidente che il primo di essi contiene la sequenza del gene mentre il secondo record contiene l’mRNA con la CDS. Puoi vedere i dettagli di tutti i record, comprese le loro sequenze, cliccando sul link che contiene il nome del gene. A cosa corrispondono gli altri record? Puoi visualizzare le sequenze in formato FASTA selezionando i record corrispondenti attraverso la checkbox sulla loro sinistra, e cambiando, come prima, il tipo di visualizzazione (scegliere in questo caso FastaSeqs).
Hai cosi ottenuto:
La sequenza del gene, contenente, oltre alle regioni codificanti la proteina, anche eventuali regioni trascritte ma non tradotte (UTR) e gli introni.
La sequenza CDS contenente le sole regioni codificanti in successione.
Prova adesso ad allineare il gene e la sequenza codificante per individuare le giunzioni esoni-introni. Dovresti essere oramai in grado di sapere quali programmi utilizzare!
1. Genomi: organizzazione e complessità
4. Assemblaggio e annotazione di genomi (ENSEMBL)
5. Package e interfacce per la gestione di sequenze
7. Allineamento di sequenze mediante matrici di punti
10. Algoritmi dinamici di allineamento
11. Elettroforesi
13. Algoritmi di allineamento di tipo euristico
14. Preparazione di acidi nucleici
15. Cromatografia
18. Banche dati
20. Vitalità e proliferazione di cellule in coltura
21. Microscopia