Home

Federica EU

1/13

Giovanni Paolella » 18.Banche dati

Biotecnologie cellulari e molecolari

Banche dati

Prof. Giovanni Paolella

Dott. Leandra Sepe

Database flat e relazionali

Una banca dati è una collezione di informazioni, organizzate in maniera da facilitare l’accesso casuale, la ricerca ed eventualmente l’utilizzo a fini statistici.

Nelle banche dati più semplici, spesso definite flat, riconosciamo una singola tabella di dati, all’interno della quale, in ciascuna riga è conservato un elemento della banca (entry). Per ciascun elemento, caratteristiche differenti sono conservate in colonne successive. Questa impostazione e’ sufficiente nei casi più semplici, ma porta alla frequente ripetizione dello stesse informazioni in righe diverse, come si vede in figura 1.

Il modello relazionale, riportato in figura 2, supera questo limite separando le informazioni in tabelle differenti. Gli stessi dati di figura 1 sono organizzati in due tabelle corrispondenti a “persone” e “indirizzi”. Le entries presenti nelle due tabelle sono collegate da link tra identificativi numerici (id) assegnati a ciascuna entry, che vengono definiti relazioni. In figura 3 il processo viene ripetuto introducendo una nuova tabella di città.

Questo modello evita la ripetizione dei dati e permette una migliore organizzazione dei dati, perchè spinge ad identificare meglio le diverse entità presenti nella banca dati.

DB relazionale

La banca dati EMBL

La banca dati Embl è una collezione di sequenze nucleotidiche, organizzata in forma di database flat, dove ogni sequenza corrisponde ad una entry o record. La banca è iniziata nel 1981 per rispondere all’esigenza di collezionare in un unica sede tutte le sequenze nucleotidiche determinate sperimentalmente. Nei primi anni le sequenze contenute erano erano relative a cDNA completi o parziali, frammenti genomici, plasmidi, piccoli RNA, ma col passare del tempo le sequenze sono divenute progressivamente più lunghe e interi geni o piu’ampi frammenti genomici sono stati introdotti e il loro contributo alla banca dati è divenuto via via più rilevante. Il formato per la conservazione dei dati riflette l’esigenza di archiviare sequenze di tipo diverso, infatti ciascun record è organizzato in forma di file in cui, per ciascuna riga, un tag, costituito da una coppia di caratteri, definisce il tipo di informazione. Per ciascuna entry sono conservate diverse informazioni, relative a descrizione (DE), organismo di origine (OS, OC), referenze di letteratura (RX, RA, RL, RT), caratteristiche specifiche (FT), oltre alla sequenza stessa (SQ). Questa organizzazione presenta il vantaggio di essere molto flessibile, e di poter accomodare sequenze molto grandi o molto piccole, corredate di quantità variabile di informazione, in un sistema relativamente semplice, compatibile con I sistemi informatici disponibili all’epoca in cui la banca dati è stata fatta. Questa impostazione è utilizzata in diverse banche dati di sequenze, come Swissprot e Genbank.

EMBL db statistiche

Al momento della compilazione della lezione, la banca dati contiene 109,392,890 sequenze per un totale di 191,853,649,857 nucleotidi. Segui questo link per guardare il contenuto attuale. Quante sequenze e quanti nucleotidi trovi oggi? La dimensione media delle sequenze contenute è di poco meno di 2000 basi, ma la variabilità è notevole, essendo contenute nella banca dati, sia sequenze molto piccole come tRNa che sequenze di larghi frammenti genomici. Le sequenze introdotte nella banca dati sono state organizzate in sezioni chiamate divisions corrispondenti a organismi, come uomo e topo, o a gruppi di organismi, come roditori (che include i roditori diversi dal topo), mammiferi (diversi da uomo e altri contenuti in sezioni specifiche) e invertebrati. In aggiunta, altre sezioni sono state create per contenere grandi quantità di dati omogenei provenienti da progetti specifici, ad esempio EST, da sequenziamenti casuali di librerie di tag espressi, STS, per i marker utilizzati negli esperimenti di sequenziamento genomico, PAT, per sequenze contenute in richieste di brevetti. Sezioni di questo tipo sono state più recentemente rinominate classi. Questo link permette di farsi un’idea della distribuzione geografica dei campioni dai quali sono state ottenute le sequenze introdotte nella banca dati. Quali sono i paesi che hanno contribuito maggiormente? Ci sono campioni provenienti da regioni poco abitate e caratterizzate da condizioni estreme? Quali sono?

INSDC

L’anno successivo (1982), all’NCBI è iniziato un progetto analogo per la realizzazione della banca dati Genbank. In un primo momento le due banche dati tendevano a raccogliere prevalentemente dati prodotti in Europa (EMBL), e in America (Genbank), ma abbastanza presto ha prevalso una politica di collaborazione, nella quale i dati vengono tuttora scambiati periodicamente per garantire la consistenza delle due banche dati tra di loro. I dati contenuti per ciascuna sequenza sono sovrapponibili come di può vedere confrontando i record provenienti dall’ EMBL e da Genbank per la stessa sequenza.

Più recentemente una terza banca dati, ddbj, mantenuta al National Institute of Genetics in Giappone dal 1986, si è aggiunta alle prime due andando a costituire un terzo polo dedicato alla gestione congiunta della banca di sequenze. Questi accordi hanno portato alla nascita dell’ International Nucleotide Sequence Database Collaboration (INSDC), un progetto di collaborazione nel quale un comitato composto di membri delle tre organizzazioni partecipanti, si occupa di garantire il funzionamento della cooperazione.

Database secondari

I database descritti contengono dati provenienti direttamente da osservazioni sperimentali, e sono disegnati per contenere in maniera efficiente le sequenze, garantendo facilità nei search, e soprattutto nella aggiunta di nuovi dati sperimentali. Non sempre risultano però ottimali per rispondere a domande specifiche: ad esempio un search per globina genererà un gran numero di record, per globine di tipo diverso, sia geniche che da RNA o cDNA. Inoltre molti record conterranno sequenze parziali, ad esempio regioni geniche corrispondenti ad uno o più esoni, o regioni non tradotte di RNA, piuttosto che sequenze complete, come potrebbe forse essere atteso. Per rispondere a esigenze di questo tipo, sono stati prodotti molti database secondari, derivati cioè da dati primari, ma riorganizzati secondo specifiche esigenze scientifiche. Diversi database secondari, come RefSeq o locuslink sono riportati in figura e descritti in dettaglio nelle pagine successive.

Refseq

Refseq è una collezione non ridondante di sequenze di DNA , RNA e proteine, ottenuta a partire dai dati presenti nelle collezioni di sequenze pubblicamente disponibili. La collezione è disegnata per includere sequenze di molecole definite, come genomi virali, plasmidi, RNA, genomi batterici e eucariotici. I dati derivano da GenBank e vengono organizzati riunendo più sequenze originali in una unica entry, che corrisponde ad una molecola specifica di una data specie. Il consolidamento delle diverse sequenze in una unica entry di refseq avviene in un dato momento, ma può essere rivisto. Nella entry sono indicati links alle sequenze di origine in GenBank.

Locuslink

Locuslink è una banca dati nella quale sono annotate locazioni genomiche e le informazioni relative alla funzione del prodotto genico codificato, come il codice del gene (gene symbol) e il link a gene ontology (GO), dove sono indicati i processi e le vie metaboliche in cui il prodotto genico è coinvolto. La banca dati riporta inoltre link a OMIM, in cui sono conservate informazioni relative a malattie associate, varianti note e link alle sequenze in refseq. Di recente è stata sostituita da entrezgene che, come locuslink, contiene informazioni su nomenclatura, locazione, prodotti genici e loro attributi, citazioni bibliografiche, variazioni ed altro, con vari miglioramenti nell’ambito di aspetti tassonomici e integrazione con altre banche dati NCBI.

Article

Article 2

OMIM

Online Mendelian Inheritance in Man (OMIM) è una collezione di patologie genetiche a trasmissione ereditaria, che deriva da un testo, sviluppato da Victor A. McKusick e collaboratori, che ha rappresentato per anni un riferimento nel campo delle patologie ereditarie. All’NCBI il testo è stato riorganizzato sotto forma di banca dati, nella quale sono confluite le parti testuali e numerose altre informazioni, oltre a link a database collegati. E’ possibile effettuare ricerche per patologia e per gene. I dati sono organizzati in maniera simile al testo di origine, con campi per gene, ereditarietà, diagnostica, sintomatologia, modelli sperimentali, varianti geniche note e altro.

SNP

SNP è una collezione di variazioni di sequenza, osservate nel corso di progetti di sequenziamento genomico. Per ciascuna variazione, è conservata la regione che la include, utilizzata per identificare il sito anche in successivi assemblaggi genomici, oltre a informazioni relative alle diverse varianti osservate. Quando disponibili, sono inoltre presenti infromazioni relative alla frequenza allelica in specifiche popolazioni. I dati sono di grande aiuto per diagnostica genetica e per tipizzazione, come nel corso di indagini per attribuzione di paternità o per farmacogenomica.

Documentazione

dbEST

L’approccio al sequenziamento su larga scala di librerie di cDNA è iniziato prima del sequenziamento genomico, e continua tuttora in epoca postgenomica. Si basa sull’idea di identificare piccole sequenze (expressed sequence tags o EST) da librerie di cDNA provenienti da specifiche cellule o tessuti, che risultano diagnostiche della espressione di quelle sequenze in quella particolare situazione sperimentale. Oggi esistono un gran numero di librerie di EST umane, ma anche di topo e di molte altre specie. La quantità di sequenze disponibili è comparabile a quella delle sequenze genomiche ottenute da progetti di sequenziamento. Tali sequenze risultano molto utili per l’annotazione genomica di regioni trascritte e per lo studio funzionale di geni.

dbEST

Taxonomy e REBASE

Tra le banche dati disponibili troviamo anche un gran numero di informazioni di base, che hanno rilevanza in se, ma che sono anche utili per la gestione sistematica di dati presenti in altre banche dati. Esempi sono la sistematica delle specie presente in Taxonomy o le sequenze di riconoscimento che carraterizzano enzimi di restrizione. La prima è spesso usata per creare link in altre banche dati piuttosto che riportare la specie come testo. REBASE è anche usato da molti programmi per analisi di sequenza come collezione di siti di restrizione da ricercare all’interno di sequenze, ad esempio REMAP utilizzato in altra parte del corso. Medline contiene informazioni su articoli scientifici pubblicati su riviste specializzate in ambito medico e biologico, ed è spesso indicato come riferimento per articoli citati a supporto di dati contenuti in banche dati.

SRS

La grande abbondanza di banche dati disponibili, ciascuna con la propria interfaccia e con la propria modalità di ricerca, rende possibile ottenere informazioni dettagliate su sequenze, molecole, patologie, specie, elementi di regolazione, domini proteici e molto altro ancora.

La possibilità di utilizzare una interfaccia univoca sarebbe un vantaggio non trascurabile, così come la possibilità di effettuare la consultazione contemporanea di più banche dati. SRS (Sequence Retrieval System) è stato sviluppato con l’intento di uniformare le interfacce per l’accesso a collezioni diverse, attraverso la gestione di indici comuni. Questo meccanismo permette inoltre la ricerca contemporanea in banche diverse, anche attraverso la ricerca incrociata di caratteristiche presenti in banche differenti. In figura è rappresentato un esempio di uso del sistema in cui, a partire dalla ricerca per emoglobina A di coniglio, viene trovata la sequenza proteica nella banca dati Swissprot, e successivamente vengono ottenute le sequenze genomiche e i trascritti dalla banca dati EMBL.

Un esempio di uso di SRS è contenuto nell’esercitazione sulle banche dati.