Home

Federica EU

1/20

Giovanni Paolella » 4.Assemblaggio e annotazione di genomi (ENSEMBL)

Biotecnologie cellulari e molecolari

Assemblaggio e annotazione di genomi (ENSEMBL)

Prof. Giovanni Paolella

Dott. Leandra Sepe

Assemblaggio finale delle seqenze genomiche

L’ assemblaggio finale delle sequenze porta alla generazione della sequenza genomica continua, che, in condizioni ideali, è costituita da tante sequenze indipendenti quanti sono i cromosomi. In realtà questo risultato richiede molto lavoro, e viene raggiunto per gradi. Tipicamente i primi assemblaggi sono costituiti da contig di dimensioni molto grandi non connessi tra loro.

La sequenza completa

La sequenza genomica indicata come completa è allineata lungo i cromosomi, ma spesso ancora contiene piccole aree di sequenza non nota. Le regioni contenenti sequenze con alto grado di ripetitività raramente finiscono per essere completate in maniera soddisfacente. Nonostante questi limiti, le sequenze cosi’ ottenute corrispondono in pratica alla totalità delle regioni a singola copia nelle quali i geni strutturali e gli altri elementi funzionali sono contenuti.

Annotazione

Le sequenze assemblate sono analizzate con tecniche diverse per arrivare alla identificazione di geni e altri elementi funzionali, un processo definito annotazione.

L’annotazione usa procedure diverse che dipendono dal tipo di elemento funzionale, e integra annotazioni effettuate con metodiche manuali e computazionali. All’inizio l’annotazione manuale forniva dati di elevata qualità in tempi accettabili, ma con il crescere delle sequenze l’annotazione con metodiche computazionali ha finito largamente per prevalere, anche se l’annotazione manuale continua a garantire alcuni vantaggi in fase di rifinitura e per la realizzazione di specifici progetti.

Elementi strutturali e funzionali da annotare

Gli elementi funzionali che è possibile identificare all’interno del genoma sono molti. Tra essi:

regioni codificanti
siti di splicing, promotori, terminatori
RNA non codificanti (tRNA, rRNA, snRNA)
sequenze ripetute
altri elementi (telomeri, isole CpG)

Identificazione di geni

Il tipo probabilmente più importante di annotazione consiste nella identificazione dei geni strutturali corrispondente alle diverse proteine codificate in un genoma. Il modo più diretto consiste nella ricerca di similarità con cDNA o proteine note, ma questo permette l’identificazione solo di una frazione di essi. Altre tecniche di tipo predittivo possono essere utilizzate per la identificazione di geni non noti a partire dalla sequenza.

Geni ed elementi di controllo nei procarioti

Un gene procariotico è caratterizzato da una struttura piuttosto semplice, con una regione codificante continua e promotori e terminatori di solito ben definiti. La ricerca di “Open Reading Frames” (ORF) superiori ad una lunghezza minima definita, è di solito sufficiente a identificare la maggior parte dei geni. L’annotazione è completata utilizzando segnali specifici come siti di attacco per ribosomi, codoni di start e di stop e promotori.

Struttura di geni procariotici

Geni ed elementi di controllo negli eucarioti

L’annotazione di genomi eucariotici è più complessa perchè i geni sono codificati in genere in più esoni, anche molto distanti tra loro, e elementi come promotori e siti di splicing non sono caratterizzati da segnali di sequenza univocamente definiti e di facile identificazione. Per questo il riconoscimento dei geni deriva spesso dalla concomitante identificazione di piu’ elementi nelle corrette posizioni relative.

Struttura di geni eucariotici

Regioni codificanti

Le regioni codificanti possono essere identificate mediante allineamento con sequenze di cDNA o di proteine contenute in specifiche banche dati. Questa operazione ha la finalita’ di identificare sequenze gia’ note alle quali puo’ essere associata una funzione conosciuta o di ipotizzare una funzione per sequenze simili a quelle di proteine note. In alternativa possono essere utilizzate tecniche per l’identificazione diretta di sequenze codificanti attraverso il riconoscimento di caratteristiche specifiche come le frequenze relative dei codoni (codon usage) o la presenza di esameri specifici. Per una esempio di metodi per l’identificazione di geni, vedi qui.

Siti di splicing ed altri elementi

Siti di splicing, promotori, terminatori ed altre sequenze funzionali, sono caratterizzati dalla presenza di specifici motivi di sequenza, come GT e AG presenti all’inizio e alla fine di un introne, che non sono però sufficientemente selettivi da poter essere trovati solo nelle giunzioni introne-esone. La loro identificazione dipende percio’ dall’uso di algoritmi specifici, che integrano conoscenze di tipo diverso e che però identificano correttamente questi elementi solo in una percentuale di casi.

RNA non codificanti e sequenze ripetute

Gli RNA non codificanti (rRNA, tRNA, snRNA ed altri) possono essere identificati per similarità con quelli noti, o per la combinazione di caratteristiche comuni come la struttura secondaria e la presenza di basi conservate.

In maniera simile, le sequenze ripetute possono essere identificate sulla base della similarità con consensus ottenute da sequenze gia’ note, o per la loro presenza in copie ripetute nel genoma.

Altre caratteristiche

Altre caratteristiche da annotare sono specifici elementi funzionali come regioni di interazione con la matrice nucleare o isole CpG, ed altre strutture non geniche presenti nella sequenza genomica.

Risorse online per l’accesso a dati genomici

Il lavoro di mappatura, sequenziamento e annotazione dei genomi, soprattutto eucariotici, ha prodotto una notevole massa di dati, che complessivamente costituiscono una descrizione completa, strutturale e funzionale, del genoma dei diversi organismi. Questi dati possono risultare di grande aiuto alla sperimentazione, e, per facilitare l’accesso, sono stati riuniti in collezioni diverse, messe a disposizione della comunità scientifica come risorse accessibili via web. Queste collezioni includono le mappe fisiche e genetiche prodotte nel corso del sequenziamento, ma anche ‘browser’ genomici, sofisticati strumenti che mettono a disposizione le varie annotazioni sotto forma di pagine web in cui i vari elementi annotati sono mostrati con riferimento alla loro locazione genomica.

Banche dati con mappe genomiche

Il lavoro di mappatura dei genomi ha prodotto mappe genomiche con varia risoluzione, disponibili, oltre che per il genoma umano, per un gran numero di altri organismi di interesse medico o industriale, o usati come sistemi modello come Drosophila, lieviti, ecc. Questi dati sono stati spesso integrati tra loro e sono disponibili sotto forma di banche dati accessibili via web.

Genome Data Base (GDB)

GDB contiene mappe generate nel corso del sequenziamento genomico umano da diversi gruppi di ricerca. Le mappe sono di tipo citogenetico, ottenute da studi di linkage, quelle prodotte a partire da ibridi di radiazione e quelle da STS. Le mappe vengono visualizzate in maniera integrata, insieme con altre annotazioni relative a segmenti genomici come geni, marker citogenetici, sequenze complementari ad EST, regioni ripetute, e a siti variabili come SNP e RFLP.

eGenome

eGenome integra mappe umane di diversa origine, riferite direttamente alla sequenza genomica oggi nota, assegnando i marker alle posizioni fisiche ogni volta che ciò risulta possibile. La visualizzazione mostra in modo contestuale altre annotazioni riferite alla regione del marker, come SNP, Unigene Clusters, sequenze di DNA.

Mappe di altri vertebrati

MGD (Mouse Genome Database) è una collezione di dati di mapping genetico del genoma di topo, uniti a sequenze ed altre informazioni sul ruolo funzionale dei geni. La collezione è parte di una più ampia banca dati, chiamata MGI (Mouse Genome Informatics), che include informazioni su sequenze genomiche, espressione genica e dati proveienti da studi sulla biologia di malattie come i tumori. In modo simile, il Rat Genome Database (RDG) include mappe genomiche di ratto assieme a dati di sequenza, geni ed altre informazioni.

Browser genomici

I browser genomici sono interfacce web collegate a banche dati contenti le sequenze prodotte dai vari progetti di sequenziamento genomico e le relative annotazioni. Attraverso di essi è possibile studiare l’anatomia dei genomi a vari gradi di dettaglio, fino alla sequenza, visualizzando allo stesso tempo tutte le caratteristiche strutturali e funzionali disponibili per quel tratto di genoma. In aggiunta, per ciascun tratto di DNA è possibile visualizzare dati di mapping, qualora disponibili.

I browser genomici più diffusi sono:

Ensembl disponibile al sito http://www.ensembl.org

UCSC disponibile su http://genome.ucsc.edu

Ensembl

Ensembl è stato sviluppato a partire da un progetto a cui hanno preso parte EMBL-EBI e Sanger Institute, finalizzato alla produzione di un sistema capace di eseguire l’annotazione automatica dei genomi eucariotici e di fornire la visualizzazione dei dati prodotti. Il software che esegue l’ annotazione è concepito per seguire di pari passo la produzione dei dati di sequenziamento. Il browser consente di visualizzare ed analizzare geni, trascritti, collezioni di EST ed altri dati genomici e di analizzarne l’organizzazione sul genoma.

ENSEMBL 2007

UCSC

UCSC contiene una vasta collezione di sequenze genomiche, da quelle di vertebrati a quelle di insetti e nematodi, e include dati di espressione, di omologia e informazioni sulle mappe disponibili. Il browser consente di selezionare cromosomi e scorrere lungo le sequenze scegliendo il livello di dettaglio, di visualizzare le informazioni disponibili in modo integrato, nonchè di correlare le informazioni in modi diversi evidenziando somiglianze all’interno di sottogruppi di geni.

UCSC update 2007