Assemblaggio e annotazione di genomi (ENSEMBL)
Prof. Giovanni Paolella
Dott. Leandra Sepe
L’ assemblaggio finale delle sequenze porta alla generazione della sequenza genomica continua, che, in condizioni ideali, è costituita da tante sequenze indipendenti quanti sono i cromosomi. In realtà questo risultato richiede molto lavoro, e viene raggiunto per gradi. Tipicamente i primi assemblaggi sono costituiti da contig di dimensioni molto grandi non connessi tra loro.
La sequenza genomica indicata come completa è allineata lungo i cromosomi, ma spesso ancora contiene piccole aree di sequenza non nota. Le regioni contenenti sequenze con alto grado di ripetitività raramente finiscono per essere completate in maniera soddisfacente. Nonostante questi limiti, le sequenze cosi’ ottenute corrispondono in pratica alla totalità delle regioni a singola copia nelle quali i geni strutturali e gli altri elementi funzionali sono contenuti.
Le sequenze assemblate sono analizzate con tecniche diverse per arrivare alla identificazione di geni e altri elementi funzionali, un processo definito annotazione.
L’annotazione usa procedure diverse che dipendono dal tipo di elemento funzionale, e integra annotazioni effettuate con metodiche manuali e computazionali. All’inizio l’annotazione manuale forniva dati di elevata qualità in tempi accettabili, ma con il crescere delle sequenze l’annotazione con metodiche computazionali ha finito largamente per prevalere, anche se l’annotazione manuale continua a garantire alcuni vantaggi in fase di rifinitura e per la realizzazione di specifici progetti.
Gli elementi funzionali che è possibile identificare all’interno del genoma sono molti. Tra essi:
Il tipo probabilmente più importante di annotazione consiste nella identificazione dei geni strutturali corrispondente alle diverse proteine codificate in un genoma. Il modo più diretto consiste nella ricerca di similarità con cDNA o proteine note, ma questo permette l’identificazione solo di una frazione di essi. Altre tecniche di tipo predittivo possono essere utilizzate per la identificazione di geni non noti a partire dalla sequenza.
Un gene procariotico è caratterizzato da una struttura piuttosto semplice, con una regione codificante continua e promotori e terminatori di solito ben definiti. La ricerca di “Open Reading Frames” (ORF) superiori ad una lunghezza minima definita, è di solito sufficiente a identificare la maggior parte dei geni. L’annotazione è completata utilizzando segnali specifici come siti di attacco per ribosomi, codoni di start e di stop e promotori.
L’annotazione di genomi eucariotici è più complessa perchè i geni sono codificati in genere in più esoni, anche molto distanti tra loro, e elementi come promotori e siti di splicing non sono caratterizzati da segnali di sequenza univocamente definiti e di facile identificazione. Per questo il riconoscimento dei geni deriva spesso dalla concomitante identificazione di piu’ elementi nelle corrette posizioni relative.
Le regioni codificanti possono essere identificate mediante allineamento con sequenze di cDNA o di proteine contenute in specifiche banche dati. Questa operazione ha la finalita’ di identificare sequenze gia’ note alle quali puo’ essere associata una funzione conosciuta o di ipotizzare una funzione per sequenze simili a quelle di proteine note. In alternativa possono essere utilizzate tecniche per l’identificazione diretta di sequenze codificanti attraverso il riconoscimento di caratteristiche specifiche come le frequenze relative dei codoni (codon usage) o la presenza di esameri specifici. Per una esempio di metodi per l’identificazione di geni, vedi qui.
Siti di splicing, promotori, terminatori ed altre sequenze funzionali, sono caratterizzati dalla presenza di specifici motivi di sequenza, come GT e AG presenti all’inizio e alla fine di un introne, che non sono però sufficientemente selettivi da poter essere trovati solo nelle giunzioni introne-esone. La loro identificazione dipende percio’ dall’uso di algoritmi specifici, che integrano conoscenze di tipo diverso e che però identificano correttamente questi elementi solo in una percentuale di casi.
Gli RNA non codificanti (rRNA, tRNA, snRNA ed altri) possono essere identificati per similarità con quelli noti, o per la combinazione di caratteristiche comuni come la struttura secondaria e la presenza di basi conservate.
In maniera simile, le sequenze ripetute possono essere identificate sulla base della similarità con consensus ottenute da sequenze gia’ note, o per la loro presenza in copie ripetute nel genoma.
Altre caratteristiche da annotare sono specifici elementi funzionali come regioni di interazione con la matrice nucleare o isole CpG, ed altre strutture non geniche presenti nella sequenza genomica.
Il lavoro di mappatura, sequenziamento e annotazione dei genomi, soprattutto eucariotici, ha prodotto una notevole massa di dati, che complessivamente costituiscono una descrizione completa, strutturale e funzionale, del genoma dei diversi organismi. Questi dati possono risultare di grande aiuto alla sperimentazione, e, per facilitare l’accesso, sono stati riuniti in collezioni diverse, messe a disposizione della comunità scientifica come risorse accessibili via web. Queste collezioni includono le mappe fisiche e genetiche prodotte nel corso del sequenziamento, ma anche ‘browser’ genomici, sofisticati strumenti che mettono a disposizione le varie annotazioni sotto forma di pagine web in cui i vari elementi annotati sono mostrati con riferimento alla loro locazione genomica.
Il lavoro di mappatura dei genomi ha prodotto mappe genomiche con varia risoluzione, disponibili, oltre che per il genoma umano, per un gran numero di altri organismi di interesse medico o industriale, o usati come sistemi modello come Drosophila, lieviti, ecc. Questi dati sono stati spesso integrati tra loro e sono disponibili sotto forma di banche dati accessibili via web.
GDB contiene mappe generate nel corso del sequenziamento genomico umano da diversi gruppi di ricerca. Le mappe sono di tipo citogenetico, ottenute da studi di linkage, quelle prodotte a partire da ibridi di radiazione e quelle da STS. Le mappe vengono visualizzate in maniera integrata, insieme con altre annotazioni relative a segmenti genomici come geni, marker citogenetici, sequenze complementari ad EST, regioni ripetute, e a siti variabili come SNP e RFLP.
eGenome integra mappe umane di diversa origine, riferite direttamente alla sequenza genomica oggi nota, assegnando i marker alle posizioni fisiche ogni volta che ciò risulta possibile. La visualizzazione mostra in modo contestuale altre annotazioni riferite alla regione del marker, come SNP, Unigene Clusters, sequenze di DNA.
MGD (Mouse Genome Database) è una collezione di dati di mapping genetico del genoma di topo, uniti a sequenze ed altre informazioni sul ruolo funzionale dei geni. La collezione è parte di una più ampia banca dati, chiamata MGI (Mouse Genome Informatics), che include informazioni su sequenze genomiche, espressione genica e dati proveienti da studi sulla biologia di malattie come i tumori. In modo simile, il Rat Genome Database (RDG) include mappe genomiche di ratto assieme a dati di sequenza, geni ed altre informazioni.
I browser genomici sono interfacce web collegate a banche dati contenti le sequenze prodotte dai vari progetti di sequenziamento genomico e le relative annotazioni. Attraverso di essi è possibile studiare l’anatomia dei genomi a vari gradi di dettaglio, fino alla sequenza, visualizzando allo stesso tempo tutte le caratteristiche strutturali e funzionali disponibili per quel tratto di genoma. In aggiunta, per ciascun tratto di DNA è possibile visualizzare dati di mapping, qualora disponibili.
I browser genomici più diffusi sono:
Ensembl disponibile al sito http://www.ensembl.org
UCSC disponibile su http://genome.ucsc.edu
Ensembl è stato sviluppato a partire da un progetto a cui hanno preso parte EMBL-EBI e Sanger Institute, finalizzato alla produzione di un sistema capace di eseguire l’annotazione automatica dei genomi eucariotici e di fornire la visualizzazione dei dati prodotti. Il software che esegue l’ annotazione è concepito per seguire di pari passo la produzione dei dati di sequenziamento. Il browser consente di visualizzare ed analizzare geni, trascritti, collezioni di EST ed altri dati genomici e di analizzarne l’organizzazione sul genoma.
UCSC contiene una vasta collezione di sequenze genomiche, da quelle di vertebrati a quelle di insetti e nematodi, e include dati di espressione, di omologia e informazioni sulle mappe disponibili. Il browser consente di selezionare cromosomi e scorrere lungo le sequenze scegliendo il livello di dettaglio, di visualizzare le informazioni disponibili in modo integrato, nonchè di correlare le informazioni in modi diversi evidenziando somiglianze all’interno di sottogruppi di geni.
1. Genomi: organizzazione e complessità
4. Assemblaggio e annotazione di genomi (ENSEMBL)
5. Package e interfacce per la gestione di sequenze
7. Allineamento di sequenze mediante matrici di punti
10. Algoritmi dinamici di allineamento
11. Elettroforesi
13. Algoritmi di allineamento di tipo euristico
14. Preparazione di acidi nucleici
15. Cromatografia
18. Banche dati
20. Vitalità e proliferazione di cellule in coltura
21. Microscopia
Metodi per l'identificazione di geni