Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
I corsi di Scienze Biotecnologiche
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Giovanni Paolella » 16.Famiglie di proteine


Biotecnologie cellulari e molecolari

Famiglie di proteine

Prof. Giovanni Paolella

Dott. Leandra Sepe

Definizione di famiglie di proteine

Dall’allineamento di globine diverse provenienti da vari organismi, è evidente che esiste un alto grado di similarità tra di loro. Questo deriva dal fatto che l’evoluzione dei geni tende a procedere attraverso modificazioni successive; in sostanza le soluzioni trovate vengono riutilizzate per problemi diversi, piuttosto che generare altre soluzioni. Nell’esempio, si nota che le similarità sono maggiori tra alcune proteine come la globina alpha umana e di cavallo, o la beta umana e di cavallo. Questa considerazione permette di costruire un albero, che rappresenta la similarità mantenendo vicine le proteine più simili tra di loro. Distinguiamo due situazioni:

proteine ortologhe, che svolgono la stessa funzione in organismi diversi, come alfa globina umana e di cavallo. Vengono generate per duplicazione dell’intero genoma e modificate durante l’evoluzione delle specie.

proteine paraloghe, che svolgono funzioni simili nella stessa specie o in specie diverse, come globina alfa e beta. Vengono generate tipicamente per duplicazione genica. Hanno tipicamente un minor grado di similarità, che riflette il fatto che la duplicazione è avvenuta ben prima della separazione delle specie che le contengono.

Proteine simili costituiscono dei gruppi anche molto grandi che vengono definiti famiglie. Proteine appartenenti alla stessa famiglia sono quindi un gruppo monofilogenetico,e hanno un grado di somiglianza delle sequenze aminoacidiche abbastanza elevato da permettere la costruzione di un allineamento multiplo globale. Esempi di famiglie sono le globine, le proteasi a serina, le chinasi, le immunoglobuline. Attualmente il numero di famiglie di proteine note è di circa 10 mila, per esempio nel database Pfam è presente una lista di più di 8000 famiglie.

Come trovare famiglie di proteine

Proteine simili possono essere trovate attraverso l’uso dei tipici algoritmi di allineamento esaustivi, ma più spesso, data la necessità di cercare all’interno di collezioni di dati piuttosto ampie, si ricorre all’uso di programmi basati su algoritmi euristici come Fasta e Blast. La ricerca può essere effettuata partendo da una delle proteine della famiglia e ricercando tutte le proteine con un grado di similarità superiore ad una soglia. L’uso di matrici PAM o Blosum permette di tener conto della similarità funzionale tra amminoacidi, ma comunque questo approccio tende a trovare le proteine simili ad una specifica usata come query. Proteine appartenenti alla famiglia ma dissimili da quella query, possono facilmente sfuggire alla ricerca.

L’uso di matrici di pesi (weight matrix), consente di trovare similarità con un gruppo di proteine piuttosto che con una singola.

Matrici di pesi

La matrice (un esempio è riportato in figura) viene costruita a partire da un gruppo di proteine allineate e riportando, per ogni posizione, la frequenza di ciascun amminoacido. La matrice può essere utilizzata per la ricerca di ulteriori elementi della famiglia allineandola con la collezione di sequenze da cercare. Ciascuna sequenza da esaminare viene allineata con la matrice e, per ciascuna posizione, viene assegnato il punteggio corrispondente al valore dell’amminoacido all’interno della matrice.

Anche in questo caso, se la matrice è in forma logaritmica, è sufficiente sommare i valori. Le sequenze che ottengono un punteggio superiore ad una sosglia stabilita, possono considerarsi parte della famiglia.


PSI-Blast

PSI-Blast è una variante di Blast che utilizza matrici di pesi per ricercare similarità all’interno di banche dati. Il programma, a partire da un gruppo di sequenze trovate, costruisce position-specific scoring matrices (PSSMs), simili alle matrici di pesi descritte nella pagina precedente, e le utilizza per effettuare una ulteriore ricerca.

Il programma procede in maniera iterativa facendo successivi cicli di ricerca come indicato in figura. Il primo ciclo consiste in una corsa di Blast con una matrice standard come Blosum 62 e genera un primo gruppo di sequenze simili. A partire da questo punto, vengono effettuati cicli successivi in cui vengono utilizzate PSSM generate a partire dai risultati del ciclo precedente. L’esecuzione finisce quando è stato effettuato il numero predenterminato di cicli (di solito 10), oppure viene interrotta anticipatamente se, ad un ciclo, vengono trovate le stesse sequenze del ciclo precedente.

Grazie a questo meccanismo, PSI-Blast può essere molto più sensibile di Blast e riesce a identificare sequenze che sfuggirebbero all’analisi con Blast.


HMM

L’approccio usato da PSI-Blast consiste nel tradurre un allineamento in un modello che lo descriva; quest’ultimo viene a sua volta utilizzato per effettuare la ricerca. Questo approccio è utilizzato anche con altre metodiche, che usano però principi diversi per la generazione del modello.

Le catene di Markov sono state sviluppate per lo studio di fenomeni sequenziali, e consistono nel collezionare le probabilità con cui un certo stato succede al precedente. Utilizzando le catene di Markov, l’allineamento viene rappresentato come una successione di stati, uno per ciascuna posizione amminoacidica (AA1, AA2, ecc.). Per ciascuno stato vengono calcolate le probabilità per ciascun amminoacido, nonchè quelle associate ad eventi di inserzione (I) o delezione (D). L’insieme di queste probabilità costituisce un modello (HMM) che viene utilizzato per la ricerca di nuove proteine che rientrino nello stesso modello.

Questa tecnica permette di tenere conto anche della relazione di successione tra gli aminoacidi, a differenza di quelle precedenti, per la ricerca di nuovi membri della stessa famiglia.

Allineamento multiplo: ClustalW

Lo studio di famiglie di proteine richiede la capacità di effettuare allineamenti multipli tra i membri noti e presunti della stessa famiglia. L’esecuzione di tali allineamenti secondo le procedure precedentemente illustrate richiederebbe però un numero di confronti difficile da realizzare.

Il programma ClustalW utilizza un metodo in più tempi che consiste nell’allineare tutte le sequenze a coppie, costruendo successivamente l’allineamento complessivo a partire da gruppi di sequenze più simili tra di loro (cluster).

Distinguiamo quattro fasi successive:

  • costruzione di una matrice di distanze, ottenuta allineando le sequenze a due a due
  • raggruppamento delle sequenze in cluster sulla base delle distanze
  • costruzione di un albero gerarchico dei cluster
  • allineamento complessivo utilizzando l’albero appena costruito

La matrice di distanze viene ottenuta utilizzando uno degli algoritmi di allineamento globale descritti. I cluster vengono generati utilizzando l’algoritmo UPGMA che crea dei cluster di proteine sulla base della loro similarità, e li raggruppa ulteriormente sulla base della loro distanza media, generando così un albero che rappresenta tutte le proteine in forma gerarchica.

L’allineamento finale viene ottenuto per gradi, usando l’albero come guida, iniziando a formare coppie di proteine allineate, e inserendo successivamente i gap necessari per allineare i cluster tra loro.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion