Prof. Giovanni Paolella
Dott. Leandra Sepe
Esercitazione: Allineamento di proteine
A partire dalle sequenze di due cDNA, effettuerai la traduzione di ciascuna di esse allo scopo di confrontare le proteine codificate, sia tra loro che con altre presenti in banche dati.
Alla fine dell’esercitazione dovresti essere in grado di valutare il grado di similarità delle due proteine in esame e di identificare la regione più conservata.
Le due sequenze nucleotidiche sono disponibili qui. Per la traduzione di ciascuna di esse utilizza il programma transeq del pacchetto Emboss, il programma è disponibile all’indirizzo http://bioinfo.ceinge.unina.it dopo aver eseguito il login come indicato. Seleziona ora il link Programs sul lato sinistro della Home Page e cerca il programma transeq inserendone il nome nel campo Name e cliccando su Find. Cliccando sull’icona con il missile accederai al programma attraverso l’interfaccia PISE.
Copia la sequenza da tradurre all’interno dell’area indicata con actual data. Non avendo informazioni specifiche riguardo al frame di lettura, scegli di tradurre secondo tutti i sei frame. Per fare questo occorre selezionare la voce All six frames, cliccando poi il tasto Run. Seleziona la voce ‘outseq.out’ per vedere il risultato.
All’interno delle sequenze aminoacidiche ottenute, il simbolo * indica un segnale di stop. Se la nostra sequenza nucleotica codifica una proteina, è probabile che questa corrisponda alla più lunga sequenza amminoacidica contenuta tra due segnali di stop (ORF, open reading frame).
Identifichiamo adesso le ORF (open reading frames) all’interno delle sequenze che stiamo esaminando. Il pacchetto EMBOSS contiene diversi programmi per la predizione di ORF. Tra questi, plotorf permette di visualizzare il risultato graficamente. L’interfaccia PISE del programma è raggiungibile come in precedenza. Con un copia & incolla, inserisci la sequenza del cDNA nell’area actual data e scegli, nella sezione di output, il formato grafico PNG. Avvia il programma cliccando sul bottone Run e seleziona il link plotorf.1.png per visualizzare il risultato. Per ciascuno dei sei frame di lettura, nel grafico vengono visualizzate delle regioni in verde corrispondenti a potenziali ORF. Il frame di lettura corrispondente alla più lunga proteina potenziale, dovrebbe essere evidente.
Per estrarre le sequenze tradotte delle Open Reading Frames, utilizza il programma getorf anch’esso del pacchetto EMBOSS. Inserisci, come prima, la sequenza nell’apposita area. Indica di voler estrarre le traduzioni delle regioni tra i codoni di START e STOP (Translation of regions between START and STOP codons); in questo modo otterrai un risultato più chiaro.
Una volta ottenuta la sequenza aminoacidica, copiala in un file e conservala, ti servirà nella fase successiva dell’esercitazione.
Per allineare le due sequenze aminoacidiche ottenute, utilizza Stretcher, un programma di allineamento globale basato sull’algoritmo di Needleman-Wunsch. Il programma può al solito essere utilizzato attraverso l’interfaccia PISE. Stretcher prevede alcuni parametri da assegnare, quali matrice da utilizzare (Matrix), penalità da assegnare nel calcolo del punteggio finale per la comparsa di nuovi gap nell’allineamento (Gap penalty) e penalità per l’estensione dei gap (Gap length penalty). Inserisci le due sequenze in formato FASTA nelle apposite aree ed esegui un primo allineamento con i parametri predefiniti.
Cosa osservi? Qual’è il grado di similarità delle due sequenze? E quale quello di identità?
Prova ora a cambiare la matrice (di default viene usata la BLOSUM62). Utilizza prima una matrice meno stringente, ad esempio PAM290 oppure BLOSUM30, poi una più stringente, come PAM10 oppure BLOSUM90.
Cosa osservi? è cambiata la percentuale di identità? E quella di similarità? Ed il punteggio (Score)?
Qual’è a tuo avviso il migliore allineamento che hai ottenuto?
Prova ora ad usare un programma di allineamento di tipo locale, come Matcher, basato sull’algoritmo di Smith e Watermann. Anche Matcher prevede, come Stretcher, parametri quali la matrice, Matrix, il Gap penalty e il Gap length penalty. Inserisci nelle due aree assegnate le sequenze in formato FASTA con un copia e incolla e fai partire il programma, prima con i parametri predefiniti.
Cosa osservi? Prova a cambiare la matrice utilizzandone altre più o meno stringenti, in combinazione semmai con differenti valori di Gap penalty e Gap length penalty.
Cosa osservi? Quanto è cambiato l’allineamento? In cosa?
Qual è a tuo avviso il migliore allineamento che hai ottenuto?
Scegli una delle due sequenze aminoacidiche ed esegui il programma PSI-BLAST che ti consentirà di allinearla con le proteine presenti nella banca dati SWISSPROT. Utilizza il programma PSI-BLAST attraverso l’interfaccia Capri che trovi nella barra di sinistra della home page del sito http://bioinfo.ceinge.unina.it. Una volta aperto Capri, scegli dal menù File la voce “New…”, seleziona la voce “Protein” e clicca su OK: in questo modo si aprirà una nuova finestra di CAPRI che ti consentirà di lavorare con sequenze di proteine., Incolla in questa pagina la sequenza proteica che hai scelto, seleziona dal menù Search DB la voce “PSI-BLAST…”. La dialog-box successiva ti permette di specificare alcuni parametri e in particolare il database di sequenze in cui eseguire la ricerca:: seleziona Uniprot-SWISSPROT e clicca su OK.
Il risultato di PSI-BLAST riporta in basso una lista di sequenze presenti nel database selezionato, che più rassomigliamo alla sequenza di partenza.
Guardando il risultato, sapresti dire per quale proteina codifica il cDNA che hai scelto?
Prova ad allineare le prime 8 proteine più simili alla tua utilizzando CLUSTALW e verifica se esistono domini conservati. Per farlo, devi estrarre le proteine dalla banca dati: ripeti queste operazioni per ciascuna delle proteine da estrarre:
Inserisci in una pagina di CAPRI per proteine le 8 sequenze scelte più quella di partenza in formato FASTA. Seleziona dal menù Align il programma ClustalW. La dialog-box successiva permette di specificare alcuni parametri e in particolare la matrice da usare. Usa i parametri di default e clicca su OK per ottenere il risultato. Una volta ottenuto l’allineamento multiplo, seleziona dal menù Display il programma Pretty che ti consentirà di visualizzarlo a colori e, lasciando tutti i paramentri di default, clicca su OK: con le frecce potrai navigare lungo l’allineamento.
Cosa osservi ? Esistono regioni a tuo avviso conservate?
E’ conservato l’N terminale delle proteine? Ed il C-terminale?
1. Genomi: organizzazione e complessità
4. Assemblaggio e annotazione di genomi (ENSEMBL)
5. Package e interfacce per la gestione di sequenze
7. Allineamento di sequenze mediante matrici di punti
10. Algoritmi dinamici di allineamento
11. Elettroforesi
13. Algoritmi di allineamento di tipo euristico
14. Preparazione di acidi nucleici
15. Cromatografia
18. Banche dati
20. Vitalità e proliferazione di cellule in coltura
21. Microscopia