Home

Federica EU

1/8

Giovanni Paolella » 27.Esercitazione: Allineamento di proteine

Biotecnologie cellulari e molecolari

Prof. Giovanni Paolella

Dott. Leandra Sepe

Esercitazione: Allineamento di proteine

Descrizione dell’attività da svolgere

A partire dalle sequenze di due cDNA, effettuerai la traduzione di ciascuna di esse allo scopo di confrontare le proteine codificate, sia tra loro che con altre presenti in banche dati.

A tale scopo, per ciascun cDNA, eseguirai:
La traduzione nei sei frame di lettura
La predizione delle ORF, l’identificazione di quella più probabile e l’estrazione della sequenza aminoacidica corrispondente
Allineamento globale e locale delle due sequenze aminoacidiche selezionate
Allineamento multiplo, con ClustalW, di ciascuna delle due sequenze aminoacidiche con un set di proteine di riferimento.

Alla fine dell’esercitazione dovresti essere in grado di valutare il grado di similarità delle due proteine in esame e di identificare la regione più conservata.

Traduzione dei cDNA

Le due sequenze nucleotidiche sono disponibili qui. Per la traduzione di ciascuna di esse utilizza il programma transeq del pacchetto Emboss, il programma è disponibile all’indirizzo http://bioinfo.ceinge.unina.it dopo aver eseguito il login come indicato. Seleziona ora il link Programs sul lato sinistro della Home Page e cerca il programma transeq inserendone il nome nel campo Name e cliccando su Find. Cliccando sull’icona con il missile accederai al programma attraverso l’interfaccia PISE.

Copia la sequenza da tradurre all’interno dell’area indicata con actual data. Non avendo informazioni specifiche riguardo al frame di lettura, scegli di tradurre secondo tutti i sei frame. Per fare questo occorre selezionare la voce All six frames, cliccando poi il tasto Run. Seleziona la voce ‘outseq.out’ per vedere il risultato.

All’interno delle sequenze aminoacidiche ottenute, il simbolo * indica un segnale di stop. Se la nostra sequenza nucleotica codifica una proteina, è probabile che questa corrisponda alla più lunga sequenza amminoacidica contenuta tra due segnali di stop (ORF, open reading frame).

Identificazione ed estrazione delle ORF

Identifichiamo adesso le ORF (open reading frames) all’interno delle sequenze che stiamo esaminando. Il pacchetto EMBOSS contiene diversi programmi per la predizione di ORF. Tra questi, plotorf permette di visualizzare il risultato graficamente. L’interfaccia PISE del programma è raggiungibile come in precedenza. Con un copia & incolla, inserisci la sequenza del cDNA nell’area actual data e scegli, nella sezione di output, il formato grafico PNG. Avvia il programma cliccando sul bottone Run e seleziona il link plotorf.1.png per visualizzare il risultato. Per ciascuno dei sei frame di lettura, nel grafico vengono visualizzate delle regioni in verde corrispondenti a potenziali ORF. Il frame di lettura corrispondente alla più lunga proteina potenziale, dovrebbe essere evidente.

Per estrarre le sequenze tradotte delle Open Reading Frames, utilizza il programma getorf anch’esso del pacchetto EMBOSS. Inserisci, come prima, la sequenza nell’apposita area. Indica di voler estrarre le traduzioni delle regioni tra i codoni di START e STOP (Translation of regions between START and STOP codons); in questo modo otterrai un risultato più chiaro.

Una volta ottenuta la sequenza aminoacidica, copiala in un file e conservala, ti servirà nella fase successiva dell’esercitazione.

Allineamento globale delle proteine

Per allineare le due sequenze aminoacidiche ottenute, utilizza Stretcher, un programma di allineamento globale basato sull’algoritmo di Needleman-Wunsch. Il programma può al solito essere utilizzato attraverso l’interfaccia PISE. Stretcher prevede alcuni parametri da assegnare, quali matrice da utilizzare (Matrix), penalità da assegnare nel calcolo del punteggio finale per la comparsa di nuovi gap nell’allineamento (Gap penalty) e penalità per l’estensione dei gap (Gap length penalty). Inserisci le due sequenze in formato FASTA nelle apposite aree ed esegui un primo allineamento con i parametri predefiniti.

Cosa osservi? Qual’è il grado di similarità delle due sequenze? E quale quello di identità?

Prova ora a cambiare la matrice (di default viene usata la BLOSUM62). Utilizza prima una matrice meno stringente, ad esempio PAM290 oppure BLOSUM30, poi una più stringente, come PAM10 oppure BLOSUM90.

Cosa osservi? è cambiata la percentuale di identità? E quella di similarità? Ed il punteggio (Score)?

Qual’è a tuo avviso il migliore allineamento che hai ottenuto?

Allineamento locale delle proteine

Prova ora ad usare un programma di allineamento di tipo locale, come Matcher, basato sull’algoritmo di Smith e Watermann. Anche Matcher prevede, come Stretcher, parametri quali la matrice, Matrix, il Gap penalty e il Gap length penalty. Inserisci nelle due aree assegnate le sequenze in formato FASTA con un copia e incolla e fai partire il programma, prima con i parametri predefiniti.

Cosa osservi? Prova a cambiare la matrice utilizzandone altre più o meno stringenti, in combinazione semmai con differenti valori di Gap penalty e Gap length penalty.

Cosa osservi? Quanto è cambiato l’allineamento? In cosa?

Qual è a tuo avviso il migliore allineamento che hai ottenuto?

Allineamento con PSI-BLAST

Scegli una delle due sequenze aminoacidiche ed esegui il programma PSI-BLAST che ti consentirà di allinearla con le proteine presenti nella banca dati SWISSPROT. Utilizza il programma PSI-BLAST attraverso l’interfaccia Capri che trovi nella barra di sinistra della home page del sito http://bioinfo.ceinge.unina.it. Una volta aperto Capri, scegli dal menù File la voce “New…”, seleziona la voce “Protein” e clicca su OK: in questo modo si aprirà una nuova finestra di CAPRI che ti consentirà di lavorare con sequenze di proteine., Incolla in questa pagina la sequenza proteica che hai scelto, seleziona dal menù Search DB la voce “PSI-BLAST…”. La dialog-box successiva ti permette di specificare alcuni parametri e in particolare il database di sequenze in cui eseguire la ricerca:: seleziona Uniprot-SWISSPROT e clicca su OK.

Il risultato di PSI-BLAST riporta in basso una lista di sequenze presenti nel database selezionato, che più rassomigliamo alla sequenza di partenza.

Guardando il risultato, sapresti dire per quale proteina codifica il cDNA che hai scelto?

Allineamento multiplo

Prova ad allineare le prime 8 proteine più simili alla tua utilizzando CLUSTALW e verifica se esistono domini conservati. Per farlo, devi estrarre le proteine dalla banca dati: ripeti queste operazioni per ciascuna delle proteine da estrarre:

nell’output di PSI-BLAST, copia l’AC della proteina di interesse (che è la prima parola dopo il nome “uniprotsprot:”, per esempio HRDD_STRVF);
dalla pagina di proteine di CAPRI scegliere dal menù File la voce “Retrive by AC” , inserisci l’AC che hai copiato nel campo della finestra di dialogo e clicca su ok
la sequenza si aprirà in formato FASTA in una finestra di CAPRI : copiala in un file di testo e salvala sul tuo computer, TOGLIENDO LA SIGLA ‘uniprot|’ DOPO IL SEGNO DI MAGGIORE (per esempio uniprot|P77951|).

Inserisci in una pagina di CAPRI per proteine le 8 sequenze scelte più quella di partenza in formato FASTA. Seleziona dal menù Align il programma ClustalW. La dialog-box successiva permette di specificare alcuni parametri e in particolare la matrice da usare. Usa i parametri di default e clicca su OK per ottenere il risultato. Una volta ottenuto l’allineamento multiplo, seleziona dal menù Display il programma Pretty che ti consentirà di visualizzarlo a colori e, lasciando tutti i paramentri di default, clicca su OK: con le frecce potrai navigare lungo l’allineamento.

Cosa osservi ? Esistono regioni a tuo avviso conservate?

E’ conservato l’N terminale delle proteine? Ed il C-terminale?

Le lezioni del Corso

22. Strutture di proteine

23. Esercitazione: Ensembl

24. Esercitazione: EMBOSS

25. Esercitazione: Allineamenti

26. Esercitazione: Banche dati

27. Esercitazione: Allineamento di proteine

Le fonti in Rete della lezione

Ensembl