Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
I corsi di Scienze Matematiche Fisiche e Naturali
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Walter Balzano » 2.Tipologia e formati dei dati MultiMediali. Il testo


Tipologia e Formati dei Dati MultiMediali. Il Testo

  • Introduzione
  • Il Testo (testo Piano, Strutturato, Compresso,…)
  • Grafica Vettoriale ed Animazione
  • Audio
  • Immagini Digitali
  • Il Video Digitale
  • Standards per Documenti MultiMediali Complessi
  • Caratteristiche Principali e Requisiti delle Applicazioni e dei dati MultiMediali

MIRS

Obiettivi:

  • elaborare;
  • indicizzare;
  • memorizzare;
  • trasmettere;
  • presentare;

Dominio:

  • testi;
  • immagini;
  • grafici;
  • audio;
  • video;

Introduzione

L’obiettivo principale di un MIRS è quello di Indicizzare e Ricercare i dati Multimediali tra cui testi, grafica, immagini, audio, video.

Un MIRS è quindi molto diverso da un DBMS; per la progettazione di un MIRS è pertanto necessario conoscere la struttura, le caratteristiche e le peculiarità dei dati multimediali. In particolare:

  • in che modo vengono memorizzati i dati;
  • le tecniche standard di compressione;
  • modalità e complessità del processo di estrazione ed indicizzazione delle caratteristiche;
  • requisiti di memorizzazione;
  • requisiti di comunicazione;
  • requisiti per la presentazione.

Il testo piano

La gran parte delle informazioni sono codificate con testo di caratteri alfanumerici e sono tradizionalmente rappresentati mediante il codice ASCII (American Standard Code for Information Interchange – Bob Berner, IBM, 1961).

Inizialmente era codificato a 7 bit ma poi è stato esteso ad 8 bit (Extended ASCII) per rappresentare caratteri quali accentate, simboli semigrafici,… Spesso l’8 bit è impiegato per il controllo di parità.

I caratteri stampabili vanno dal 32 al 126 e gli altri sono caratteri per il controllo.

Successivamente sono state definite ulteriori estensioni come l’UNICODE (1991) per la rappresentazione di caratteri per esempio dell’alfabeto greco, cirillico,….

Anche l’UNICODE è stato esteso: si è passati da una codifica a 16 bit (65.536 caratteri) ad una codifica con 21 bit (circa 1 milione di caratteri). Nella pratica, comunque, è realmente utilizzato solo un sottoinsieme di tali caratteri.

Tavole di conversione

Tabelle Ascii Fonte: Tabelle ASCII Tabelle ASCII 2.

Tabelle Ascii Fonte: Tabelle ASCII Tabelle ASCII 2.


Il testo Strutturato

La gran parte dei testi sono “testi formattati”: il titolo del documento si presenta diversamente dai sottotitoli che, a loro volta, si presentano diversamente dagli stessi paragrafi, …
Esistono diversi standard che rappresentano i diversi formati, tra cui: Formato Microsoft Word (est. .doc), Formato Portable Document Format (est. .pdf), Formato Latex (est. .tex),…….
Normalmente l’intestazione del file dati contiene le specifiche di formato. Quando il formato è noto, è possibile usare le strutture del documento per estrarre informazioni per la ricerca: le informazioni che compaiono nel titolo sono per esempio più importanti delle informazioni contenute in un paragrafo.

Esempio: Percepiva la pensione del padre morto da tre anni
Arrestato uomo di 47 anni a Camerota (Salerno)(ANSA)

CAMEROTA (SALERNO), 19 FEB 2009
Percepiva la pensione del padre morto da tre anni. Protagonista della truffa un uomo di 47 anni di Camerota. Nonostante il padre fosse deceduto tre anni fa, il figlio continuava ad incassare la sua pensione: ha intascato indebitamente quasi 40mila euro. Alla fine, e’ stato scoperto dalla Guardia di Finanza ed e’ stato denunciato insieme col responsabile dell’ufficio anagrafe per il reato di truffa aggravata per omissione di comunicazione del decesso all’Inps.

Il testo compresso

Sebbene tra i vari Media (audio, video,…), il testo richiede meno spazio per la sua memorizzazione, conviene intervenire con algoritmi di compressione soprattutto quando aumenta il numero dei testi da archiviare.
La compressione effettuata sul testo è LOSSLESS (senza perdita): la decompressione ottiene esattamente l’oggetto originario.
La compressione sul testo è giustificata dal fatto che:

  • alcuni caratteri appaiono più frequentemente rispetto ad altri;
  • alcuni gruppi di caratteri appaiono molto frequentemente.

Metodi noti impiegati per la compressione:

  • Huffman;
  • Run length;
  • Lempel-Ziv-Welch (LZW).

Codifica di Huffman

Descritto dallo studente David A. Huffman in un articolo pubblicato nel 1952.

E’ basato sull’analisi statistica del dato da comprimere, in particolare sulla frequenza con la quale si ripetono i suoi elementi.

Ha una prestazione proporzionata alla varianza delle frequenze con cui compaiono i caratteri del testo da comprimere (maggiore varianza → maggiore prestazione).

Utilizzabile in combinazione con altre tecniche.

Huffman – Esempio

Compressione: Fase 1, analisi delle frequenze.

Compressione: Fase 1, analisi delle frequenze.


Huffman – Esempio (segue)

Fase 2: Raggruppamenti coppie con frequenza minore.

Fase 2: Raggruppamenti coppie con frequenza minore.


Huffman – Esempio (segue)

FASE 3: Costruzione del codice.

FASE 3: Costruzione del codice.


Huffman – Esempio (segue)

Associazione dei codici con i caratteri.

Associazione dei codici con i caratteri.


Codifica RUN-LENGTH

RUN-LENGTH è un metodo di compressione lossless che riduce le ripetizioni di caratteri, sostituendo un RUN (insieme di caratteri ripetuti) con il carattere che viene ripetuto e con la lunghezza del RUN.

RUN: insieme di caratteri ripetuti;
Lunghezza RUN: lunghezza della ripetizioni

Prestazioni buone per run-length > 3

Rappresentazione del RUN.

Rappresentazione del RUN.


Codifica RUN-LENGTH

Esempi d’uso di codifica RUN-Length.

Esempi d'uso di codifica RUN-Length.


Codifica LZW

LZW (Abraham Lempel, Jacob Ziv, Terry Welch – 1984) è un metodo di compressione lossless che sfrutta la ripetizione di gruppi di caratteri o frasi.

Il compressore esamina la presenza delle frasi incontrante con le frasi presenti in un dizionario inizialmente vuoto.

Prestazioni buone per input di testo con molte ripetizioni: linguaggio naturale (inglese, italiano, …).

Nucleo dell’ algoritmo LZW.

Nucleo dell' algoritmo LZW.


Codifica LZW – Esempio

Esempio di codifica e decodifica LZW.
Fonte: Wikipedia

Esempio di codifica e decodifica LZW. Fonte: Wikipedia


  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion