Home

Federica EU

1/16

Walter Balzano » 2.Tipologia e formati dei dati MultiMediali. Il testo

Tipologia e Formati dei Dati MultiMediali. Il Testo

Introduzione
Il Testo (testo Piano, Strutturato, Compresso,…)
Grafica Vettoriale ed Animazione
Audio
Immagini Digitali
Il Video Digitale
Standards per Documenti MultiMediali Complessi
Caratteristiche Principali e Requisiti delle Applicazioni e dei dati MultiMediali

MIRS

Obiettivi:

elaborare;
indicizzare;
memorizzare;
trasmettere;
presentare;
…

Dominio:

testi;
immagini;
grafici;
audio;
video;
…

Introduzione

L’obiettivo principale di un MIRS è quello di Indicizzare e Ricercare i dati Multimediali tra cui testi, grafica, immagini, audio, video.

Un MIRS è quindi molto diverso da un DBMS; per la progettazione di un MIRS è pertanto necessario conoscere la struttura, le caratteristiche e le peculiarità dei dati multimediali. In particolare:

in che modo vengono memorizzati i dati;
le tecniche standard di compressione;
modalità e complessità del processo di estrazione ed indicizzazione delle caratteristiche;
requisiti di memorizzazione;
requisiti di comunicazione;
requisiti per la presentazione.

Il testo piano

La gran parte delle informazioni sono codificate con testo di caratteri alfanumerici e sono tradizionalmente rappresentati mediante il codice ASCII (American Standard Code for Information Interchange – Bob Berner, IBM, 1961).

Inizialmente era codificato a 7 bit ma poi è stato esteso ad 8 bit (Extended ASCII) per rappresentare caratteri quali accentate, simboli semigrafici,… Spesso l’8 bit è impiegato per il controllo di parità.

I caratteri stampabili vanno dal 32 al 126 e gli altri sono caratteri per il controllo.

Successivamente sono state definite ulteriori estensioni come l’UNICODE (1991) per la rappresentazione di caratteri per esempio dell’alfabeto greco, cirillico,….

Anche l’UNICODE è stato esteso: si è passati da una codifica a 16 bit (65.536 caratteri) ad una codifica con 21 bit (circa 1 milione di caratteri). Nella pratica, comunque, è realmente utilizzato solo un sottoinsieme di tali caratteri.

Tavole di conversione

Tabelle Ascii Fonte: Tabelle ASCII Tabelle ASCII 2.

Il testo Strutturato

La gran parte dei testi sono “testi formattati”: il titolo del documento si presenta diversamente dai sottotitoli che, a loro volta, si presentano diversamente dagli stessi paragrafi, …
Esistono diversi standard che rappresentano i diversi formati, tra cui: Formato Microsoft Word (est. .doc), Formato Portable Document Format (est. .pdf), Formato Latex (est. .tex),…….
Normalmente l’intestazione del file dati contiene le specifiche di formato. Quando il formato è noto, è possibile usare le strutture del documento per estrarre informazioni per la ricerca: le informazioni che compaiono nel titolo sono per esempio più importanti delle informazioni contenute in un paragrafo.

Esempio: Percepiva la pensione del padre morto da tre anni
Arrestato uomo di 47 anni a Camerota (Salerno)(ANSA)

CAMEROTA (SALERNO), 19 FEB 2009
Percepiva la pensione del padre morto da tre anni. Protagonista della truffa un uomo di 47 anni di Camerota. Nonostante il padre fosse deceduto tre anni fa, il figlio continuava ad incassare la sua pensione: ha intascato indebitamente quasi 40mila euro. Alla fine, e’ stato scoperto dalla Guardia di Finanza ed e’ stato denunciato insieme col responsabile dell’ufficio anagrafe per il reato di truffa aggravata per omissione di comunicazione del decesso all’Inps.

Il testo compresso

Sebbene tra i vari Media (audio, video,…), il testo richiede meno spazio per la sua memorizzazione, conviene intervenire con algoritmi di compressione soprattutto quando aumenta il numero dei testi da archiviare.
La compressione effettuata sul testo è LOSSLESS (senza perdita): la decompressione ottiene esattamente l’oggetto originario.
La compressione sul testo è giustificata dal fatto che:

alcuni caratteri appaiono più frequentemente rispetto ad altri;
alcuni gruppi di caratteri appaiono molto frequentemente.

Metodi noti impiegati per la compressione:

Huffman;
Run length;
Lempel-Ziv-Welch (LZW).

Codifica di Huffman

Descritto dallo studente David A. Huffman in un articolo pubblicato nel 1952.

E’ basato sull’analisi statistica del dato da comprimere, in particolare sulla frequenza con la quale si ripetono i suoi elementi.

Ha una prestazione proporzionata alla varianza delle frequenze con cui compaiono i caratteri del testo da comprimere (maggiore varianza → maggiore prestazione).

Utilizzabile in combinazione con altre tecniche.

Huffman – Esempio

Compressione: Fase 1, analisi delle frequenze.

Huffman – Esempio (segue)

Fase 2: Raggruppamenti coppie con frequenza minore.

Huffman – Esempio (segue)

FASE 3: Costruzione del codice.

Huffman – Esempio (segue)

Associazione dei codici con i caratteri.

Codifica RUN-LENGTH

RUN-LENGTH è un metodo di compressione lossless che riduce le ripetizioni di caratteri, sostituendo un RUN (insieme di caratteri ripetuti) con il carattere che viene ripetuto e con la lunghezza del RUN.

RUN: insieme di caratteri ripetuti;
Lunghezza RUN: lunghezza della ripetizioni

Prestazioni buone per run-length > 3