Obiettivi:
Dominio:
L’obiettivo principale di un MIRS è quello di Indicizzare e Ricercare i dati Multimediali tra cui testi, grafica, immagini, audio, video.
Un MIRS è quindi molto diverso da un DBMS; per la progettazione di un MIRS è pertanto necessario conoscere la struttura, le caratteristiche e le peculiarità dei dati multimediali. In particolare:
La gran parte delle informazioni sono codificate con testo di caratteri alfanumerici e sono tradizionalmente rappresentati mediante il codice ASCII (American Standard Code for Information Interchange – Bob Berner, IBM, 1961).
Inizialmente era codificato a 7 bit ma poi è stato esteso ad 8 bit (Extended ASCII) per rappresentare caratteri quali accentate, simboli semigrafici,… Spesso l’8 bit è impiegato per il controllo di parità.
I caratteri stampabili vanno dal 32 al 126 e gli altri sono caratteri per il controllo.
Successivamente sono state definite ulteriori estensioni come l’UNICODE (1991) per la rappresentazione di caratteri per esempio dell’alfabeto greco, cirillico,….
Anche l’UNICODE è stato esteso: si è passati da una codifica a 16 bit (65.536 caratteri) ad una codifica con 21 bit (circa 1 milione di caratteri). Nella pratica, comunque, è realmente utilizzato solo un sottoinsieme di tali caratteri.
La gran parte dei testi sono “testi formattati”: il titolo del documento si presenta diversamente dai sottotitoli che, a loro volta, si presentano diversamente dagli stessi paragrafi, …
Esistono diversi standard che rappresentano i diversi formati, tra cui: Formato Microsoft Word (est. .doc), Formato Portable Document Format (est. .pdf), Formato Latex (est. .tex),…….
Normalmente l’intestazione del file dati contiene le specifiche di formato. Quando il formato è noto, è possibile usare le strutture del documento per estrarre informazioni per la ricerca: le informazioni che compaiono nel titolo sono per esempio più importanti delle informazioni contenute in un paragrafo.
Esempio: Percepiva la pensione del padre morto da tre anni
Arrestato uomo di 47 anni a Camerota (Salerno)(ANSA)
CAMEROTA (SALERNO), 19 FEB 2009
Percepiva la pensione del padre morto da tre anni. Protagonista della truffa un uomo di 47 anni di Camerota. Nonostante il padre fosse deceduto tre anni fa, il figlio continuava ad incassare la sua pensione: ha intascato indebitamente quasi 40mila euro. Alla fine, e’ stato scoperto dalla Guardia di Finanza ed e’ stato denunciato insieme col responsabile dell’ufficio anagrafe per il reato di truffa aggravata per omissione di comunicazione del decesso all’Inps.
Sebbene tra i vari Media (audio, video,…), il testo richiede meno spazio per la sua memorizzazione, conviene intervenire con algoritmi di compressione soprattutto quando aumenta il numero dei testi da archiviare.
La compressione effettuata sul testo è LOSSLESS (senza perdita): la decompressione ottiene esattamente l’oggetto originario.
La compressione sul testo è giustificata dal fatto che:
Metodi noti impiegati per la compressione:
Descritto dallo studente David A. Huffman in un articolo pubblicato nel 1952.
E’ basato sull’analisi statistica del dato da comprimere, in particolare sulla frequenza con la quale si ripetono i suoi elementi.
Ha una prestazione proporzionata alla varianza delle frequenze con cui compaiono i caratteri del testo da comprimere (maggiore varianza → maggiore prestazione).
Utilizzabile in combinazione con altre tecniche.
RUN-LENGTH è un metodo di compressione lossless che riduce le ripetizioni di caratteri, sostituendo un RUN (insieme di caratteri ripetuti) con il carattere che viene ripetuto e con la lunghezza del RUN.
RUN: insieme di caratteri ripetuti;
Lunghezza RUN: lunghezza della ripetizioni
Prestazioni buone per run-length > 3
LZW (Abraham Lempel, Jacob Ziv, Terry Welch – 1984) è un metodo di compressione lossless che sfrutta la ripetizione di gruppi di caratteri o frasi.
Il compressore esamina la presenza delle frasi incontrante con le frasi presenti in un dizionario inizialmente vuoto.
Prestazioni buone per input di testo con molte ripetizioni: linguaggio naturale (inglese, italiano, …).
1. Introduzione
2. Tipologia e formati dei dati MultiMediali. Il testo
3. Tipologia e formati dei dati MultiMediali. L'audio
4. Tipologia e formati dei dati MultiMediali. Grafica e video
5. Progetto di DB Multimediali
6. Indicizzazione e recupero dei documenti di testo
7. Indicizzazione e recupero dell'audio
8. Metodi di classificazione dell'audio
9. Colori
10. Indicizzazione e recupero delle immagini
11. Esempi reali di image retrieval
12. Video
13. Strutture dati efficienti per la ricerca della similarità - pa...
14. Strutture dati efficienti per la ricerca della similarità - pa...
15. Sistemi di supporto e misure di efficacia
17. Geographical Information System - parte prima
18. Geographical Information System -parte seconda
19. Geographical Information System - parte terza