Home

Federica EU

1/24

Walter Balzano » 5.Progetto di DB Multimediali

Progetto di DB Multimediali

Architettura dei MIRS
Il modello dei dati
VIMSYS
VIRAGE
Raffinamento della query
QoS

Architettura dei MIRS

Modularità

L’ampio range applicativo dei MIRS presuppone.
Flessibilità ed adattività (librerie di funzioni).
Gestione aggiornamenti.

Distribuizione

Gestione dei dati multimediali (client-server).
Accessi simultanei (librerie digitali, video-on demand).

Moduli Opzionali

Thesaurus manager: contiene sinonimi e altre relazioni tra le parole.
Integrity rule base: testa l’integrità di una data applicazione.
Context manager: tiene traccia del contesto dell’applicazione.

Architettura base di un MIRS.

Architettura di un MIRS (inserimento)

Architettura di un MIRS: inserimento.

Architettura di un MIRS (recupero)

Architettura di un MIRS: recupero.

Modello dei Dati

In un DBMS, la finalità della modellizzazione è di specificare tipi e proprietà degli oggetti che dovrà contenere; In un MMDBMS o in un MIRS le finalità della modellizzazione comprendono anche una specifica dei diversi livelli di astrazione dei dati multimediali.

Un modello di dati per un MIRS deve comprendere la descrizione di proprietà statiche e dinamiche:

proprietà statiche: riguardanti gli oggetti stessi che costituiranno i dati multimediali, le loro relazioni e i loro attributi;
proprietà dinamiche: riguardanti le interazioni tra gli oggetti, operazioni disponibili sugli oggetti, interazione con gli utenti.

L’usabilità di un MIRS è fortemente condizionata dal modello dei dati.
L’indicizzazione di dati multimediali implica la considerazione di:

spazi multidimensionali di caratteristiche;
definizione di una metrica in tale spazio.

Modello dei Dati

Requisiti di un modello di dati per un MIRS:

estensibilità a nuovi tipi e formati di dati;
flessibililità per permettere l’inserimento e la ricerca a vari livelli di astrazione;
predisposizione per la rappresentazione dei dati multimediali semplici e composti comprese le relazioni spaziali e temporali che intercorrono tra di essi;
efficienza nelle strategie di memorizzazione e ricerca.

Il paradigma Object Oriented (OO) è il meglio adattabile alla modellizzazione dei dati multimediali:

incapsulamento di codice e dati in una singola unita’ chiamata oggetto;
il codice definisce le operazioni che possono essere effettuate sui dati;
struttura di tipo Multilayer: permette l’indicizzazione, la ricerca e l’elaborazione a diversi livelli di astrazione.

Modello dei Dati (schema)

Layer oggetto tipo e formato

Layer oggetto: costituito da uno o più media con specifiche relazioni spaziali e temporali. Es.: Una presentazione di immagini in successione accompagnate da un commento audio.

Relazioni spaziali (dimensione di ogni immagine e posizione di apparizione).
Relazioni temporali (tempo di inizio e tempo tra immagini; sincronizzazione con il contenuto audio).

Layer tipo: contiene i tipi comuni di media. Queste informazioni sono utilizzate nella fase di ricerca e di calcolo della similarità.

Ogni tipo è derivato da una comune classe media astratta.
A questo livello sono specificati gli attributi del media.
Per un immagine:
- dimesione in pixel;
- istogramma del colore (abbondanza relativa dei vari colori);
- oggetti contenuti nell’immagine (un’ auto, una persona, …).

Layer oggetto tipo e formato (segue)

Layer formato: specifica il formato in cui il media è memorizzato. Queste informazioni sono usate nelle fasi di decodifica, analisi e presentazione.

Raw;
compresso;
tipo di compressione usata.

Nota: Il modello dei dati può dipendere anche dalla specificità e dalla particolarità dell’applicazione. Un’opportuna fase di progettazione del modello può contribuire alla definizione di un modello di base generico, sul quale possono essere aggiunte o ricavate nuove caratteristiche ed oggetti richiesti dalle particolari applicazioni.

Esempio 1 – VIMSYS

Il modello VIMSYS (Visual Information Management System) per la gestione di video ed immagini è formato da quattro layer:

rappresentazione immagine;
oggetti immagine;
dominio degli oggetti;
dominio degli eventi.

Tutti gli oggetti presenti in ogni layer hanno i propri attributi e metodi.

Esempio 2: modello di un video

Ad ogni livello di dati vengono assegnati gli attributi relativi:

episodio: autore, data di creazione, tipo di video, produttore, ecc…
scena: semantica comune a tutti gli shot che contiene
shot (ripresa): frame chiave, oggetto ripreso, data, luogo
frame: statistiche sull’immagine, distribuzione del colore, ecc…

Esempio 3: Virage

Virage è un motore di ricerca per immagini basato su contenuto.

Struttura a tre livelli: schema, primitive e tipi di dati.
Astrae delle caratteristiche dall’informazione grezza ed opera su queste caratteristiche.

Nei sistemi di image retrieval sono identificabili 5 tipi di dati:

valore (insieme di vettori rappresentativi di proprietà globali, come i colori dominanti);
distribuzione (proprietà statistica dell’immagine come la distribuzione di colore);
valore indicizzato (insieme indicizzato di vettori contenenti un valore locale di una regione dell’immagine);
distribuzioni indicizzate (pattern o distribuzione locale come il profilo d’intensità di una regione);
grafi (informazione relazionale, come la posizione spaziale di due regioni d’interesse in un’immagine, implementabile mediante gli altri quattro tipi di dati).

Esempio 3: Virage (segue)

I vettori costituiscono il tipo di dati primario e una base uniforme per le feature rappresentative del contenuto dell’immagine.

Principali operazioni definite su vettori:

create collection: crea un insieme vuoto di vettori;
create vector: mediante una funzione, estrae e crea un vettore per una specifica feature da un’immagine specificata;
extract:accede un elemento dell’insieme;
distance: confronta due vettori e restituisce la misura della loro distanza;
combine: crea un nuovo vettore a partire da due vettori dati;
delete vector: libera la memoria associata a un particolare vettore;
delete collection: cancella l’insieme dalla memoria.

La primitiva è un insieme di vettori che rappresentano un singola categoria di informazioni di tipo immagine.
È’ semanticamente associata a feature come colore, texture e forma.
E’ specificata mediante un identificatore, un nome di categoria e funzioni per gestire e recuperare i dati.
Al livello più alto, lo schema della struttura è definito da un identificatore di schema e da un insieme ordinato di primitive.
Un’applicazione definisce ed utilizza più schemi. A questo livello sono previste funzioni per inserimento e recupero delle immagini.

Interfaccia Utente

Requisiti principali dell’interfaccia utente di un MIRS:

fornire strumenti per inserire oggetti nel database in maniera semplice;
fornire strumenti per definire efficacemente le query e le esigenze di ricerca;
presentare i risultati delle ricerche in maniera efficiente ed efficace;
essere user-friendly.

Popolazione del database

A differenza dei DBMS tradizionali in un MIRS i dati sono costituiti da media diversi e non hanno struttura ed attributi prefissati → gestione complessa.
L’interfaccia deve consentire l’inserimento di dati multimediali semplici e compositi e la specifica di tipologie di attributi che devono essere estratte ed indicizzate.
L’estrazione degli attributi può essere automatica o semiautomatica.

Le query che possono essere inviate ad un MIRS sono:

multiformi: l’utente può inserirle utilizzando modi differenti e tipi di media differenti;
incerte: l’utente sa cosa vuole ma non sa descriverlo e riconosce il risultato corretto solo quando lo vede.

Fase di Ricerca

La ricerca è un compito fondamentale per i sistemi di gestione dei database.
Tipi di ricerca:

per specifica: necessita di interpretazione per passare da testo a definizione di attributi e feature su cui ricercare. Es. “Auto rossa” = range di colore dei pixel e forma di un oggetto contenuto nell’immagine
per esempi: necessita di strumenti di authoring multimediale per permettere l’inserimento dell’esempio con svariate modalità: disegno, cattura di immagini e video, ecc …

Raffinamento di una query

Spesso per query “incerte” occorre una fase di browsing: l’utente sa riconoscere quello che cerca ma non sa bene come descriverlo:

richiesta vaga e presentazione di un insieme ampio di risultati;
ricerca su una tassonomia che organizza le informazioni (categorie, ecc…);
ricerca casuale su un insieme di risultati forniti a caso.

Data l’incertezza delle query sui dati multimediali, l’utente deve poter raffinare le sue richieste in base ai risultati ottenuti per la richiesta iniziale.

Se l’utente si vede restituito dal sistema un elemento abbastanza simile a quello cercato, il sistema deve permettergli di riutilizzarlo per effettuare una nuova ricerca, più raffinata.

Tale processo può essere ripetuto più volte. La conoscenza del dominio e il profilo utente possono essere utilizzati per raffinare una query. Un feedback sulla pertinenza è particolarmente utile nelle applicazioni multimediali.

Nella pratica, il processo di individuazione di un’informazione multimediale è una combinazione delle fasi di ricerca, browsing e raffinamento.

L’interfaccia utente deve permettere la visualizzazione di tutti i tipi di dato multimediale (testo, immagini, video, audio…) e presentare gli aspetti essenziali degli oggetti o permettere all’utente di muoversi all’interno di esso (ad esempio una lunga sequenza video o audio). Il tempo di elaborazione deve essere basso (i risultati devono essere mostrati via via che vengono trovati).

Estrazione delle Feature

Gli oggetti multimediali gestiti dal database sono preprocessati per estrarne feature ed attributi.

Il processo di ricerca si basa sulla ricerca e comparazione di tali feature (e non del dato originale): l’efficacia di estrazione delle feature è basilare per ottenere un sistema di buona qualità (se una feature non è stata identificata ed estratta dal dato, ad una query su tale feature il sistema non potrà rispondere in maniera adeguata)

I requisiti per l’estrazione delle feature sono:

le feature estratte devono essere complete e rappresentare il contenuto e l’informazione presente nel dato;
devono essere memorizzate in maniera compatta (altrimenti sarebbe più veloce ricercare e confrontare i dati originali);
il calcolo della distanza tra le feature deve essere veloce in modo che siano bassi i tempi di risposta del sistema.

Tipi di Feature

Metadata: catturano le informazioni di contesto che non descrivono o interpretano il contenuto del dato stesso (autore, data di creazione, titolo, ecc …).

Annotazioni testuali: sono descrizioni testuali del contenuto di un dato multimediale (soffrono del problema di essere soggettive e incomplete).

Feature di basso livello: in genere possono essere estratte automaticamente. Catturano dati e statistiche di un oggetto e le relazioni spazio temporali tra parti dell’ oggetto.

Audio: volume medio, distribuzione in frequenza.
Immagini: distribuzione del colore, tessitura, forma degli oggetti, …
Video: struttura temporale e feature dei singoli frame.

Feature di alto livello: in genere l’estrazione richiede l’intervento umano. Cercano di riconoscere e capire gli oggetti: per esempio se in un file audio c’è musica o parlato, qual è il soggetto in primo piano in un video …

Tipi di Feature (segue)

Il retrieval basato sugli ultimi due tipi di feature è detto basato sul contenuto. Un sistema di gestione di dati multimediali deve supportare tutti e quattro i livelli di feature, che si completano a vicenda e rendono più completa la descrizione di un oggetto, adattandolo alle query.

Ad esempio un’annotazione testuale si presta a catturare concetti astratti come i sentimenti, ma non è idonea a descrivere pattern complessi come forme o texture irregolari. Viceversa, le feature di basso livello riescono a catturarli, ma non a descrivere concetti astratti.

Quando un oggetto multimediale comprende più tipi di media, le loro relazioni ed interazioni sono utili per l’estrazione di feature, l’interpretazione e il retrieval. Alcuni tipi di media sono più facilmente interpretabili e possono essere sfruttati per comprendere ed estrarre le feature di altri tipi di media.

Ad esempio, se un oggetto è formato da uno streaming video e da una traccia audio, si può applicare lo speech recognition per acquisire conoscenza riguardo l’oggetto e poi usare questa conoscenza per sezionare e estrarre feature ed oggetti dallo streaming video. Si osservi che MPEG-7 è uno standard di descrizione di feature, ma non ne specifica le modalità di estrazione.

Indicizzazione dei dati

Dopo avere estratto le feature e gli attributi da un dato multimediale è necessario usare delle strutture di indicizzazione per organizzare la memorizzazione delle feature e fare in modo cha la ricerca sia efficiente.

Data la natura diversa delle feature estratte, servono strategie di indicizzazione adeguate (ad esempio la distribuzione del colore in una immagine può essere memorizzata attraverso un istogramma). L’indicizzazione può essere gerarchica e avvenire a più livelli

L’indicizzazione può prendere in considerazione le relazioni spazio-temporali tra gli oggetti.

Sono necessarie misure delle similarità nello spazio delle feature estratte che simulino il giudizio umano (che è in genere soggettivo e dipendente dal contesto).

Misure di similarità
Il retrieval multimediale è basato sulla similarità e non su un matching esatto tra query e elementi del database. La similarità è calcolata sulle feature estratte e sugli attributi ed è espressa come uno o più valori.

La pertinenza dei risultati del retrieval è giudicata da esseri umani e quindi il maggior requisito delle misure di similarità e dei tipi di feature è che siano dei parametri adatti all’osservazione umana, circostanza che li rende comunque soggettivi e dipendenti dal contesto. Tutti questi fattori rendono complessa e cruciale la valutazione del retrieval.

Garanzie di QoS

I sistemi MIRS sono in genere distribuiti.

I dati multimediali impongono requisiti molto forti per una fruizione adeguata (larghezza di banda di trasmissione, spazio di memorizzazione, sincronizzazione spaziale e temporale).

QoS specifica un insieme di parametri e requisiti richiesti in due gradi:

qualità preferibile;
qualità accettabile.

La QoSè in genere negoziata tra client e server e sottoscritta tramite un “contratto” che garantisce tali parametri in uno dei seguenti modi:

deterministico: la qualità richiesta è garantita pienamente;
statistico: la qualità richiesta è garantita con una certa probabilità;
“best-effort“: la qualità non è garantita.

Multimedia Data Compression

La gran parte dei dati audio, video, immagini, … è salvata in formato compresso. L’obiettivo principale della compressione dei dati Multimediali non considera gli aspetti relativi al retrieval e alla presentazione. Per l’estrazione delle caratteristiche dagli oggetti multimediali occorre prima effettuare una decompressione. L’operazione di estrazione delle caratteristiche è molto frequente e ciò comporta troppa elaborazione; occorre uno schema più efficiente sia per la trasmissione che per la presentazione

Metodo 1: sul server, per ogni grande immagine si salva anche una “copia ridotta”. La query dell’utente recupera sempre la copia ridotta. Se occorre anche il dettaglio allora oltre la copia ridotta viene recuperata anche l’immagine originale. Svantaggio: ridondanza dei dati sul server.

Metodo 2: ogni query dell’utente recupera direttamente l’immagine originaria. L’immagine originaria viene ridotta per poter essere rappresentata sul client. Se occorre maggior dettaglio dell’immagine allora il server ritrasmette l’immagine originale. Svantaggio: spreco di banda per la trasmissione

Metodo 3: si usano metodi di decompressione scalabili, progressivi e gerarchici (es.: gif e jpeg progressive).

Multimedia Data Compression (segue)

Retriving di informazioni per raffinamento.

Standard di rappresentazione dei dati

L’estrazione delle caratteristiche ed il processo di confronto presume che, per ogni media, il dato raw (grezzo o di base) sia lo stesso. Ciò non corrisponde al mondo reale, infatti, per esempio:

diversi brani audio possono essere registrati a diversi livelli di amplificazione e quindi il loro confronto potrebbe perdere di significato;
diverse immagini possono essere equalizzate (gamma correction) in modo completamente diverso e quindi il loro confronto potrebbe perdere dei significato.