IR: tecniche di recupero delle informazioni.
Rilevanza storica: grandezza del volume dei dati (es: librerie digitali).
Il testo è impiegato come strumento manuale di annotazione sfruttabile da un IR.
Concetti di base:
DBMS:
IR:
Schema generale del document retrieval. Fonte: “modificata, tratta da Guojun Lu, Multimedia Database Management Sysyems, Norwood, MA: Artech House, Inc., © 1999 by Artech House, Inc.”
Problema della scelta della rappresentazione della conoscenza:
L’inverted file contiene un insieme di righe di testo
Ogni riga contiene:
La parola “inverted” spiega quindi l’inversione del verso di ricerca: Prima la chiave e poi il documento che contiene la chiave.
Il processo di ricerca è più efficiente rispetto il flat-file: non si analizzano i documenti interi ma solo l’inverted file da cui si ricavano i collegamenti ai documenti che contengono la chiave (o soddisfano la query).
E’ possibile raffinare la ricerca supponendo che sia significativa:
Definiamo 2 nuovi operatori quali “WITHIN SENTENCE” e “ADJACENT” con il seguente significato:
Il processo di indicizzazione del file di testo prevede diverse fasi; lo scopo principale è quello di filtrare il testo in modo da ottimizzare la significatività delle informazioni da considerare per le ricerche.
Fasi di filtraggio:
Il modello spazio vettoriale presume l’esistenza di un determinato insieme di termini che rappresentino i Documenti e le Query: un documento Di ed una Query Qj sono definite nel seguente modo:
Di = [Ti1, Ti2,.....Tik,.......TiN]
Qj = [Qj1, Qj2,...Qjk,.......QjN]
In cui:
Tik è il peso del k-esimo termine relativo al documento i;
Qjk è il peso del k-esimo termine relativo alla query j;
N è il numero totale di termini usati nel documento e nella Query.
Il calcolo di similarità “combina” i valori dei vettori di caratteristiche ottenendo così un valore di sintesi eventualmente normalizzato
Nota: lo scopo della normalizzazione è quello di ottenere un parametro di valutazione che sia indipendente dalle dimensioni N dei vettori.
Di fatto il valore di S(Di, Qj) normalizzato. corrisponde al valore del coseno dell’angolo che formano i due vettori Di e Qj .
Calcolo della similarità:
Calcolo della similarità normalizzata:
Parameteri di valutazione:
Nella pratica, i parametri di valutazione recall e precisione vengono valutati in modo congiunto, ed una buona prestazione è indice di un oculato compromesso.
Tipicamente quanto maggiore è la recall tanto minore risulta la precisione: infatti quanto maggiore è lo sforzo della query per prelevare tutti i documenti rilevanti, tanto maggiore sarà la probabilità che in output andranno anche documenti non rilevanti (e quindi imprecisione). Viceversa: quanto maggiore è la precisione tanto minore risulta la recall: per evitare di prendere elementi non rilevanti si finisce inevitabilmente per non prelevare qualche documento rilevante.
L’indicizzazione automatica ha una prestazione simile a quella manuale ed un reale miglioramento si ottiene combinando entrambe le tecniche.
Impiegando un insieme di query simili la performance del recupero mediante confronti (match) parziali si è dimostrata essere migliore del match booleano esatto.
Il modello probabilistico e spazio vettoriali hanno performance analoghe.
Le tecniche di recupero basate su cluster e sul modello probabilistico hanno performance analoghe ma recuperano insiemi diversi di documenti.
Se al primo tentativo non si è riusciti a recuperare documenti rilevanti allora l’uso di Relevance feedback consente un reale miglioramento della prestazione.
L’uso di uno specifico dominio di conoscenza e del profilo utente che effettua la query, produce un significativo miglioramento della prestazione.
I motori di ricerca sul WWW costituiscono molto probabilmente il tipo di applicazione più utilizzato sul Web.
I documenti Web sono memorizzati come ipertesti in formati quali HTML.
I documenti sono strutturati in NODI, LINK ed ANCHOR:
Un ipertesto è un modo di organizzare l’informazione che permette un accesso non sequenziale.
L’Ipermedia è una stensione dell’ipertesto in cui le ancore e nodi possono essere ti tipo qualsiasi.
Il WWW è una estensione geografica dell’ipermedia.
Diverse sono le regole di base che governano la comunicazione (i protocolli):
HTTP, HTTPs, FTP, FTPs, ….
Mediante l’interfaccia di un browser, il client effettua la richiesta di un documento al server che attraverso il versatile strato delle CGI (Common Gateway Interface) accede a svariate librerie di funzioni e/o servizi.
Finita l’elaborazione sul server i risultati vengono reindirizzati al client che ne aveva fatto richiesta.
URL (Uniform Resource Locator): indirizzo che univocamente identifica ogni documento della rete:
Protocoll://Servername[:port]/Path/Document-name
Es.: http://www.na.infn.it/~wbalzano/index.html
ftp://ftp.monash.edu.au/pub/internet/readme.txt
Crawler (detto anche spider o robot): tipo di bot (programma o script che automatizza delle operazioni) che analizza i contenuti di una rete (o di un database) per conto di un motore di ricerca nel Web.
Solitamente acquisisce una copia testuale di tutti i documenti visitati e li inseriscono in un indice.
Si basa su una lista di URL da visitare fornita dal motore di ricerca (basata su indirizzi suggeriti dagli utenti o su liste precompilata dai programmatori stessi).
Durante l’analisi di un URL, identifica tutti gli hyperlink presenti nel documento e li aggiunge alla lista di URL da visitare.
Poiché i documenti selezionati sono comunque tanti, per poterli mostrare all’utente è necessario comunque organizzarli (Ranking).
Poiché i documenti selezionati sono comunque tanti, la caratteristica di precisione del motore è più importante della caratteristica di recall (anche perché partendo dai “pochi” documenti selezionati, posso navigare e raggiungere gli altri documenti).
Un modo per organizzare i documenti, assegnando loro dei pesi, è basato sulla formattazione del testo HTML.
1. Introduzione
2. Tipologia e formati dei dati MultiMediali. Il testo
3. Tipologia e formati dei dati MultiMediali. L'audio
4. Tipologia e formati dei dati MultiMediali. Grafica e video
5. Progetto di DB Multimediali
6. Indicizzazione e recupero dei documenti di testo
7. Indicizzazione e recupero dell'audio
8. Metodi di classificazione dell'audio
9. Colori
10. Indicizzazione e recupero delle immagini
11. Esempi reali di image retrieval
12. Video
13. Strutture dati efficienti per la ricerca della similarità - pa...
14. Strutture dati efficienti per la ricerca della similarità - pa...
15. Sistemi di supporto e misure di efficacia
17. Geographical Information System - parte prima
18. Geographical Information System -parte seconda
19. Geographical Information System - parte terza