Home

Federica EU

1/28

Roberta Siciliano » 2.L'organizzazione dei dati statistici

Obiettivi e contenuti

Obiettivi

Definire le modalità operative di selezione dei dati, considerando gli strumenti dell’informatica.
Comprendere il valore dell’informazione quantitativa in azienda.
Definire le principali procedure di acquisizione, codifica e organizzazione dei dati in tabella finalizzate alla costruzione della base dati da elaborare con i metodi statistici.

Contenuti

I dati statistici: alcune definizioni
La codifica e qualità dei dati
L’organizzazione dei dati in tabelle
Importazione ed imputazione dati in Excel
Le “trasformazioni” dei dati
Strategie di ricerca e preparazione del dato
I dati ed il valore dell’informazione in azienda
Il data warehouse
Il processo di acquisizione, sintesi e analisi dei dati

Il dato statistico: alcune definizioni

Unità statistica: è l’entità elementare (individuo, oggetto) del collettivo oggetto di studio.
Carattere: è il fenomeno o caratteristica di interesse che si rileva sulle unità statistiche e si esprime attraverso le modalità (numeriche o attributi qualitativi).
Modalità: espressione della misurazione della variabile statistica su una unità

Scala numerica / numero → carattere numerico
Scala ordinale / attributo ordinabile → carattere ordinale
Scala nominale / attributo → carattere nominale

Dato statistico: è il risultato dell’operazione di determinazione della modalità con cui un carattere è presente in ciascuna unità del collettivo oggetto di studio

univariato → in presenza di un solo carattere
multivariato → in presenza di più caratteri

Organizzazione dei dati statistici: è l’insieme delle operazioni di acquisizione (rilevazione o selezione), codifica e ricodifica, controllo di qualità dei dati, trattamento dei dati mancanti.

La codifica dei dati

Carattere nominale/ordinale
→ Codice numerico punta alla modalità (legenda della corrispondenza tra attributi e codice numerico).
Sede operativa azienda
Modalità: Nord (=1), Centro (=2), Sud (=3)
Fascia di età
Modalità: < 18 anni (=1), 18-| 30 (=2), > 30 (=3)

Carattere numerico
→ Codice numerico corrisponde al valore numerico
Reddito
Modalità: valore numerico espresso in €
Età
Modalità: valore numerico espresso in N (numeri naturali)

Nota
Nei questionari impiegati per l’indagine diretta, le domande a risposta singola sono codificate con un solo carattere, mentre le domande a risposta multipla, per essere analizzate con strumenti statistici, necessitano di un’apposita codifica detta binaria, facendo corrispondere una variabile binaria (0,1) a ciascuna modalità.

Dati mancanti e ricodifica

Trattamento dei dati mancanti

Esclusione
Imputazione

Ricodifica dei dati

Caratteri in scala nominale

→ Accorpamento modalità e codifica binaria (0, 1)

Caratteri in scala ordinale

→ Accorpamento modalità

Caratteri in scala numerica

→ Suddivisione in classi

Esempi

Accorpamento modalità
Carattere: Sede operativa dell’Azienda
Modalità: le 20 Regioni Italiane
Ricodifica: Nord, Centro, Sud

Codifica binaria o dicotomizzazione
Carattere: Reddito mensile dipendenti pubblici
Modalità:valore numerico
Ricodifica: 0 (Reddito mensile inferiore a 1800€), 1 (Altrimenti)

Suddivisione in classi
Ricodifica: 0–| 1200€, 1200€–| 1800€, 1800€–| 2800€,
2800€–| 3800€, > 3800€

La qualità dei dati

Controllo della qualità dei dati

Rilevanza (argomenti e concetti di interesse)
Accuratezza (stime attendibili)
Tempestività (gap ridotto tra produzione e fruizione)
Accessibilità (chiarezza e flessibilità nell’uso)
Confrontabilità (spazio e tempo)
Coerenza (relazioni logiche chiare e rigorose)
Completezza (efficacia rispetto al fabbisogno degli utenti)

Fonti di errore

Errori non campionari (imprecisioni codifica o rilevazione, etc.)
Errori campionari (indagine campionaria)

L’organizzazione dei dati in tabelle

La matrice dei dati è l’input dell’elaborazione statistica dei dati.

Tipi di matrici:
Matrici unità x variabili

Tabelle di intensità
Tabelle di valori medi
Tabelle booleane
Tabelle di punteggi
Tabelle di preferenze
Tabelle di ranghi

Matrici unità x unità

Similarità/dissimilarità tra unità statistiche
Intensità di flussi in matrici di scambio
Esistenza di relazione (forma booleana)

L’organizzazione dei dati in tabelle (segue)

Matrici variabili x variabili

Matrici di dispersione
- matrice delle varianze e covarianze
- matrice delle devianze e codevianze
- matrici delle correlazioni
Matrice di Burt
Tabelle di frequenze giustaposte

Esempi

Caratteri:

Età: x_min=16, x_max=65

Reddito (in migliaia di euro) x_min=1, x_max=10

Professione:

Disoccupato
Operaio
Impiegato
Dirigente
Libero professionista
Studente
Pensionato

Matrice dei dati grezzi

Ricodifica del carattere “Professione”

Il carattere “Professione” viene ricodificato in sette variabili docotomiche, ciascuna associata ad una modalità del carattere.

Suddivisione in classi dei caratteri numerici

Le modalità del carattere “Reddito” vengono suddivise in quattro classi, a ciascuna delle quali viene associata una variabile dicotomica.
Le modalità del carattere “Età” vengono suddivise in tre classi.
I totali di colonna rappresentano le frequenze assolute associate a ciascuna modalità (classe o attributo) di ciascun carattere.

Riclassificazione delle unità per “professione”

Costruzione di una tabella giustaposta, nella quale le unità statistiche sono riclassificate rispetto al carattere “Professione” che viene incrociato con le classi di età e con le classi di reddito.
I totali colonna rappresentano le frequenze assolute di ciascuna classe.
I totali riga sono pari al doppio delle frequenze assolute di ciascun attributo del carattere “Professione” (in quanto il carattere “professione” è incrociato con due altri caratteri); ad esempio tre sono disoccupati, distribuiti uniformemente nelle tre fasce di età, mentre uno appartiene alla prima classe di reddito gli altri due alla seconda classe.

Tabella dei valori medi

E’ possibile desumere i valori medi del carattere “età” e del carattere “reddito” calcolati sulle unità statistiche che presentano rispettivamente ciascuna modalità del carattere “professione”.

La matrice dei dati in Excel

Excel è un’applicazione di foglio elettronico che permette di raccogliere ed elaborare i dati inseriti dall’utente.

I dati vengono raccolti in tabelle.

Tabella: insieme di celle disposte secondo righe (identificate da numeri) e colonne (identificate da lettere). Costituisce un foglio di lavoro.

Cartella di lavoro: insieme di fogli di lavoro.

In un’ottica statistica, un foglio di lavoro può essere inteso come la naturale rappresentazione di una matrice di dati.
In questo senso, considerata una generica tabella:

ogni colonna rappresenta una variabile statistica con la distribuzione di valori-risposte
ogni riga rappresenta l’insieme dei valori-risposte delle variabili considerate su una particolare osservazione

Chiarito ciò, una tipica tabella excel (o foglio di lavoro) che contiene dati statistici si configura come una matrice dei dati “individui x variabili”.

La sorgente dei dati

I dati da analizzare possono avere diverse fonti:

Da file esterni contenenti tabelle
- File testo delimitati
- File Microsoft access
- ecc.
Da imputazione diretta in un foglio di lavoro

Excel implementa numerosissimi strumenti per la descrizione statistica dei dati sia in via analitica che grafica.

Queste routine possono essere così sintetizzate in:

funzioni e grafici per dati categorici
funzioni e grafici per dati numerici
funzioni e grafici per l’analisi bivariata

Le routine statistiche sono raggruppate in alcune macro disponibili nel menu:
“Dati” → “Componenti Aggiuntivi” → “Strumenti di Analisi”

Importazione dati in Excel

Importazione dati da file testo delimitati
I file testo delimitato contengono tabelle di dati in cui ogni valore è delimitato dagli altri attraverso dei simboli convenzionali: “spazio”, “,”, “;”, ecc.
Il formato è CSV (Comma Separated Values) oppure TXT.
Occorre selezionare il menù APRI e come tipo di file FILE DI TESTO.
I dati appariranno non separati in colonne, quindi occorre:

selezionare il menù DATI
la voce TESTO IN COLONNE
indicare che i dati sono delimitati, in colonna, da un simbolo
selezionare il tipo di delimitazione
verificare nell’anteprima la correttezza dell’importazione
selezionare “fine” per terminare l’importazione

Importazione dati da un database Access
Selezionare i dati di interesse
Selezionare dal menu “DATI ESTERNI” l’icona esporta in Excel
Salvare il file Excel nella posizione desiderata

Le trasformazioni dei dati

Dati percentualizzati per riga
Dati percentualizzati per colonna
Dati centrati
Dati standardizzati
Dati ridotti

indicatori statistici
rapporti statistici
numeri indice
dati pro-capite (o di densità)

Strategia di ricerca e preparazione del dato

I fatti → le osservazioni empiricamente verificabili, ovvero le informazioni in qualche modo reperibili nel sistema informativo aziendale, nelle banche dati esistenti, nel corso di una indagine empirica etc.

La teoria → insieme sistematico e compiuto di analisi delle “relazioni tra i fatti”.

I concetti → la “forma” (gli strumenti) di cui si serve la scienza per svolgere osservazioni e collegamenti sui fenomeni empiricamente verificati.

Le ipotesi di lavoro e la documentazione preliminare.

I dati ed il valore dell’informazione in azienda

L’aumento esponenziale del volume dei dati operazionali in azienda ha reso il computer l’unico supporto adatto al processo decisionale.
I sistemi tecnologici di supporto alle decisioni in azienda acquisiscono informazione da un vero e proprio “magazzino dei dati”, detto data warehouse.

Dato: unità elementare (notizia)
Informazione: insieme di dati in grado di cambiare la nostra percezione di qualcosa
Conoscenza: trasformazione di informazione in valore

L’informazione è un bene, o merce, a valore crescente, richiesto dalla direzione (ma non solo) per pianificare e controllare le attività aziendali con efficacia.

L’informazione è la materia prima che viene trasformata dai sistemi informativi come i semilavorati vengono trasformati dai sistemi di produzione.

L’informazione è una risorsa aziendale alla stessa stregua del capitale, delle materie prime, degli impianti e delle persone, e come queste ha un costo.

È quindi importante capire il valore dell’informazione.

Il principio fondamentale enunciato da Michael E. Porter della Harvard Business School:
« dare l’informazione giusta alla persona giusta, nel momento giusto per prendere la giusta decisione »

Le esigenze in azienda

Usuali affermazioni

Abbiamo montagne di dati ma non possiamo accedervi!
Come è possibile che persone che svolgono lo stesso ruolo presentino risultati sostanzialmente diversi?
Vogliamo tagliare i dati a fette e a cubetti in ogni modo possibile!
Mostratemi solo ciò che è importante!
Tutti sanno che alcuni dati non sono corretti!

Accessibilità ai dati

La disponibilità di strumenti hardware e software sempre più accessibili e potenti ha permesso alle moderne organizzazioni di raccogliere e memorizzare quantità sempre maggiori di dati di dettaglio.

La capacità di analizzare e comprendere massicci quantitativi di informazione è molto in ritardo rispetto alle tecniche sviluppate nel corso degli anni per la raccolta e la registrazione delle stesse.

I database si possono dunque definire come una grossa risorsa potenziale “dormiente” che, solo se utilizzata correttamente, può fornire benefici sostanziali.

Automatizzare l’estrazione della conoscenza

Un gruppo di ricercatori e professionisti interessati al problema dell’automazione dell’analisi dei dati si è fatto carico di questi problemi generando un settore di ricerca chiamato Knowledge Discovery in Databases (KDD) il cui primo congresso si tenne nel 1989.
Il Data Mining è un processo di estrazione di “pattern” da banche dati di grandi dimensioni tramite l’applicazione di algoritmi che individuano le associazioni “nascoste” tra le informazioni e le rendono visibili.
Un Data Warehouse (magazzino dei dati) è la base ideale su cui poggiare questi strumenti.

I sistemi di supporto alle decisioni (Decision Support Systems) sono sistemi progettati per aiutare le persone che contano, utilizzando modelli sofisticati e tecniche di database per risolvere problemi complessi di business (Keen 78).
Sono strumenti informatici (interattivi) che aiutano il manager a prendere decisioni, ricercando, sintetizzando e analizzando i dati necessari al processo decisionale.

Dati operazionali e genesi del data warehouse

Con il termine dati operazionali si intendono i dati memorizzati a seguito dei processi gestionali (es. gestione acquisti, gestioni vendite, fatturazione).
Per ogni azienda è fondamentale poter disporre in maniera rapida e completa delle informazioni necessarie al processo decisionale: le indicazioni utili sono estrapolate dalla mole dei dati operazionali contenuti nel sistema informativo.

La gestione dei dati strutturati in forma complessa deve soddisfare i seguenti obiettivi operativi:

Gestire una grande mole di dati
Integrare e rendere “coerenti” i dati
Accedere a diverse fonti di dati su piattaforme eterogenee
Garantire l’accesso a più utenti per interrogazioni, analisi in tempo reale e simulazioni

Obiettivi operativi del data warehouse

Gestire versioni storiche dei dati.
Fare da piattaforma di un sistema di supporto alle decisioni con le seguenti caratteristiche:

Facilità di accesso alle informazioni
Gestione delle versioni storiche dei dati
Visione multidimensionale dei dati
Selezione del livello di dettaglio più adatto alle esigenze di analisi
Capacità di costruire scenari futuri

Data warehouse

Un sistema di data warehouse è un insieme di dati provenienti dai vari sottosistemi aziendali con le seguenti caratteristiche:
Orientato alle informazioni: nel data warehouse vengono ricostruite nella loro interezza le informazioni presenti in modo frammentario nei vari sottosistemi
Integrato: I dati vengono inseriti in un data warehouse proprio per eliminare le inconsistenze e incongruenze dei sistemi elementari
Non volatile: memorizza fotografie successive della realtà raccolte a cadenza prefissata
Time-Varying: l’orizzonte temporale dei dati “in linea” in un data warehouse è tipicamente molto superiore rispetto ai sistemi operazionali

Caratteristiche del data warehouse
E’ “rinfrescato” a intervalli regolari, è in crescita continua, è centralizzato logicamente e di facile accesso per gli utenti, sostanzialmente a sola lettura.
L’esistenza di un DW nell’azienda non comporta l’inserimento di nuovi dati bensì la riorganizzazione dei dati esistenti.
La costruzione di un DW implica l’esistenza di un sistema informativo.
La progettazione di un DW si basa su principi spesso in contrasto con quelli utilizzati per i convenzionali sistemi informativi.

Acquisizione, sintesi ed analisi dei dati

Data Mart

Con il termine Data Mart si intende una sottoparte (replica) del data warehouse contenente l’insieme delle informazioni rilevanti per un particolare problema.

Il concetto di data mart riveste una importanza fondamentale nei progetti di data warehouse, in particolare:

Costituisce l’unità logica di informazione in termini di granularità
Delinea i contorni delle informazioni necessarie ad un particolare tipo di utenti
Permette la costruzione incrementale del DW