Home

Federica EU

1/17

Simona Balbi » 14.I Panel e il metodo Statis

I Panel

Con il termine panel si identifica un campione statistico “permanente” di unità statistiche contattate, in successivi periodi di tempo, su gli stessi temi, o su temi differenti.

In fase di progettazione di un’indagine panel, si prevedono le azioni necessarie nel momento in cui si verifichino cadute di risposte (mobilità “fisiologica” del panel).

Esistono anche degli interventi volti a contrastare il cosiddetto “effetto panel”, ossia il progressivo modificarsi del comportamento di acquisto, ma anche di registrazione dell’acquisto, da parte di componenti del panel, dovuti al fatto stesso di essere “panelist” (mobilità “pilotata”).

Perché un’indagine panel

Una delle loro prime motivazioni è quella di cercare di evitare le distorsioni della memoria, nel riferire eventi accaduti in momenti passati. Infatti, i panel consentono di abbreviare il tempo fra azione e registrazione dell’evento (tipicamente acquisto).

Il loro maggiore vantaggio è quello di essere l’unico strumento in grado di misurare fenomeni di permanenza/modifica dello stato di un soggetto. Si tratta di problematiche cruciali nelle ricerche di mercato, prima fra tutte la “fedeltà” alla marca, ma anche gli effetti di una campagna promozionale, o di un nuovo messaggio pubblicitario.

Problemi di rappresentatività

E’ importante sottolineare che nel lungo periodo esiste una sostanziale incompatibilità tra esigenza di rappresentatività e campione permanente: infatti è inevitabile che, sia nella popolazione di riferimento sia nello stesso campione, avvengano modifiche di carattere strutturale che compromettono il legame di appartenenza del campione alla popolazione.

Il tipico strumento per tener conto di questo fenomeno è il cosiddetto campione ruotato, in cui in uno schema controllato si immettono unità nuove, a sostituzione di una stessa quantità di unità sostituite, così da tenere sotto controllo alcune variabili (ad. Es. genere, età, titolo di studio, stato occupazionale, ecc.) che si ritengono rilevanti (v. lezione 5).

Diversi tipi di panel

I panel possono essere:

continuativi: un campione fisso nel tempo su cui si rilevano le stesse variabili in tempi diversi
omnibus: un campione fisso nel tempo su cui si rilevano variabili differenti in tempi diversi

I “panel” vengono impiegati soprattutto per rilevare con continuità, presso campioni di famiglie e dettaglianti, i volumi rispettivamente degli acquisti e delle vendite di prodotti alimentari, di altri beni di consumo corrente e di beni di consumo durevole.

Sono realizzati anche “panel” con scopi di ricerca specifici.

Il metodo Statis

Dal punto di vista della metodologia statistica il panel produce una particolare struttura di dati detta “a 3 vie”, accanto alle dimensioni (individui x variabili), se ne introduce una terza, il tempo. Sono numerose le tecniche proposte per analizzare questa struttura particolare, a forma di parallelepipedo. Qui ne approfondiremo una, legata all’approccio di analisi di dati multidimensionale di scuola francese: lo STATIS.

Il metodo statis è stato proposto per analizzare più matrici (individui x variabili), osservate in “occasioni” differenti. Questo vuol dire non solo successioni temporali, ma anche dati spaziali, ecc. Il vincolo è che almeno una dimensione sia comune alle diverse occasioni.

Nei panel “omnibus” , gli individui sono costanti, le variabili no. Nelle indagini ripetute di solito le variabili sono le stesse e gli individui cambiano. Nei panel di solito abbiamo stessi individui e stesse variabili.

Il metodo Statis

STATIS = Structuration des Tableaux A Trois IndiceS

Tecnica esplorativa di analisi dei dati a 3 vie:

*** Tre vie = individui x variabili x occasioni

Obiettivo

Rappresentare le distanze euclidee fra configurazioni di punti relative a dati osservati in differenti occasioni.

Struttura di dati da analizzare

Tipicamente un insieme non ordinato di matrici contenenti i valori assunti da variabili quantitative in occasioni differenti.

(L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994)

Statis si articola in tre fasi

Interstruttura
Compromesso
Intrastruttura

Interstruttura: rappresentare in uno spazio geometrico appropriato, la struttura di similarità fra le matrici.

Compromesso: trovare una matrice che sintetizzi in modo “ottimale” le diverse matrici osservate.

Intrastruttura: rappresentare le unità statistiche e le variabili osservate nelle diverse occasioni.

La tecnica

Statis affronta l’analisi di K studi statistici, ciascuno definito da una terna (X_k, O_k, M_k), con k=1, …, K, dove:

X_k è la matrice dei dati, a n righe (individui) e p colonne (variabili)
O_k è la metrica
M_k è la matrice diagonale del sistema di pesi, che nel seguito, per semplicità considereremo pari a 1/n per tutti gli individui in tutte le occasioni

Si consideri il caso in cui K studi (X_k, I, M) siano osservati sugli stessi n individui (indagine cross-sezionale). Ogni X_k (I, J_k) è la matrice dei valori assunti da J_k variabili sugli stessi n individui nelle K occasioni.

Tre diversi problemi: la fasi di Statis

Effettuare un confronto globale dei K studi (individuare la struttura interna del fenomeno considerato nel suo complesso: interstruttura)
Effettuare una sintesi dei K studi (compromesso)
Indagare circa le differenze di comportamento degli individui, quando questo sia analizzato all’interno della struttura bidimenionale X_k (k= 1, …, K), o quando lo si rapporti ad un comportamento “medio” identificato nel compromesso

Questi 3 problemi rappresentano i 3 passi in cui si articola STATIS.

Preparazione dei dati

STATIS associa ad ogni matrice X_k un elemento caratteristico O_k, in questo caso (= individui/ ≠ variabili) rappresentato dalla matrice dei prodotti scalari:

O_k = X_k X_k‘

[o_ii* ] = Σ_j x_ij x_i*j

j = 1, …, J_k

Le J_k variabili di ciascuna matrice X_k sono centrate.

Si definisce la matrice (K,K) I di generico elemento:

I_kk* = Covv(O_k, O_k*) = Tr (O_k, O_k*), oppure
I_kk* = Rv(O_k, O_k*) = Tr (O_k, O_k*)/ÖTr (O_k)² ÖTr (O_k* )²

Covv e Rv misurano entrambi la distanza fra configurazioni di individui (elementi caratteristici).

Sono le estensioni vettoriali della covarianza e del coefficiente di correlazione lineare, calcolati su coppie di variabili.

Infatti, Covv è la somma del quadrato delle covarianze di ogni variabile di X_k, mentre Rv è il prodotto degli O_k standardizzati.

L’interstruttura

Questa fase consiste nella decomposizione spettrale della matrice dell’interstruttura I.

Si ottiene la rappresentazione dei K punti relativi alle K occasioni in un sottospazio fattoriale generato degli autovettori corrispondenti agli autovalori più grandi di I.

Indicando con μ1 ≤ … ≤ μs ≤ … ≤ μ_K gli autovalori di I e con u₁ ; … ; u_s ; …; u_K gli autovettori corrispondenti, allora:

I_(S) = Σ_s μ_s u_s u_s‘ con s = 1, … , S

Fornisce la migliore approssimazione di rango S di I, nel senso dei minimi quadrati.

L’interstruttura: il piano fattoriale

Esempio di 3 indagini effettuate sullo stesso collettivo, su temi differenti:

La prossimità di 2 punti fornisce la rappresentazione grafica della somiglianza globale delle indagini 1 e 2 in contrapposizione alla terza. Questo può essere interpretato come una somiglianza/dissomiglianza strutturale nel comportamento degli individui nei confronti dei temi trattati nelle diverse indagini.

Motivazioni del compromesso

Proposizione 1: La combinazione lineare Σ_ku_1kO_k ha norma massima e massimizza la somma dei quadrati dei prodotti scalari con gli elementi iniziali.

Proposizione 2: Tutti gli elementi di u₁ hanno lo stesso segno, che può essere scelto positivo (teorema di Frobenius).

Allora O = Σ_ku_1kO_k è una matrice semidefinita positiva e può essere vista come un elemento caratteristico O di uno studio nascosto.

La matrice O è chiamata compromesso.

Il compromesso

Si diagonalizza O per rappresentare n punti-individuo.

La prossimità di 2 punti esprime una somiglianza “media” di comportamento di 2 individui fra occasioni.

Sia ν il numero di autovalori non nulli di O, in ordine decrescente, e as (s = 1, …, ν ) i corrispondenti autovettori.

Proposizione 3: a_s è il baricentro degli a_s_(k) a meno di un fattore di normalizzazione, dove as(k) è l’autovettore di O_k associato all’s-esimo autovalore (con k = 1, …, K). E’ quindi possibile ottenere una rappresentazione in cui un punto-individuo del compromesso è il baricentro dei corrispondenti punti-individuo dei K studi.

L’interstruttura

In questo passo si rappresentano gli individui (e le variabili) delle matrici a due vie in supplementare.

N.b. il numero dei punti è molto elevato: n x(K+1)individui e p x (K+1) variabili.

Nei casi in cui questo abbia un significato, si possono tracciare traiettorie fra punti omologhi.

Lo Statis duale

Stesse variabili, individui differenti nelle K occasioni (caso tipico, indagini su campioni indipendenti ripetuti): le matrici X_k hanno stesso numero di colonne e numero diverso di righe.

L’elemento caratteristico è la matrice di varianze e covarianze delle variabili osservate in ciascuna occasione:

Nella fase dell’interstruttura si ottiene la rappresentazione delle distanze euclidee fra le matrici di varianze e covarianze del k-esimo e del k’-esimo studio
Il compromesso è la somma ponderata delle matrici di varianze e covarianze, mentre le traiettorie rappresentano il contributo di ogni variabile alla distanza euclidea fra le matrici di varianze e covarianze

Stessi individui, stesse variabili

Una simile situazione consente di porsi indifferente-mente all’interno dello schema di STATIS o di STATIS duale.

Si tratta di scegliere come elemento caratteristico la matrice dei prodotti scalari XX’, oppure quella di varianze e covarianze X’X. La scelta dipende dall’obiettivo perseguito: nel primo caso un confronto fra comportamenti di individui, nel secondo di variabili.

E’ il caso tipico dei dati di un panel continuativo.