Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
I corsi di Sociologia
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Amalia Caputo » 7.Esercitazione: le variabili


Le funzioni dell’ analisi monovariata

Lo scopo per cui si raccolgono e si organizzano dati mediante una matrice è di investigare le relazioni fra proprietà (dunque fra variabili).
Quindi
deve essere considerata una fase preliminare per effettuare analisi più complesse, fase obbligatoria in quanto fondamentale.

L’analisi monovariata ha due funzioni principali:

  1. Controllare la plausibilità dei valori – wild code check: Controllo dei valori selvaggi ossia dei possibili errori di rilevazione/immissione nella matrice dati.
  2. Segnalare squilibri nella distribuzione e opportunità di aggregazione (Figura)

La distribuzione di frequenza di una variabile

La distribuzione di frequenza di una variabile è la rappresentazione sintetica dei dati in forma tabellare, attraverso la quale ad ogni valore della modalità della variabile viene associata la frequenza (numero dei casi) con la quale essa si presenta.

Le colonne in cui vengono indicate le etichette numeriche e semantiche vengono denominate colonne madri.

Ciascuna frequenza rappresenta il numero dei casi che ricade nella modalità corrispondente;

Il totale corrisponde al numero dei casi (N).


Cinque tipi di frequenze

  1. Fr. Assolute = numero dei casi che presentano quel valore senza che si effettui alcuna manipolazione (conteggio).
  2. Fr. Relative = proporzione (rapporto) del numero dei casi che presentano quel valore rapportato con il numero totale dei casi; il totale sarà sempre uguale ad 1
  3. Fr. Relative percentuali = proporzione (rapporto) del numero dei casi che presentano quel valore rapportato con il numero totale dei casi moltiplicato per 100; il totale sarà sempre uguale a 100
  4. Fr. Cumulate = in corrispondenza di ogni valore si riporta la somma delle frequenze di quel valore e dei valori inferiori; il totale dell’ultima categoria sarà sempre uguale ad 1
  5. Fr. Cumulate %= in corrispondenza di ogni valore si riporta la % di quel valore e dei valori inferiori; il totale dell’ultima categoria sarà sempre uguale a 100.
  6. Fr. Retro-cumulate = in corrispondenza di ogni valore si riporta la somma delle frequenze di quel valore e dei valori superiori; il totale della prima categoria sarà sempre uguale ad 1
  7. Fr. Retro-cumulate = in corrispondenza di ogni valore si riporta la % di quel valore e dei valori superiori; il totale della prima categoria sarà sempre uguale a 100.

Cinque tipi di frequenze (segue)

Calcolo delle frequenza (esempio) del valore 3, modalità “Diploma Media superiore”:
Fr. Assoluta: =480
Fr. Relativa: 165/480 =0,34
Fr. relativa %: 165/480* 100 =34,38%
Fr. Cumulata:
(15+42) =57;
(57+191) =248;
(248+15) =413
Fr. cumulata %:
(3,13%+8,75%) =11,88%;
(11,88%; +39,79%)=51,67%
(51,67%+34,38%)=86,04%
Fr. retro-cumulate:
(22+45) =67;
(67+165) =232
Fr. retro-cumulate %:
(4,58%+9,38%)=13,96%
(13,96%+34,38%) =48,34%


Come si presentano le tabelle di frequenza

Quali frequenze si devono includere in una tabella?

Come si arrotondano i decimali?

Alcune “raccomandazioni”…


Quali frequenze si devono includere in una tabella?

E’ necessario seguire sei regole:

  1. Frequenze percentuali: preferire le frequenze percentuali: questo consente una maggiore leggibilità e confrontabilità di differenti distribuzioni di frequenza.
  2. Frequenze assolute: A volte, si possono ritenere interessanti anche le frequenze assolute, (vedi tabella).
  3. Parsimonia: inserire solo le informazioni indispensabili, indicare solo un tipo di frequenza (assoluta, relativa, percentuale, etc…)
  4. Numerosità dei casi: nel caso si utilizzino le frequenze percentuali (più usate) è necessario indicare il numero complessivo dei casi in valore assoluto (N) in questo modo è possibile ricalcolare le frequenze assolute della distribuzione.
  5. Utilità delle percentuali: non usare le frequenze percentuali se N è minore di 50 casi (riportare le percentuali se si vuole comparare più distribuzioni di frequenza).
  6. Fallacy of the misplaced precision: evitare la tendenza a riportare percentuali con un numero eccessivo di decimali, ma riportare solo quelli strettamente necessari (vedi lucido successivo).

Come si arrotondano i decimali?

Per evitare la Fallacy of the misplaced precision, una possibile regola, suggerita da Marradi (2001), è la seguente:

se N ≥ 1.000 casi 1 cifra decimale
se 1.000 ≥ N ≤ 10.000 casi 2 cifre decimali

Arrotondamenti corretti:

  • da 0 a 4 → arrotondamento per difetto.
    • Es.: 16,73 → 16,7
  • da 6 a 9 → arrotondamento per eccesso
    • Es.: 16,78 → 16,8
  • se 5 →controllare il decimale successivo
    • Es.: 16,75
    • se 16,752 → 16,8
    • se 16,748 → 16,7
    • se 16,75 non è arr. → arrot. per eccesso e per difetto


Alcune “raccomandazioni”…

Prima di terminare è necessario fornire alcune raccomandazioni.

Distribuzioni di frequenza particolari

In sede di analisi dei dati, per semplificare la lettura dei dati oppure per consentire all’intervistato di rispondere agevolmente a più domande, molto spesso si ricorre a distribuzioni di frequenza particolari.

1. Le domande “cardinali”

La distribuzione di frequenza di una variabile cardinale è difficilmente interpretabile perché presenta molte modalità, ciascuna delle quali con frequenze molto basse. E’ per questo necessario procedere ad una sintesi, attraverso il raggruppamento di valori, ovvero attraverso la creazione di classi (vedi esempio).


Le domande a risposta multipla dicotomiche

Le domande a risposta multipla, si presentano all’intervistato come un’unica domanda alla quale il soggetto può rispondere utilizzando anche più modalità di risposta.

In sede di analisi dei dati, quelle che appaiono all’intervistato come modalità, vengono trattate come variabili in due modi differenti, a seconda se viene stabilito o no un limite massimo di risposte.

Se non è previsto un limite di risposte possibili, ciascuna “modalità” viene trattata come una variabile dicotomica (vedi esempio 1).


Le domande a risposta multipla dicotomiche (segue)

Se è previsto un limite di risposte possibili, in matrice dati la variabile viene inserita tante volte quante possibili risposte sono consentite (vedi esempio2).



I materiali di supporto della lezione

Marradi A., L'analisi monovariata, Milano, Franco Angeli, 1995.

Marradi A., Linee guida per l'analisi bivariata dei dati nelle scienze sociali, Milano, Franco Angeli, 1997.

Corbetta P., La ricerca sociale: metodologia e tecniche, vol. IV, Bologna, Il Mulino, 2003.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion