Le 4 scale di misura. Capisco la reazione istintiva: saltare a piè pari un articolo che ha il sapore di una introduzione, poco eccitante, a un tema considerato banale.
Chiedo tuttavia ai lettori uno sforzo che, penso, valga la pena di fare. I concetti presenti in questo articolo sono basilari e proprio per questo hanno un valore e un’ importanza fondamentale.
Assimilare questi concetti significa costruire una solida base per gli argomenti che seguiranno.
Detto in maniera concisa, ma risoluta: non diamo nulla per scontato, perchè nulla è scontato.
Dati quantitativi e qualitativi
Iniziamo con un po’ di concetti fondamentali, che ci accompagneranno sempre.
I dati possono essere classificati in 2 tipologie principali:
- Quantitativi
- Qualitativi (o categorici)
Importante
In statistica, l’intero gruppo che andiamo a studiare è chiamato popolazione.
Gli individui (possono essere esseri viventi come cose) nella popolazione sono chiamati unità.
Le caratteristiche delle unità che andiamo a studiare le chiamiamo variabili.
Queste variabili possono essere quantitative oppure qualitative (dette anche categoriche).
I 4 livelli di misura
I dati possono essere misurati a differenti livelli, a seconda del tipo di variabile e del livello di dettaglio registrato.
Lo psicologo americano Stanley Smith Stevens propose nel 1946 una classificazione a 4 livelli di misura (o scale di misura), ancora oggi largamente in uso.
Parliamo quindi di:
- Misura nominale
- Ordinale
- Intervallo
- Rapporto
La differenza tra queste 4 tipologie di scale di misura si basa su alcune caratteristiche salienti:
- L’ordine
- La distanza tra le osservazioni
- La presenza e l’inclusione di uno zero con un significato reale
La scala nominale
Una misura nominale è quella in cui i valori delle variabili sono nomi. In questo caso abbiamo che:
- L’ordine delle osservazioni non conta
- La distanza non è mantenuta
- Non c’è un vero zero
Usiamo esempi tratti dal mondo dell’analisi dei dati di traffico web, in quanto “pane quotidiano” per chi si occupa della seo.
Pensiamo al paese di provenienza delle visite a un sito web. Semplificando molto, considero che le visite provengano da 4 paesi:
Italia
Francia
UK
USA
Possiamo contare le visite provenienti da ciascuno di questi paesi:
Paese Visite Italia 3305 Francia 1850 UK 1938 USA 2214
Abbiamo a che fare, in tutta evidenza, con una misura di tipo nominale.
Questo perchè:
- L’ordine non conta (la tabella è leggibile anche se muto la posizione dei vari paesi).
- La distanza tra le categorie non è rilevante. (Lo sarebbe se trattassimo i dati in termini di rapporti).
- Lo zero non occorre (indicando l’assenza completa di viste, e quindi quel paese non figurerebbe nel report…)
Per questo tipo di misure il tipo di grafico adatto è il grafico a barre, oppure l’istogramma.
Misure di tipo ordinale
Una misura di tipo ordinale comporta la raccolta di informazioni nei quali l’ordine riveste importanza.
Nei termini delle caratteristiche salienti
- L’ordine delle osservazioni conta.
- La misura ordinale non mantiene la distanza. La distanza tra due valori consecutivi non ha un significato. (Ad esempio, la distanza tra la prima e la seconda osservazione può essere nell’ordine delle migliaia di unità, quella tra la quinta e la sesta magari di poche unità…).
- Non c’è uno zero significativo.
Tornando al nostro esempio delle visite al sito web per paese:
Paese Posizione Italia 1 USA 2 UK 3 Francia 4
Abbiamo stabilito un ordine. La distanza tra i valori dei vari paesi è ignota. Lo zero non esiste.
Il tipo di grafico appropriato per misure ordinali è l’istogramma, oppure il grafico a barre.
La scala di misura a intervalli equivalenti
Nell’intervallo, la distanza tra due valori ha un significato specifico.
Un esempio tipico è quello di un questionario nel quale le risposte sono codificate in una scala che va, ad esempio, da:
1 = mi piace pochissimo
a
10 = mi piace moltissimo
Le caratteristiche delle misure di tipo intervallo:
- L’ordine delle risposte/osservazioni è rilevante.
- La distanza è rilevante.
- Non c’è uno zero con un significato reale. (Anche se i dati potrebbero essere scalati in modo da poter contare lo 0).
Questo tipo di misura è molto comune nei sondaggi.
Il tipo di grafico appropriato per la rappresentazione è il grafico a barre, il grafico a linee, il diagramma a dispersione (scatterplot).
Le statistiche più appropriate per misurazioni di tipo intervallo sono la media, la mediana, la varianza, lo scarto quadratico medio, l’asimmetria, la curtosi.
La scala a rapporti equivalenti
Veniamo ora al tipo di misura più comune nell’analisi dei dati web: il rapporto.
Una misura di rapporto esprime il rapporto tra la grandezza di una quantità continua e un’unità di grandezza dello stesso tipo.
Una variabile misurata in questo modo include non solamente il concetto di ordine e di intervallo, ma anche l’idea di “nulla”, o zero assoluto. Dunque:
- L’ordine delle risposte/osservazioni conta.
- Il rapporto esprime una distanza interpretabile.
- C’è uno zero reale.
Restando nel campo delle metriche web, un esempio tipico è quello del rapporto tra numero di visite e obiettivi.
I grafici appropriati sono: istogrammi, grafici a barre o a linee, diagrammi di dispersione (scatterplot).
Statistiche appropriate risultano: mediana, media, varianza, scarto quadratico medio, asimmetria, curtosi.
Livello di complessità dei tipi di misurazione
La categorizzazione delle scale di misura di Stevens ci mostra un incremento nel livello di complessità dei tipi di misurazione. Volendo rappresentare la cosa schematicamente:
Oppure in una tabella:
Nominale | Ordinale | Intervallo | Rapporto | |
Ordine | no | sì | sì | sì |
Distanza interpretabile | no | no | sì | sì |
Vero zero | no | no | no | sì |
Alcuni tipi di livelli di misurazione possono essere trasformati in altri. La trasformazione può avvenire dal più complesso al meno complesso, mai viceversa. E nella trasformazione, ovviamente, perdiamo dell’informazione.
Operare sui dati con gli strumenti corretti
Abbiamo visto come i dati di tipo nominale o ordinale siano dati di tipo qualitativo. Pertanto, su di essi non possiamo operare con le normali operazioni aritmetiche nè usare direttamente indici statistici quali la media, lo scarto quadratico medio, l’asimmetria, la curtosi. Possiamo però utilizzare una serie di strumenti non parametrici, quali le tabelle di contingenza o il test chi quadrato di indipendenza.
Per i dati di tipo quantitativo abbiamo ovviamente la possibilità di operare con gli strumenti dell’aritmetica di base (possiamo addizionare, sottrarre, moltiplicare, dividere), nonchè avvalerci della possibilità di calcolare media, varianza, scarto quadratico medio, curtosi, asimmetria. Abbiamo anche a nostra disposizione strumenti di analisi di tipo parametrico, quali indici di correlazione, calcoli di regressione, e Anova.
Per la distinzione tra strumenti di analisi parametrici e non parametrici, rimando a questo articolo.