Le 4 scale di misura. Capisco la reazione istintiva: saltare a piè pari un articolo che ha il sapore di una introduzione, poco eccitante, a un tema considerato banale.
Chiedo tuttavia ai lettori uno sforzo che, penso, valga la pena di fare. I concetti presenti in questo articolo sono basilari e proprio per questo hanno un valore e un’ importanza fondamentale.
Assimilare questi concetti significa costruire una solida base per gli argomenti che seguiranno.
Detto in maniera concisa, ma risoluta: non diamo nulla per scontato, perchè nulla è scontato.
Iniziamo con un po’ di concetti fondamentali, che ci accompagneranno sempre.
I dati possono essere classificati in 2 tipologie principali:
Importante
In statistica, l’intero gruppo che andiamo a studiare è chiamato popolazione.
Gli individui (possono essere esseri viventi come cose) nella popolazione sono chiamati unità.
Le caratteristiche delle unità che andiamo a studiare le chiamiamo variabili.
Queste variabili possono essere quantitative oppure qualitative (dette anche categoriche).
I dati possono essere misurati a differenti livelli, a seconda del tipo di variabile e del livello di dettaglio registrato.
Lo psicologo americano Stanley Smith Stevens propose nel 1946 una classificazione a 4 livelli di misura (o scale di misura), ancora oggi largamente in uso.
Parliamo quindi di:
La differenza tra queste 4 tipologie di scale di misura si basa su alcune caratteristiche salienti:
Una misura nominale è quella in cui i valori delle variabili sono nomi. In questo caso abbiamo che:
Usiamo esempi tratti dal mondo dell’analisi dei dati di traffico web, in quanto “pane quotidiano” per chi si occupa della seo.
Pensiamo al paese di provenienza delle visite a un sito web. Semplificando molto, considero che le visite provengano da 4 paesi:
Italia
Francia
UK
USA
Possiamo contare le visite provenienti da ciascuno di questi paesi:
Paese Visite Italia 3305 Francia 1850 UK 1938 USA 2214
Abbiamo a che fare, in tutta evidenza, con una misura di tipo nominale.
Questo perchè:
Per questo tipo di misure il tipo di grafico adatto è il grafico a barre, oppure l’istogramma.
Una misura di tipo ordinale comporta la raccolta di informazioni nei quali l’ordine riveste importanza.
Nei termini delle caratteristiche salienti
Tornando al nostro esempio delle visite al sito web per paese:
Paese Posizione Italia 1 USA 2 UK 3 Francia 4
Abbiamo stabilito un ordine. La distanza tra i valori dei vari paesi è ignota. Lo zero non esiste.
Il tipo di grafico appropriato per misure ordinali è l’istogramma, oppure il grafico a barre.
Nell’intervallo, la distanza tra due valori ha un significato specifico.
Un esempio tipico è quello di un questionario nel quale le risposte sono codificate in una scala che va, ad esempio, da:
1 = mi piace pochissimo
a
10 = mi piace moltissimo
Le caratteristiche delle misure di tipo intervallo:
Questo tipo di misura è molto comune nei sondaggi.
Il tipo di grafico appropriato per la rappresentazione è il grafico a barre, il grafico a linee, il diagramma a dispersione (scatterplot).
Le statistiche più appropriate per misurazioni di tipo intervallo sono la media, la mediana, la varianza, lo scarto quadratico medio, l’asimmetria, la curtosi.
Veniamo ora al tipo di misura più comune nell’analisi dei dati web: il rapporto.
Una misura di rapporto esprime il rapporto tra la grandezza di una quantità continua e un’unità di grandezza dello stesso tipo.
Una variabile misurata in questo modo include non solamente il concetto di ordine e di intervallo, ma anche l’idea di “nulla”, o zero assoluto. Dunque:
Restando nel campo delle metriche web, un esempio tipico è quello del rapporto tra numero di visite e obiettivi.
I grafici appropriati sono: istogrammi, grafici a barre o a linee, diagrammi di dispersione (scatterplot).
Statistiche appropriate risultano: mediana, media, varianza, scarto quadratico medio, asimmetria, curtosi.
La categorizzazione delle scale di misura di Stevens ci mostra un incremento nel livello di complessità dei tipi di misurazione. Volendo rappresentare la cosa schematicamente:
Oppure in una tabella:
Nominale | Ordinale | Intervallo | Rapporto | |
Ordine | no | sì | sì | sì |
Distanza interpretabile | no | no | sì | sì |
Vero zero | no | no | no | sì |
Alcuni tipi di livelli di misurazione possono essere trasformati in altri. La trasformazione può avvenire dal più complesso al meno complesso, mai viceversa. E nella trasformazione, ovviamente, perdiamo dell’informazione.
Abbiamo visto come i dati di tipo nominale o ordinale siano dati di tipo qualitativo. Pertanto, su di essi non possiamo operare con le normali operazioni aritmetiche nè usare direttamente indici statistici quali la media, lo scarto quadratico medio, l’asimmetria, la curtosi. Possiamo però utilizzare una serie di strumenti non parametrici, quali le tabelle di contingenza o il test chi quadrato di indipendenza.
Per i dati di tipo quantitativo abbiamo ovviamente la possibilità di operare con gli strumenti dell’aritmetica di base (possiamo addizionare, sottrarre, moltiplicare, dividere), nonchè avvalerci della possibilità di calcolare media, varianza, scarto quadratico medio, curtosi, asimmetria. Abbiamo anche a nostra disposizione strumenti di analisi di tipo parametrico, quali indici di correlazione, calcoli di regressione, e Anova.
Per la distinzione tra strumenti di analisi parametrici e non parametrici, rimando a questo articolo.
I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere…
Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura…
Immaginiamo di voler trovare il percorso più veloce per raggiungere una destinazione in auto. Si…
Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un…
La simulazione Monte Carlo è un metodo utilizzato per quantificare il rischio associato a un…
Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si…