statistics

I dati: le 4 scale di misura

Le 4 scale di misura. Capisco la reazione istintiva: saltare a piè pari un articolo che ha il sapore di una introduzione, poco eccitante, a un tema considerato banale.
Chiedo tuttavia ai lettori uno sforzo che, penso, valga la pena di fare. I concetti presenti in questo articolo sono basilari e proprio per questo hanno un valore e un’ importanza fondamentale.
Assimilare questi concetti significa costruire una solida base per gli argomenti che seguiranno.

Detto in maniera concisa, ma risoluta: non diamo nulla per scontato, perchè nulla è scontato.

Dati quantitativi e qualitativi

Iniziamo con un po’ di concetti fondamentali, che ci accompagneranno sempre.

I dati possono essere classificati in 2 tipologie principali:

  • Quantitativi
  • Qualitativi (o categorici)

Importante
In statistica, l’intero gruppo che andiamo a studiare è chiamato popolazione.
Gli individui (possono essere esseri viventi come cose) nella popolazione sono chiamati unità.
Le caratteristiche delle unità che andiamo a studiare le chiamiamo variabili.

Queste variabili possono essere quantitative oppure qualitative (dette anche categoriche).

I 4 livelli di misura

I dati possono essere misurati a differenti livelli, a seconda del tipo di variabile e del livello di dettaglio registrato.
Lo psicologo americano Stanley Smith Stevens propose nel 1946 una classificazione a 4 livelli di misura (o scale di misura), ancora oggi largamente in uso.

Stanley Smith Stevens
l’ideatore del sistema a 4 scale di misura

Parliamo quindi di:

  • Misura nominale
  • Ordinale
  • Intervallo
  • Rapporto

La differenza tra queste 4 tipologie di scale di misura si basa su alcune caratteristiche salienti:

  • L’ordine
  • La distanza tra le osservazioni
  • La presenza e l’inclusione di uno zero con un significato reale

La scala nominale

Una misura nominale è quella in cui i valori delle variabili sono nomi. In questo caso abbiamo che:

  • L’ordine delle osservazioni non conta
  • La distanza non è mantenuta
  • Non c’è un vero zero

Usiamo esempi tratti dal mondo dell’analisi dei dati di traffico web, in quanto “pane quotidiano” per chi si occupa della seo.

Pensiamo al paese di provenienza delle visite a un sito web. Semplificando molto, considero che le visite provengano da 4 paesi:

Italia
Francia
UK
USA

Possiamo contare le visite provenienti da ciascuno di questi paesi:

Paese        Visite
 Italia        3305
 Francia       1850
 UK            1938
 USA           2214

Abbiamo a che fare, in tutta evidenza, con una misura di tipo nominale.
Questo perchè:

  • L’ordine non conta (la tabella è leggibile anche se muto la posizione dei vari paesi).
  • La distanza tra le categorie non è rilevante. (Lo sarebbe se trattassimo i dati in termini di rapporti).
  • Lo zero non occorre (indicando l’assenza completa di viste, e quindi quel paese non figurerebbe nel report…)

Per questo tipo di misure il tipo di grafico adatto è il grafico a barre, oppure l’istogramma.

Misure di tipo ordinale

Una misura di tipo ordinale comporta la raccolta di informazioni nei quali l’ordine riveste importanza.

Nei termini delle caratteristiche salienti

  • L’ordine delle osservazioni conta.
  • La misura ordinale non mantiene la distanza. La distanza tra due valori consecutivi non ha un significato. (Ad esempio, la distanza tra la prima e la seconda osservazione può essere nell’ordine delle migliaia di unità, quella tra la quinta e la sesta magari di poche unità…).
  • Non c’è uno zero significativo.

Tornando al nostro esempio delle visite al sito web per paese:

Paese        Posizione
 Italia        1
 USA           2
 UK            3
 Francia       4

Abbiamo stabilito un ordine. La distanza tra i valori dei vari paesi è ignota. Lo zero non esiste.

Il tipo di grafico appropriato per misure ordinali è l’istogramma, oppure il grafico a barre.

La scala di misura a intervalli equivalenti

Nell’intervallo, la distanza tra due valori ha un significato specifico.
Un esempio tipico è quello di un questionario nel quale le risposte sono codificate in una scala che va, ad esempio, da:

1 = mi piace pochissimo
a
10 = mi piace moltissimo

Le caratteristiche delle misure di tipo intervallo:

  • L’ordine delle risposte/osservazioni è rilevante.
  • La distanza è rilevante.
  • Non c’è uno zero con un significato reale. (Anche se i dati potrebbero essere scalati in modo da poter contare lo 0).

Questo tipo di misura è molto comune nei sondaggi.

Il tipo di grafico appropriato per la rappresentazione è il grafico a barre, il grafico a linee, il diagramma a dispersione (scatterplot).

Le statistiche più appropriate per misurazioni di tipo intervallo sono la media, la mediana, la varianza, lo scarto quadratico medio, l’asimmetria, la curtosi.

La scala a rapporti equivalenti

Veniamo ora al tipo di misura più comune nell’analisi dei dati web: il rapporto.

Una misura di rapporto esprime il rapporto tra la grandezza di una quantità continua e un’unità di grandezza dello stesso tipo.

Una variabile misurata in questo modo include non solamente il concetto di ordine e di intervallo, ma anche l’idea di “nulla”, o zero assoluto. Dunque:

  • L’ordine delle risposte/osservazioni conta.
  • Il rapporto esprime una distanza interpretabile.
  • C’è uno zero reale.

Restando nel campo delle metriche web, un esempio tipico è quello del rapporto tra numero di visite e obiettivi.

I grafici appropriati sono: istogrammi, grafici a barre o a linee, diagrammi di dispersione (scatterplot).

Statistiche appropriate risultano: mediana, media, varianza, scarto quadratico medio, asimmetria, curtosi.

Livello di complessità dei tipi di misurazione

La categorizzazione delle scale di misura di Stevens ci mostra un incremento nel livello di complessità dei tipi di misurazione. Volendo rappresentare la cosa schematicamente:

Nominale
Ordinale (+ ordine)
Intervallo (+ distanza significativa)
Rapporto (+ zero reale)

Oppure in una tabella:

NominaleOrdinaleIntervalloRapporto
Ordineno
Distanza interpretabilenono
Vero zerononono

Alcuni tipi di livelli di misurazione possono essere trasformati in altri. La trasformazione può avvenire dal più complesso al meno complesso, mai viceversa. E nella trasformazione, ovviamente, perdiamo dell’informazione.

Da ricordare

Posso trasformare un rapporto in un intervallo (rinunciando allo zero), un intervallo in un ordinale (rinunciando alla distanza significativa), un ordinale in un nominale (rinunciando all’ordine).
Il contrario, è impossibile.

Operare sui dati con gli strumenti corretti

Abbiamo visto come i dati di tipo nominale o ordinale siano dati di tipo qualitativo. Pertanto, su di essi non possiamo operare con le normali operazioni aritmetiche nè usare direttamente indici statistici quali la media, lo scarto quadratico medio, l’asimmetria, la curtosi. Possiamo però utilizzare una serie di strumenti non parametrici, quali le tabelle di contingenza o il test chi quadrato di indipendenza

Per i dati di tipo quantitativo abbiamo ovviamente la possibilità di operare con gli strumenti dell’aritmetica di base (possiamo addizionare, sottrarre, moltiplicare, dividere), nonchè avvalerci della possibilità di calcolare media, varianza, scarto quadratico medio, curtosi, asimmetria. Abbiamo anche a nostra disposizione strumenti di analisi di tipo parametrico, quali indici di correlazione, calcoli di regressione, e Anova.

Per la distinzione tra strumenti di analisi parametrici e non parametrici, rimando a questo articolo.

paolo

Recent Posts

Guida ai Test Statistici per analisi A/B

I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere…

8 mesi ago

Come usare gli Alberi Decisionali per classificare i dati

Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura…

10 mesi ago

L’algoritmo di Discesa del Gradiente spiegato semplice

Immaginiamo di voler trovare il percorso più veloce per raggiungere una destinazione in auto. Si…

1 anno ago

La Discesa del Gradiente: un nuovo studio mette in discussione un assunto base sull’ottimizzazione

Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un…

1 anno ago

Il Metodo Montecarlo spiegato in modo semplice e applicato a casi reali

La simulazione Monte Carlo è un metodo utilizzato per quantificare il rischio associato a un…

2 anni ago

La distribuzione ipergeometrica

Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si…

2 anni ago