statistics

Statistica descrittiva: misure di variabilità (o dispersione).

Le misure di variabilità sono utilizzate per descrivere il grado di variabilità delle osservazioni rispetto ad un indice di tendenza centrale.

In altri termini, le misure di variabilità consentono di valutare la dispersione dei dati attorno ad un valore centrale, che può essere rappresentato ad esempio dalla media o dalla mediana. Esse forniscono informazioni preziose sulla distribuzione dei dati, permettendo di ottenere una migliore comprensione del fenomeno osservato.

Le tecniche per misurare la variabilità di insiemi di dati sono numerose.
Tra queste, le più note (e più utilizzate) sono:

il campo di variabilità
lo scarto medio e la varianza
lo scarto quadratico medio o deviazione standard
il coefficiente di variazione

Visualizzeremo graficamente i concetti acquisiti di tendenza centrale e dispersione ritornando a parlare di asimmetria e introducendo il concetto di curtosi.

Gli argomenti trattati

Il campo di variabilità (o gamma)
Lo scarto medio
Varianza
Lo scarto quadratico medio (o deviazione standard): la più usata delle misure di variabilità.
Il coefficiente di variazione
La forma di una distribuzione
La curtosi

Il campo di variabilità (o gamma)

Il campo di variabilità, o Gamma (o range, per gli anglosassoni), è dato dalla differenza fra il valore massimo e quello minimo dei dati non raggruppati di una distribuzione di frequenza.

Si tratta di un calcolo velocissimo, che in R può essere computato così:

max(var) - min(var)

In realtà il massimo e il minimo sono visualizzabili anche con:

range(var)

e compaiono come primo e ultimo termine in:

fivenum(var)

Per dati raggruppati, il campo di range è definito come la differenza tra il confine superiore della classe massima e il confine inferiore della classe minima.

Un campo di variabilità modificato è un campo dal quale è stata eliminata una certa percentuale di valori estremi da entrambe le estremità della distribuzione (ad esempio l’80 per cento intermedio).

Lo scarto medio

Lo scarto medio è una misura di variabilità che si basa sulla differenza dei singoli dati dalla loro media. Se si calcolasse la media sommando le differenze positive e negative fra i singoli dati e la media aritmetica, il risultato sarebbe sempre zero. Per questo motivo si sommano i valori assoluti delle differenze:

\( SM = \frac{\Sigma|X – \mu|}{N} \)

Quei “valori assoluti” pongono qualche problema di efficienza nella computazione, motivo per cui lo scarto medio non è molto usato. Esiste un altro modo per eliminare i valori negativi, ed ecco quindi che si introduce l’importante concetto di…

Varianza

La varianza è analoga allo scarto medio, poichè si basa sulle differenze fra i singoli dati dell’insieme e la loro media, ma queste differenze sono elevate al quadrato prima di essere sommate. La varianza viene indicata con il simbolo del sigma minuscolo al quadrato e la formula è:

\( \sigma^{2}=\frac{\Sigma(X – \mu)^{2}}{N} \\ \\ \)

R ha la funzione var() per il calcolo della varianza, ma computa (n-1) al denominatore. Per avere il valore della varianza per N come denominatore, possiamo allora scrivere una funzione:

varpopol

In generale, risulta difficile interpretare il significato del valore di una varianza perchè le unità in cui è espresso non sono le medesime in cui sono espresse le osservazioni dell'insieme di dati.

Per questo motivo è stato introdotto lo scarto quadratico medio.

Lo scarto quadratico medio (o deviazione standard): la più usata delle misure di variabilità.

Lo scarto quadratico medio non è altro che la radice quadrata della varianza:

\( \sigma = \sqrt{\frac{\Sigma(X - \mu)^{2}}{N}} \\ \\ \)

Lo scarto quadratico medio è di fondamentale utilità in statistica, particolarmente (come vedremo) in unione alla distribuzione normale di probabilità.

Nel caso di dati raggruppati si considera che il valore centrale di ciascuna classe rappresenti tutte le misurazioni comprese in quella classe. Si avrà dunque per la varianza la formula:

\( \sigma^{2}=\frac{\Sigma f(X - \mu)^{2}}{N} \\ \\ \)

e per lo scarto quadratico medio:

\( \sigma = \sqrt{\frac{\Sigma f(X - \mu)^{2}}{N}} \\ \\ \)

In R, la funzione per computare la deviazione standard è sd().
R tuttavia usa (n-1) al denominatore. Quindi, se vogliamo il valore della deviazione standard per una popolazione (quindi con n al denominatore) possiamo definire un'apposita funzione:

sdpopol

Il coefficiente di variazione

Il coefficiente di variazione indica la grandezza relativa dello scarto quadratico medio rispetto alla media della distribuzione delle misurazioni.
E' utilissimo per raffrontare fenomeni espressi con differenti unità di misura, poichè il CV è un numero "puro", indipendente dall'unità di misura impiegata:

\( CV = \frac{\sigma}{\mu} \)

Come sempre in R, esiste una funzione ad hoc : possiamo usare cv(), in questo caso definita in una libreria esterna, labstatR. L'uso è banale:

library(labstatR) dati

possiamo però anche calcolare il valore molto semplicemente senza ricorrere a librerie esterne:

dati

La forma di una distribuzione

Le distribuzioni di frequenza possono assumere le forme più varie. Fra tutte, quella di gran lunga più importante in statistica è la distribuzione normale, o distribuzione a campana, o ancora gaussiana.

In una distribuzione normale, i dati sono ripartiti in maniera simmetrica rispetto alla media.
In maniera molto semplice, per descrivere la forma della distribuzione basta confrontare la media con la mediana: se sono uguali, la distribuzione è simmetrica. Se la media è maggiore della mediana, avremo un'asimmetria positiva (con una "coda" più lunga a destra), se la media è minore della mediana l'asimmetria risulterà negativa (con la "coda" più lunga sulla sinistra).

La più nota formula per il calcolo dell'asimmetria di una distribuzione è quella per calcolare il coefficiente di asimmetria di Pearson:

\( Asimmetria = \frac{3(\mu - med)}{\sigma} \\ \\ \)

Una distribuzione perfettamente simmetrica presenta un valore di asimmetria pari a 0. Una distribuzione asimmetrica a destra (positiva) presenta un valore positivo, mentre una distribuzione asimmetrica sinistra avrà un valore negativo.

In genere i valori di asimmetria cadono tra -3 e 3 e il fatto che al denominatore compaia la deviazione standard rende il valore indipendente dall'unità di misura.

Come calcolare l'indice di asimmetria in R ?
Il modo più semplice è quello di usare una libreria che ci metta a disposizione le funzioni che ci servono "belle e pronte"...

library (moments) dati

la libreria "moments" fa al caso nostro. Vediamo però come calcolare l'indice anche senza fare ricorso ad una libreria. E' molto semplice.
Il primo passo è quello di ricordare che R utilizza n-1 al denominatore della varianza.
Noi però stiamo ragionando di una popolazione, dunque con n al denominatore. Dunque, andiamo a definire una funzione che ci consenta di ottenere il valore che ci serve:

varpopol

a questo punto possiamo calcolare il valore dell'indice di asimmetria:

dati

La curtosi

La curtosi è il grado di altezza raggiunto da una curva di distribuzione, in relazione alla distribuzione normale.

Abbiamo 3 casi:

una curva alta. che viene detta leptocurtica e che risulta molto concentrata intorno alla sua media
una curva normale, detta mesocurtica
una curva bassa e piatta, che viene definita platicurtica, poco concentrata intorno alla sua media

Si può misurare la curtosi dividendo il quarto momento per lo scarto quadratico medio elevato alla quarta potenza. Difficile? Più a dirsi che a calcolarsi.
Ecco la formula:

\( Curtosi = \frac{\Sigma f(X -\mu)^{4}}{\sigma^{4}} \\ \\ \)

La curtosi di una curva mesocurtica ha un valore di 3. Ovviamente, un coefficiente di curtosi <3 indica una curva platicurtica, un valore >3 leptocurtica.

Come per il valore dell'indice di asimmetria, la libreria "moments" ci fornisce una comoda funzione già pronta:

library (moments) dati

Ma a noi non dispiace di calcolarcelo "in proprio":

dati 
Related Posts

Statistica descrittiva: misure di posizione e tendenza centrale.


La distribuzione normale


La distribuzione geometrica


La distribuzione di Poisson

paolo

Next La distribuzione normale »

Previous « Statistica descrittiva: misure di posizione e tendenza centrale.

Guida ai Test Statistici per analisi A/B

I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere…

11 mesi ago

statistica

probabilità

Il Metodo Montecarlo spiegato in modo semplice e applicato a casi reali

La simulazione Monte Carlo è un metodo utilizzato per quantificare il rischio associato a un…

2 anni ago

probabilità

La distribuzione ipergeometrica

Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si…

2 anni ago

Statistica descrittiva: misure di variabilità (o dispersione).

Il campo di variabilità (o gamma)

Lo scarto medio

Varianza

Lo scarto quadratico medio (o deviazione standard): la più usata delle misure di variabilità.

Il coefficiente di variazione

La forma di una distribuzione

La curtosi

Related Posts

Recent Posts

Guida ai Test Statistici per analisi A/B

Come usare gli Alberi Decisionali per classificare i dati

L’algoritmo di Discesa del Gradiente spiegato semplice

La Discesa del Gradiente: un nuovo studio mette in discussione un assunto base sull’ottimizzazione

Il Metodo Montecarlo spiegato in modo semplice e applicato a casi reali

La distribuzione ipergeometrica

Statistica descrittiva: misure di variabilità (o dispersione).

Il campo di variabilità (o gamma)

Lo scarto medio

Varianza

Lo scarto quadratico medio (o deviazione standard): la più usata delle misure di variabilità.

Il coefficiente di variazione

La forma di una distribuzione

La curtosi

Related Posts

Related Post

Recent Posts

Guida ai Test Statistici per analisi A/B

Come usare gli Alberi Decisionali per classificare i dati

L’algoritmo di Discesa del Gradiente spiegato semplice

La Discesa del Gradiente: un nuovo studio mette in discussione un assunto base sull’ottimizzazione

Il Metodo Montecarlo spiegato in modo semplice e applicato a casi reali

La distribuzione ipergeometrica

Headline