statistics

L’indice di Gini: cos’è, perchè è importante, come calcolarlo in R

Il coefficiente di Gini è un indice del grado di diseguaglianza di una distribuzione, ed è comunemente utilizzato per misurare la distribuzione del reddito.

Bastano queste poche parole per intuire l’importanza straordinaria di questo indice per gli studi economici-politici e perchè è importante conoscerlo un po’ più da vicino.

Prima di tutto una nota:
Il reddito è una variabile trasferibile.
Una variabile quantitativa si dice trasferibile quando l’aumentare complessivo del fenomeno registrato su una popolazione prefissata può essere distribuito tra le unità statistiche senza cambiarne l’ammontare complessivo.

L’indice è uno dei più grandi risultati ottenuti da Corrado Gini, uno dei massimi statistici italiani (purtroppo personalmente legato al regime fascista. Fu l’ispiratore del famoso discorso “dell’Ascensione” di Mussolini del 1927 sulle questioni della natalità e dell’eugenetica).

E’ nel 1912 che Gini pubblica l’articolo “Variabilità e mutabilità“, nel quale amplia il lavoro di Max Otto Lorenz, che già nel 1905 aveva introdotto le famose curve (oggi “curve di Lorenz”) che descrivono le percentuali della ricchezza possedute da percentuali crescenti della popolazione.

La curva di Lorenz

Lorenz aveva introdotto una rappresentazione grafica molto efficace, ponendo in ascissa i punti Pi (vale a dire la frazione cumulata dei primi i redditieri Pi = i / n) e in ordinata i valori corrispondenti Qi (la frazione cumulata del reddito posseduto dai primi i redditieri). Unendo tali punti si ottiene la spezzata di concentrazione, nota come curva di Lorenz.

La differenza tra Pi e Qi misura in proporzione la quota del reddito complessivo che manca ai primi i individui per trovarsi in una posizione di equidistribuzione.
Maggiore è tale differenza, più i rimanenti n-i individui concentrano su di loro una porzione rilevante dell’ammontare complessivo.

La misura della diseguaglianza dei redditi è la media aritmetica delle differenze normalizzate (vale a dire delle quantità Pi – Q/ Pi, i=1,2,3…n-1)

Gini riesce quindi a elaborare nel suo lavoro del 1912 e poi nel 1914 il “suo” coefficiente, che misura la percentuale dell’area compresa tra la curva data e quella a 45 gradi, rispetto all’area compresa tra quest’ultima e la curva piatta.

In pratica, indica quanto la corrispondente curva di Lorenz si discosta dalla completa uguaglianza nella distribuzione della ricchezza.

In una frase: il rapporto tra la misura dell’area della concentrazione ed il suo massimo (che è 0.5) coincide esattamente con R.

Ma spiegarsi con un esempio chiaro?

Ci provo: costruiamo la curva di Lorenz: l’asse verticale indica le percentuali di reddito delle famiglie, sull’asse orizzontale mettiamo invece le percentuali di famiglie.
Se il 30% delle famiglie percepisse il 30% del reddito, il 40% delle famiglie il 40% del reddito e così via avremmo una distribuzione perfettamente uguale. Vale a dire una retta a 45 gradi.

La curva di Lorenz invece rappresenta la distribuzione effettiva del reddito: lo scarto della curva di Lorenz dalla curva di perfetta eguaglianza (cioè dalla retta a 45 gradi), costituisce la misura della diseguaglianza nella distribuzione del reddito.

Il rapporto tra l’area compresa tra la curva di perfetta eguaglianza e la curva di Lorenz (vale a dire l’area celestina della figura) e l’area del triangolo 0AB è il coefficiente di Gini.

La definizione dell’indice di concentrazione R

R può essere definito indipendentemente dalla curva di Lorenz: coincide con la differenza semplice media normalizzata rispetto al suo massimo, cioè:

\( R = \frac {differenza \ media \ assoluta}{2 \times media \ valori}\\ \)

R è dunque un indice espresso da un numero compreso tra i valori teorici 0 e 1, teorici poichè corrispondono rispettivamente al caso di una perfetta equità nella distribuzione della ricchezza (tutti possiedono lo stesso reddito) e al caso di massima diseguaglianza (una sola unità possiede la totalità del reddito). E’ un valore “puro” che consente un raffronto tra differenti paesi o aree territoriali, rivelandosi di straordinaria utilità nel campo delle analisi socio-economiche.

Calcoliamo il valore di R… in R!

Innumerevoli librerie R contengono la funzione per calcolare l’indice di Gini (il pacchetto più usato è probabilmente “ineq” facilmente reperibile con una ricerca in CRAN), che non è presente nelle funzioni base di R.

Dal momento, tuttavia, che il calcolo dello stesso non è particolarmente complesso, ritengo utile presentare di seguito una versione della funzione.

1 – Partiamo dal calcolo della differenza media assoluta

Delta <- function (variabile) {
n=length(variabile)
media=mean(variabile)
variabile_ordinata=sort(variabile)
(4 * sum((1:n)*variabile_ordinata)/n-2*media*(n+1))/(n-1)
}

2 – Ora ricavare il rapporto di concentrazione di Gini è questione di una riga!

gini=Delta(variabile)/(2*mean(variabile))

E se non uso R?

Ok, capisco l’obiezione. R è uno strumento fantastico, ma non tutti lo usano. Un indice importante come quello di Gini può servire a moltissime persone che non hanno a che fare ogni giorno con la statistica e non hanno dimestichezza con R. Il linguaggio di programmazione più universale e diffuso anche tra i non informatici è python. Ovviamente, come per R, esistono tante possibili implementazioni del coefficiente di Gini, ma anche in questo caso fare da soli è semplice e istruttivo.

La soluzione che più mi è piaciuta l’ho trovata in un post: eccolo, ed ecco la funzione, 8 righe in tutto:

def gini(list_of_values):
    sorted_list = sorted(list_of_values)
    height, area = 0, 0
    for value in sorted_list:
        height += value
        area += height - value / 2.
    fair_area = height * len(list_of_values) / 2.
    return (fair_area - area) / fair_area

Innanzitutto, la funzione ordina la lista di valori in ordine crescente.
Quindi, la funzione utilizza un ciclo for per calcolare l’altezza e l’area della curva di Lorenz.

L’altezza viene calcolata come la somma cumulativa dei valori nella lista, mentre l’area viene calcolata come l’area del trapezio tra il valore corrente e il valore precedente nella lista. L’area totale della curva di Lorenz viene quindi calcolata come la metà dell’altezza totale della curva moltiplicata per la lunghezza della lista.

Infine, l’indice di Gini viene calcolato come la differenza tra la “fair area” (la metà dell’area totale della curva di Lorenz se non ci fosse disuguaglianza) e l’area effettiva della curva di Lorenz, diviso per la fair area.

Uno sguardo al valore dell’indice di Gini nel mondo, in Europa e in Italia.

  • Per uno sguardo generale si può visitare il sito della
    Organisation for Economic Co-operation and Development (OECD)
  • Un confronto tra i valori degli stati europei ce lo fornisce Eurostat.
  • Sul sito dell’Istat è possibile confrontare i dati dell’indice di Gini relativi alle varie regioni italiane.
paolo

Recent Posts

Guida ai Test Statistici per analisi A/B

I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere…

8 mesi ago

Come usare gli Alberi Decisionali per classificare i dati

Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura…

11 mesi ago

L’algoritmo di Discesa del Gradiente spiegato semplice

Immaginiamo di voler trovare il percorso più veloce per raggiungere una destinazione in auto. Si…

1 anno ago

La Discesa del Gradiente: un nuovo studio mette in discussione un assunto base sull’ottimizzazione

Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un…

1 anno ago

Il Metodo Montecarlo spiegato in modo semplice e applicato a casi reali

La simulazione Monte Carlo è un metodo utilizzato per quantificare il rischio associato a un…

2 anni ago

La distribuzione ipergeometrica

Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si…

2 anni ago