Il coefficiente di Gini è un indice del grado di diseguaglianza di una distribuzione, ed è comunemente utilizzato per misurare la distribuzione del reddito.
Bastano queste poche parole per intuire l’importanza straordinaria di questo indice per gli studi economici-politici e perchè è importante conoscerlo un po’ più da vicino.
L’indice è uno dei più grandi risultati ottenuti da Corrado Gini, uno dei massimi statistici italiani (purtroppo personalmente legato al regime fascista. Fu l’ispiratore del famoso discorso “dell’Ascensione” di Mussolini del 1927 sulle questioni della natalità e dell’eugenetica).
E’ nel 1912 che Gini pubblica l’articolo “Variabilità e mutabilità“, nel quale amplia il lavoro di Max Otto Lorenz, che già nel 1905 aveva introdotto le famose curve (oggi “curve di Lorenz”) che descrivono le percentuali della ricchezza possedute da percentuali crescenti della popolazione.
Lorenz aveva introdotto una rappresentazione grafica molto efficace, ponendo in ascissa i punti Pi (vale a dire la frazione cumulata dei primi i redditieri Pi = i / n) e in ordinata i valori corrispondenti Qi (la frazione cumulata del reddito posseduto dai primi i redditieri). Unendo tali punti si ottiene la spezzata di concentrazione, nota come curva di Lorenz.
La differenza tra Pi e Qi misura in proporzione la quota del reddito complessivo che manca ai primi i individui per trovarsi in una posizione di equidistribuzione.
Maggiore è tale differenza, più i rimanenti n-i individui concentrano su di loro una porzione rilevante dell’ammontare complessivo.
La misura della diseguaglianza dei redditi è la media aritmetica delle differenze normalizzate (vale a dire delle quantità Pi – Qi / Pi, i=1,2,3…n-1)
Gini riesce quindi a elaborare nel suo lavoro del 1912 e poi nel 1914 il “suo” coefficiente, che misura la percentuale dell’area compresa tra la curva data e quella a 45 gradi, rispetto all’area compresa tra quest’ultima e la curva piatta.
In pratica, indica quanto la corrispondente curva di Lorenz si discosta dalla completa uguaglianza nella distribuzione della ricchezza.
In una frase: il rapporto tra la misura dell’area della concentrazione ed il suo massimo (che è 0.5) coincide esattamente con R.
Ci provo: costruiamo la curva di Lorenz: l’asse verticale indica le percentuali di reddito delle famiglie, sull’asse orizzontale mettiamo invece le percentuali di famiglie.
Se il 30% delle famiglie percepisse il 30% del reddito, il 40% delle famiglie il 40% del reddito e così via avremmo una distribuzione perfettamente uguale. Vale a dire una retta a 45 gradi.
La curva di Lorenz invece rappresenta la distribuzione effettiva del reddito: lo scarto della curva di Lorenz dalla curva di perfetta eguaglianza (cioè dalla retta a 45 gradi), costituisce la misura della diseguaglianza nella distribuzione del reddito.
Il rapporto tra l’area compresa tra la curva di perfetta eguaglianza e la curva di Lorenz (vale a dire l’area celestina della figura) e l’area del triangolo 0AB è il coefficiente di Gini.
R può essere definito indipendentemente dalla curva di Lorenz: coincide con la differenza semplice media normalizzata rispetto al suo massimo, cioè:
\( R = \frac {differenza \ media \ assoluta}{2 \times media \ valori}\\ \)R è dunque un indice espresso da un numero compreso tra i valori teorici 0 e 1, teorici poichè corrispondono rispettivamente al caso di una perfetta equità nella distribuzione della ricchezza (tutti possiedono lo stesso reddito) e al caso di massima diseguaglianza (una sola unità possiede la totalità del reddito). E’ un valore “puro” che consente un raffronto tra differenti paesi o aree territoriali, rivelandosi di straordinaria utilità nel campo delle analisi socio-economiche.
Innumerevoli librerie R contengono la funzione per calcolare l’indice di Gini (il pacchetto più usato è probabilmente “ineq” facilmente reperibile con una ricerca in CRAN), che non è presente nelle funzioni base di R.
Dal momento, tuttavia, che il calcolo dello stesso non è particolarmente complesso, ritengo utile presentare di seguito una versione della funzione.
1 – Partiamo dal calcolo della differenza media assoluta
Delta <- function (variabile) { n=length(variabile) media=mean(variabile) variabile_ordinata=sort(variabile) (4 * sum((1:n)*variabile_ordinata)/n-2*media*(n+1))/(n-1) }
2 – Ora ricavare il rapporto di concentrazione di Gini è questione di una riga!
gini=Delta(variabile)/(2*mean(variabile))
Ok, capisco l’obiezione. R è uno strumento fantastico, ma non tutti lo usano. Un indice importante come quello di Gini può servire a moltissime persone che non hanno a che fare ogni giorno con la statistica e non hanno dimestichezza con R. Il linguaggio di programmazione più universale e diffuso anche tra i non informatici è python. Ovviamente, come per R, esistono tante possibili implementazioni del coefficiente di Gini, ma anche in questo caso fare da soli è semplice e istruttivo.
La soluzione che più mi è piaciuta l’ho trovata in un post: eccolo, ed ecco la funzione, 8 righe in tutto:
def gini(list_of_values): sorted_list = sorted(list_of_values) height, area = 0, 0 for value in sorted_list: height += value area += height - value / 2. fair_area = height * len(list_of_values) / 2. return (fair_area - area) / fair_area
Innanzitutto, la funzione ordina la lista di valori in ordine crescente.
Quindi, la funzione utilizza un ciclo for per calcolare l’altezza e l’area della curva di Lorenz.
L’altezza viene calcolata come la somma cumulativa dei valori nella lista, mentre l’area viene calcolata come l’area del trapezio tra il valore corrente e il valore precedente nella lista. L’area totale della curva di Lorenz viene quindi calcolata come la metà dell’altezza totale della curva moltiplicata per la lunghezza della lista.
Infine, l’indice di Gini viene calcolato come la differenza tra la “fair area” (la metà dell’area totale della curva di Lorenz se non ci fosse disuguaglianza) e l’area effettiva della curva di Lorenz, diviso per la fair area.
I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere…
Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura…
Immaginiamo di voler trovare il percorso più veloce per raggiungere una destinazione in auto. Si…
Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un…
La simulazione Monte Carlo è un metodo utilizzato per quantificare il rischio associato a un…
Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si…