statistics

Multicollinearità, eteroschedasticità, autocorrelazione: tre concetti dai nomi difficili (spiegati semplici)

Nel corso dei vari post, e in particolar in quelli riferiti all’analisi di regressione, all’analisi della varianza e alle serie temporali, abbiamo incontrato dei termini che sembrano fatti appositamente per spaventare il lettore.
Lo scopo di questi miei articoli è proprio quello di spiegare con semplicità i concetti chiave, al di là dell’apparente complessità (è ciò che avrei tanto voluto quando ero studente, anzichè confrontarmi con testi dalla forma volutamente – e inutilmente – involuta) .
E’ giunto dunque il momento di spendere qualche parola per tre importantissimi concetti che ricorrono assai spesso nelle analisi statistiche, e che dunque devono essere ben compresi. La realtà è molto, molto più chiara rispetto all’apparente complessità, dunque… nessuna paura!

La multicollinearità

Se mi avete seguito nel corso dei vari post, ricorderete forse che abbiamo citato questo termine approcciando l’analisi di regressione.

Parliamo di multicollinearità quando esiste una forte correlazione tra due o più variabili esplicative del nostro modello di correlazione.

Quello della multicollinearità è un problema piuttosto insidioso, perchè può inficiare la validità dell’analisi di regressione, pur in presenza di un valore del coefficiente di determinazione R2 elevato, e quindi apparentemente significativo.
Se esiste multicollinearità, è difficile isolare l’effetto che le variabili dipendenti hanno sulla variabile indipendente, e i coefficienti che abbiamo stimato con il metodo dei minimi quadrati possono risultare statisticamente non significanti.

Come ridurre il problema?

Abbiamo una serie di possibilità:

  • Usando una maggior quantità di dati. Cioè ampliando la dimensione del nostro campione.
  • Trasformando la relazione funzionale.
  • Utilizzando informazioni a priori.
  • Escludendo una delle variabili che mostrano di essere fortemente collineari.

Eteroschedasticità

Beh, questo termine sembra fatto apposta per spaventare. Se volete rafforzare in qualcuno la convinzione (il pregiudizio) circa l’intrinseca, spaventosa complessità della statistica, questa è la parola magica da utilizzare! 🙂

Sorpresa: il concetto, invece, non è poi così complicato.

Eteroschedasticità in pratica significa dispersione ineguale.
Si riferisce al caso in cui la varianza del termine che costituisce l’errore non sia costante per tutti i valori della variabile indipendente.

Nell’analisi di regressione l’eteroschedasticità è un problema, perché la regressione dei minimi quadrati ordinari presuppone che tutti i residui siano tratti da una popolazione che ha una varianza costante (omoschedasticità).
L’omoschedasticità è dunque il contrario della eteroschedasticità…

Ritorniamo per un attimo all’argomento della regressione: l’assunzione di eteroschedasticità presuppone che gli errori nelle previsioni di Y siano circa gli stessi, a tutti i livelli di X, in grandezza e dimensione.

Autocorrelazione

Abbiamo parlato di autocorrelazione nel lungo post sull’analisi delle serie temporali, vedendo anche un esempio pratico.

Volendo dare una definizione del caso più comune, possiamo dire che

si ha autocorrelazione positiva di primo ordine, allorchè il termine che rappresenta l’errore di un periodo è correlato positivamente con lo stesso termine del periodo immediatamente precedente.

Nelle serie temporali è uno scenario abbastanza comune e dà luogo a errori tipici di distorsione, con conseguenti risultati di test statistici e intervalli di confidenza scorretti.

L’autocorrelazione, che è detta anche in alcuni testi correlazione seriale, può anche essere di ordine più elevato (è di secondo grado se l’errore di un periodo è correlato con lo stesso termine di due periodi precedenti, ecc.), ed essere anche negativa.

Ma come faccio a verificare la presenza di autocorrelazione?

Nel mio post sull’analisi delle serie temporali abbiamo sfruttato la preziosa funzione acf() di R, e parlato del test di Ljung-Box.
Un modo “classico” di operare, prevede la verifica della presenza di autocorrelazione usando la statistica di Durbin-Watson, computando il valore d e confrontandolo ai valori dell’apposita tabella al livello di significatività voluto, in genere del 5% o dell’1%.

In presenza di autocorrelazione le stime ottenute con il metodo dei minimi quadrati ordinari sono ancora consistenti e non risultano affette da errore sistemico, ma gli errori tipici dei parametri stimati della regressione sono purtroppo interessati da errori sistemici, potendo dare luogo a test statistici e intervalli di confidenza inesatti.

Un metodo per correggere l’autocorrelazione positiva di primo ordine (la più comune) è dato dal metodo a due stati di Durbin, che non tratteremo in questa sede ma che sarà probabilmente oggetto di un approfondimento futuro.

paolo

Recent Posts

Guida ai Test Statistici per analisi A/B

I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere…

8 mesi ago

Come usare gli Alberi Decisionali per classificare i dati

Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura…

10 mesi ago

L’algoritmo di Discesa del Gradiente spiegato semplice

Immaginiamo di voler trovare il percorso più veloce per raggiungere una destinazione in auto. Si…

1 anno ago

La Discesa del Gradiente: un nuovo studio mette in discussione un assunto base sull’ottimizzazione

Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un…

1 anno ago

Il Metodo Montecarlo spiegato in modo semplice e applicato a casi reali

La simulazione Monte Carlo è un metodo utilizzato per quantificare il rischio associato a un…

2 anni ago

La distribuzione ipergeometrica

Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si…

2 anni ago