Nel corso dei vari post, e in particolar in quelli riferiti all’analisi di regressione, all’analisi della varianza e alle serie temporali, abbiamo incontrato dei termini che sembrano fatti appositamente per spaventare il lettore.
Lo scopo di questi miei articoli è proprio quello di spiegare con semplicità i concetti chiave, al di là dell’apparente complessità (è ciò che avrei tanto voluto quando ero studente, anzichè confrontarmi con testi dalla forma volutamente – e inutilmente – involuta) .
E’ giunto dunque il momento di spendere qualche parola per tre importantissimi concetti che ricorrono assai spesso nelle analisi statistiche, e che dunque devono essere ben compresi. La realtà è molto, molto più chiara rispetto all’apparente complessità, dunque… nessuna paura!
La multicollinearità
Se mi avete seguito nel corso dei vari post, ricorderete forse che abbiamo citato questo termine approcciando l’analisi di regressione.
Parliamo di multicollinearità quando esiste una forte correlazione tra due o più variabili esplicative del nostro modello di correlazione.
Quello della multicollinearità è un problema piuttosto insidioso, perchè può inficiare la validità dell’analisi di regressione, pur in presenza di un valore del coefficiente di determinazione R2 elevato, e quindi apparentemente significativo.
Se esiste multicollinearità, è difficile isolare l’effetto che le variabili dipendenti hanno sulla variabile indipendente, e i coefficienti che abbiamo stimato con il metodo dei minimi quadrati possono risultare statisticamente non significanti.
Come ridurre il problema?
Abbiamo una serie di possibilità:
- Usando una maggior quantità di dati. Cioè ampliando la dimensione del nostro campione.
- Trasformando la relazione funzionale.
- Utilizzando informazioni a priori.
- Escludendo una delle variabili che mostrano di essere fortemente collineari.
Eteroschedasticità
Beh, questo termine sembra fatto apposta per spaventare. Se volete rafforzare in qualcuno la convinzione (il pregiudizio) circa l’intrinseca, spaventosa complessità della statistica, questa è la parola magica da utilizzare! 🙂
Sorpresa: il concetto, invece, non è poi così complicato.
Eteroschedasticità in pratica significa dispersione ineguale.
Si riferisce al caso in cui la varianza del termine che costituisce l’errore non sia costante per tutti i valori della variabile indipendente.
Nell’analisi di regressione l’eteroschedasticità è un problema, perché la regressione dei minimi quadrati ordinari presuppone che tutti i residui siano tratti da una popolazione che ha una varianza costante (omoschedasticità).
L’omoschedasticità è dunque il contrario della eteroschedasticità…
Ritorniamo per un attimo all’argomento della regressione: l’assunzione di eteroschedasticità presuppone che gli errori nelle previsioni di Y siano circa gli stessi, a tutti i livelli di X, in grandezza e dimensione.
Autocorrelazione
Abbiamo parlato di autocorrelazione nel lungo post sull’analisi delle serie temporali, vedendo anche un esempio pratico.
Volendo dare una definizione del caso più comune, possiamo dire che
si ha autocorrelazione positiva di primo ordine, allorchè il termine che rappresenta l’errore di un periodo è correlato positivamente con lo stesso termine del periodo immediatamente precedente.
Nelle serie temporali è uno scenario abbastanza comune e dà luogo a errori tipici di distorsione, con conseguenti risultati di test statistici e intervalli di confidenza scorretti.
L’autocorrelazione, che è detta anche in alcuni testi correlazione seriale, può anche essere di ordine più elevato (è di secondo grado se l’errore di un periodo è correlato con lo stesso termine di due periodi precedenti, ecc.), ed essere anche negativa.
Ma come faccio a verificare la presenza di autocorrelazione?
Nel mio post sull’analisi delle serie temporali abbiamo sfruttato la preziosa funzione acf() di R, e parlato del test di Ljung-Box.
Un modo “classico” di operare, prevede la verifica della presenza di autocorrelazione usando la statistica di Durbin-Watson, computando il valore d e confrontandolo ai valori dell’apposita tabella al livello di significatività voluto, in genere del 5% o dell’1%.
In presenza di autocorrelazione le stime ottenute con il metodo dei minimi quadrati ordinari sono ancora consistenti e non risultano affette da errore sistemico, ma gli errori tipici dei parametri stimati della regressione sono purtroppo interessati da errori sistemici, potendo dare luogo a test statistici e intervalli di confidenza inesatti.
Un metodo per correggere l’autocorrelazione positiva di primo ordine (la più comune) è dato dal metodo a due stati di Durbin, che non tratteremo in questa sede ma che sarà probabilmente oggetto di un approfondimento futuro.