Nel corso del tempo, ho deciso di scrivere una serie di post che spero possano servire da introduzione ai principali temi “di base” nel campo della statistica descrittiva e dell’analisi delle serie storiche. Li raggruppo qui in modo che possano costituire un percorso, un modo per intraprendere un cammino che spero stimolante.
Introduzione: Un breve manifesto (personale) per l’attività SEO
1. I dati: scale di misura
Dati quantitativi e qualitativi | I 4 livelli di misura | La scala nominale | Misure di tipo ordinale | La scala a intervalli equivalenti | La scala a rapporti equivalenti | Livello di complessità dei tipi di misurazione
2. Statistica descrittiva: misure di posizione e tendenza centrale.
Le misure di tendenza centrale | La media aritmetica | La media di dati raggruppati | La media ponderata | La media geometrica | La media armonica | La media troncata | La mediana | La mediana di dati raggruppati | La moda | Moda di dati raggruppati | Relazione tra media, mediana e moda | Quartili, decili e percentili | Quartili, decili e percentili di dati raggruppati | Uno sguardo d’insieme: gli utilissimi 5 numeri | Aiutiamoci con un grafico furbo: il box-plot.
3. Statistica descrittiva: misure di dispersione (o variabilità)
Il campo di variabilità (o gamma) | Lo scarto medio | La varianza | Lo scarto quadratico medio (o deviazione standard) | Il coefficiente di variazione | La forma di una distribuzione | La curtosi.
4. I primi passi nel mondo della probabilità: spazio campionario, eventi, permutazioni e combinazioni
La Probabilità | Il principio di additività delle probabilità per eventi incompatibili | Il principio di moltiplicazione delle probabilità | La Permutazione | Il concetto di Combinazione | La distribuzione binomiale come esempio di applicazione della probabilità e della combinatoria
5. Distribuzioni di probabilità: distribuzioni discrete – La Binomiale
Variabili discrete e variabili continue | Distribuzioni discrete | Distribuzioni continue | Evento sì o evento no? La variabile casuale di Bernoulli | La distribuzione binomiale | Il coefficiente binomiale con la Casio | Il coefficiente binomiale con la ti-83 | Media, valore atteso, varianza di una distribuzione binomiale | Senza reintroduzione? La distribuzione ipergeometrica.
6. La distribuzione beta
Una distribuzione di probabilità importante nella statistica bayesiana | Un esempio pratico, usando R
7. La distribuzione geometrica
Quanti tentativi per avere un primo risultato positivo? | E’ giunto il momento degli esempi | Usiamo R o la TI 83 | In R.
8. La distribuzione ipergeometrica
Partiamo dalla formula | La distribuzione ipergeometrica spiegata con esempi | Può mancare un esempio con urna e palline? | Per approfondire il tema della distribuzione ipergeometrica
9. La distribuzione binomiale negativa (o distribuzione di Pascal)
Definiamo la distribuzione binomiale negativa (o di Pascal) | Esempi di utilizzo della distribuzione binomiale negativa | Differenze tra la distribuzione geometrica e quella di Pascal
10. La distribuzione di Poisson
Lambda: il tasso medio di eventi che si verificano in un determinato intervallo di tempo o spazio | Una breve nota a margine: Poisson e Binomiale | Ma allora quali sono le differenze tra la distribuzione di Poisson e quella binomiale? | La distribuzione di Poisson in pratica: un esempio | La distribuzione di Poisson applicata alla seo: vantaggi e controindicazioni | Cenni su modelli alternativi per l’analisi del traffico del sito web | Un altro esempio: usare la Poisson per stime di probabilità sui clic di un sito web
11. La distribuzione normale
Visualizzare la “normalità” dei nostri dati | Trasformare i dati | La regola empirica | Standardizzare è bello (e utile…) | E ora la parte divertente: gli esempi! | La diseguaglianza di Chebyshev
12. Il test delle ipotesi
Ipotesi statistiche | Errori di I e II tipo | Una o due code? Questo è il problema… | Stabilisco l’ipotesi nulla e l’ipotesi alternativa | Fisso il livello di significatività (alpha level) | Scelgo la distribuzione e Raccolgo e analizzo i dati | Traggo le conclusioni | Semplificarsi la vita: scrivo una funzione in R | Uso una TI-83 | Con la Casio | La probabilità di un errore della seconda specie | Potenza? Ma non era una città? | Determinare la dimensione che il campione deve avere per il test della media | E se non conosco i dati della popolazione?
13. La distribuzione t e il test delle ipotesi
Una breve digressione storica | Un esempio vale mille spiegazioni | Un’alternativa alle regioni critiche: guardare al valore p | Con la ti-83 | Calcolare il p-value con la Casio | Stima, margine di errore e intervallo di confidenza: controlliamo il risultato del test delle ipotesi | L’intervallo di confidenza con la TI-83 | L’intervallo di confidenza con la Casio | Il t-test, il calcolo del p-value e l’intervallo di confidenza con R.
14. Il t test per due campioni. Come testare una ipotesi per campioni dipendenti o indipendenti
Il test delle ipotesi per campioni indipendenti | T-test per dati appaiati: il test delle ipotesi per campioni dipendenti | E’ arrivato il momento di un esempio
15. Tabelle di contingenza e probabilità condizionata
Tabelle a doppia entrata e distribuzioni marginali | La probabilità condizionata | Dipendenza e indipendenza | Esaminiamo l’indipendenza di variabili categoriche.
16. Il test del chi quadrato: bontà di adattamento e test di indipendenza
Il Test della bontà di adattamento (Goodness of Fit) | Capire attraverso un semplice esempio | Mi semplifico la vita usando una calcolatrice scientifica Casio | Uso R per il test della bontà di adattamento | Il Test di Indipendenza | Il Test di indipendenza con la Casio| Il test di indipendenza con R.
17. Test statistici parametrici e non parametrici
Test parametrici: il potere della normalità | Test non parametrici: versatilità e creatività.
18. L’analisi della varianza, Anova. Spiegata semplice
Anova: un test di tipo parametrico | Perchè Anova e non una serie di t-test? | Il caso più semplice: Anova a una via | Il modo “classico” (e un po’ tedioso) di svolgere un test Anova: la tabella Anova | Quanta fatica… E’ ora di sfruttare tutta la potenza di R
19. L’indice di Gini: cos’è, perchè è importante, come calcolarlo in R
La curva di Lorenz | Ma spiegarsi con un esempio chiaro? | La definizione dell’indice di concentrazione R | Calcoliamo il valore di R… in R! | E se non uso R? | Uno sguardo al valore dell’indice di Gini nel mondo, in Europa e in Italia.
20. Correlazione e analisi della regressione – la regressione lineare
La Regressione semplice | Il coefficiente di correlazione di Pearson, R | Il coefficiente di determinazione R2 | Una digressione: il coefficiente di correlazione per ranghi di Spearman | Troviamo l’equazione di regressione | Valori anomali e punti di influenza |Le assunzioni del modello | Analisi dei residui | L’analisi di regressione: difficoltà pratiche | Altri tipi di coefficienti di correlazione | Il coefficiente di correlazione punto-biseriale | Il coefficiente phi | Il coefficiente di correlazione per ranghi rho di Spearman (e un accenno al tau di Kendall).
21. L’analisi di regressione multipla, spiegata semplice
L’equazione della regressione multipla | Quali informazioni posso ricavare? | Un po’ di requisiti per cominciare | In pratica, come procedere? | Mettiamoci all’opera! | Bello, ma quanto è buono il mio modello? | Sintesi finale
22. Come prevedere il risultato di un evento: la Regressione Logistica.
Come funziona la regressione logistica e i passi per costruirla | Un esempio in R: calcolare la probabilità di sopravvivenza sul Titanic | Un po’ di matematica: l’equazione logit | Tiriamo le somme | Risorse per approfondire
23. Analisi delle serie storiche e previsioni di serie temporali in R
Cosa si intende per serie storica, o serie temporale | Un po’ di teoria. L’analisi classica delle serie temporali. La decomposizione di una serie storica | Le quattro componenti “classiche” e il loro legame | Un breve ripasso: le utili proprietà utili dei logaritmi | Creare una serie temporale in R partendo da un vettore o un data frame | Utili funzioni relative a una serie temporale | Disegnare una o più serie storiche | Tecniche di lisciamento (smoothing) | Un esempio di uso delle serie storiche per il SEO | Limitare l’effetto della stagionalità attraverso le medie mobili | Elimino il trend stagionale usando la differenza | Decompongo la serie storica attraverso le medie mobili |Decompongo la serie con il metodo LOESS | Livellamento esponenziale con il metodo di Holt-Winters e previsione | Indagare le serie storiche con i modelli ARIMA | Il rumore bianco (white noise) | La passeggiata aleatoria (random walk) | Il modello ARIMA in azione | Vediamo un esempio pratico di modello ARIMA.
24. Multicollinearità, eteroschedasticità, autocorrelazione: tre concetti dai nomi difficili (spiegati semplici)
La multicollinearità | Come ridurre il problema? | Eteroschedasticità |Autocorrelazione | Ma come faccio a verificare la presenza di autocorrelazione?
25. Capire i concetti di base del Machine Learning: una guida per principianti
Introduzione | Cos’è il Machine Learning | Tipi di Machine Learning: Machine Learning supervisionato e non supervisionato | Le fasi principali del processo di utilizzo del Machine Learning | Come iniziare ad apprendere il Machine Learning: tutorial e risorse | Sperimentare con il codice: Jupyter Lab e Google Colab