I dati: le 4 scale di misura

Le 4 scale di misura. Capisco la reazione istintiva: saltare a piè pari un articolo che ha il sapore di una introduzione, poco eccitante, a un tema considerato banale.
Chiedo tuttavia ai lettori uno sforzo che, penso, valga la pena di fare. I concetti presenti in questo articolo sono basilari e proprio per questo hanno un valore e un’ importanza fondamentale.
Assimilare questi concetti significa costruire una solida base per gli argomenti che seguiranno.

Detto in maniera concisa, ma risoluta: non diamo nulla per scontato, perchè nulla è scontato.

Leggi tutto “I dati: le 4 scale di misura”

Correlazione e analisi della regressione – la regressione lineare

Abbiamo avuto modo di esaminare nel corso dei precedenti post concetti come la media o lo scarto quadratico medio, capaci di descrivere una singola variabile. Si tratta di statistiche che rivestono una grande importanza; tuttavia, nella pratica quotidiana, capita sovente di dover indagare le relazioni tra due o più variabili. Ecco dunque emergere nuovi concetti chiave: la correlazione e l’analisi di regressione.

La correlazione e l’analisi della regressione sono strumenti assai utilizzati durante l’analisi dei nostri set di dati.
Implicano la stima della relazione tra una variabile dipendente e una o più variabili indipendenti.

Leggi tutto “Correlazione e analisi della regressione – la regressione lineare”

Analisi delle serie storiche e previsioni di serie temporali in R

Cosa si intende per serie storica, o serie temporale

Una serie storica consta dei valori osservati in un insieme di periodi ordinati sequenzialmente. Questo, per chi fa SEO, è già un elemento del massimo interesse.

I dati di traffico del nostro sito web, considerati lungo una sequenza temporale, sono infatti un esempio di serie storica.

L’analisi delle serie storiche è un insieme di metodi che ci consentono di ricavare schemi o statistiche significative dai dati con informazioni temporali.

In termini molto generali, possiamo dire che una serie temporale è una sequenza di variabili casuali indicizzate nel tempo.

Lo scopo dell’analisi di una serie storica può essere di tipo descrittivo (si pensi alla decomposizione della serie per rimuovere elementi di stagionalità o per evidenziare tendenze di fondo) oppure inferenziale, includendo in quest’ultimo la previsione dei valori per periodi di tempo futuri, ancora non occorsi (forecasting).

Leggi tutto “Analisi delle serie storiche e previsioni di serie temporali in R”

Il test del chi quadrato: bontà di adattamento e test di indipendenza.

Nei post precedenti abbiamo visto diversi tipi di test che possiamo utilizzare per analizzare i dati in nostro possesso e verificare delle ipotesi.

Il test chi quadrato fu proposto da Karl Pearson nel 1900, e trova ampia applicazione per stimare quanto efficacemente la distribuzione di una variabile categorica rappresenti una distribuzione attesa (e allora parliamo di “Test della bontà di adattamento” o “Goodness of fit test”) oppure per stimare quando due variabili categoriche sono indipendenti l’una dall’altra (e allora parliamo di “Test di indipendenza”).

Tale è l’importanza e la diffusione di questo test, da essere indicato dalla rivista Scientific American tra le 20 scoperte scientifiche più importanti del XX secolo.

Leggi tutto “Il test del chi quadrato: bontà di adattamento e test di indipendenza.”

Il t test per due campioni. Come testare una ipotesi per campioni dipendenti o indipendenti

In un precedente post abbiamo parlato del test delle ipotesi per quanto riguarda una singola misura: la media del campione.

Ci sono però numerose situazioni nelle quali si rende necessario fare dell’analisi statistica che riguarda due campioni. Si pensi, a mo’ d’esempio, al caso in cui si voglia studiare la differenza tra uomini e donne rispetto ai risultati di un dato esame.

Leggi tutto “Il t test per due campioni. Come testare una ipotesi per campioni dipendenti o indipendenti”