statistics

Test non parametrici: il test di Wilcoxon per i dati non normali

Il test di Wilcoxon è un test non parametrico utilizzato per confrontare due campioni indipendenti, o un campione con un valore di riferimento noto.
Il test è utilizzato quando i dati non seguono una distribuzione normale, o quando non si conoscono i parametri della distribuzione.

Il test di Wilcoxon consiste nell’ordinare i dati di entrambi i campioni, e quindi assegnare un punteggio a ciascun valore in base alla posizione nell’ordinamento. I punteggi vengono quindi sommati per ogni campione, e la differenza tra le somme dei punteggi dei due campioni viene confrontata con un valore di riferimento noto, utilizzando la distribuzione di Wilcoxon.
In base al risultato del confronto, si può decidere se accettare o rifiutare l’ipotesi nulla.

Il test di Wilcoxon è spesso utilizzato per confrontare i valori di una variabile continua tra due gruppi. Esiste anche una versione del test chiamata test di Wilcoxon-Mann-Whitney che utilizzato quando si vuole confrontare 2 gruppi con una variabile ordinale o categoriale.

Un esempio pratico sul test di Wilcoxon in R

In questo esempio, vado a generare i dati di esempio per due gruppi, gruppo1 e gruppo2, utilizzando la funzione rnorm() per generare numeri casuali che seguono una distribuzione normale con media 100 e deviazione standard 15 per il primo gruppo e 110 e deviazione standard 15 per il secondo gruppo.

Utilizzo la funzione wilcox.test() per eseguire il test di Wilcoxon, e specifico l’ipotesi alternativa “two.sided” per testare se i due gruppi hanno medie significativamente diverse.

I risultati del test vengono stampati sullo schermo, e includono il valore del test statistico, il valore p, e la conclusione del test. In base al valore p, si può decidere se accettare o rifiutare l’ipotesi nulla.

# Creare i dati di esempio
set.seed(123)
gruppo1 <- rnorm(100, mean = 100, sd = 15)
gruppo2 <- rnorm(100, mean = 110, sd = 15)

# Eseguire il test di Wilcoxon
wilcox_test <- wilcox.test(gruppo1, gruppo2, alternative = "two.sided")

# Visualizzare i risultati del test
print(wilcox_test)

Il livello di significatività più comune utilizzato è del 5% o 0,05. Questo significa che si stabilisce una soglia del 5% al di sopra della quale si considera che l’effetto osservato sia casuale e al di sotto la quale l’effetto osservato è considerato statisticamente significativo. In altre parole, se il valore p ottenuto dal test è inferiore a 0,05, si rifiuta l’ipotesi nulla e si conclude che esiste una differenza significativa tra i campioni.

E’ importante notare che questi valori di soglia sono convenzionali e possono essere modificati in base alle esigenze specifiche dello studio o alla disciplina in cui si sta lavorando.

Risorse per approfondire

paolo

Recent Posts

Guida ai Test Statistici per analisi A/B

I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere…

8 mesi ago

Come usare gli Alberi Decisionali per classificare i dati

Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura…

10 mesi ago

L’algoritmo di Discesa del Gradiente spiegato semplice

Immaginiamo di voler trovare il percorso più veloce per raggiungere una destinazione in auto. Si…

1 anno ago

La Discesa del Gradiente: un nuovo studio mette in discussione un assunto base sull’ottimizzazione

Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un…

1 anno ago

Il Metodo Montecarlo spiegato in modo semplice e applicato a casi reali

La simulazione Monte Carlo è un metodo utilizzato per quantificare il rischio associato a un…

2 anni ago

La distribuzione ipergeometrica

Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si…

2 anni ago