statistics

Il t test per due campioni. Come testare una ipotesi per campioni dipendenti o indipendenti

In un precedente post abbiamo parlato del test delle ipotesi per quanto riguarda una singola misura: la media del campione.

Ci sono però numerose situazioni nelle quali si rende necessario fare dell’analisi statistica che riguarda due campioni. Si pensi, a mo’ d’esempio, al caso in cui si voglia studiare la differenza tra uomini e donne rispetto ai risultati di un dato esame.


Possiamo testare una ipotesi riguardante due campioni indipendenti (nel qual caso i campioni non si influenzano reciprocamente) oppure due campioni dipendenti, laddove i campioni sono interrelati.

Lo scopo del t-test a due campioni è quello di determinare quando le medie di due popolazioni sono differenti in modo significativo.

Il test delle ipotesi per campioni indipendenti

Quando testiamo una ipotesi riguardo due campioni indipendenti, in realtà seguiamo un processo molto simile a quello già visto allorchè viene testato un campione casuale. Tuttavia, quando computiamo la statistica del test, dobbiamo calcolare l’Errore Standard stimato della differenza delle medie del campione.

Perchè il test relativo a campioni indipendenti sia valido, occorre che siano rispettate delle precise condizioni:

  • Viene usato un campione casuale per ognuna delle popolazioni;
  • I campioni casuali sono composti ciascuno da osservazioni indipendenti;
  • Ogni campione è indipendente da ogni altro;
  • La distribuzione della popolazione di ogni popolazione deve essere grosso modo normale, oppure la dimensione del campione deve essere sufficientemente ampia.

Consideriamo le ipotesi per il nostro t-test:

H0 : μ1 = μ2
Ha : μ1 ≠ μ2

Si faccia attenzione al fatto che abbiamo due medie di popolazione, infatti testeremo il fatto che le media di due separate popolazioni siano tra loro eguali. In altri termini, avremmo anche potuto scrivere così:

H0 : μ1 – μ2 = 0
Ha : μ1 – μ2 ≠ 0

E’ giunto il momento di vedere come risulta la formula per determinare il valore di t:

\( t=\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{SE_(\bar{x}_1-\bar{x}_2)} \\ \)

dove:

\( \bar{x}_1-\bar{x}_2 \\ \)

è la differenza tra le medie del campione

\( \mu_1-\mu_2 \\ \)

è la differenza tra le medie ipotizzate della popolazione

\( SE_(\bar{x}_1-\bar{x}_2) \\ \)

è l’errore standard della differenza tra le medie del campione.

L’errore standard della differenza tra le medie dei campioni è calcolata così:

\( SE_(\bar{x}_1-\bar{x}_2)=\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}} \\ \)

Vi e mi risparmio la formula per la determinazione dei gradi di libertà. E’ lunga e all’apparenza abbastanza “spaventosa”. In pratica, da pigro, lascerò che sia la calcolatrice oppure R a computarne il valore, oppure, e questa è la formuletta che mi piace, adotterò un approccio conservativo e andrò a usare il valore n più basso tra i due gruppi meno uno:

df=nil più basso -1

In R il test è di semplice esecuzione. Immaginiamo di avere i nostri dati nei due vettori “femmine” e “maschi”:

t.test(femmine,maschi)
questo nel caso di un test a 2 code

t.test(femmine,maschi,alternative="less")
oppure
t.test(femmine,maschi,alternative="greater")
nel caso di test a una coda

T-test per dati appaiati: il test delle ipotesi per campioni dipendenti.

Il t-test per campioni dipendenti è differente sotto molti aspetti da quello condotto su campioni indipendenti, al punto da essere anche chiamato, in maniera molto significativa, test per dati appaiati.
Nella pratica, in molti casi abbiamo a che fare con un tipo di test molto comune e molto utile: parliamo di pre-test / post-test.

Quali sono le condizioni per svolgere il nostro test? Eccole:

  • Il campione delle differenze è casuale;
  • Le osservazioni appaiate sono indipendenti le une dalle altre;
  • La distribuzione delle differenze della popolazione deve risultare grosso modo normale, oppure la grandezza del campione di osservazioni appaiate deve essere sufficientemente ampio.

Iniziamo dalle nostre ipotesi di partenza:

H0 : δ = 0
Ha : δ ≠ 0

la lettera delta indica “differenza”. Quindi le nostre ipotesi sono che la differenza sia uguale o diversa da 0.
Calcoliamo ora t:

\( t=\frac{\bar{d}-\delta}{SE_\bar{d}} \\ \)
dove \( \bar{d} \) è la media della differenza tra le variabili accoppiate (“paired” in inglese).

\( SE_\bar{d} \) è l’errore standard della differenza per la variabile.

\( s_{d}=\sqrt{\frac{\Sigma(d-\bar{d})^2}{n-1}} \)

e la formula per l’errore standard è: \( SE_\bar{d}=\frac{s_{d}}{\sqrt{n}} \)

E’ arrivato il momento di un esempio

Voglio testare un’ipotesi sugli stessi soggetti, prima e dopo un certo evento.
Se devo condurre un test pre e post sui medesimi soggetti, allora userò un test sulle differenze. Se le due serie di valori sono variabili dipendenti userò la funzione R:

t.test(prima, dopo, paired=TRUE)

e otterrò il valore di p. Se il valore risulterà minore del livello di significatività alpha prescelto, sceglierò l’ipotesi alternativa al posto dell’ipotesi nulla.

In pratica in R:

diff=post$test - post$post_test
hist(diff)

e verifico la normalità delle differenze. Se è ok, proseguo con il test:

t.test(post$test,post$post_test,paired=TRUE)

nel caso di un test a due code. La funzione mi restituisce i valori di t, df e p.
Se p è <0.05 (scegliendo un livello di significatività al 95%, quindi alpha=0.05) rigetto l’ipotesi nulla e accolgo l’ipotesi alternativa.

Se il test fosse a una coda:

t.test(post$test,post$post_test,paired=TRUE,alternative="less")
oppure
t.test(post$test,post$post_test,paired=TRUE,alternative="greater")
paolo

View Comments

  • Ciao, bell'articolo!
    Quando calcoli l'errore standard delle medie del campione
    quelle varianze sotto la radice, ovvero s^2_1 e s^2_2, sono varianza campionarie già corrette, oppure sono le varianze semplici?
    Grazie

Recent Posts

Guida ai Test Statistici per analisi A/B

I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere…

8 mesi ago

Come usare gli Alberi Decisionali per classificare i dati

Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura…

11 mesi ago

L’algoritmo di Discesa del Gradiente spiegato semplice

Immaginiamo di voler trovare il percorso più veloce per raggiungere una destinazione in auto. Si…

1 anno ago

La Discesa del Gradiente: un nuovo studio mette in discussione un assunto base sull’ottimizzazione

Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un…

1 anno ago

Il Metodo Montecarlo spiegato in modo semplice e applicato a casi reali

La simulazione Monte Carlo è un metodo utilizzato per quantificare il rischio associato a un…

2 anni ago

La distribuzione ipergeometrica

Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si…

2 anni ago