In un precedente post abbiamo parlato del test delle ipotesi per quanto riguarda una singola misura: la media del campione.
Ci sono però numerose situazioni nelle quali si rende necessario fare dell’analisi statistica che riguarda due campioni. Si pensi, a mo’ d’esempio, al caso in cui si voglia studiare la differenza tra uomini e donne rispetto ai risultati di un dato esame.
Possiamo testare una ipotesi riguardante due campioni indipendenti (nel qual caso i campioni non si influenzano reciprocamente) oppure due campioni dipendenti, laddove i campioni sono interrelati.
Lo scopo del t-test a due campioni è quello di determinare quando le medie di due popolazioni sono differenti in modo significativo.
Quando testiamo una ipotesi riguardo due campioni indipendenti, in realtà seguiamo un processo molto simile a quello già visto allorchè viene testato un campione casuale. Tuttavia, quando computiamo la statistica del test, dobbiamo calcolare l’Errore Standard stimato della differenza delle medie del campione.
Perchè il test relativo a campioni indipendenti sia valido, occorre che siano rispettate delle precise condizioni:
Consideriamo le ipotesi per il nostro t-test:
H0 : μ1 = μ2Si faccia attenzione al fatto che abbiamo due medie di popolazione, infatti testeremo il fatto che le media di due separate popolazioni siano tra loro eguali. In altri termini, avremmo anche potuto scrivere così:
H0 : μ1 – μ2 = 0E’ giunto il momento di vedere come risulta la formula per determinare il valore di t:
\( t=\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{SE_(\bar{x}_1-\bar{x}_2)} \\ \)dove:
\( \bar{x}_1-\bar{x}_2 \\ \)è la differenza tra le medie del campione
\( \mu_1-\mu_2 \\ \)è la differenza tra le medie ipotizzate della popolazione
\( SE_(\bar{x}_1-\bar{x}_2) \\ \)è l’errore standard della differenza tra le medie del campione.
L’errore standard della differenza tra le medie dei campioni è calcolata così:
\( SE_(\bar{x}_1-\bar{x}_2)=\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}} \\ \)Vi e mi risparmio la formula per la determinazione dei gradi di libertà. E’ lunga e all’apparenza abbastanza “spaventosa”. In pratica, da pigro, lascerò che sia la calcolatrice oppure R a computarne il valore, oppure, e questa è la formuletta che mi piace, adotterò un approccio conservativo e andrò a usare il valore n più basso tra i due gruppi meno uno:
df=nil più basso -1In R il test è di semplice esecuzione. Immaginiamo di avere i nostri dati nei due vettori “femmine” e “maschi”:
t.test(femmine,maschi) questo nel caso di un test a 2 code t.test(femmine,maschi,alternative="less") oppure t.test(femmine,maschi,alternative="greater") nel caso di test a una coda
Il t-test per campioni dipendenti è differente sotto molti aspetti da quello condotto su campioni indipendenti, al punto da essere anche chiamato, in maniera molto significativa, test per dati appaiati.
Nella pratica, in molti casi abbiamo a che fare con un tipo di test molto comune e molto utile: parliamo di pre-test / post-test.
Quali sono le condizioni per svolgere il nostro test? Eccole:
Iniziamo dalle nostre ipotesi di partenza:
H0 : δ = 0la lettera delta indica “differenza”. Quindi le nostre ipotesi sono che la differenza sia uguale o diversa da 0.
Calcoliamo ora t:
Voglio testare un’ipotesi sugli stessi soggetti, prima e dopo un certo evento.
Se devo condurre un test pre e post sui medesimi soggetti, allora userò un test sulle differenze. Se le due serie di valori sono variabili dipendenti userò la funzione R:
t.test(prima, dopo, paired=TRUE)
e otterrò il valore di p. Se il valore risulterà minore del livello di significatività alpha prescelto, sceglierò l’ipotesi alternativa al posto dell’ipotesi nulla.
In pratica in R:
diff=post$test - post$post_test hist(diff)
e verifico la normalità delle differenze. Se è ok, proseguo con il test:
t.test(post$test,post$post_test,paired=TRUE)
nel caso di un test a due code. La funzione mi restituisce i valori di t, df e p.
Se p è <0.05 (scegliendo un livello di significatività al 95%, quindi alpha=0.05) rigetto l’ipotesi nulla e accolgo l’ipotesi alternativa.
Se il test fosse a una coda:
t.test(post$test,post$post_test,paired=TRUE,alternative="less") oppure t.test(post$test,post$post_test,paired=TRUE,alternative="greater")
I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere…
Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura…
Immaginiamo di voler trovare il percorso più veloce per raggiungere una destinazione in auto. Si…
Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un…
La simulazione Monte Carlo è un metodo utilizzato per quantificare il rischio associato a un…
Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si…
View Comments
Ciao, bell'articolo!
Quando calcoli l'errore standard delle medie del campione
quelle varianze sotto la radice, ovvero s^2_1 e s^2_2, sono varianza campionarie già corrette, oppure sono le varianze semplici?
Grazie