Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si può realizzare in pratica campionando da una popolazione finita con reintroduzione.
Se ciò non avviene, cioè se operiamo campionando da una popolazione senza reintroduzione dobbiamo avvalerci della distribuzione ipergeometrica. (In realtà, se N è grande la funzione di probabilità di densità ipergeometrica tende alla binomiale).
La distribuzione ipergeometrica si usa per calcolare la probabilità di ottenere un certo numero di successi in una serie di tentativi binari (sì o no), dipendenti e con una probabilità di successo variabile.
La distribuzione ipergeometrica ci consente di rispondere a quesiti del tipo:
Se prendo un campione di dimensione N, in cui M elementi soddisfano determinati requisiti, qual è la probabilità di estrarre x elementi che soddisfano quei requisiti?
Partiamo dalla formula
Esprimo sotto forma di formula la mia distribuzione:
\( f(X|N,M,n)=\frac{C^{N-M}_{n-x}\times C^M_x}{C^N_n} \\ \)La distribuzione ipergeometrica spiegata con esempi
Sappiamo che un lotto di 30 pezzi contiene 6 pezzi malfunzionanti.
Se prendo un campione di 5 pezzi, quale è la probabilità di trovare esattamente 2 pezzi difettosi?
Scrivo subito i dati:
- N=30 (il numero di pezzi complessivi del mio lotto)
- M=6 (i pezzi malfunzionanti complessivi presenti nel lotto)
- x=2 (voglio sapere la probabilità di trovare 2 pezzi difettosi)
- n=5 (la grandezza del mio campione)
Vediamo di fare i semplici calcoli, ricordando come si calcolano i coefficienti binomiali:
\( Coefficienti\ binomiali:\frac{n!}{r!(n-r)!}\ quindi:\\ \\ \\ C^M_x=C^6_2=15\\ C^{N-M}_{n-x}=C^{24}_3=2024\\ C^{N}_n=C^{30}_5=142506\\ \frac{15×2024}{142506}=0,21304366\\ \\ \)Nell’uso quotidiano, posso uso la calcolatrice scientifica Casio per non dover fare tutti i calcoli a mano:
MENU STAT DIST [F5] D [F6] H-GEO [F3] Hpd [F1]
e inserisco i miei dati:
Data: Variable x: 2 n:5 M:6 N:30
Il risultato è 0.21304366, vale a dire il 21,3%
Vediamo come risolvere lo stesso problema in R:
# Definizione dei parametri della distribuzione ipergeometrica x <- 2 # voglio sapere la probabilità di trovare 2 pezzi difettosi n <- 5 # la grandezza del mio campione M <- 6 # i pezzi malfunzionanti complessivi presenti nel lotto N <- 30 # il numero di pezzi complessivi del mio lotto # Calcolo della probabilità con la funzione dhyper prob <- dhyper(x, M, N - M, n) prob
e ottengo in output:
[1] 0.2130437
Può mancare un esempio con urna e palline?
Facciamo ora un altro esempio: stimiamo la probabilità che in un’urna con 10 palline bianche e 5 nere, estraendo 4 palline senza reintroduzione, se ne ottengano 3 bianche e 1 nera. Quindi:
- x=3 Numero di palline bianche estratte
- n=4 Numero di palline estratte
- M=5 Numero di palline nere
- N = 15 Numero totale di palline
Abbiamo visto che in R, è possibile utilizzare la funzione dhyper
per calcolare la probabilità di estrarre 3 palline bianche e 1 nera dall’urna descritta.
Ecco il codice R:
# Definizione dei parametri della distribuzione ipergeometrica x <- 3 # Numero di palline bianche estratte n <- 4 # Numero di palline estratte M <- 5 # Numero di palline nere N <- 15 # Numero totale di palline # Calcolo della probabilità con la funzione dhyper prob <- dhyper(x, M, N - M, n) prob
La probabilità di estrarre 3 palline bianche e 1 nera è quindi 0.07326007, ovvero circa il 7,33%.