probabilità

La distribuzione ipergeometrica

Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si può realizzare in pratica campionando da una popolazione finita con reintroduzione.

Se ciò non avviene, cioè se operiamo campionando da una popolazione senza reintroduzione dobbiamo avvalerci della distribuzione ipergeometrica. (In realtà, se N è grande la funzione di probabilità di densità ipergeometrica tende alla binomiale).

La distribuzione ipergeometrica si usa per calcolare la probabilità di ottenere un certo numero di successi in una serie di tentativi binari (sì o no), dipendenti e con una probabilità di successo variabile.

La distribuzione ipergeometrica ci consente di rispondere a quesiti del tipo:

Se prendo un campione di dimensione N, in cui M elementi soddisfano determinati requisiti, qual è la probabilità di estrarre x elementi che soddisfano quei requisiti?

Partiamo dalla formula

Esprimo sotto forma di formula la mia distribuzione:

\( f(X|N,M,n)=\frac{C^{N-M}_{n-x}\times C^M_x}{C^N_n} \\ \)

La distribuzione ipergeometrica spiegata con esempi

Sappiamo che un lotto di 30 pezzi contiene 6 pezzi malfunzionanti.
Se prendo un campione di 5 pezzi, quale è la probabilità di trovare esattamente 2 pezzi difettosi?

Scrivo subito i dati:

  • N=30 (il numero di pezzi complessivi del mio lotto)
  • M=6 (i pezzi malfunzionanti complessivi presenti nel lotto)
  • x=2 (voglio sapere la probabilità di trovare 2 pezzi difettosi)
  • n=5 (la grandezza del mio campione)

Vediamo di fare i semplici calcoli, ricordando come si calcolano i coefficienti binomiali:

\( Coefficienti\ binomiali:\frac{n!}{r!(n-r)!}\ quindi:\\ \\ \\ C^M_x=C^6_2=15\\ C^{N-M}_{n-x}=C^{24}_3=2024\\ C^{N}_n=C^{30}_5=142506\\ \frac{15×2024}{142506}=0,21304366\\ \\ \)

Nell’uso quotidiano, posso uso la calcolatrice scientifica Casio per non dover fare tutti i calcoli a mano:

MENU 
STAT
DIST [F5]
D [F6]
H-GEO [F3]
Hpd [F1]

e inserisco i miei dati:

Data: Variable
x: 2
n:5
M:6
N:30

Il risultato è 0.21304366, vale a dire il 21,3%

Vediamo come risolvere lo stesso problema in R:

# Definizione dei parametri della distribuzione ipergeometrica
x <- 2 # voglio sapere la probabilità di trovare 2 pezzi difettosi
n <- 5 # la grandezza del mio campione
M <- 6 # i pezzi malfunzionanti complessivi presenti nel lotto
N <- 30 # il numero di pezzi complessivi del mio lotto

# Calcolo della probabilità con la funzione dhyper
prob <- dhyper(x, M, N - M, n)
prob

e ottengo in output:

[1] 0.2130437

Può mancare un esempio con urna e palline?

Facciamo ora un altro esempio: stimiamo la probabilità che in un’urna con 10 palline bianche e 5 nere, estraendo 4 palline senza reintroduzione, se ne ottengano 3 bianche e 1 nera. Quindi:

  • x=3 Numero di palline bianche estratte
  • n=4 Numero di palline estratte
  • M=5 Numero di palline nere
  • N = 15 Numero totale di palline

Abbiamo visto che in R, è possibile utilizzare la funzione dhyper per calcolare la probabilità di estrarre 3 palline bianche e 1 nera dall’urna descritta.

Ecco il codice R:

# Definizione dei parametri della distribuzione ipergeometrica
x <- 3 # Numero di palline bianche estratte
n <- 4 # Numero di palline estratte
M <- 5 # Numero di palline nere
N <- 15 # Numero totale di palline

# Calcolo della probabilità con la funzione dhyper
prob <- dhyper(x, M, N - M, n)
prob

La probabilità di estrarre 3 palline bianche e 1 nera è quindi 0.07326007, ovvero circa il 7,33%.

Per approfondire il tema della distribuzione ipergeometrica

paolo

Recent Posts

Guida ai Test Statistici per analisi A/B

I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere…

8 mesi ago

Come usare gli Alberi Decisionali per classificare i dati

Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura…

11 mesi ago

L’algoritmo di Discesa del Gradiente spiegato semplice

Immaginiamo di voler trovare il percorso più veloce per raggiungere una destinazione in auto. Si…

1 anno ago

La Discesa del Gradiente: un nuovo studio mette in discussione un assunto base sull’ottimizzazione

Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un…

1 anno ago

Il Metodo Montecarlo spiegato in modo semplice e applicato a casi reali

La simulazione Monte Carlo è un metodo utilizzato per quantificare il rischio associato a un…

2 anni ago

La distribuzione binomiale negativa (o distribuzione di Pascal)

La distribuzione binomiale negativa descrive il numero di prove necessarie per ottenere un certo numero…

2 anni ago