statistics

La Distribuzione Beta spiegata semplice

La distribuzione Beta è una distribuzione di probabilità molto importante nell’ambito della statistica bayesiana.

Nei problemi teorici riguardo al calcolo delle probabilità, conosciamo il valore esatto della probabilità di un singolo evento, ed è dunque relativamente agevole applicare le regole di base del calcolo probabilistico per giungere al risultato cercato.

Nella vita reale, tuttavia, è assai più comune avere a che fare con raccolte di osservazioni, ed è a partire da quei dati che dobbiamo ricavare stime di probabilità.

Detto più chiaramente: nella vita non abbiamo quasi mai a disposizione il valore esatto di probabilità di un evento: abbiamo piuttosto dati e osservazioni.
Ricavare le probabilità a partire da dati osservati è ciò che chiamiamo inferenza statistica.

Beta è una distribuzione di valori continui, e in questo è differente dalla binomiale, che come abbiamo visto presenta valori discreti.

La definiamo tramite una funzione di densità di probabilità (PDF): (no, non è il noto formato ideato da Adobe…)

\( Beta(p;\alpha,\beta)=\frac{p^{\alpha-1} \times (1-p)^{\beta-1}}{beta(\alpha;\beta)} \\\ \)

dove

p = è la probabilità di un evento
α = quante volte osserviamo l’evento di nostro interesse
β = quante volte l’elemento di interesse NON accade
e ovviamente:
α + β = numero di tentativi

la funzione beta (non il valore β) al denominatore serve a normalizzare il risultato (che sarà compreso dunque tra 0 e 1).
Si ricava attraverso l’integrazione numerica, dal momento che la distribuzione è continua.

La distribuzione Beta è una distribuzione di probabilità sulle probabilità, e dal momento che modella una probabilità, il suo dominio è limitato tra 0 e 1 .

Facciamo un esempio pratico sulla distribuzione beta, usando R

Immaginiamo che l’organizzatore di un gioco online affermi che almeno 1 giocatore ogni 10 vinca un premio. Abbiamo a disposizione i dati, e sappiamo che tra gli ultimi 800 giocatori, ci sono stati 65 vincitori.

La domanda che ci poniamo è: l’organizzatore del gioco afferma il vero in base ai dati in nostro possesso? Basandoci sul nostro campione possiamo ritenere che un giocatore abbia almeno il 10% di probabilità di vincere un premio acquistando un biglietto?

La soluzione al nostro quesito è facilmente ricavabile usando la funzione beta con i dati in nostro possesso:

Usiamo infatti la distribuzione beta cumulativa :
β (.1, 65, 735, TRUE)

In R basta una riga per trovare la parte della nostra funzione che si trova tra 0.1 e 1, cioè che mostra le probabilità superiori al 10% di vincere un premio acquistando un biglietto:

integrate(function(x) dbeta(x,65,735),0.1,1)

0.03170546 with absolute error < 2.3e-06

La risposta è davanti ai nostri occhi. La probabilità di avere almeno il 10% di successo è appena del 3,17%. Ciò che afferma l’organizzatore del gioco, alla luce dei dati, è falso.

Risorse online autorevoli per approfondire

paolo

Recent Posts

Guida ai Test Statistici per analisi A/B

I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere…

8 mesi ago

Come usare gli Alberi Decisionali per classificare i dati

Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura…

11 mesi ago

L’algoritmo di Discesa del Gradiente spiegato semplice

Immaginiamo di voler trovare il percorso più veloce per raggiungere una destinazione in auto. Si…

1 anno ago

La Discesa del Gradiente: un nuovo studio mette in discussione un assunto base sull’ottimizzazione

Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un…

1 anno ago

Il Metodo Montecarlo spiegato in modo semplice e applicato a casi reali

La simulazione Monte Carlo è un metodo utilizzato per quantificare il rischio associato a un…

2 anni ago

La distribuzione ipergeometrica

Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si…

2 anni ago