La distribuzione Beta è una distribuzione di probabilità molto importante nell’ambito della statistica bayesiana.
Nei problemi teorici riguardo al calcolo delle probabilità, conosciamo il valore esatto della probabilità di un singolo evento, ed è dunque relativamente agevole applicare le regole di base del calcolo probabilistico per giungere al risultato cercato.
Nella vita reale, tuttavia, è assai più comune avere a che fare con raccolte di osservazioni, ed è a partire da quei dati che dobbiamo ricavare stime di probabilità.
Detto più chiaramente: nella vita non abbiamo quasi mai a disposizione il valore esatto di probabilità di un evento: abbiamo piuttosto dati e osservazioni.
Ricavare le probabilità a partire da dati osservati è ciò che chiamiamo inferenza statistica.
Beta è una distribuzione di valori continui, e in questo è differente dalla binomiale, che come abbiamo visto presenta valori discreti.
La definiamo tramite una funzione di densità di probabilità (PDF): (no, non è il noto formato ideato da Adobe…)
\( Beta(p;\alpha,\beta)=\frac{p^{\alpha-1} \times (1-p)^{\beta-1}}{beta(\alpha;\beta)} \\\ \)dove
p = è la probabilità di un evento
α = quante volte osserviamo l’evento di nostro interesse
β = quante volte l’elemento di interesse NON accade
e ovviamente:
α + β = numero di tentativi
la funzione beta (non il valore β) al denominatore serve a normalizzare il risultato (che sarà compreso dunque tra 0 e 1).
Si ricava attraverso l’integrazione numerica, dal momento che la distribuzione è continua.
La distribuzione Beta è una distribuzione di probabilità sulle probabilità, e dal momento che modella una probabilità, il suo dominio è limitato tra 0 e 1 .
Facciamo un esempio pratico sulla distribuzione beta, usando R
Immaginiamo che l’organizzatore di un gioco online affermi che almeno 1 giocatore ogni 10 vinca un premio. Abbiamo a disposizione i dati, e sappiamo che tra gli ultimi 800 giocatori, ci sono stati 65 vincitori.
La domanda che ci poniamo è: l’organizzatore del gioco afferma il vero in base ai dati in nostro possesso? Basandoci sul nostro campione possiamo ritenere che un giocatore abbia almeno il 10% di probabilità di vincere un premio acquistando un biglietto?
La soluzione al nostro quesito è facilmente ricavabile usando la funzione beta con i dati in nostro possesso:
Usiamo infatti la distribuzione beta cumulativa :
β (.1, 65, 735, TRUE)
In R basta una riga per trovare la parte della nostra funzione che si trova tra 0.1 e 1, cioè che mostra le probabilità superiori al 10% di vincere un premio acquistando un biglietto:
integrate(function(x) dbeta(x,65,735),0.1,1) 0.03170546 with absolute error < 2.3e-06
La risposta è davanti ai nostri occhi. La probabilità di avere almeno il 10% di successo è appena del 3,17%. Ciò che afferma l’organizzatore del gioco, alla luce dei dati, è falso.