La distribuzione Beta è una distribuzione di probabilità molto importante nell’ambito della statistica bayesiana.
Nei problemi teorici riguardo al calcolo delle probabilità, conosciamo il valore esatto della probabilità di un singolo evento, ed è dunque relativamente agevole applicare le regole di base del calcolo probabilistico per giungere al risultato cercato.
Nella vita reale, tuttavia, è assai più comune avere a che fare con raccolte di osservazioni, ed è a partire da quei dati che dobbiamo ricavare stime di probabilità.
Detto più chiaramente: nella vita non abbiamo quasi mai a disposizione il valore esatto di probabilità di un evento: abbiamo piuttosto dati e osservazioni.
Ricavare le probabilità a partire da dati osservati è ciò che chiamiamo inferenza statistica.
Beta è una distribuzione di valori continui, e in questo è differente dalla binomiale, che come abbiamo visto presenta valori discreti.
La definiamo tramite una funzione di densità di probabilità (PDF): (no, non è il noto formato ideato da Adobe…)
\( Beta(p;\alpha,\beta)=\frac{p^{\alpha-1} \times (1-p)^{\beta-1}}{beta(\alpha;\beta)} \\\ \)dove
p = è la probabilità di un evento
α = quante volte osserviamo l’evento di nostro interesse
β = quante volte l’elemento di interesse NON accade
e ovviamente:
α + β = numero di tentativi
la funzione beta (non il valore β) al denominatore serve a normalizzare il risultato (che sarà compreso dunque tra 0 e 1).
Si ricava attraverso l’integrazione numerica, dal momento che la distribuzione è continua.
La distribuzione Beta è una distribuzione di probabilità sulle probabilità, e dal momento che modella una probabilità, il suo dominio è limitato tra 0 e 1 .
Immaginiamo che l’organizzatore di un gioco online affermi che almeno 1 giocatore ogni 10 vinca un premio. Abbiamo a disposizione i dati, e sappiamo che tra gli ultimi 800 giocatori, ci sono stati 65 vincitori.
La domanda che ci poniamo è: l’organizzatore del gioco afferma il vero in base ai dati in nostro possesso? Basandoci sul nostro campione possiamo ritenere che un giocatore abbia almeno il 10% di probabilità di vincere un premio acquistando un biglietto?
La soluzione al nostro quesito è facilmente ricavabile usando la funzione beta con i dati in nostro possesso:
Usiamo infatti la distribuzione beta cumulativa :
β (.1, 65, 735, TRUE)
In R basta una riga per trovare la parte della nostra funzione che si trova tra 0.1 e 1, cioè che mostra le probabilità superiori al 10% di vincere un premio acquistando un biglietto:
integrate(function(x) dbeta(x,65,735),0.1,1) 0.03170546 with absolute error < 2.3e-06
La risposta è davanti ai nostri occhi. La probabilità di avere almeno il 10% di successo è appena del 3,17%. Ciò che afferma l’organizzatore del gioco, alla luce dei dati, è falso.
I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere…
Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura…
Immaginiamo di voler trovare il percorso più veloce per raggiungere una destinazione in auto. Si…
Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un…
La simulazione Monte Carlo è un metodo utilizzato per quantificare il rischio associato a un…
Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si…