Riflessioni sulla distribuzione di Poisson

La distribuzione di Poisson si propone di risolvere problemi simili a quelli della distribuzione binomiale, ma con le due caratteristiche che il campione sia molto grande e che la probabilità sia molto piccola.

Per esempio, la probabilità che una persona abbia la sindrome di Krugen-Spassen è dello 0,003%, e la città di Mestre conta 250.000 persone. Quante probabilità ci sono che a Mestre ci sia qualcuno con la sindrome di Krugen-Spassen?

La risposta è 250.000 * 0,00003 = 7,5, cioè ci si può attendere che in tutta Mestre queste persone siano circa 7 o 8.

Applicando la "formulina" scopriamo quante probabilità ci sono che a Mestre ci siano esattamente tre persone con la sindrome:

λnn!e-λ

abbiamo λ = 7,5, n = 3

quindi λn = 7,5^3 = 421,875, e^-λ = 0,000553

e P(X) = 0,03888

In definitiva, abbiamo circa il 4% di probabilità che ci siano esattamente tre persone in tutta Mestre.

Riflessioni sulla distribuzione binomiale

Il problema che la distribuzione binomiale si propone di risolvere riguarda la probabilità che in una popolazione divisibile in successi e insuccessi si ottengano k successi a fronte di n estrazioni con reinserimento.

Rispetto all'esempio della distribuzione ipergeometrica, in cui a fronte di una popolazione di 30 persone di cui 17 maschi e 13 femmine, vorrei sapere la probabilità di chiamare per un'interrogazione esattamente 2 maschi su 3 persone, nella distribuzione binomiale possiamo immaginare di chiamare una sola persona per materia, interrogando 3 volte.

Di conseguenza, lo stesso studente può essere chiamato più volte e tutto il conteggio diventa molto più semplice, mentre il ragionamento sottostante è praticamente uguale.

Ho 30 studenti, 17 maschi, 13 femmine, interrogo nella prima materia: ottengo 17/30 probabilità di avere un maschio K/N contro 13/30 di avere una femmina (1-K)/N

Per la seconda e la terza materia è uguale, perché lo studente chiamato torna a posto e ritorna disponibile per un'altra interrogazione. Si può dire che le tre materie siano commutative.

La probabilità di ottenere due maschi e una femmina è il prodotto di:

    • tre: il numero di casi in cui ho 2M e 1F: MMF, MFM, FMM, calcolato come coefficiente binomiale (2 3)
    • 17/30 ripetuto tante volte quante è richiesto un caso di successo: (17/30)2
    • 13/30 ripetuto tante volte quante è richiesto un caso di insuccesso: (13/30)1

La formula generale "scritta bene" è quindi:

(kn)KNkN-KNn-k

Scritta ancora meglio, se P = K/N, cioè P rappresenta la probabilità di successo:

(kn)Pk1-Pn-k

Riflessioni sulla distribuzione ipergeometrica

Il problema che la distribuzione ipergeometrica si propone di risolvere riguarda la probabilità che uno o più successi (in statistica, il "successo" non porta necessariamente una connotazione positiva) accadano in un numero di eventi in seguito a un numero di rilevazioni.

Per esempio in una popolazione di 30 studenti, di cui 17 maschi e 13 femmine siano chiamate a essere interrogate tre persone di cui esattamente due maschi.

La popolazione è indicata con N, e corrisponde, nell'esempio, a 30.

I successi sono indicati con K, e corrispondono, nell'esempio, a 2 (ovviamente si poteva scegliere di considerare "successo" anche 1, ribaltando la domanda: quante probabilità di interrogare esattamente una femmina su tre interrogati).

Il numero di rilevazioni è indicato con n ed è 3.

Notiamo che chiamando 15 persone (tutte le femmine + due maschi) non è possibile arrivare a non interrogare esattamente due maschi in nessun caso: possiamo ottenere, seppure con probabilità scarsa, fino a 13 femmine e 0 maschi oppure 14 femmine e 1 maschio, ma all'estrazione successiva restano solo maschi.

P(n = (1-K)+k) = 1.

Notiamo anche che chiamando una sola persona non possiamo ottenere sicuramente due maschi.

P(n < k) = 0

Infine il numero di estrazioni deve essere minore o uguale al numero di elementi.

n ≤ N

Alla prima chiamata, possiamo ottenere un maschio oppure una femmina

Maschio P(1) = 17/30

Femmina 1-P(1) = (30-17)/30

La seconda chiamata dipende dall'esito della prima, e questo distingue la distribuzione ipergeometrica da molte altre distribuzioni: la distribuzione ipergeometrica "ha memoria".

La seconda estrazione si fa su un campione non più di 30, ma di 29 elementi, in quanto uno (maschio o femmina che sia) è stato estratto.

Per quanto riguarda i successi, il numero di possiblità cambia in base all'estrazione precedente: 17 successi se l'estrazione precedente è stata scelta una femmina; 16 viceversa.

La probabilità di estrarre un maschio è quindi "biforcata":

Se la prima estrazione è uscito un maschio, è di 16/29, se la prima è uscita una femmina è di 17/29; quindi la probabilità di avere due maschi è di 17/30*16/29 (˜31,2%).

Sommando la probabilità che alla seconda sia uscita una femmina 13/30*13/29 (˜25,4%) e la probabilità che alla prima estrazione sia uscita una femmina 13/30 (˜43,3%), si ottiene 1: infatti è sicuro che su due estrazioni sia uscita una femmina al primo turno oppure un maschio e uno tra maschio o femmina al secondo.

Le estrazioni possono essere rappresentate come un albero binario, in cui a ogni estrazione si sceglie di seguire il percorso di sinistra in caso di successo o destra in caso di insuccesso (anche questa è una convenzione, senza considerazioni di merito).

A ogni passo dell'albero, le informazioni che cambiano sono il numero di elementi del campione (decrementa a ogni livello dell'albero), il numero di successi (si decrementa solo nel ramo di sinistra), il cumulo di percentuale di probabilità, che moltiplica le probabilità precedenti fino alla radice.

Per il nostro problema, che è di trovare la probabilità che escano due elementi maschi su tre, ci viene in aiuto il coefficiente binomiale, che ci dice che le combinazioni utili sono 1, 3, 3, 1, ovvero 1 sequenza che porta a tre maschi, 3 che portano a due maschi e una femmina, 3 a due femmine e un maschio e 1 che porta a tre femmine (1: {MMM}; 3: {MMF, MFM, FMM}; 3: {FFM, FMF, MFF}; 1: {FFF}).

Le probabilità che ci interessa contare sono quelle del secondo gruppo: MMF, MFM, FMM.

MMF:

Alla prima estrazione abbiamo 30 elementi, 17 successi, una probabilità accumulata nulla, quindi la probabilità di successo è 17/30.
Alla seconda abbiamo 29 elementi, 16 successi, una probabilità accumulata di 17/30, quindi una probabilità di successo di 16/29 * 17/30 = 272/870.
Alla terza abbiamo 28 elementi, 15 successi, una probabilità accumulata di 272/870 e dobbiamo calcolare la probabilità che esca una femmina, che è di 13/28; la probabilità di successo è quindi di 3.536/24.360.

MFM:

Prima: abbiamo 30 el, 17 succ, p.a. nulla, p(M) = 17/30.
Seconda: abbiamo 29 el, 16 succ, p.a. 17/30, ci interessa la probabilità che esca femmina, che è 13/29, il totale è 17/30*13/29 = 221/870.
Terza: abbiamo 28 el, 16 succ. p.a. 221/870, ci interessa la probabilità che esca maschio, che è 16/28, il totale è 221/870*16/28= 3.536/24.360

FMM:

Prima: abbiamo 30 el, 17 succ, p.a. nulla, p(F) = 13/30
Seconda: abbiamo 29 el, 17 succ, p.a. 13/30, P(M) = 17/29, p. tot = 221/870.
Terza: abbiamo 28 el, 16 succ. p.a. 221/870, ci interessa la probabilità che esca maschio, che è 16/28, il totale è 221/870*16/28= 3.536/24.360

Sommando tre volte 3.536 si ottiene 10.608, che diviso per 24.360 dà 0,43546...

Notiamo che la probabilità che si ottenga MMF, MFM o FMM è identica, perché anche se le percentuali di probabilità cambiano, alla fine abbiamo sempre 17, 16, 13 al numeratore e 30, 29, 28 al denominatore.

I dati che ci interessano per generalizzare la formula sono:

  • 30 * 29 * 28, che è N! / (N-n)!
  • 17 * 16 * 13, che è il prodotto di K! / (K-k)! e (N-K)! / (N-K-n+k)!
  • 3, che è il coefficiente binomiale di (2 3), cioè i casi di successo desiderati sulle estrazioni

Il risultato è dato dal prodotto di questi termini:

K!K-k!

rappresenta il numero di esiti positivi che vogliamo ottenere (nell'esempio, 17*16)


N-K!N-K-n+k!

rappresenta il numero di esiti negativi utili a completare il numero di estrazioni (nell'esempio, 13, ma se fossero state più estrazioni sarebbero 13*12*11...)


n!k!n-k!

è rappresentabile anche come

(kn)

è il numero di risultati corrispondenti al nostro requisito (2 maschi su 3 persone).
Da notare che il numero di femmine (1 femmina su 3 persone), cioè

(13)

dà lo stesso risultato; in generale, portando il concetto in formula:

(kn)=(n-kn)


N-n!N!

è l'inverso - poiché sta al denominatore - del numero totale di esiti possibili (nel nostro esempio 1/(30*29*28)).

Moltiplicando tutto, si ottiene

K!K-k!N-K!N-K-n+k!n!k!n-k!N-n!N!

La formula è già incasinata così come sta, ma è necessario porre un'ulteriore limitazione:

K!K-k!N-K!max0,N-K-n+k!n!k!n-k!N-n!N!

che rappresenta il fatto che, se estraiamo 14 persone, sicuramente estraiamo almeno un maschio, N-K-n+k potrebbe essere un valore negativo.

Formula semplificata

Dopo aver "sbattuto" contro questa formula, la formula "semplificata" sembrerà quasi abbordabile, pur essendo costituita da ben tre coefficienti binomiali:

(Kk)(N-Kn-k)(Nn)

Basta riscrivere la formula a coefficienti binomiali come formula con i fattoriali, secondo l'equivalenza

(kn)=n!k!n-k!

per ottenere praticamente la funzione da cui siamo partiti.

Excel

Di seguito, uno screenshot di un foglio excel in cui è riportato tutto il ragionamento sotto forma di formule

Calcolare velocemente distribuzioni ipergeometriche semplici

Quando un problema è posto come

c'è una popolazione di N elementi, di cui K sono successi: quante probabilità ho di ottenere k successi su n estrazioni?

sono di fronte a un problema risolvibile con la distibuzione ipergeometrica. Purtroppo il calcolo di un coefficiente binomiale come quello dell'esempio richiede di calcolare 30! e 27!, che sono numeri enormi.

È possibile calcolare il risultato di un problema abbastanza semplice ragionando in questo modo:

  1. Al numeratore metto una serie discendente di numeri che rappresentano le probabilità di successo (nell'esempio 2 probabilità di successo = 17*16) e le moltiplico per la serie discendente di insuccessi, fino ad avere un prodotto di n numeri, dove n è il numero di estrazioni (nell'esempio, 17*16*13)
  2. Al denominatore metto una serie discendente di popolazione, da 1 a n (nell'esempio, 30*29*28).
  3. Ottengo due serie di prodotti con lo stesso numero di termini (nell'esempio, 3 termini al numeratore e 3 al denominatore: 17*16*15 / 30*29*28).
  4. Moltiplico per il coefficiente binomiale, ma - se i numeri sono piccoli - posso arrivarci anche ragionando: ho 8 possibilità diverse (MMM, MMF, MFM, MFF, FMM, FMF, FFM, FFF), di cui 3 di ottenere esattamente 2 maschi e una femmina.

(quello che ho capito di) variabili aleatorie

Variabile aleatoria

Una variabile aleatoria è una variabile il cui valore non è conosciuto a priori.

Le V.A. possono essere discrete (praticamente ℕ) o continue (praticamente ℝ+).

Ciascun esito può prendere un valore compreso tra 0 e 1, e la somma di tutti gli esiti fa 1. 0 = evento impossibile; 1 = evento certo. P.E. gli esiti di una moneta non truccata sono: 1/2 testa, 1/2 croce.

Spazio campionario

uno spazio campionario è un insieme di valori associati a un esito. Per es. testa = milan, croce = inter ==> milan e inter sono lo spazio campionario.

Reinserimento

Una delle caratteristiche più importanti è se ogni evento è seguito da un reinserimento oppure no.

Per esempio, il lancio di un dado genera un evento (l'uscita di un numero), ma questo non preclude che al lancio successivo possa uscire di nuovo lo stesso numero: in linea di principio potremmo avere n lanci ciascuno sempre con lo stesso numero.

L'estrazione dei numeri di una tombola, viceversa, esclude che l'evento si ripeta.

Le probabilità cambiano completamente, perché nel primo caso la probabilità per ogni evento che esca un numero è 1/6, poi al secondo evento 1/6, poi 1/6 e così via; per il secondo evento la probabilità è 1/90, poi al secondo 1/89 e così via. Quando si arriva ad avere un solo numero nel sacchetto, la probabilità che esca quel numero arriva a 1/1.

V.A. continua

Una V.A. continua è una variabile rappresentabile da un numero reale. In questo caso la probabilità è rappresentata dall'area sottostante il grafico della funzione. A differenza di una funzione generica, una funzione che esprime una probabilità è sempre non negativa; questo significa che possiamo considerare l'integrale sottostante alla stregua di una vera e propria area. Inoltre l'integrale della funzione su tutto il suo dominio ha valore 1: in altre parole, sommando tutti i valori (infiniti) che può prendere la funzione, la probabilità che un evento abbia uno di quei valori è 1 (certezza).

Può capitare che una V.A. continua sia rappresentata da una funzione che ha un certo valore k quando tende a zero, rappresentato da

limx0fx=k

e poi la funzione decresca sempre di più, in modo che

limxfx=0

ma abbia come dominio ℝ+, e quindi "prosegua all'infinito". In questo caso dobbiamo utilizzare un integrale improprio, poiché il dominio non è limitato superiormente. Per esempio la funzione 1/x2 ha integrale da 1 a infinito = 1 e il suo valore è sempre positivo.

Mentre la probabilità di un singolo evento è nulla, poiché ci sono infiniti eventi, la probabilità che un evento ricada tra due numeri diversi è calcolabile come area sottostante, sempre tramite l'integrale.

Per esempio, se la funzione di probabilità è rappresentata da 1/x2, la probabilità che un evento accada tra x = 1 e x = 2 è data da

121x2dx=-12--1=12

Funzione di ripartizione

La funzione di ripartizione restituisce la probabilità che si verifichi un evento minore o uguale a un valore dato.

Il valore cresce continuamente, perché in ogni momento la probabilità che si verifichi un evento si somma a tutte le probabilità precedenti.

Per es. la probabilità che esca un numero minore o uguale a 23 alla tombola è 23/90 (1/90 per il numero 1 + 1/90 per il numero 2 + 1/90 per il numero 3 ... + 1/90 per il numero 23).

Nel caso di una funzione continua, la funzione di ripartizione è data dall'integrale da meno infinito a x della funzione.

Valore atteso

Il valore atteso equivale alla media aritmetica.

Varianza

La varianza è un indice (un valore numerico) che indica quanto lontani sono i valori di una V.A. uno dall'altro.

Si calcola facendo la differenza tra la media dei quadrati e i quadrati della media. Una caratteristica della media dei quadrati è che è sempre maggiore del quadrato della media, quindi sottraendo la prima al secondo si ottiene un valore sempre non negativo.

La varianza è un valore che cresce esponenzialmente: quindi la differenza tra la varianza tra due valori vicini e tra due valori lontani cresce in maniera molto veloce.

P.E. la differenza tra la varianza tra 35 e 43 (media: 39, varianza: 16) e tra 34 e 44 (media: 39, varianza: 25) è minore della differenza tra la varianza tra 28 e 50 (media: 39, varianza: 121) e tra 27 e 51(media: 39, varianza: 144)

La formula per la varianza di una variabile aleatoria continua è omologa a quella discreta, ma fa uso di un integrale:

Rx2fxdx-AVGx2

Moda

La moda è il valore più ricorrente in una V.A. discreta.

Nel caso di una V.A. continua, la moda è data dal punto (o dai punti) di massimo della funzione.

Mediana

La mediana è data dal valore intermedio in uno spazio campionario ordinato.

P.E. se lo spazio campionario è [3, 19, 32, 12, 15, 22, 7, 29, 24]

lo spazio campionario con i valori ordinati è [3, 7, 12, 15, 19, 22, 24, 29, 32]

la mediana è il valore centrale dell'elenco: 19.

Se lo spazio campionario ha un numero pari di elementi, la mediana è la media degli elementi centrali.

La mediana può essere ricavata tramite la funzione di ripartizione, ed è il minimo elemento in cui la funzione è ≥ ½.

La mediana di una V.A. continua è il punto in cui la sua funzione di ripartizione vale ½:

Rfxdx=12

Quantili

Lo stesso discorso della mediana vale per i quantili, che rappresentano altre suddivisioni dello spazio campionario: i quartili indicano una suddivisione in quattro, i centili in cento e così via.