Mentre le variabili discrete (in cui il campione può essere solo un numero intero, come il lancio di un dado o il numero di pecore) si possono studiare una ad una, anche se il numero può velocemente diventare immenso (es. la probabilità di vincere al lotto) e il campione può essere infinito, le variabili continue hanno un tipo di infinito legato a una proprietà dell'insieme ℚ che si estende a ℝ: c'è sempre un numero tra due numeri distinti.
Per questo, gli strumenti per affrontare il calcolo delle probabilità di un evento esprimibile in modo continuo (es. la distanza tra due auto) devono essere diversi.
Un ruolo chiave ha l'integrale: se alle elementari si spiega la statistica con torte e fette (che non sono altro che integrali in coordinate polari), all'università si rispolverano quegli integrali che - o perché la funzione ha un dominio limitato o perché l'integrale è improprio, arrivano comunque ad avere una superficie di 1.
Infatti nel calcolo della probabilità una delle caratteristiche dell'integrale è che non può mai avere valori negativi. Che senso avrebbe, infatti, una probabilità negativa? Per questo è possibile considerare un integrale alla stregua di un'area - cosa che in analisi non si può fare - in cui due punti distinti x1 e x2 appartenenti al dominio denotano un'area che rappresenta la probabilità che l'esito della variabile sia compreso tra x1 e x2. Questa superficie si chiama densità di probabilità.
La funzione di ripartizione P(x) indica la probabilità da 0 a x, con x ∈ [0, 1]. Dal momento che, come già detto, la funzione integranda non può assumere mai valori negativi, la funzione di ripartizione è sempre crescente e li limite di P(x) per x tendente a -∞ è 0 e il limite per x tendente a +∞ è 1. Infine, P(x) è continua a destra.
Indice dei contenuti
Varianza
Parliamo di varianza. La varianza è un indice di quanto gli esiti si differenzino dalla media. Per esempio, se lancio un dado tre volte e ottengo 2, 4, 6, poi ripeto l'esperimento e ottengo 4, 4, 4, la media in entrambi i casi è 4, ma la varianza è diversa. Se sommassi semplicemente gli scarti tra la media e ciascun esito, otterrei zero in entrambi i casi (-2 + 0 + 2 e 0 + 0 + 0).
La varianza si calcola facendo la differenza tra due elementi: il primo è la somma di tutti i quadrati dell'esito per la probabilità che possa verificarsi (nel nostro esempio, 22*1/6 + 42*1/6 + 62*1/6, raccogliendo 1/6 si ottiene (22 + 42 + 62) * 1/6, cioè 56/6 = ˜9,33333. L'altro elemento è il quadrato del valore atteso.
Il valore atteso è la somma degli esiti possibili per ciascuna probabilità: 1*1/6 + 2*1/6 + 3*1/6 + 4*1/6 + 5*1/6 + 6*1/6. In questo caso specifico, ogni esito ha una probabilità uguale a quella degli altri, quindi si può raccogliere 1/6 e scrivere (1+2+3+4+5+6)/6 = 3,5.
La varianza di questo caso è 9,33333 - 3,5 = 5,83333.
Nel caso di una variabile continua, occorre trovare la differenza tra due integrali, uno che rappresenta la superficie associata al quadrato della variabile e l'altro al quadrato di tutto l'integrale. Si ottiene questa formula:
dove A è lo spazio campionario.
Moda
La moda di una variabile aleatoria discreta è molto semplice da calcolare: è il valore (o i valori) più ricorrente.
La moda di una V.A. continua è data dal massimo assoluto (o dai massimi, se più di uno) della funzione.
Mediana e quantili
La mediana è il valore a metà dello spazio campionario. Se lo spazio è discreto ed è composto da un numero pari di elementi, se ne prende la media dei due centrali.
Esempio 1: un dado ha come esiti possibili 1, 2, 3, 4, 5, 6; la mediana è data dalla media di 3 e 4, cioè 3,5.
Esempio 2: le età dei colleghi dell'ufficio sono {24, 30, 33, 45, 55, 62, 65}. La mediana è il valore centrale (45)
Un quantile è il valore che si trova con una suddivisione diversa dalla metà. Per esempio, il percentile rappresenta ciascuno degli elementi che si trovano a cavallo tra 1/100 del campione e il campione successivo (es. il valore a metà tra 34/100 e 35/100)