Lezioni CalcProb A

Lezioni di Calcolo delle ProbabilitàGiuseppe Nolfe a.a. 2014-2015 Università degli Studi del Sannio Facoltà di Scienze Economiche ed Aziendali Corso di Laurea in Scienze Statistiche e Attuariali Indice Elenco delle figure 1 Definizione assiomatica di probabilità 1.1 1.2 1.3 1 Concetti introduttivi . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.1 Oggetto della teoria della probabilità . . . . . . . . . . . . 1 1.1.2 Gli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.1.3 Unione ed intersezione di eventi . . . . . . . . . . . . . . 10 1.1.4 Alcune relazioni fondamentali . . . . . . . . . . . . . . . 17 1.1.5 Successioni di eventi e loro limiti . . . . . . . . . . . . . . 19 Strutture algebriche di interesse probabilistico . . . . . . . . . . . 23 1.2.1 La struttura degli eventi . . . . . . . . . . . . . . . . . . . 23 1.2.2 La σ-algebra di Borel B . . . . . . . . . . . . . . . . . . . 28 La probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.3.1 Considerazioni preliminari . . . . . . . . . . . . . . . . . 28 1.3.2 Gli assiomi di Kolmogorov . . . . . . . . . . . . . . . . . 32 1.3.3 Prime conseguenze degli assiomi . . . . . . . . . . . . . . 36 1.3.4 Il teorema di equivalenza . . . . . . . . . . . . . . . . . . 44 1.3.5 Eventi quasi certi ed eventi quasi impossibili . . . . . . . . 45 2 Spazi campionari discreti 2.1 xii Applicazione della definizione di Kolmogorov al caso discreto . . 47 47 2.1.1 Esiti equiprobabili . . . . . . . . . . . . . . . . . . . . . 48 2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio . . 51 2.2.1 Coppie ed r-ple . . . . . . . . . . . . . . . . . . . . . . . 51 2.2.2 Il campionamento . . . . . . . . . . . . . . . . . . . . . . 54 2.2.3 Campione ordinato . . . . . . . . . . . . . . . . . . . . . 55 2.2.4 Campione non ordinato . . . . . . . . . . . . . . . . . . . 58 2.2.5 Coefficiente multinomiale . . . . . . . . . . . . . . . . . 62 2.3 Problemi di occupazione . . . . . . . . . . . . . . . . . . . . . . 65 2.3.1 Statistiche di Bose-Einstein e Fermi-Dirac . . . . . . . . . 74 2.4 Distribuzione ipergeometrica . . . . . . . . . . . . . . . . . . . . 75 3 Condizionamento ed indipendenza di eventi 3.1 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 79 79 La legge di Bayes . . . . . . . . . . . . . . . . . . . . . . 84 3.2 Indipendenza stocastica . . . . . . . . . . . . . . . . . . . . . . . 92 3.2.1 La rovina del giocatore . . . . . . . . . . . . . . . . . . . 3.2.2 Il lemma di Borel e Cantelli . . . . . . . . . . . . . . . . 105 3.2.3 Esperimenti indipendenti e spazio campionario prodotto . 108 4 La distribuzione binomiale e la distribuzione di Poisson 98 111 4.1 Le prove del Bernoulli . . . . . . . . . . . . . . . . . . . . . . . 111 4.2 La distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . 113 4.3 Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . 119 4.4 Tempi di attesa in prove del Bernoulli . . . . . . . . . . . . . . . 124 4.5 La distribuzione multinomiale . . . . . . . . . . . . . . . . . . . 129 5 Variabili aleatorie 133 5.1 Il concetto di variabile casuale . . . . . . . . . . . . . . . . . . . 133 5.1.1 Considerazioni preliminari . . . . . . . . . . . . . . . . . 133 5.1.2 Definizione di variabile casuale . . . . . . . . . . . . . . . 135 5.2 La funzione di distribuzione . . . . . . . . . . . . . . . . . . . . 139 5.3 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . 145 5.3.1 Alcune variabili casuali discrete . . . . . . . . . . . . . . 149 5.4 Variabili aleatorie assolutamente continue . . . . . . . . . . . . . 151 5.5 Variabili casuali n-dimensionali . . . . . . . . . . . . . . . . . . 161 5.5.1 Distribuzioni marginali . . . . . . . . . . . . . . . . . . . 167 5.5.2 Distribuzioni condizionate . . . . . . . . . . . . . . . . . 168 5.6 Indipendenza di variabili casuali . . . . . . . . . . . . . . . . . . 173 5.7 Funzioni di una variabile casuale . . . . . . . . . . . . . . . . . . 174 5.7.1 5.8 5.9 Il metodo delle trasformazioni . . . . . . . . . . . . . . . 180 Somme, prodotti e rapporti di variabili casuali . . . . . . . . . . . 185 5.8.1 Somma di due variabili casuali . . . . . . . . . . . . . . . 186 5.8.2 Differenza di due variabili casuali . . . . . . . . . . . . . 188 5.8.3 Prodotto di due variabili casuali . . . . . . . . . . . . . . 189 5.8.4 Rapporto di due variabili casuali . . . . . . . . . . . . . . 192 5.8.5 Variabili casuali indipendenti ed alcuni esempi . . . . . . 194 Funzioni di un vettore casuale . . . . . . . . . . . . . . . . . . . 197 6 Caratteristiche numeriche delle variabili aleatorie 213 6.1 Valore medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 6.2 Momenti di ordine superiore . . . . . . . . . . . . . . . . . . . . 223 6.3 6.2.1 La varianza di una variabile casuale . . . . . . . . . . . . 225 6.2.2 La disuguaglianza di Tchebycheff e il teorema di Bernoulli 236 Ulteriori misure di tendenza centrale e dispersione . . . . . . . . . 239 6.3.1 Valori caratteristici di forma . . . . . . . . . . . . . . . . 240 7 Momenti di variabili casuali multidimensionali 243 7.1 Momenti congiunti . . . . . . . . . . . . . . . . . . . . . . . . . 243 7.1.1 Covarianza e correlazione . . . . . . . . . . . . . . . . . 246 7.2 Alcune disuguaglianze notevoli . . . . . . . . . . . . . . . . . . . 249 7.2.1 La disuguaglianza di Cauchy e Schwarz . . . . . . . . . . 250 7.3 Momenti condizionati . . . . . . . . . . . . . . . . . . . . . . . . 252 7.3.1 Somma di un numero casuale di variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 8 La legge di Gauss ed alcune distribuzioni collegate 257 8.1 Proprietà della densità normale . . . . . . . . . . . . . . . . . . . 258 8.1.1 Momenti della distribuzione normale . . . . . . . . . . . . 266 8.1.2 La variabile casuale lognormale . . . . . . . . . . . . . . 267 8.2 Distribuzione Gamma . . . . . . . . . . . . . . . . . . . . . . . . 268 8.2.1 La variabile casuale chi-quadrato . . . . . . . . . . . . . . 270 8.3 Distribuzione Beta . . . . . . . . . . . . . . . . . . . . . . . . . . 273 9 Funzioni generatrici 275 9.1 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . 275 10 La convergenza stocastica e teoremi limite 293 10.1 La convergenza delle variabili aleatorie . . . . . . . . . . . . . . . 293 10.1.1 Convergenza in distribuzione . . . . . . . . . . . . . . . . 294 10.1.2 Convergenza in probabilità . . . . . . . . . . . . . . . . . 295 10.1.3 Convergenza in media r-ma . . . . . . . . . . . . . . . . . 298 10.1.4 Convergenza quasi certa . . . . . . . . . . . . . . . . . . 300 10.2 Teorema limite locale . . . . . . . . . . . . . . . . . . . . . . . . 301 10.3 Teorema limite integrale . . . . . . . . . . . . . . . . . . . . . . 303 10.4 Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . 307 10.4.1 Legge dei grandi numeri nella forma di Tchebycheff . . . 310 10.4.2 Legge forte dei grandi numeri . . . . . . . . . . . . . . . 316 10.4.3 Il teorema centrale del limite . . . . . . . . . . . . . . . . 318 Elenco delle figure 1.1 Rappresentazione di una partizione mediante un diagramma di Venn. 13 1.2 Partizione di un evento E. . . . . . . . . . . . . . . . . . . . . . . 1.3 Partizione dell’evento A prodotta dall’intersezione con una parti- 14 zione di Ω. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.4 Relazione Fondamentale. . . . . . . . . . . . . . . . . . . . . . . 18 4.1 Distribuzione Binomiale. . . . . . . . . . . . . . . . . . . . . . . 115 4.2 Distribuzione di Poisson. . . . . . . . . . . . . . . . . . . . . . . 122 4.3 Grafico di (1 + λ)e−λ in funzione di λ. . . . . . . . . . . . . . . . 124 5.1 5.3 Misura di probabilità indotta su R dalla v-a X. . . . . . . . . . . . 138 Rb P(a 6 X 6 b) ≡ a f (x)dx ≡ area sottesa da f (x) tra a e b. . . . 154 5.4 Densità di probabilità esponenziale. . . . . . . . . . . . . . . . . 157 5.5 Funzione di distribuzione esponenziale. . . . . . . . . . . . . . . 158 5.6 (x1 < X 6 x2 , y1 < Y 6 y2 ) ≡ (X, Y ) ∈ (x1 , x2 ] × (y1 , y2 ]. . . . 164 X 1/2 6 y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 5.2 5.7 f (x)∆x ≈ P(x 6 X 6 x + ∆x). . . . . . . . . . . . . . . . . . . 155 5.8 (− ln(X) 6 y). . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 5.9 g(x) funzione crescente. . . . . . . . . . . . . . . . . . . . . . . 181 5.10 g(x) funzione decrescente. . . . . . . . . . . . . . . . . . . . . . 182 5.11 Dominio di integrazione della (5.79) per il calcolo di FX+Y (z). . . 186 5.12 Dominio di integrazione della (5.79) per il calcolo di FY −X (z). . . 188 5.13 Dominio di integrazione, D, della (5.79) per il calcolo di FXY (z) ove z è un numero reale positivo. . . . . . . . . . . . . . . . . . . 190 5.14 Dominio di integrazione, D, della (5.79) per il calcolo di FXY (z) per ogni z numero reale negativo. . . . . . . . . . . . . . . . . . . 191 5.15 Dominio di integrazione, D, della (5.79) per il calcolo di FY /X (z) per z numero reale positivo. . . . . . . . . . . . . . . . . . . . . . 193 5.16 Dominio di integrazione, D, della (5.79) per il calcolo di FY /X (z) con z numero reale negativo. . . . . . . . . . . . . . . . . . . . . 194 5.17 Significato geometrico del modulo di un prodotto vettoriale. . . . 203 5.18 R ⊂ A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 5.19 S ⊂ D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 5.20 A ≡ {(x1 , x2 ) : fX1 X2 (x1 , x2 ) > 0}. . . . . . . . . . . . . . . . . 208 5.21 D ≡ {(u1 , u2) : fU1 U2 (u1 , u2) > 0}. . . . . . . . . . . . . . . . . 209 6.1 Funzione di densità di Pareto. . . . . . . . . . . . . . . . . . . . . 235 8.1 Funzione di densità di v-c normali con la stessa media e differente varianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 8.2 Funzione di densità di v-c normali con la media diversa e identica varianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 8.3 Funzione di densità n(x) della v-c normale standardizzata. . . . . 262 8.4 Funzione di distribuzione N(x) della v-c normale standardizzata. . 263 CAPITOLO 1 Definizione assiomatica di probabilità 1.1 Concetti introduttivi 1.1.1 Oggetto della teoria della probabilità Spesso lo scopo della ricerca scientifica è la formulazione di una adeguata descrizione matematica di un fenomeno naturale o di un processo artificiale. L’idealizzazione matematica di un fenomeno osservabile viene genericamente chiamata Modello. I fenomeni che possono essere osservati, siano essi naturali o artificiali, si suddividono in due categorie fondamentali: fenomeni deterministici e fenomeni casuali o aleatori1. Un fenomeno è detto deterministico se, note le condizioni iniziali del sistema al quale esso si riferisce, è possibile prevederne esattamente l’evoluzione. In questo caso il modello che descrive il fenomeno in studio è 1 Alea in latino indica il dado, l’aggettivo aleatorius è traducibile come riguardante il gioco dei dadi o d’azzardo 2 Capitolo 1. Definizione assiomatica di probabilità una legge matematica. Consideriamo il sistema solare, il moto dei pianeti intorno al sole è descritto dalle leggi di Keplero che rappresentano la idealizzazione matematica di questo particolare fenomeno naturale. Esse, fissata una determinata configurazione iniziale, consentono non solo di prevedere con precisione le posizioni relative dei pianeti nel futuro ma anche di calcolare le traiettorie seguite nel passato. La legge di Ohm è un ulteriore esempio di modello deterministico: in un circuito elettrico composto da un resistore R alimentato da una tensione continua V , la corrente I che fluisce nel circuito è legata alla tensione applicata ed alla resistenza del carico dalla relazione: V = R · I. Una massa soggetta ad una forza e libera di muoversi nello spazio segue una traiettoria che può essere calcolata a → − → partire dalla seconda legge della dinamica, f = m · − a , se è nota sia la posizione che la velocità iniziale della massa m. Diversamente da quanto avviene per i fenomeni deterministici, per i fenomeni casuali non è possibile stabilire una legge matematica che ne descriva l’evoluzione futura anche essendo nota la storia passata del sistema. Per tali fenomeni si adottano i cosiddetti modelli probabilistici2 o stocastici. Supponiamo di lanciare più volte una moneta; non vi è possibilità di prevedere con esattezza l’esito del lancio anche se è noto l’esito di tutti i lanci precedenti. Un esempio analogo è costituito dalla previsione del sesso di un neonato, noto il sesso dei bambini precedentemente nati nello stesso presidio ospedaliero. In entrambi gli esempi precedenti, lanciando ripetutamente la moneta o registrando il sesso dei neonati per un lungo periodo di tempo, si osserva che la frazione di esiti testa, o di neonati di sesso maschile, è circa 12 . Questo comportamento a lungo termine è chiamato regolarità statistica. I fenomeni casuali che esibiscono una regolarità statistica possono essere descritti con modelli di tipo probabilistico nei quali l’evoluzione del sistema in studio non è descritto da una legge matematica ma si determinano relazioni probabilistiche fra le possibili osservazioni. 2 Probabilità, dal latino probabilitas [probabilis + -tas]; l’aggettivo probabilis può essere inteso come ricco di prove, facile da dimostrare, verificabile. 1.1 Concetti introduttivi 3 Il modello deterministico costituisce, molto spesso, un modello di prima approssimazione di un fenomeno nel quale a rigore dovrebbero essere contemplate le variazioni casuali di alcuni parametri. Si consideri il tiro di una batteria di artiglieria contro un bersaglio fisso. Stimata la posizione del bersaglio, il direttore del tiro determina l’angolo di inclinazione del cannone basandosi sulle leggi della meccanica newtoniana, che si applicano al moto di un proiettile nel vuoto soggetto ad un impulso iniziale ed alla forza di gravità. In realtà sul proiettile agiranno fattori casuali come l’attrito dell’aria e l’azione del vento, che dipendono dalle mutevoli condizioni atmosferiche variabili in maniera imprevedibile sia nello spazio che nel tempo; considerato, inoltre, che la posizione del bersaglio, l’inclinazione del cannone e la velocità iniziale del proiettile sono noti con un determinato margine di errore, non stupisce che molti colpi non vadano a segno, nonostante il carattere deterministico delle leggi della meccanica classica. Pertanto la descrizione più aderente alla realtà del processo di tiro può avvenire secondo un modello probabilistico ovvero nei termini del calcolo della probabilità di centrare uno o più volte il bersaglio o di non colpirlo affatto. Un altro esempio è costituito dalla determinazione del peso di una data quantità di un composto chimico mediante una bilancia automatica di alta precisione. Se si ripete la procedura di pesata più volte si ottengono valori che non sono rigorosamente costanti ma che differiscono tra loro di piccole quantità variabili. Tali fluttuazioni sono dovute all’azione combinata di numerosi fattori, quali ad esempio, la posizione del corpo da pesare sul piatto della bilancia, fenomeni vibratori accidentali e, cosa fondamentale, gli errori della stima delle indicazioni della bilancia. Si potrebbe d’altro canto sostenere che molti fenomeni fisici non sono veramente casuali; infatti una più approfondita conoscenza dei meccanismi di base potrebbe condurre alla elaborazione di un modello matematico preciso. La classificazione dei fenomeni fisici come fenomeni casuali o deterministici è quindi spesso oggetto di discussione. In termini pratici la decisione di elaborare un modello deterministi- 4 Capitolo 1. Definizione assiomatica di probabilità co o probabilistico per il fenomeno in studio è basata sulla possibilità di riprodurre i dati attraverso esperimenti controllati. Se un esperimento, ripetuto molte volte, produce gli stessi risultati, nei limiti dell’errore di misura, allora è ipotizzabile l’elaborazione di un modello deterministico. Quando ciò non avviene il fenomeno è considerato, per sua natura, casuale. 1.1.2 Gli eventi Per esperimento si intende una generica procedura3 che genera dati numerici. Si definisce esperimento casuale, E, un esperimento che soddisfa le seguenti condizioni: 1. tutti i possibili esiti sperimentali sono noti a priori, nel senso che sono ben definiti o precisabili prima dell’esecuzione dell’esperimento; 2. l’esito di una determinata esecuzione dell’esperimento non è prevedibile a priori (casualità); 3. l’esperimento può essere ripetuto in analoghe condizioni; 4. ripetendo l’esperimento un gran numero di volte è possibile stabilire una regolarità statistica. Ogni singola esecuzione di un esperimento casuale viene detta prova. Esempi di esperimenti casuali sono: il lancio di una moneta, l’estrazione di una carta da un mazzo di carte francesi, la misura del tempo di funzionamento di un componente elettronico, la determinazione della glicemia di pazienti diabetici, la misura del tempo di attesa di un paziente in pronto soccorso prima che gli siano praticate le prime cure, la misura della quantità di grano prodotta per ettaro e per tipo di 3 La procedura può aver luogo spontaneamente o essere realizzata intenzionalmente. 1.1 Concetti introduttivi 5 fertilizzante in una data area di produzione, la quotazione in borsa di un titolo azionario, il prezzo del petrolio su mercato di Londra e così via. Si consideri un esperimento casuale; si definisce spazio campionario, o spazio campione o spazio delle prove o spazio dei campioni, l’insieme dei possibili esiti delle prove. Lo spazio campionario è tradizionalmente indicato con la lettera greca Ω. I possibili risultati dell’esperimento vengono detti punti campionari, o punti campione, o esiti elementari. Un punto campione è denotato dalla lettera ω. Uno spazio campionario può essere discreto, finito o numerabile, oppure continuo. Definizione 1.1.1. Uno spazio campionario Ω associato ad un esperimento casuale E, è un insieme di elementi ω, i punti campionari, che verificano le seguenti condizioni: - ciascun ω ∈ Ω denota un esito dell’esperimento; - ciascuna esecuzione dell’esperimento produce un risultato al quale è associato un singolo elemento ω ∈ Ω. Esempio 1.1.1. Lancio di una moneta I possibili esiti sperimentali associati al lancio di una moneta sono solamente due: testa e croce; pertanto si ha: Ω = {T, C}. Se la moneta viene lanciata due volte di seguito, lo spazio campionario è dato da: Ω = {T T, CC, T C, CT }. Se si è interessati al numero di volte che esce testa lanciando consecutivamente n volte una moneta, lo spazio campionario è costituito dai numeri naturali da 0 ad n: Ω = {0, 1, 2, . . . , n − 1, n}. 6 Capitolo 1. Definizione assiomatica di probabilità Esempio 1.1.2. Lancio di una moneta fino a quando non appare testa L’esperimento consiste nel lanciare la moneta fintanto che non appaia testa. Lo spazio campionario è l’insieme infinito e numerabile: Ω = {T, C, CT, CCT, CCCT, CCCCT, CCCCCT, . . .}. Infatti se si è fortunati testa può comparire al primo tentativo, essendo particolarmente sfortunati l’esito testa potrebbe realizzarsi dopo moltissimi lanci, o anche mai (possibilità solo teorica !). Esempio 1.1.3. Tempo di funzionamento di un componente elettronico Supponiamo di selezionare a caso un componente elettronico prodotto da una ditta, di immetterlo in una apparecchiatura di prova e di verificare il tempo t durante il quale esso funziona correttamente. Lo spazio campionario4 è costituito dall’insieme dei numeri reali compresi tra zero ed infinito: Ω = {t : t > 0} ≡ [0, +∞). L’aver associato ad ogni esperimento casuale E uno spazio campionario Ω, consente di definire formalmente il concetto di evento. Definizione 1.1.2. Un evento E è un sottoinsieme di Ω. Un sottoinsieme di Ω costituito da un solo punto campionario ω è spesso chiamato evento semplice5 o anche evento elementare. Quando il risulato ω dell’esperimento casuale E appartiene ad E, si dice che l’evento E si verifica o occorre. 4 In questo caso t svolge il ruolo di ω. Pertanto è preferibile evitare di chiamare eventi semplici i punti dello spazio campione; alcuni di essi potrebbero non essere eventi come vedremo in seguito. 5 1.1 Concetti introduttivi 7 Osservazione 1.1.1. Non tutti i sottoinsiemi di Ω sono eventi; affinchè un generico sottoinsieme di Ω sia un evento esso deve essere osservabile, in altre parole deve esistere la possibilità di decidere, inequivocabilmente, se quest’ultimo si sia verificato oppure no, ovvero se il generico risultato ω della prova appartenga (ω ∈ E) o non appartenga ad E (ω ∈ / E). Esempio 1.1.4. Lancio di un dado Nel caso del lancio di un dado, lo spazio campionario è costituito da sei punti campione, si ha: Ω = {1, 2, 3, 4, 5, 6}. L’evento numero pari è il sottoinsieme E = {2, 4, 6}. Se il lancio dà come esito ω2 = {2} o ω4 = {4} oppure ω6 = {6} si dice che E si è verificato. In generale un evento è definibile anche da una proposizione. L’evento, infatti, occorre se la proposizione circa l’esito della prova è vera. Viceversa una proposizione circa gli elementi dello spazio campionario definisce un insieme. Indichiamo con πE (ω) una proposizione riguardo gli elementi ω ∈ Ω e sia E il sottoinsieme di Ω costituito dagli eventi elementari per i quali πE (ω) è vera. Si usa la rappresentazione simbolica E = {ω : πE (ω)} per affermare che E è l’insieme di tutti i punti campione per i quali la proposizione πE (ω) è vera. L’evento E occorre se e solo se il risultato dell’esperimento ω appartiene all’insieme E. L’esempio seguente chiarisce quanto appena esposto. Esempio 1.1.5. Lancio ripetuto di una moneta Se si lancia per tre volte una moneta, lo spazio campionario è costituito da otto punti campione, si ha: CC}, CT CT}, |T {z T C}, T T T}}. Ω = {CCC | {z }, CT | {zC}, T | {z | {zT}, T | {z | {z | {z }, CCT ω1 ω2 ω3 ω4 ω5 ω6 ω7 ω8 La proposizione πE (ω), la sequenza di lanci rappresentata da ω ha una testa al secondo lancio, individua l’evento che al secondo lancio si osserva testa: T2 = {ω3 , ω5 , ω7 , ω8 }. 8 Capitolo 1. Definizione assiomatica di probabilità Se l’esperimento casuale dà come esito ω3 o ω5 o ω7 oppure ω8 , si dice che T2 si è verificato. Analogamnete T1 = {ω4 , ω6 , ω7 , ω8 } corrisponde all’evento individuato dalla proposizione una testa occorre al primo lancio. Osservazione 1.1.2. Quanto prima esposto costituisce un primo fondamentale passo verso una formulazione matematica dei fenomeni probabilistici. Abbiamo, infatti, posto in relazione tra loro aspetti del mondo reale e componenti del modello. Le associazioni finora stabilite sono: - possibili esiti di una prova vs spazio campionario Ω; - evento vs sottoinsieme E di Ω; - occorrenza di un evento vs ω ∈ E. Prima di proseguire nell’esposizione, è necessario approfondire la differenza tra punto campionario (esito elementare) ω ed evento elementare {ω}. Quando si ese- gue una prova dell’esperimento E, si osserva un singolo esito elementare {ω} ma possono essersi verificati eventi tra loro diversi. Se nel lanciare contemporaneamte due dadi si osserva la coppia di numeri (2, 4), ω = 24, l’esito elementare ottenuto può suggerire il realizzarsi di numerosi eventi tra loro distinti. Elenchiamone alcuni: 1. il punteggio ottenuto è sei; 2. il punteggio ottenuto è minore di sette; 3. la somma dei due numeri è pari; 4. nessun numero dispari è apparso; 5. entrambi i dadi mostrano numeri pari; 1.1 Concetti introduttivi 9 Pur essendo unico l’esito sperimentale osservato, ω = 24, si sono relizzati tutti i predetti eventi. Infatti, tra gli altri, il primo evento coincide con il sottoinsieme {15, 51, 24, 42, 33}, il secondo evento, a sua volta, è formato dai punti campionari {11, 12, 13, 14, 15, 21, 22, 23, 24, 31, 32, 33, 41, 42, 51}. È quindi importante considerare come separate la nozione di esito elementare, o punto campionario, ω e quella di evento elementare {ω}, così come nella teoria degli insiemi, dato un insieme Ξ, si distingue tra un elemento ξ ∈ Ξ ed un sottoinsieme {ξ} ⊂ Ξ. Si noti che Kolmogorov, nei suoi lavori fondamentali (vedi [8]) nei quali formulò la teoria assiomatica della probabilità, con la dicitura evento elementare indica un punto campionario ω e non riserva alcun termine particolare per individuare l’evento {ω}. Siccome molti autori si rifanno alla terminologia originaria di Kolmogorov, è bene che il lettore sia avvertito di ciò. Gli eventi come abbiamo già detto sono insiemi contenuti in Ω. Dire che l’evento E si verifica significa dire che il risultato della prova è un punto di E. Poichè il risultato della prova appartiene certamente ad Ω, anche Ω è un evento; esso si verifica certamente ed è, pertanto, denominato evento certo. Se E è un evento è certamente anche possibile stabilire se il generico risultato ω dell’esperimento casuale appartiene, oppure no, al complemento6 E del sottoinsieme E; pertanto anche E è un evento7. E si legge E negato o non E; più raramente si usano i simboli ¬E e E c . Il complemento dello spazio campione Ω è l’insieme vuoto ∅; l’evento negato di Ω è il cosiddetto evento impossibile, indicato anch’esso con la notazione ∅. 6 Come si ricorderà dalla teoria degli insiemi, E è l’insieme dei punti di Ω che non appartengono ad E. 7 Spesso chiamato evento contrario di E. 10 Capitolo 1. Definizione assiomatica di probabilità 1.1.3 Unione ed intersezione di eventi Fino ad ora ci siamo occupati di eventi singoli, descriveremo, ora, eventi che sono combinazione di altri eventi e studieremo le relazioni che possono sussistere tra essi. Avendo introdotto il concetto di evento come un insieme di punti, possiamo utilizzare i concetti propri della teoria degli insiemi. Definizione 1.1.3. L’unione E di due eventi A e B è l’evento che consiste nel verificarsi di almeno uno degli eventi A e B. In simboli l’evento unione si indica con E = A ∪ B e si legge come A unito B oppure A o B. Ricordando l’analogo concetto della teoria degli insiemi, possiamo affermare che esso si verifica se l’esito ω della prova appartiene ad A o a B o ad S entrambi i sottoinsiemi. Più in generale l’unione E1 ∪ E2 ∪ · · · ∪ En ≡ ni=1 Ei è l’evento che si verifica quando occorre almeno uno degli eventi Ei . Lo stesso vale per l’unione infinita. Esempio 1.1.6. Lancio ripetuto di una moneta, unione di eventi Consideriamo gli eventi testa al primo lancio, T1 = {ω4 , ω6 , ω7 , ω8 }, e croce al secondo, C2 = {ω1 , ω2 , ω4, ω6 } dell’esempio 1.1.5. L’evento unione T1 ∪ C2 occorre se e solo se l’esito della prova appartiene ad almeno uno dei due sottoinsiemi T1 e C2 : al primo lancio si ottiene testa o al secondo compare croce o al primo lancio si ha testa ed al secondo croce. Definizione 1.1.4. Se 8 Sn i=1 Ei = Ω, gli eventi E1 , . . . , En costituiscono un sistema esaustivo di eventi. Definizione 1.1.5. L’intersezione E di due eventi A e B è l’evento che consiste nel verificarsi sia dell’evento A che dell’evento B. 8 Talvolta gli eventi la cui unione coincide con lo spazio campionario sono detti necessari. 1.1 Concetti introduttivi 11 In simboli l’evento intersezione9 si indica con E = A ∩ B e si legge come A e B. Esso si verifica se l’esito ω della prova appartiene all’intersezione dei sottoinsiemi T A e B di Ω. L’intersezione E1 ∩ · · · ∩ En ≡ ni=1 Ei di un numero finito di eventi T è l’evento consistente nel verificarsi di tutti gli eventi Ei : ω ∈ ni=1 Ei . Lo stesso vale per un numero infinito di eventi. La notazione B ⊂ A, che nella teoria degli insiemi si legge10 B è contenuto in A, indica che l’evento B implica A, ovvero A si verifica ogni qual volta B occorre: ω ∈ B =⇒ ω ∈ A. Scrivere A = B significa che ogni ω che appartiene all’evento A appartiene anche all’evento B. Nel seguito utilizzeremo il termine insieme ed il termine evento in maniera intercambiabile11 ed i risultati della teoria degli insiemi saranno ritenuti validi anche per studiare le relazioni tra eventi. In particolare, ricordiamo che l’unione e l’intersezione di eventi godono sia della proprietà commutativa12 che di quella associativa13; ciascuna operazione, inoltre, gode rispetto all’altra della proprietà distributiva14. Definizione 1.1.6. Se A ∩ B = ∅, gli eventi A e B sono chiamati incompatibili o mutuamente esclusivi o disgiunti. In altre parole A ∩ B = ∅ indica che A eB non possono entrambi verificarsi: se ω ∈ A allora ω ∈ / B e se ω ∈ B allora ω ∈ / A. Nel dire che più eventi E1 , E2 , . . . , Ei , . . . sono incompatibili, si intende che essi sono incompatibili a due a due: Er ∩ Es = ∅, per ogni coppia di indici, r ed s, distinti. Lo stesso vale per i sinonimi disgiunti e mutuamente esclusivi. 9 Per semplicità si usano anche le notazioni A · B e AB. o anche B è incluso in A 11 Ad esempio diremo che l’evento B è incluso nell’evento A. 12 A ∪ B = B ∪ A, A ∩ B = B ∩ A. 13 (A ∪ B) ∪ C = A ∪ (B ∪ C), (A ∩ B) ∩ C = A ∩ (B ∩ C). 14 A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C), A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C). 10 12 Capitolo 1. Definizione assiomatica di probabilità Definizione 1.1.7. Se gli eventi E1 , . . . , En sono incompatibili ed esaustivi, essi costituiscono una partizione di Ω. Esempio 1.1.7. Un esempio di partizione Supponiamo che un contenitore vi siano N palline; k di queste sono bianche e le rimanenti N − k nere. Per k = 0, 1, 2, . . . , N, le proposizioni le palline bianche sono k definiscono gli eventi Ek a due a due incompatibili. Infatti, il numero di palline bianche nel contenitore o è uguale ad r oppure queste ultime sono s, sicché risulta Er ∩Es = ∅, se r 6= s. Inoltre nel contenitore o vi sono tutte palline bianche (k = N), o vi è una pallina bianca (k = 1), o vi sono due palline bianche (k = 2), . . ., o nessuna delle palline è bianca (k = 0): N [ Ek = Ω. k=0 La figura 1.1 mostra un esempio di partizione di una spazio campionario utilizzando un diagramma di Venn. Possiamo estendere la nozione di partizione ad un generico evento E. Definizione 1.1.8. Se gli eventi E1 , . . . , En sono mutuamente esclusivi e la loro unione è l’evento E, essi costituiscono una partizione o decomposizione di E. Il diagramma di Venn in figura 1.2 esemplifica la nozione di partizione di un evento. Naturalmente se E ≡ Ω le due definizioni coincidono. Proposizione 1.1.1. Sia Ω uno spazio campione e {Bi : 1 6 i 6 n} una generica S classe15 di eventi incompatili. Se l’evento A è tale che A ⊂ ni=1 Bi , allora la classe {A ∩ Bi : 1 6 i 6 n} è una partizione di A: A= n [ i=1 15 A ∩ Bi . (1.1) Per classe intendiamo semplicemente una collezione di oggetti. Nel nostro caso è una collezione di sottoinsiemi di Ω: un insieme di eventi. 1.1 Concetti introduttivi 13 Ω E 2 E E 3 1 E 4 Figura 1.1: Rappresentazione di una partizione mediante un diagramma di Venn. Il diagramma di Venn in figura 1.3 dimostra graficamente la proposizione 1.1.1 nel caso in cui gli eventi Bi siano una partizione dello spazio campione. Definizione 1.1.9. Si definisce evento differenza A − B l’insieme dei punti campionari: {ω : ω ∈ A, ω ∈ / B}. Esempio 1.1.8. Famiglie con quattro figli Supponiamo di considerare tutte le famiglie di una data città con quattro figli, di sceglierne una a caso e registrare il sesso dei bambini in base alla loro data di nascita. Se indichiamo con {m} l’evento elementare maschio e con {f } l’evento elementare femmina, lo spazio campionario è costituito dall’insieme: Ω = {mmmm, mmmf, mmf m, mf mm, f mmm, mmf f, mf f m, f f mm, mf mf, f mmf, f mf m, mf f f, f mf f, f f mf, f f f m, f f f f }. 14 Capitolo 1. Definizione assiomatica di probabilità Ω E 1 E E 3 E 2 Figura 1.2: Partizione di un evento E. Alcuni eventi di interesse potrebbero essere i seguenti: 1. A: in famiglia vi sono esattamente due maschi; 2. B: in famiglia vi è almeno un maschio; 3. C: in famiglia vi è al più un maschio; 4. D: nessun maschio in famiglia. Si ha: 1. A = {mmf f, mf f m, f f mm, mf mf, f mmf, f mf m}; 2. B = {mmmm, mmmf, mmf m, mf mm, f mmm, mmf f, mf f m, f f mm, mf mf, f mmf, f mf m, mf f f, f mf f, f f mf, f f f m}; 1.1 Concetti introduttivi 15 B B1 2 A∩ B 2 A∩ B 4 A∩ B 3 B 4 B A 3 Figura 1.3: Partizione dell’evento A prodotta dall’intersezione con una partizione di Ω. 3. C = {mf f f, f mf f, f f mf, f f f m, f f f f }; 4. D = {f f f f }. Si noti come risulti B = Ω − D ≡ D e C sia dato dall’unione degli eventi nessun maschio in famiglia ed esattamente un maschio in famiglia: C = D ∪ {mf f f, f mf f, f f mf, f f f m}. Esempio 1.1.9. Tempo di funzionamento di un componente elettronico Ritornando all’esempio 1.1.3, eventi di possibile interesse sono, tra gli altri, i seguenti: 1. A: il tempo di buon funzionamento è maggiore di 50 ore; 2. B: il tempo di buon funzionamento non è superiore a 150 ore; 16 Capitolo 1. Definizione assiomatica di probabilità 3. C: il tempo di buon funzionamento è maggiore di 30 ore e non superiore a 200 ore; 4. D: l’apparecchiatura funziona per oltre 50 ore e non più di 150 ore; 5. E: l’apparecchiatura funziona per non più di 250 ore. In questo caso, avendo posto Ω = {t : t > 0} ≡ [0, +∞), si ha: 1. A = {t : t > 50} = (50, +∞); 2. B = {t : 0 6 t 6 150} = [0, 150]; 3. C = {t : 30 < t 6 200} = (30, 200]; 4. D = {t : 50 < t 6 150} = (50, 150] ≡ (50, +∞) ∩ [25, 150]; 5. E = {t : 0 6 t 6 250} = [0, 250] ≡ [0, 150) ∪ [20, 250]. La trasposizione in termini insiemistici della logica degli eventi consente l’utilizzo della legge di De Morgan, o formula di Boole16 , ben nota nella teoria degli insiemi A∪B =A∩B (1.2) che possiamo leggere come: dire che si verifica almeno uno degli eventi A e B equivale ad affermare che non è vero che non si verifica né A né B. La (1.2) vale anche scambiando il segno di unione con quello di intersezione: A∩B =A∪B (1.3) La formula di Boole, come le proprietà distributive prima menzionate, sono un esempio di relazione duale. 16 George Boole, matematico inglese, è l’iniziatore degli studi che condussero ad introdurre le strutture algebriche nella teoria della probabilità. 1.1 Concetti introduttivi 17 Definizione 1.1.10. Considerata una relazione fra eventi si chiama duale quella che si ottiene scambiando ∪ con ∩, Ω con ∅ e ⊂ con ⊃. Se una relazione è verificata qualunque siano gli insiemi coinvolti, allora anche la relazione duale è vera. La formula di Boole è verificata anche per un insieme finito o numerabile di eventi: [ Ek = Ek (1.4) Ek (1.5) k k \ \ Ek = k [ k e, in particolare, la (1.5) assume l’espressione equivalente \ k Ek = [ Ek (1.6) k molto utile negli sviluppi futuri. 1.1.4 Alcune relazioni fondamentali Formuliamo, ora, alcune relazioni che risulteranno in seguito utili nel calcolo delle probabilità. Si ha: A = (A ∩ B) ∪ (A ∩ B). (1.7) La (1.7) ricorre frequentemente sia nella teoria che nelle applicazioni; essa si deduce da un semplice diagramma di Venn (vedi figura 1.4). Il significato intuitivo della (1.7) è il seguente: quando l’evento A si verifica, esso occorre o insieme a B o al complementare di B (senza B). Si tenga inoltre presente che gli eventi A ∩ B e A ∩ B sono disgiunti; infatti possiamo scrivere: (A ∩ B) ∩ (A ∩ B) = A ∩ B ∩ A ∩ B = A ∩ A ∩ B ∩ B = A ∩ ∅ = ∅. 18 Capitolo 1. Definizione assiomatica di probabilità Sia {Bj ; j > 1} una successione numerabile di eventi necessari e A ⊂ Ω, vale la relazione A= [ j (A ∩ Bj ) (1.8) che rappresenta la forma più generale della (1.1). A A ∩ ¬B B A∩B ¬A ∩ B Figura 1.4: Relazione Fondamentale. Sono, altresì, verificate le relazioni duali sia della (1.7) che della (1.8). Una ulteriore relazione, anch’essa intuitiva, è la seguente: A ∪ B = A ∪ (A ∩ B). (1.9) Anche nella (1.9) gli eventi a secondo membro sono incompatibili. La (1.9) afferma che il verificarsi di almeno uno degli eventi A e B può realizzarsi in due diverse modalità: o si verifica A oppure si verifica B senza che occorra A. Nel caso di un insieme finito o numerabile di eventi Ej , la (1.9) diventa [ Ej = E1 ∪ (E1 ∩ E2 ) ∪ (E1 ∩ E2 ∩ E3 ) ∪ · · · . (1.10) Osservazione 1.1.3. Ritornando alle considerazioni contenute nell’osservazione 1.1.2, notiamo che oltre alle relazioni tra aspetti del mondo reale ed elementi del 1.1 Concetti introduttivi 19 modello matematico, sono fondamentali anche i cosiddetti modelli ausiliari (vedi [11]), strumenti che facilitano la trattazione matematica dei fenomeni probabilistici. I diagrammi di Venn, come tutti i metodi grafici, sono un esempio di tali modelli ausiliari. Nel seguito ne incontreremo altri come il modello delle urne, già utilizzato in un precedente esempio. Quest’ultimo è di grande utilità nel caso di spazi campionari discreti. Un contenitore, l’urna, contiene dei bussolotti numerati ciascuno dei quali corrisponde ad un esito sperimentale. Il lancio di un dado dà luogo a sei possibili esiti sperimentali, gli interi da uno a sei; se nell’urna si inseriscono sei bussolotti numerati da uno a sei, l’esperimenento casuale lancio del dado equivale ad estrarre un bussolotto dall’urna. 1.1.5 Successioni di eventi e loro limiti Indichiamo con {En }n∈N una successione di eventi; essa ha la particolarità che ciascun elemento En è un sottoinsieme di un dato insieme ambiente, lo spazio campione Ω. Ricordiamo che, così come avviene nella teoria degli insiemi, la differenza tra la simbologia B ⊆ A e B ⊂ A consiste nel fatto che B ⊂ A afferma l’esistenza di ω ∈ A che non appartengono a B, in altre parole essa esclude a priori la possibilità che A possa coincidere con B. Definizione 1.1.11. Una successione di eventi {En }n∈N si dice non decrescente se, ∀n, En ⊆ En+1 . Definizione 1.1.12. Una successione di eventi {En }n∈N si dice non crescente se, ∀n, En ⊇ En+1 . Definizione 1.1.13. Si dice che la successione {En }n∈N è monotòna se è non crescente oppure non decrescente. 20 Capitolo 1. Definizione assiomatica di probabilità Definizione 1.1.14. Sia {Ej }j∈N una generica successione di eventi. Si definisce limite inferiore di tale successione il sottoinsieme di Ω costituito dai punti campione ω che appartengono definitivamente alla successione. In simboli, il limite inferiore è esprimibile come lim inf En = {ω ∈ Ω : ∃n0 ∈ N : ∀n > n0 , ω ∈ En }. n→∞ (1.11) Definizione 1.1.15. Sia {En }n∈N una generica successione di eventi. Si definisce limite superiore di tale successione il sottoinsieme di Ω costituito dai punti campione ω che appartengono ad infiniti elementi della successione. Il simboli, il limite superiore è esprimibile come lim sup En = {ω ∈ Ω : ∀n ∈ N, ∃k > n : ω ∈ Ek }. (1.12) n→∞ Definizione 1.1.16. Si dice che una successione di eventi {En }n∈N è convergente se lim inf En = lim sup En . n→∞ n→∞ In questo caso si dice che {En }n∈N ha per limite l’evento E = lim inf En = lim sup En n→∞ n→∞ e si scrive lim En = E n→∞ oppure, in forma più compatta, En → E. Talvolta si usa anche la notazione En ↑ E o En ↓ E, nel caso di una successione monotòna, non decrescente e non crescente, rispettivamente. Si noti che i sottoinsiemi di Ω che costituiscono il limite inferiore, il limite superiore o il limite di una successione di eventi è esso stesso un evento. 1.1 Concetti introduttivi 21 Proposizione 1.1.2. Per ogni successione di eventi {En }n∈N si ha: ∞ \ n=1 En ⊆ lim inf En ⊆ lim sup En ⊆ n→∞ n→∞ ∞ [ En . (1.13) n=1 La (1.13) è un’ovvia conseguenza della definizioni di limite superiore e limite inferiore. A tale proposito commentiamo la relazione lim inf En ⊆ lim sup En n→∞ (1.14) n→∞ che compare nella (1.13). Un punto ω dello spazio campione Ω che appartiene all’evento lim inf n→∞ En , a partire da un certo indice n0 in poi, appartiene anche ai sottoinsiemi En che costituiscono la successione {En }n0 6n∈N ; quindi ω appartiene ad infiniti componenti della successione {En }n∈N e, così, esso è anche un elemento del sottoinsieme che individua lim supn→∞ En . La (1.14), in termini di eventi, consente di affermare che se si verifica l’evento limite inferiore di una successione si verifica anche l’evento limite superiore per la stessa successione. Proposizione 1.1.3. Per ogni successione di eventi {En }n∈N risulta17 lim inf En = n→∞ e lim sup En = n→∞ ∞ [ (En ∩ En+1 ∩ En+2 ∩ · · · ) ≡ ∞ \ ∞ [ n=1 n=1 k=n ∞ \ ∞ ∞ [ \ (En ∪ En+1 ∪ En+2 ∪ · · · ) ≡ n=1 Ek (1.15) Ek . (1.16) n=1 k=n Per quanto concerne le successioni monotòne valgono le relazioni esplicitate nella seguente proposizione. 17 Per la dimostrazione si rinvia ai testi di analisi. 22 Capitolo 1. Definizione assiomatica di probabilità Proposizione 1.1.4. Se {En }n∈N è una successione monotòna, essa è convergente; inoltre si ha ∞ [ lim En = n→∞ lim En = n→∞ n=1 ∞ \ En se la successione è non decrescente, (1.17) En (1.18) se la successione è non crescente. n=1 Dimostrazione. Supponiamo che la successione di eventi sia non decrescente. Si ha allora, ∀n ∈ N, En ∩ En+1 ∩ · · · = En e quindi, per la (1.15), ∞ ∞ [ [ lim inf En = (En ∩ En+1 ∩ En+2 ∩ · · · ) = En . n→∞ n=1 n=1 Di conseguenza, tenendo presente la (1.13), si ricava limn→∞ En = S∞ n=1 En . Analogamente, se {En }n∈N è non crescente, per ogni intero n si può scrivere la relazione En ∪ En+1 · · · = En e quindi, ricordando la (1.15), si conclude che T limn→∞ En = ∞ n=1 En . In virtù della (1.17) si deduce che il limite di una successione non decrescente di eventi è l’evento che occorre quando si verifica almeno uno degli eventi che la costituiscono. Analogamente, vedi (1.18), il limite di una successione non crescente di eventi è quell’evento che si verifica quando si verificano tutti gli eventi che costituiscono detta successione. Osservazione 1.1.4. A partire dal termine generale En di una generica successione T di eventi si definisce una successione non decrescente ponendo An = ∞ k=n Ek , ∀n ∈ N. Infatti, essendo An = En ∩ An+1 , risulta An ⊆ An+1 . Ricordando la (1.17) che si applica a successioni non decrescenti e la (1.15) che ha validità generale, si ottengono le seguenti espressioni equivalenti per il limite inferiore di {En }n∈N : lim An ≡ lim n→∞ n→∞ ∞ \ k=n Ek = ∞ [ n=1 An ≡ ∞ \ ∞ [ n=1 k=n Ek ≡ lim inf En . n→∞ (1.19) 1.2 Strutture algebriche di interesse probabilistico 23 Analoghi sviluppi sussistono per il limite superiore. Osservazione 1.1.5. A partire dal termine generale En di una generica successione S di eventi si definisce una successione non crescente ponendo Bn = ∞ k=n Ek , ∀n ∈ N. Infatti, essendo Bn = En ∪ Bn+1 , risulta Bn ⊇ Bn+1 . Ricordando la (1.18) e la (1.16), si ottengono le seguenti espressioni equivalenti per il limite superiore di {En }n∈N : lim Bn ≡ lim n→∞ n→∞ ∞ [ Ek = k=n ∞ \ n=1 Bn ≡ ∞ [ ∞ \ n=1 k=n Ek ≡ lim sup En . (1.20) n→∞ Per i limiti di successioni di eventi sussistono alcune importanti proprietà che elenchiamo, senza dimostrarle, nella successiva proposizione. Proposizione 1.1.5. En ↓ E ⇒ En ∩ E ↓ ∅ , (1.21) An ⊆ Bn ⇒ lim inf An ⊆ lim inf Bn , (1.22) An ⊆ Bn ⇒ lim sup An ⊆ lim sup Bn , (1.23) lim En = E ⇒ n→∞ lim En = E, n→∞ (1.24) An → A, Bn → B ⇒ (An ∪ Bn ) → A ∪ B, (1.25) An → A, Bn → B ⇒ (An ∩ Bn ) → A ∩ B. (1.26) 1.2 Strutture algebriche di interesse probabilistico 1.2.1 La struttura degli eventi Si è già sottolineato come l’evento complementare, l’unione e l’intersezione di eventi siano essi stessi eventi. Una struttura algebrica che soddisfa tali requisiti è nota dalla teoria degli insiemi. 24 Capitolo 1. Definizione assiomatica di probabilità Definizione 1.2.1. Una famiglia F di sottoinsiemi di un insieme Ω tale che (i) Ω ∈ F (ii) E ∈ F ⇒ E ∈ F (iii) A ∈ F, B ∈ F ⇒ A ∪ B ∈ F costituisce un’algebra18. Dalla definizione 1.2.1 scaturiscono alcune immediate conseguenze. In primo luogo dalla (i) e dalla (ii) si deduce che anche ∅ ∈ F. Consideriamo tre sottoinsiemi di Ω, E1 , E2 , E3 ∈ F, per la proprietà associativa dell’operazione di unione si ha E = E1 ∪ E2 ∪ E3 ≡ (E1 ∪ E2 ) ∪ E3 e, per la (iii), anche E ∈ F. Tale proprietà è valida per l’unione di un qualunque numero finito di elementi di F. Notiamo che, per la formula di De Morgan (1.3), la (ii) e la (iii), anche l’intersezione A ∩ B ≡ A ∪ B ∈ F. Inoltre, per la proprietà associativa dell’operazione di intersezione, possiamo scrivere E = E1 ∩ E2 ∩ E3 ≡ (E1 ∩ E2 ) ∩ E3 = (E1 ∪ E2 ) ∩ E3 da cui si deduce che l’intersezione di un qualunque numero finito di elementi di F è anch’essa un elemento di F. In conclusione possiamo affermare che un’algebra F su Ω è chiusa rispetto all’operazione di complemento, unione di intersezione di un numero finito di suoi elementi. Per far sì che la proprietà di chiusura sia verificata anche nel caso di unioni numerabili19, si introduce una nuova struttura algebrica. 18 o un campo o una classe additiva su Ω, ove Ω è per ipotesi non vuoto Questa proprietà è essenziale per la definizione assiomatica di probabilità. Si noti che anche l’unione numerabile di eventi è un evento. 19 1.2 Strutture algebriche di interesse probabilistico 25 Definizione 1.2.2. Una famiglia F di sottoinsiemi di un insieme Ω tale che (i) Ω ∈ F (ii) E ∈ F ⇒ E ∈ F (iii) ∀k ∈ N, Ek ∈ F ⇒ S∞ k=1 Ek ∈F costituisce una σ-algebra20. Per la (1.6) o la (1.5), la (ii) e la (iii), F è chiusa rispetto all’intersezione numerabile. Inoltre una σ-algebra è anche un’algebra, Infatti se si considerano N parti Ai ∈ F e si pone Bi = Ai , per i 6 N, e Bi = AN , per i > N si ricava N [ i=1 Ai = ∞ [ i=1 Bi ∈ F . Vale anche il viceversa solo se Ω è un insieme finito. D’ora innanzi chiameremo eventi di Ω soltanto gli elementi di una σ-algebra. Questa scelta assicura che il complemento e l’unione, finita o numerabile, di eventi appartiene ancora alla classe degli eventi. Proposizione 1.2.1. L’intersezione di σ-algebre su Ω è una σ-algebra su Ω. Dimostrazione. Infatti, indichiamo con Fi , con i ∈ I insieme numerabile e non vuoto di indici, una successione di σ-algebre su Ω. In primo luogo Ω ∈ Fi , T ∀i ∈ I, e quindi Ω ∈ F ≡ i Fi . Se E ∈ F , E ∈ Fi , ∀i ∈ I e pertanto E ∈ Fi , ∀i ∈ I, quindi E ∈ F . Infine supponiamo che, considerato un insieme numerabile di indici J , Ej ∈ F , ∀j ∈ J . Allora Ej ∈ Fi , ∀j ∈ J e ∀i ∈ I, S S sicché j Ej ∈ Fi per ogni indice i ∈ I. Pertanto j Ej ∈ F . 20 o un σ-campo o una classe completamente additiva su Ω 26 Capitolo 1. Definizione assiomatica di probabilità Con il simbolo P{Ω} denotiamo la famiglia dei sottoinsiemi di Ω, P{Ω} costituisce la più ampia σ-algebra su Ω. Definizione 1.2.3. Una σ-algebra su Ω si dice generata da una famiglia21 G di sottoinsiemi di Ω, e si denota con il simbolo σ(G), se ogni σ-algebra su Ω contenente G contiene anche σ(G). Le precedenti condizioni si formalizzano come: a. G ⊆ σ(G) b. F σ-algebra su Ω, G ⊆ F ⇒ σ(G) ⊆ F . Osservazione 1.2.1. La σ-algebra σ(G) è la minima σ-algebra su Ω contenente G. Gli elementi di G sono detti eventi generatori. Teorema 1.2.1. Data una qualsiasi famiglia G di sottoinsiemi di Ω, esiste ed è unica la σ-algebra da essa generata. Dimostrazione. Poichè la famiglia costituita da tutte le parti (sottoinsiemi) di Ω è una classe completamente additiva, è chiaro che esiste almeno una σ-algebra che contiene G come sottoclasse, quindi la famiglia di tutte le σ-algebre su Ω non è vuota. La σ-algebra σ(G) coincide allora con la σ-algebra che si ricava dalla intersezione di tutte le σ-algebre appartenenti a tale famiglia. Essa è unica; infatti se esistessero due σ-algebre, F1 e F2 , generate da G, entrambe dovrebbero essere contenute in tutte le σ-algebre conteneti G. Dovrebbero essere contemporaneamente verificate le relazioni F1 ⊇ F2 e F2 ⊇ F1 dalle quali scaturisce F1 = F2 . Vale il seguente teorema la cui dimostrazione non è essenziale per gli scopi del corso. 21 o classe. 1.2 Strutture algebriche di interesse probabilistico 27 Teorema 1.2.2. Sia A = {Ai : i ∈ I} una partizione numerabile di Ω; σ(A) è la classe di tutte le unioni di sottoinsiemi di A: ( ) [ σ(A) = Aj : J ⊆ I j∈J Si noti che se Ai 6= ∅, per i ∈ I, le unioni in σ(A) sono distinte. Ovvero se S S J,K ⊆ I e J = 6 K allora j∈J Aj = 6 k∈K Ak . In particolare, se n insiemi non vuoti appartengono ad A, I è l’insieme di n interi distinti e vi sono 2n sottoinsiemi di I. In conclusione 2n sono anche le parti di di σ(A). Definizione 1.2.4. Si dice spazio probabilizzabile ogni coppia22 {Ω, F }, dove Ω è uno spazio campione e F una σ-algebra generata da una famiglia G di sottoinsiemi di Ω. Ricordiamo che gli elementi di F rappresentano nel modello matematico gli eventi del mondo reale; in particolare Ω è l’evento certo e ∅ l’evento impossibile. Gli sviluppi precedenti assicurano che gli eventi, considerati come insiemi di F , sono oggetti in qualche modo misurabili. Come vedremo in seguito questa loro caratteristica conduce alla definizione assiomatica di probabilità. Definizione 1.2.5. Sia {Ω, F } uno spazio probabilizzabile ed E un evento diverso da ∅. E è detto evento elementare se la sua intersezione con un qualunque altro evento o lo lascia inalterato oppure coincide con ∅. La definizione precedente asserisce che un evento elementare non può essere decomposto nell’unione di altri eventi. 22 La definizione di spazio probabilizzabile deriva da quello di spazio misurable o di misura che si introduce indipendentemente in teoria della misura. In questo caso Ω è un generico insieme non vuoto e F una σ-algebra su Ω. Un insieme A ∈ F è detto misurabile. 28 Capitolo 1. Definizione assiomatica di probabilità 1.2.2 La σ-algebra di Borel B Consideriamo come spazio campionario la retta, ovvero l’insieme R dei numeri reali. Per definizione, la σ-algebra di Borel di R, o campo di Borel di R, è la più piccola σ-algebra che contiene le semirette (−∞, a], con a ∈ R. Essa è generalmente denotata dal simbolo B e i suoi elementi sono detti boreliani. B svolge un ruolo fondamentale nella teoria della probabilità, nel seguito introdurremo alcune sue fondamentali proprietà. Proposizione 1.2.2. Si consideri la σ-algebra di Borel B e siano a, b ∈ R. 1. B contiene gli insiemi del tipo (a, +∞). Infatti si ha: (a, +∞) ≡ (−∞, a]. 2. B contiene gli insiemi del tipo (a, b]. Vale, infatti, la relazione (a, b] ≡ (−∞, b] ∩ (a, +∞). 3. B contiene i punti isolati {a}. I punti isolati, infatti, sono intersezione di T un’infinità numerabile di intervalli: {a} ≡ n (a − n1 , a]. 4. B contiene gli insiemi del tipo (a, b) ≡ (a, b] ∩ {b}. 5. B contiene gli insiemi del tipo [a, b] ≡ (a, b] ∪ {a}. Gli insiemi dei numeri interi, dei razionali e dei naturali appartengono a B in quanto unioni numerabili di punti isolati; anche l’insieme dei numeri irrazionali, insieme complementare dei razionali, appartiene a B. 1.3 La probabilità 1.3.1 Considerazioni preliminari Prima di introdurre formalmente il concetto di probabilità si ritiene utile proporre alcune considerazioni tratte da un classico testo di teoria della probabilità scritto 1.3 La probabilità 29 da un autore di scuola russa, B. Gnedenko, e tradotto in italiano alla fine degli anni settanta (vedi [6]). Abbiamo in precedenza definito l’esperimento casuale E come una generica procedura, spontanea oppure eseguita intenzionalmente, che produce dati numerici. Per uniformarsi alla terminologia di Gnedenko l’esecuzione di un singolo esperimento (prova) equivale a realizzare un insieme complesso di condizioni C: due sostanze chimiche vengono fatte reagire ad una fissata temperatura e ad una data pressione. Lo schema più elementare, ma anche più rigido, di regolarità è il seguente: ogni qual volta che si realizza l’insieme di condizioni C si richede che si presenti l’evento A. Esemplificando: se si riscalda l’acqua alla temperatura di 100 gradi centigradi alla pressione atmosferica (l’insieme di condizioni C), essa si trasforma in vapore (evento A). Secondo questo schema vengono formulate le leggi della fisica, della chimica e di altre discipline. Un evento certo è un evento che si presenta senza incertezza alcuna ogni qual volta si realizza C. Data la relizzazione di C, un evento che non occorre mai è detto impossibile. Un evento, che al realizzarsi delle condizioni C, può accadere oppure no è un evento casuale. Gnedenko sottolinea come la certezza, l’impossibilità o la casualità di un evento sono da porre sempre in relazione ad un ben definito insieme di condizioni C. L’asserzione della casualità di un evento ci dice semplicemente che C non contiene l’intera collezione di ragioni necesssarie e sufficienti perché l’evento si verifichi. Comunque per un ampio spettro di fenomeni, per i quali è possibile il realizzarsi ripetuto delle condizioni C, si osserva che la percentuale di casi in cui l’evento A si presenta tende in modo significativo ad assumere un qualche valore medio (legge empirica del caso). Lanciamo una moneta ben bilanciata per n volte e registriamo la percentuale di occorrenza dell’evento testa. Eseguendo per N volte la serie di n lanci23 la percentuale di presentazione di testa 23 Sia N che n sono interi grandi. 30 Capitolo 1. Definizione assiomatica di probabilità è all’incirca di cinquanta volte su cento. In situazioni come questa appena descritta, oltre ad affermare il carattere aleatorio dell’evento, è pensabile di determinare una stima approssimativa che l’evento ha di verificarsi. Questa stima può essere espressa in una proposizione del tipo: la probabilità che l’evento A si verifichi, in seguito alla realizzazione delle condizioni C, è uguale a p. Regolarità di questo tipo sono le regolarità stocastiche o probabilistiche alle quali facevamo riferimento all’inizio del capitolo. È utile, affinchè il lettore comprenda quanto sia ampio lo spettro di situazioni alle quali il ragionamento precedente possa utilmente applicarsi, riportare l’esempio del decadimento radioattivo proposto da Gnedenko24 . Non vi è alcun modo per stabilire con certezza se un atomo di radio decadrà o rimarrà stabile in un fissato intervallo di tempo. Sulla base di osservazioni sperimentali è possibile calcolarne la probabilità di decadimento. È stato dimostrato, misurando il tempo t in anni, che tale probabilità è data da p = 1 − e−γt ove γ = 4.36 × 10−4 . In questo caso l’insieme di condizioni C consiste nel fatto che, per il numero t di anni, l’atomo di radio non sia stato esposto a particolari condizioni che possano influire con il decadimento spontaneo come, ad esempio, il bombardamento da parte di particelle ad alta energia cinetica25 ; l’evento aleatorio di interesse è che l’atomo decada in un fissato numero di anni t. Le basi della teoria della probabilità furono formulate nel XVII secolo nei lavori 24 La teoria della probabilità nasce nell’ambito dei giochi d’azzardo nel XVII secolo. Lo sviluppo successivo della teoria è strettamente legato ai progressi delle scienze naturali, della fisica in particolare. 25 Il lettore tenga presente che nel caso in esame le condizioni ambientali quali temperatura e pressione sono ininfluenti. 1.3 La probabilità 31 di Fermat, Pascal26 , Huygens e Jacob Bernoulli27 ; da allora la teoria si è sviluppata come disciplina matematica ed ha allargato il suo orizzonte applicativo in diversi settori scientifici. Il concetto di probabilità matematica, in verità, necessita di un approfondimento filosofico connesso, in particolare, all’applicazione della teoria alla realtà sperimentale. Parafrasando Gnedenko si tratta di comprendere sotto quali condizioni vi sia un significato oggettivo nella stima quantitativa della probabilità di un evento casuale A, con l’aiuto di una numero P(A), detto probabilità matematica dell’evento A. Il punto di partenza è la convinzione che asserzioni probabilistiche esprimono alcune proprietà oggettive del fenomeno in considerazione; se l’evento A ha probabilità p, deve esistere una relazione, di natura diversa dal rapporto causa-effetto ma non per questo meno oggettiva, tra le condizioni C e l’evento stesso. La relazione deve esistere indipendentemente dall’osservatore, il problema filosofico è comprenderne la natura, tenendo conto che l’esperienza insegna che il problema di una stima quantitativa della probabilità ha un senso ragionevolmente oggettivo solo se sono verificate alcune condizioni ben definite. Per l’insieme di condizioni C un evento che non sia né certo (conseguenza necessaria delle condizioni) né impossibile è casuale. Tale definizione del carattere aleatorio di un evento non implica né che sia possibile calcolarne la probabilità né che essa esista. In ciascun caso particolare, l’esistenza del numero p = P(A) 26 Il 24 agosto 1654 Blaise Pascal, filosofo e matematico francese, scrisse al suo connazionale Pierre de Fermat una celebre lettera che segnò la nascita della moderna teoria della probabilità. Essa aveva per oggetto il gioco d’azzardo. Nel 1663 venne anche pubblicato, molto dopo la sua morte, il Liber de ludo aleae di Girolamo Cardano; si tratta del primo studio matematico sul lancio dei dadi nel quale si dimostra come, nel caso di lanci ripetuti, determinati risultati mostrino delle regolarità di occorrenza. Cardano, comunque, non usò mai il termine probabilità ma possibilità. Egli, matematico illustre ed abile medico, era un giocatore d’azzardo, i suoi sforzi teorici erano rivolti alla formulazione di regole di previsione per accrescere la possibilità di vincere scommesse. 27 Noto anche come James Bernoulli; la sua opera fondamentale Ars Coniectandi apparve nel 1713 dopo la morte dell’autore. 32 Capitolo 1. Definizione assiomatica di probabilità deve scaturire da considerazioni a priori o, qualora se ne ipotizzi l’esistenza, deve essere possibile una verifica susseguente. Gnedenko esamina il caso di un nuovo elemento radioattivo; è lecito ipotizzare che un atomo di questa sostanza, lasciato a se stesso, abbia un probabilità di decadimento nel tempo t data da p = 1 − e−γt , ove γ è il coefficiente di decadimento ignoto che caratterizza la velocità di decadimento. Una domanda fondamentale per la determinazione di γ consiste nel chiedersi se condizioni esterne, come l’intensità della radiazione cosmica, possano influenzare il valore di tale parametro determinando, di conseguenza, in valore numerico di p. Quindi l’ipotesi da porre è che, dato un insieme di condizioni esterne sufficientemente definite, γ assume valori in conseguenza di esse. La situazione ha una valenza generale nei diversi settori applicativi: chiarire il significato filosofico del concetto di probabilità matematica può risultare impossibile se si sia alla ricerca di una definizione applicabile a qualunque evento A e per un qualunque insieme di condizioni C. 1.3.2 Gli assiomi di Kolmogorov L’ultimo passo per la formulazione del modello matematico che stiamo sviluppando è l’indicazione di come assegnare a ciascun evento una misura numerica delle possibilità che esso ha di realizzarsi. Seguendo l’impostazione originale formulata dal matematico russo Andrej Nikolaeviˇc Kolmogorov negli anni trenta del novecento, si introduce il concetto di probabilità come una opportuna misura definita sulla σ-algebra degli eventi. Kolmogorov in questo modo connesse strettamente la teoria della probabilità alla teoria della misura ed alla teoria degli insiemi che in quegli anni si svilupparono notevolmente. Egli costruì la teoria della probabilità a partire da assiomi seguendo una procedura che aveva già mostrato i suoi frutti in altri settori della matematica come, tra altri, la geometria, la meccanica analiti- 1.3 La probabilità 33 ca e la teoria dei gruppi. Ricordiamo che in generale per assioma si intende una proposizione fondamentale che è considerata vera a priori; tutte le altre affermazioni contenute nella teoria vanno dimostrate, a partire dagli assiomi che si sono accettati, con un procedimento puramente logico. La formulazione degli assiomi non deve apparire come il primo passo, in ordine temporale, per la costruzione di una teoria matematica; essi scaturiscono dall’analisi critica dei risultati ottenuti nel corso dello sviluppo storico, analisi che mira ad isolare gli aspetti veramente fondamentali alla definizione di una teoria logicamente coerente. Naturalmente Kolmogorov, nel definire gli assiomi alla base della teoria della probabilità, tiene in debito conto le proprietà e i limiti insiti sia nella definizione classica28 , o di Laplace, che in quella statistica29, di probabilità. Teorie che si erano sviluppate nel corso di secoli e che, con il crescente interesse in fenomeni naturali sempre più complicati registrato dalla seconda metà dell’ottocento in poi, hanno incontrato forti ed insormontabili critiche. In altri termini lo sviluppo delle scienze naturali all’inizio del novecento poneva stringenti quesiti alla teoria della probabilità; era necessario, quindi, studiare sistematicamente i fondamenti della teoria e chiarire le ipotesi in base alle quali i risultati della teoria stessa potevano essere utilmente impiegati nello studio dei fenomeni naturali. Possiamo concludere che gli assiomi di Kolmogorov rappresentano la formalizzazione e la generalizzazione di molti secoli di esperienza umana, intesa sia come successo esplicativo che come limite nella descrizione coerente di un fenomeno. Nel precedente paragrafo è stato ricordato il contributo degli studiosi del ’600 alla definizione dei fondamenti della probabilità, nel XVIII secolo si registrano i contributi fondamentali di altri componenti 28 rapporto fra casi favorevoli e casi possibili, talvolta chiamata definizione aprioristica basata sulla frequenza relativa di occorrenza di un evento (definizione frequentista) essa, anche se non esplicitamente espressa, appare per la prima volta nel libro di Cardano sul gioco dei dadi. È 29 da sottolineare che nello stesso libro si trovano accenni anche al calcolo delle probabilità secondo la definizione classica. 34 Capitolo 1. Definizione assiomatica di probabilità della famiglia Bernoulli che applicarono il calcolo delle probabilità a problematiche concrete quali l’idrodinamica, la balistica e l’elasticità. Di altri autori, quali Laplace, Bayes, De Moivre, Gauss, Poisson e dei matematici russi della scuola di San Pietroburgo si parlerà in seguito quando saranno trattati argomenti specifici. Possiamo ora formulare gli assiomi che definiscono la probabilità. Definizione 1.3.1. Sia assegnato uno spazio probabilizzabile {Ω, F }. Una funzione di insieme P : F → R che gode delle proprietà Assioma 1 ∀A ∈ F , P(A) > 0, Assioma 2 P(Ω) = 1, Assioma 3 per ogni successione di eventi {An }n∈N incompatibili si ha P( ∞ [ n=1 An ) = ∞ X P(An ), n=1 viene detta misura di probabilità, o più semplicemente probabilità, su {Ω, F }. L’assioma 3 esprime la proprietà di additività numerabile o completa della probabilità30. Esso si rende necessario a causa del fatto che si ha costantemente a che fare con eventi che si decompongono in un numero infinito di casi particolari. Su alcuni testi l’assioma è inizialmente enunciato per una somma finita, additività finita o semplice, e poi esteso alle somme numerabili; nel seguito dimostreremo che additività finita segue dall’additività completa. Richiamiamo l’attenzione del lettore sul fatto che l’assioma 3 costituisce la forma più generale della cosiddetta legge delle probabilità totali. Essa si enuncia dicendo che la probabilità dell’unione di eventi incompatibili è uguale alla somma delle probabilità dei singoli eventi (vedi anche [4]). 30 Per indicare l’unione di eventi disgiunti useremo il simbolo ⊔. L’additività completa sarà deF∞ P∞ notata come P( n=1 An ) = n=1 P(An ), omettendo di precisare che gli eventi sono mutuamente esclusivi. 1.3 La probabilità 35 Osservazione 1.3.1. Gli assiomi di Kolmogorov riconducono la teoria della probabilità nell’ambito della teoria della misura definita su campi boreliani di insiemi: la probabilità stessa è una funzione di insiemi, non negativa e additiva. La probabilità di un evento del mondo reale è stato posto in relazione, nel modello matematico, ad una funzione definita su sottoinsiemi dello spazio campione. Osservazione 1.3.2. Il sistema degli assiomi di Kolmogorov è incompleto: infatti per lo stesso spazio probabilizzante {Ω, F } si possono scegliere le probabilità nel- l’insieme F in modi diversi. Su questo aspetto ritorneremo in seguito con qualche esempio; si noti che l’incompletezza non suggerisce una scelta inadeguata degli assiomi, essa è insita nella natura stessa della materia: possono esistere situazioni nelle quali insiemi identici di eventi casuali hanno probabilità diverse. Si pensi ai casi di una moneta bilanciata, equa, e truccata. Concludiamo il paragrafo con la seguente definizione che riassume quanto finora esposto ed è il punto di partenza per gli sviluppi futuri della teoria assiomatica della probabilità. Definizione 1.3.2. Sia E un esperimento casuale e G la famiglia degli eventi generatori. Dicesi spazio di probabilità la terna ordinata {Ω, F , P} ove Ω è lo spazio campione associato a E, F è la σ-algebra generata da G e P è una misura di probabilità su {Ω, F }. Concludiamo il paragrafo riassumendo i tre passi fondamentali per l’elaborazione di un modello probabilistico: 1. individuare tutti i possibili esiti sperimentali, 2. individuare tutti gli eventi di interesse, 3. calcolo della probabilità di ciascun evento. La parte più complicata ed interessante di un modello è il calcolo delle probabilità; nei capitoli successivi ci occuperemo di questa problematica. 36 Capitolo 1. Definizione assiomatica di probabilità 1.3.3 Prime conseguenze degli assiomi Ricordiamo che per semplicità di esposizione abbiamo introdotto in una precedente nota il simbolo ⊔ per indicare l’unione di eventi disgiunti. Innazitutto dimostriamo come l’additività semplice sia una conseguenza dell’additività numerabile. Per tale scopo enunciamo il seguente lemma. Lemma 1.3.1. Si ha P (∅) = 0 . Dimostrazione. L’evento impossibile ∅ è esprimibile come l’unione numerabile di F eventi impossibili, inoltre essi sono a due a due disgiunti e pertanto ∅ ≡ ∞ n=1 ∅. L’assioma 3, applicato alla precedente unione numerabile di eventi impossibili mutuamente esclusivi, fornisce la relazione P(∅) = ∞ X P(∅). (1.27) i=1 Essendo P(∅) un numero reale finito, la (1.27) comporta che necessariamente deve essere P(∅) = 0 . Teorema 1.3.1. La misura di probabilità è finitamente additiva. Dimostrazione. Occorre dimostrare che, se A1 , A2 , . . . , An sono n eventi incompatibili, allora si ha: P n G j=1 Aj ! = n X P(Aj ). (1.28) j=1 Osserviamo che a partire dalla successione finita A1 , A2 , . . . , An è possibile costruire una successione numerabile {Bj }j∈N ponendo Bj = Aj , per 1 6 j 6 n, e Bn+1 = Bn+2 = · · · = ∅. Essendo, per costruzione, a due a due disgiunti anche 1.3 La probabilità 37 gli eventi della successione {Bj }j∈N , dall’assioma 3 e dal lemma 1.3.1 segue che P n G j=1 Aj ! =P " n G j=1 Aj ⊔ ∅ ⊔ ∅ ⊔ · · · = ∞ X P(Bj ) = j=1 !# n X =P ∞ G P(Aj ) + j=1 Bj j=1 ∞ X ! P(∅) = j=n+1 n X P(Aj ) j=1 ed il teorema è dimostrato. Corollario 1.3.1. Per ogni evento E ∈ F risulta: P(E) = 1 − P(E). (1.29) Dimostrazione. Osserviamo che Ω = E ⊔ E. Dall’assioma 2 e dalla (1.28) si deduce la relazione 1 = P(Ω) = P E ⊔ E = P(E) + P(E) e la (1.29) è stata dimostrata. Corollario 1.3.2. La probabilità P(E), ∀E ∈ F , è un numero reale che verifica la disuguaglianza 0 6 P(E) 6 1 . Dimostrazione. Per l’assioma 1 valgono le disuguaglianze P(E) > 0 e P(E) > 0; essendo P(E) = 1 − P(E) segue che P(E) ∈ [0, 1]. Corollario 1.3.3. Se gli eventi E1 ed E2 sono tali che E1 ⊆ E2 si ha31 P(E1 ) 6 P(E2 ). 31 Il corollario dimostra la cosiddetta proprietà di monotonia. (1.30) 38 Capitolo 1. Definizione assiomatica di probabilità Dimostrazione. Per l’ipotesi posta su E1 e E2 si ha E1 ∪ E2 = E2 e, come conseguenza della (1.9), otteniamo32 E2 = E1 ⊔ E1 ∩ E2 e, per la proprietà di additività finita della funzione P, P(E2 ) = P(E1 ) + P E1 ∩ E2 . La tesi del corollario segue dalla relazione P E1 ∩ E2 > 0 . Teorema 1.3.2. Siano E1 e E2 eventi. Si ha: P(E1 ∪ E2 ) = P(E1 ) + P(E2 ) − P(E1 ∩ E2 ). (1.31) Dimostrazione. Dalla (1.9), dalla (1.7) e dal teorema 1.3.1 otteniamo le relazioni E1 ∪ E2 = E1 ⊔ E1 ∩ E2 (1.32) E2 = (E1 ∩ E2 ) ⊔ E1 ∩ E2 e P(E1 ∪ E2 ) = P(E1 ) + P E1 ∩ E2 (1.33) (1.34) P(E2 ) = P(E1 ∩ E2 ) + P E1 ∩ E2 . Dalla (1.35) si ricava P E1 ∩ E2 = P(E2 ) − P(E1 ∩ E2 ) (1.35) (1.36) e, sostituendo la (1.36) nella (1.34), si dimostra la tesi. 32 Il lettore si convinca della validità della prima relazione facendo ricorso ad un semplice diagramma di Venn. 1.3 La probabilità 39 Esempio 1.3.1. Probabilità di errata diagnosi Da precedenti indagini statistiche si sa che una determinata sintomatologia è presente nel 65% dei soggetti affetti dalla patologia A, e nel 45% dei soggetti affetti dalla patologia B e nel 30% dei casi in cui sono presenti entrambe le patologie. Qual è la probabilità che un soggetto che riferisce tale patologia soffra di una malattia diversa da A e da B? Per rispondere al quesito occorre determinare P(A ∩ B). Ricordando leggi di De Morgan, possiamo scrivere la relazione A ∩ B = A ∪ B da cui si ricava P(A ∩ B) = 1 − P(A ∪ B) = 1 − [P(A) + P(B) − P(A ∩ B)] = 1 − [0.65 + 0.45 − 0.3] = 1 − 0.8 = 0.2 . La probabilità di errata diagnosi è del 20%. Dal diagramma di Venn in figura 1.4, identificando E1 con A e E2 con B, si evince che E1 ∩ E2 = E2 − E1 , per cui dalla (1.36) discende la relazione probabilistica: P(E2 − E1 ) = P(E2 ) − P(E1 ∩ E2 ). (1.37) La formula di inclusione-esclusione che dimostreremo nel successivo teorema è una generalizzazione della (1.31). Teorema 1.3.3. Sia {E1 , . . . , En } una successione di eventi:Ei ∈ F , 1 6 i 6 n. S La probabilità dell’evento unione ni=1 Ei è data dalla relazione P n [ i=1 Ei ! = n X i=1 P(Ei ) − X i<j P(Ei ∩ Ej ) + X i<j<k P(Ei ∩ Ej ∩ Ek )+ + · · · + (−1)n+1 P(E1 ∩ E2 ∩ · · · ∩ En ). (1.38) Dimostrazione. Si procede per induzione. Osserviamo che la (1.38) è verificata per n = 2 in virtù del teorema 1.3.2 e dimostriamo che se essa è supposta valida 40 Capitolo 1. Definizione assiomatica di probabilità per un intero n = r allora è valida anche per n = r + 1. Poniamo Br = Grazie alla (1.31) possiamo esprimere la probabilità di Br+1 come Sr i=1 Ei . P(Br+1 ) = P(Br ∪ Er+1 ) = P(Br ) + P(Er+1 ) − P(Br ∩ Er+1 ). Poiché la (1.38) è ipotizzata valida per n = r, la precedente relazione può essere riscritta come P(Br+1 ) ≡ P = r+1 [ Ei i=1 r hX i=1 ! =P P(Ei ) − r [ Ei i=1 X i<j ! + P(Er+1 ) − P(Br ∩ Er+1 ) P(Ei ∩ Ej ) + X i<j<k P(Ei ∩ Ej ∩ Ek ) i + · · · + (−1)n+1 P(E1 ∩ E2 ∩ Ek ∩ · · · ∩ Er ) " r # [ + P(Er+1 ) − P (Ei ∩ Er+1 ) . (1.39) i=1 Calcoliamo, ora, la probabilità P [ Sr i=1 (Ei ∩ Er+1 )] applicando ancora una volta la formula (1.38). Si ha " r # r r X X [ P [(Ei ∩ Er+1 ) ∩ (Ej ∩ Er+1 )] P(Ei ∩ Er+1 ) − P (Ei ∩ Er+1 ) = i=1 i=1 + r X i<j<k i<j P [(Ei ∩ Er+1 ) ∩ (Ej ∩ Er+1 ) ∩ (Ek ∩ Er+1 ] + · · · + (−1)r+1 P [(E1 ∩ Er+1 ) ∩ (E2 ∩ Er+1 ) ∩ · · · ∩ (Er ∩ Er+1 )] . (1.40) Ricordiamo che l’intersezione gode della proprietà associativa e che l’intersezione di un insieme con sé stesso dà l’insieme stesso. Ciò premesso la (1.40) diventa " r # r r [ X X P (Ei ∩ Er+1 ) = P(Ei ∩ Er+1 ) − P(Ei ∩ Ej ∩ Er+1 ) i=1 i=1 i<j + · · · + (−1)r+1 P (E1 ∩ E2 ∩ · · · ∩ Er+1 ) . (1.41) 1.3 La probabilità 41 Sostituendo la (1.41) nella (1.40), si ricava la (1.38) scritta per n = r + 1 ed il teorema è stato dimostrato. Esempio 1.3.2. Probabilità di contaminazione Durante il processo di preparazione di una pietanza precotta tre possibili agenti infettivi, indicati nel seguito con A, B e C rispettivamente, possono contaminare accidentalmente il prodotto. Essi possono essere presenti sia da soli che contemporaneamente. Calcoliamo la probabilità degli eventi definiti dalla proposizioni non vi è stata contaminazione e un solo agente infettivo ha contaminato il prodotto nell’ipotesi che le probabilità di contaminazione siano P(A) = 5 · 10−3 , P(B) = 4 · 10−3 , P(C) = 4 · 10−3, P(A ∩ B) = 2 · 10−4 , P(A ∩ C) = 1.5 · 10−3 , P(B ∩ C) = 1 · 10−3 , P(A ∩ B ∩ C) = 3 · 10−3 . Indichiamo, rispettivamente, con E1 e E2 gli eventi di interesse. Affinché non vi sia stata contaminazione, tutti gli agenti infettivi non devono essere presenti nella pietanza e quindi E1 ≡ A ∩ B ∩ C. Ricordando le formule di De Morgan si ha A ∩ B ∩ C = A ∪ B ∪ C e, quindi, P(E1 ) = 1 − P(A ∪ B ∪ C). Applicando la regola di inclusione-esclusione al caso di tre eventi si ricava P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∪ C) − P(B ∪ C) + P(A ∩ B ∩ C) = 0.01285 da cui segue P(E1 ) = 1 − 0.01285 = 0.98715 . L’eventualità che un solo agente infettivo abbia contaminato il prodotto è il risultato dei tre eventi incompatibili è presente solo A, è presente solo B, è presente solo C. Formalmente si ha E2 = (A ∩ B ∩ C) ∪ (A ∩ B ∩ C) ∪ (A ∩ B ∩ C). Osserviamo, innazitutto, che A ∩ B ∩ C = A ∩ (B ∩ C) = A ∩ (B ∪ C) 42 Capitolo 1. Definizione assiomatica di probabilità e, quindi, P(A ∩ B ∩ C) = P(A ∩ (B ∪ C) = P((B ∪ C) ∩ A). Ricordando la (1.36), otteniamo infine P(A ∩ B ∩ C) = P(A) − P[(B ∪ C) ∩ A] = P(A) − P[A ∩ (B ∪ C)] = P(A) − P[(A ∩ B) ∪ (A ∩ C)] = P(A) − [P(A ∩ B) + P(B ∩ C) − P(A ∩ B ∩ C)] = 5 · 10−3 − 0.2 · 10−3 − 1 · 10−3 + 3 · 10−3 = 6.8 · 10−3 . Con analoga procedura si calcola P(A ∩ B ∩ C) = P(B) − [P(A ∩ B) + P(B ∩ C) − P(A ∩ B ∩ C)] = 4 · 10−3 − 0.2 · 10−3 − 1 · 10−3 + 3 · 10−3 = 3.1 · 10−3 e P(A ∩ B ∩ C) = P(C) − [P(A ∩ C) + P(B ∩ C) − P(A ∩ B ∩ C)] = 4 · 10−3 − 1.5 · 10−3 − 1 · 10−3 + 3 · 10−3 = 4.5 · 10−3 pertanto P(E2 ) = 6.8 · 10−3 + 3.1 · 10−3 + 4.5 · 10−3 = 14.4 · 10−3 . Se E1 e E2 eventi disgiunti P(E1 ∩ E2 ) = P(∅) = 0, cosicché la (1.31) esprime semplicemente la finita additività di P. In particolare, in questo caso, si ha: P(E1 ∪ E2 ) ≡ P(E1 ⊔ E2 ) = P(E1 ) + P(E2 ) che costituisce l’espressione più semplice della legge delle probabilità totali. In generale vale la disugualianza detta di Boole P(E1 ∪ E2 ) 6 P(E1 ) + P(E2 ) (1.42) 1.3 La probabilità 43 essa fornisce un maggiorante per calcolare la probabilità dell’unione di due eventi ed è particolarmente utile quando il calcolo della probabilità dell’intersezione non sia agevole. La (1.42) ha un valenza generale, dimostriamo innazitutto che essa è valida per un numero finito di eventi. Teorema 1.3.4. Sia {E1 , . . . , En } una qualsiasi sequenza finita di eventi, risulta: ! n n [ X P Ei 6 P(Ei ) (1.43) i=1 i=1 ove n è un generico numero intero finito. Dimostrazione. Procediamo per induzione. Osserviamo che, in virtù della (1.42), la tesi del teorema sussiste nel caso particolare di n = 2. Supponimo che essa sia vera per n = k e poniamo n = k + 1. Si può scrivere P k+1 [ Ei i=1 ! ≡P k [ i=1 Ei ∪ Ek+1 per la (1.42) 6 P ! k [ i=1 Ei ! + P(Ek+1) 6 k X P(Ei ) + P(Ek+1 ) i=1 che coincide con la (1.43) per n = k + 1 ed il ragionamento per induzione è completato. Teorema 1.3.5. Sia {Ei }i∈N una generica sequenza numerabile di eventi, risulta: ! ∞ ∞ [ X P Ei 6 P(Ei ). (1.44) i=1 i=1 Dimostrazione. Nel caso particolare in cui la serie a secondo membro della (1.44) sia divergente la tesi del teorema segue per banale conseguenza. Supponiamo, 44 Capitolo 1. Definizione assiomatica di probabilità invece, che essa converga ad un limite finito. La relazione (1.10) esprime l’insieme S Ei come unione di eventi mutuamente esclusivi33: ∞ [ i=1 Ei = E1 ⊔ (E1 ∩ E2 ) ⊔ (E1 ∩ E2 ∩ E3 ) ⊔ · · · ⊔ (E1 ∩ · · · ∩ Ei−1 ∩ Ei ) ⊔ · · · . Osserviamo che E1 ∩ E2 è la parte di E2 non comune ad E1 , E1 ∩ E2 ∩ E3 è la parte di E3 non comune ad E1 ed a E2 , pertanto E1 ∩E2 ⊆ E2 , E1 ∩E2 ∩E3 ⊆ E3 e così via. Per il corollario 1.30 e la proprietà di additività completa si ricava ! ∞ [ P Ei = P(E1 ) + P(E1 ∩ E2 ) + P(E1 ∩ E1 ∩ E2 ) + · · · i=1 6 P(E1 ) + P(E2 ) + P(E3 ) + · · · + P(Ei ) + · · · e la tesi è stata dimostrata. 1.3.4 Il teorema di equivalenza Dato uno spazio di probabilità {Ω, F , P}, come abbiamo dimostrato in precedenza l’additività numerabile implica l’additività finita; in generale non vale il viceversa. Definizione 1.3.3. Consideriamo una funzione di insieme T : F −→ R. Se per ogni successione di eventi {An }n∈N dotata di limite, ossia tale che ∃A ∈ F per il quale A = limn→∞ An ≡ lim inf n→∞ An ≡ lim supn→∞ An , risulta lim T (An ) = T lim An = T(A) n→∞ n→∞ (1.45) allora si dice che T verifica la proprietà di continuità. Sussiste il seguente teorema che il lettore interessato trova dimostrato in [2]. 33 Un diagramma di Venn con tre eventi può aiutare il lettore a convincersi della correttezza di questa riscrittura della (1.10). 1.3 La probabilità 45 Teorema 1.3.6 (Teorema di equivalenza). Sia {Ω, F } uno spazio probabilizzabile. Una funzione di insieme P : F −→ R, soddisfacente gli assiomi 1 e 2 della definizione 1.3.1, è numerabilmente additiva se e solo se essa verifica sia la proprietà di additività finita che la proprietà di continuità. 1.3.5 Eventi quasi certi ed eventi quasi impossibili Il secondo assioma della definizione 1.3.1 afferma che l’evento certo Ω ha probabilità 1, ma non esclude che ad altri eventi, diversi da Ω, possa essere associato una probabilità uguale a 1. Lo stesso ragionamento vale per l’evento impossibile che, per il lemma 1.3.1, ha probabilità di occorrenza nulla; non è detto che un evento a probabilità zero coincida con ∅. Considerato uno spazio di probabilità {Ω, F , P}, diamo le definizioni seguenti. Definizione 1.3.4. Un evento C si dice quasi certo se risulta P(C) = 1 . Definizione 1.3.5. Un evento I si dice quasi impossibile se risulta P(I) = 0 . I due concetti sono tra loro strettamente legati. Infatti dalla (1.29) segue la relazione P(A) + P(A) = 1 ed allora se A è quasi certo A è quasi impossibile, e viceversa. Teorema 1.3.7. Sia A un generico evento. Se I è un evento quasi impossibile valgono le relazioni P(A ∩ I) = 0 (1.46a) P(A ∪ I) = P(A) (1.46b) P(A ∩ C) = P(A) (1.47a) P(A ∪ C) = 1 . (1.47b) e, se C è un evento quasi certo, 46 Capitolo 1. Definizione assiomatica di probabilità Dimostrazione. Per dimostrare la (1.46a) osserviamo A ∩ I ⊆ I. Per la proprietà di monotonia34 di P si ha P(A ∩ I) 6 P(I) = 0 e, grazie al corollario 1.3.2, 0 6 P(A ∩ B) 6 P(B) = 0. Analogamente, poiché A ∪ C ⊇ C e ricordando ancora il corollario 1.3.2, si ha 1 > P(A ∪ C) 6 P(C) = 1 e la (1.47b) risulta verificata. Utilizziamo, ora, la relazione A∪I = A⊔(A∩I). Per la finita additività di P e per la (1.46a), si ha P(A ∪ I) = P(A) + P(A ∩ I) = P(A) ed anche la (1.46b) è stata dimostrata. Infine dalla (1.7) si ricava A = (A ∩ C) ⊔ (A ∩ C) da cui35 P(A) = P(A ∩ C) + P(A ∩ C) = P(A ∩ C). 34 35 vedi corollario 1.3.3 Si ricordi che se un evento è quasi certo la sua negazione è quasi impossibile. CAPITOLO 2 Spazi campionari discreti Nel capitolo precedente abbiamo definito la misura di probabilità a partire da un generico spazio campionario. In questo capitolo restringeremo la nostra attenzione al caso discreto. 2.1 Applicazione della definizione di Kolmogorov al caso discreto Sia Ω uno spazio campione discreto, finito o numerabile, e F la σ-algebra degli eventi. Per calcolare la probabilità di un generico evento E ∈ F è sufficiente assegnare un valore di probabilità ai singoli eventi elementari {ωi }: pi = P({ωi }). In virtù degli assiomi, i numeri pi devono essere tali che ∀i, pi > 0 e X i pi = 1 . (2.1) 48 Capitolo 2. Spazi campionari discreti Infatti la prima relazione segue dall’assioma 1 e, per l’assioma 2, si ha: ! G X 1 = P(ω) = P {ωi } = pi . i i Poiché un generico evento E è l’unione, finita o numerabile, di eventi elementari F incompatibili, E = i {ωi }, per la proprietà di additività completa della misura di probabilità si ha: P(E) = X pi . (2.2) i:ωi ∈E P definisce una misura di probabilità su {Ω, F }. L’insieme di valori {pi } è detto distribuzione di probabilità: la probabilità totale, pari ad 1, è distribuita su tutti gli ωi ∈ Ω. 2.1.1 Esiti equiprobabili Supponiamo che lo spazio delle prove sia finito1 , Ω = {ω1 , ω2 , . . . , ωn(Ω) }, le relazioni (2.1) e (2.2) diventano2 pi > 0 (1 6 i 6 n) n X pi = 1 P(E) = i=1 nE X pi . (2.3) i=1 In particolare, assumiamo p1 = p2 = · · · = pn = 1 n (2.4) in modo tale che P(E) = nE /n(Ω). L’assegnazione delle probabilità 2.4 è detta uniforme o equiprobabile. 1 2 Indichiamo con n(Ω) ≡ n il numero degli esiti elementari. S E E è l’unione (si decompone) di nE eventi elementari: E = ni=1 {ωi }. (2.5) 2.1 Applicazione della definizione di Kolmogorov al caso discreto 49 Osservazione 2.1.1. La (2.5) riduce il cacolo della probabilità dell’evento E alla determinazione del numero degli elementi che compongono E: in numero degli esiti favorevoli ad E. Questa metodologia di calcolo, da noi dedotta applicando gli assiomi di Kolmogorov al caso particolare degli spazi campionari discreti e finiti, fu proposta inizialmente come definizione di probabilità, definizione classica, nella quale l’equiprobabilità degli eventi elementari era assunta valida a priori. Essa ha trovato applicazione soprattutto nella teoria dei giochi. Esempio 2.1.1. Lancio di una moneta Nel caso del lancio di una moneta, come abbiamo visto, lo spazio campione è Ω = {T, C} e n(Ω) = 2. Definiamo la misura di probabilità ponendo P(T ) = p = 1 − P(C) 06p61. (2.6) La (2.6) definisce la probabilità sullo spazio probabilizzabile {Ω, F }, ove la σ- algebra degli eventi è F = {∅, {T }, {C}, {T, C}}. Se la moneta è bilanciata (onesta), risulta p = 1/2, infatti n(Ω) = 2 . Se si lancia per tre volte lo moneta, lo spazio campionario è costituito da otto punti campione Ω = {CCC CC}, CT CT}, T T C}, T T T}} | {z }, |CCT {z }, CT | {zC}, T | {z | {zT}, T | {z | {z | {z ω1 e ω2 ω3 ω4 ω5 ω6 ω7 ω8 1 . 8 Sia l’evento A definito dalla proposizione lanciando tre volte una moneta si osp1 = p2 = · · · = p8 = serva due volte testa e B l’evento non appare mai testa, si ha P(A) = P({ω5 , ω6 , ω7 }) = e P(B) = P({ω1 }) = 1 . 8 3 8 50 Capitolo 2. Spazi campionari discreti Esempio 2.1.2. In un’urna sono contenute sei bussolotti numerati da uno a sei, i primi quattro sono di colore rosso ed i rimanenti due neri. Supponiamo di estrarre a caso un bussolotto; all’esperimento casuale è associato lo spazio campione Ω = {1, 2, 3, 4, 5, 6}; la probabilità che sia estratto un qualunque numero da uno a sei èp= 1 6 . Calcoliamo la probabilità dell’evento estrazione di un bussolotto rosso dato dal sottoinsieme A = {1, 2, 3, 4}. Indicando con nA il numero di casi favorevoli ad A, si ha: P(A) = nA 4 2 = = . nΩ 6 3 È importante notare che il precedente non è l’unico modello probabilistico possibile. Si potrebbe considerare non adatta allo scopo l’ipotesi di equiprobabilità degli esiti elementari. Le palline nell’urna potrebbero essere truccate ed alcune avere una probabilità maggiore di essere estratte. Assegniamo, a priori, le seguenti probabilità: 1 P[{1}] = P[{2}] = P[{3}] = P[{4}] = , 8 1 P[{5}] = P[{6}] = . 4 Tenuto conto che A = {1} ⊔ {2} ⊔ {3} ⊔ {4}, dalla (2.2) si ricava P(A) = P[{1}] + P[{2}] + P[{3}] + P[{4}] = 1 . 2 Esempio 2.1.3. Lotteria di beneficenza Per promuovere i festeggiamenti del santo patrono, il parroco mette in vendita mille biglietti; ai primi dieci estratti sarà assegnato un premio. Nell’ipotesi che tutti i biglietti siano stati collocati, calcoliamo la probabilità di vincere almeno un premio acquistando tre tagliandi. La probabilità che un singolo biglietto sia estratto è 10−3 , essendo dieci le estrazioni la probabilità di vincere un premio è 10 · 10−3 = 10−2. Indichiamo con Ak 2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 51 l’evento: il k-esimo biglietto vince un premio. Avendo acquistato tre tagliandi, l’evento A, vincere almeno un premio, è A = A1 ∪ A2 ∪ A3 , ove A1 , A2 , A3 non sono disgiunti. Dalla regola di inclusione-esclusione si ricava P(A) = P(A1 ∪ A2 ∪ A3 ) = P(A1 ) + P(A2 ) + P(A3 ) − P(A1 ∩ A2 ) − P(A1 ∪ A3 ) − P(A2 ∪ A3 ) + P(A1 ∩ A2 ∩ A3 ) ma, non essendo note le probabilità degli eventi intersezione, possiamo calcolare un maggiorante di P(A) grazie alla disuguaglianza di Boole: P(A) 6 P(A1 ) + P(A2 ) + P(A3 ) = 3 × 10−2 . 2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio Nel trattare con spazi campionari discreti e finiti, i cui esiti elementari siano equiprobabili, il calcolo della probabilità di un evento si riduce al problema di contare gli esiti sperimentali possibili e quelli favorevoli all’evento di interesse. Questa operazione è facilitata dalla conoscenza di alcune regole e teoremi del calcolo combinatorio richiamati nei paragrafi successivi. 2.2.1 Coppie ed r-ple Proposizione 2.2.1. Con m elementi a1 , a2 , · · · , am ed n elementi b1 , b2 , · · · , bn si possono formare m×n coppie (j, k) contenenti un elemento da ciascun gruppo. Infatti da a1 si ricavano le n coppie (a1 , bk ) k = 1, 2, . . . n, 52 Capitolo 2. Spazi campionari discreti da a2 ulteriori n coppie (a2 , bk ) k = 1, 2, . . . n, .. . ed infine da am ancora le n coppie (am , bk ) k = 1, 2, . . . n. Esempio 2.2.1. Lancio di due dadi Ciascun dado a sei facce numerate da uno a sei; lo spazio campione è costituito dalle coppie (i, j) con i = 1, 2, . . . , 6 e j = 1, 2, . . . , 6 e, quindi, nΩ = 36 . Se i dadi non sono truccati, tutte le coppie sono equiprobabili e si ha: 1 P[(i, j)] = ∀(i, j). 36 Calcoliamo la probabilità che l’esito del lancio sia un punteggio non inferiore a cinque. P[(i, j) : i + j > 5, i, j = 1, . . . , 6] = 1 − P[(i, j) : i + j 6 4, i, j = 1, . . . , 6] = 1 − P[{(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (3, 1)}] 6 1 5 =1− =1− = . 36 6 6 Allo stesso risultato si perviene contando il numero n di coppie favorevoli al n risultato atteso e calcolando il rapporto . La procedura è più lunga. nΩ Proposizione 2.2.2. Siano assegnati r insiemi finiti {ai } (i = 1, 2, . . . , n1 ), {bj } .. . (j = 1, 2, . . . , n2 ), {xr } (r = 1, 2, . . . , nr ); 2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 53 è possibile formare n1 × n2 × · · · × nr r-ple ordinate (ak1 , bk2 , . . . , xkr ) contenenti un elemento estratto da ciascuno degli r gruppi. Se r = 2 si ricade nel caso delle coppie; se r = 3, consideriamo le n1 × n2 coppie (ai , bj ) come un singolo elemento, si formano così n1 ×n2 ×n3 triple (ai , bj , ck ), da queste ultime si ottengono n1 ×n2 ×n3 ×n4 quadruple (ai , bj , ck , dl ) e procedendo in questo modo si dimostra la proposizione. Esempio 2.2.2. Condizioni sperimentali in agricoltura Supponiamo di dover valutare l’efficacia di un nuovo antiparassitario per la produzione di grano. L’antiparassitario può essere somministrato in quattro differenti concentrazioni (a1 , a2 , a3 , a4 ); la sua efficacia potrebbe dipendere dalle condizioni climatiche e dall’entità della concimazione. Nell’ipotesi che si adottino cinque differenti concentrazioni di fertilizzante, (f1 , f2 , f3 , f4 , f5 ), e che si considerino le condizioni di clima freddo, T1 , clima temperato, T2 , e clima caldo, T3 , possiamo formare 4×5×3 = 60 triplette (ai , fj , Tk ) che individuano le differenti condizioni sperimentali. Esempio 2.2.3. Codice alfanumerico Un codice alfanumerico è formato da cinque caratteri (a1 , a2 , a3 , i1 , i2 ), i primi tre sono lettere dall’alfabeto inglese (26), mentre gli ultimi due numeri sono interi compresi tra zero e nove (10): 1. A1 = {a, b, c, . . . , z}, 2. A2 = {a, b, c, . . . , z}, 3. A3 = {a, b, c, . . . , z}, 54 Capitolo 2. Spazi campionari discreti 4. I1 = {0, 1, 2 . . . , 9}, 5. I2 = {0, 1, 2 . . . , 9}. I possibili codici differenti sono: 263 × 102 = 1.757.600 . 2.2.2 Il campionamento Con il termine popolazione3 si intende un generico aggregato di n elementi {a1 , a2 , . . . , an }. La selezione casuale di r elementi dalla popolazione è detta campionamento. Affinchè il campionamento sia casuale è necessario che ciascun membro della popolazione abbia la stessa possibilità di essere estratto e la selezione di un particolare elemento non influenzi la scelta dei successivi. Nel seguito considereremo unicamente il campionamento casuale. Se si associa a ciascun membro della popolazione una pallina numerata e queste vengono inserite in un’urna, il campionamento casuale può essere idealizzato come l’estrazione di un bussolotto dall’urna. Il singolo elemento della popolazione prescelto è quello a cui è stato associato l’intero k ∈ [1, n] estratto. Definizione 2.2.1. Campionamento con reimbussolamento Il campionamento è, ad ogni passo, effettuato sull’intera popolazione: un elemento una volta scelto è reinserito nell’urna e può essere selezionato più volte. Il campione è una successione di elementi della popolazione con possibili ripetizioni4. 3 Il termine popolazione è utilizzato in statistica, nel nostro caso (spazi campionari discreti e finiti) la popolazione rappresenta l’insieme dei risultati possibili dell’esperimento casuale E, in altre parole la popolazione coincide con lo spazio delle prove. Al campione casuale, che definiremo subito dopo, si associa concettualmente l’insieme dei casi favorevoli. 4 Il campionamento con reimbussolamento è detto anche con restituzione. 2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 55 Definizione 2.2.2. Campionamento senza reimbussolamento Una volta scelto un elemento, esso è escluso dalle successive selezioni: non sono ammesse ripetizioni. 2.2.3 Campione ordinato Un campione ordinato di taglia r è un ordinamento del tipo {aj1 , aj2 , . . . , ajr } di elementi non necessariamente distinti della popolazione (ai , . . . , an ). Due qualunque di tali campioni ordinati sono diversi non solo quando c’è almeno un elemento che è presente in uno di essi ma non nell’altro, ma anche se, essendo le due r-ple costituite esattamente dagli stessi elementi, questi occupano posizioni differenti nei due ordinamenti. Il campione ordinato di taglia r è spesso detto r-disposizione o disposizione di classe r. Proposizione 2.2.3. Fissata una taglia r, da una popolazione {a1 , a2 , . . . , an }, campionando con restituzione, si possono estrarre nr differenti campioni ordinati {aj1 , aj2 , . . . , ajr }. Per convincersi della validità della precedente asserzione, si ragioni come per la proposizione 2.2.2. In questo caso vi sono r insiemi di n elementi e ciascun insieme coincide con la popolazione: |n × n × {z· · · × n} . r Esempio 2.2.4. Totocalcio Una colonna della schedina del totocalcio prevede tredici pronostici, r = 13; (1, X, 2) sono i simboli disponibili, gli elementi della popolazione sono, quindi, tre. Il numero di colonne distinte è nr = 313 . Esempio 2.2.5. Alfabeto Morse I simboli dell’alfabeto Morse sono solamente due, il punto e la linea, (•, −), che 56 Capitolo 2. Spazi campionari discreti disposti su un fissato numero di spazi5 formano, per convenzione, una lettera; più spazi abbiamo a disposizione, maggiore è il numero di lettere che si possono codificare. Calcoliamo il numero di lettere che si possono codificare con una stringa ordinata di punti e linee di lunghezza quattro. Essendo n = 2 ed r = 4, si ha: nr = 24 = 16.   • • ••     • • •−  • • −−     • − −− − − −− • − −• • • −• − − −• − • •− • − •• − • •• • − •− − • −− − − •• − • −• − − •− Proposizione 2.2.4. Fissata una taglia r, da una popolazione {a1 , a2 , . . . , an } ove n > r, campionando senza reimbussolare, si possono estrarre n(n − 1)(n − 2) · · · (n − r + 1) ≡ (n)r differenti campioni ordinati {aj1 , aj2 , . . . , ajr }. Infatti si può scegliere in n modi diversi solo il primo elemento aj1 , quest’ultimo, campionando senza restituzione, non è disponibile per la scelta successiva e, quindi, vi sono n − 1 possibilità di scelta di aj2 ; procedendo in questo modo, ajr è selezionabile dagli [n − (r − 1)] = (n − r + 1) elementi rimasti disponibili. L’intero (n)r , il prodotto di n per i primi r − 1 interi positivi minori di n, è detto numero di disposizioni semplici di n oggetti presi r alla volta, o r-disposizione semplice, ed è denotato dal simbolo combinatorio: n Dr . Nel caso in cui r = n, la n-disposizione semplice si dice permutazione degli n elementi su n posti. Si ha (n)n ≡ Pn = n · (n − 1) · (n − 2) · · · 2 · 1 ≡ n! ove n! si legge n fattoriale. Osserviamo che, per ogni numero naturale n > 2, si ha n! = n · (n − 1)! 5 Il numero degli spazi è la lunghezza della sequenza (stringa) di punti e linee. (2.7) 2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 57 ed, affinché la (2.7) abbia significato anche per n = 1, si pone 0! = 1, per convenzione. Risulta: n · (n − 1) · · · (n − r + 1) · (n − r) · · · 2 · 1 n! = (n − r)! (n − r) · (n − r − 1) · · · 2 · 1 = n · (n − 1) · · · (n − r + 1) ≡ (n)r . (2.8) Esempio 2.2.6. A tre dei cinque componenti di un consiglio direttivo deve essere attribuito l’incarico di presidente, segretario e tesoriere rispettivamente, al fine di formare il consiglio di presidenza. Non è ammesso il cumulo delle cariche. Qual è il numero dei possibili consigli di presidenza se si assume di distribuire a caso gli incarichi? Per le ipotesi poste sul cumulo delle cariche si rientra nell’ambito del campionamento senza reimbussolamento; quindi il numero dei possibili differenti consigli di amministrazione è: (n)r = (5)3 = 5 · 4 · 3 = 60. Osservazione 2.2.1. Campionando con e senza restituzione, da una popolazione di n elementi si ricavano nr ed (n)r campioni ordinati di taglia n, rispettivamente. La probabilità di selezionare un determinato campione {aj1 , aj2 , . . . , ajr } è, quindi, 1 1 , altrimenti. Il rapporto se si campiona con restituzione e nr (n)r p= (n)r nr (2.9) esprime la probabilità che nel campionamento con reimbussolamento da una popolazione di n elementi si ottenga un campione ordinato di taglia r senza ripetizione di elementi. Infatti a denominatore della (2.9) compare il numero dei possibili esiti del campionamento e, a numeratore, il numero di campioni con tutti gli elementi distinti (casi favorevoli), che è quello calcolato nel caso specifico del campionamento senza reimbussolamento. 58 Capitolo 2. Spazi campionari discreti Se si selezionano cinque interi dai primi dieci numeri naturali {0, 1, . . . , 9}, la pro- babilità che essi siano tutti differenti, nell’ipotesi che il campionamento avvenga con restituzione, è p= (10)5 10 · 9 · 8 · 7 · 6 = ≈ 0.3 . 105 105 2.2.4 Campione non ordinato Affrontiamo ora lo studio di quelle situazioni nelle quali non è di interesse l’ordine di estrazione dalla popolazione dei singoli oggetti ajk . In questo caso il campione di taglia r, {aj1 , aj2 , . . . , ajr }, è detto campione casuale non ordinato. Due campioni differiscono tra loro se e solo se essi hanno almeno un elemento che non sia comune ad entrambi. In seguito si tenderà ad omettere il termine non ordinato e, nel caso in cui l’ordinamento è essenziale, il campione {aj1 , aj2 , . . . , ajr } sarà sempre denotato come un campione ordinato. Supponiamo di campionare senza reimbussolamento, qual è il numero di campioni di taglia r che si possono estrarre da una popolazione di n elementi distinti? O, in altre parole, in quanti modi da un totale di n oggetti distinti se ne possono estrarre r non essendo rilevante l’ordine di selezione? Come abbiamo dimostrato in precedenza, campionando senza reimbussolare vi sono (n)r campioni ordinati di taglia r nei quali, per effetto della tecnica di campionamento, tutti gli elementi ajk sono tra loro distinti. Ciascuna delle r! permutazioni di {aj1 , aj2 , . . . , ajr } darà luogo allo stesso campione non ordinato, sicché da una popolazione di ampiezza (n)r n si possono estrarre sottogruppi di r elementi distinti. In virtù della (2.8) si r! ha (n)r n! n (2.10) = ≡ r! r! · (n − r)! r n è denominato coefficiente binomiale e si legge n su r. Mutuando la ove r terminologia propria del calcolo combinatorio, il campione casuale non ordinato 2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 59 di taglia r viene indicato come la combinazione di r oggetti distinti da un totale di n , di tali possibili combinazioni è riservata la notazione n. Al numero totale, r n Cr . Esempio 2.2.7. Possibili stringhe di tre lettere diverse Quante stringhe composte da tre lettere distinte si possono formare dalle prime cinque lettere dell’alfabeto? Per rispondere al quesito è necessario calcolare il numero di combinazioni di tre oggetti differenti da un totale di cinque: 4·5 5! 5 = = 10 . = 5 C3 = 3! · 2! 2 3 Infatti a partire dalla sequenza di lettere {a, b, c, d, e}, le possibili stringhe alfabe- tiche non ordinate, tra loro diverse e senza ripetizioni, sono le seguenti: {abc} {acd} {bcd} {cde} {abd} {ace} {bde}. {bce} {abe} {ade} Esempio 2.2.8. Il gioco del lotto Fissata una ruota, sono possibili 89 · 90 90 = = 4005 ambi, 2 2 88 · 89 · 90 90 = 117.480 terni, = 6 3 87 · 88 · 89 · 90 90 = = 2.555.190 quaterne, 4 24 86 · 87 · 88 · 89 · 90 90 = 43.949.268 quintine. = 120 5 Riportiamo alcune relazioni utili nei calcoli. Per convenzione si pone n =1 0 (2.11) 60 Capitolo 2. e se r < 0 oppure r > n. Spazi campionari discreti n =0 r (2.12) Se n ed r sono interi tali che n > r > 0, dalla (2.10) si ricava l’dentità: n n . = n−r r Le seguenti identità sono valide qualunque sia l’intero r: n n n+1 , + = r r−1 r n−1 n . = n r r−1 r (2.13) (2.14) (2.15) In generale, se s è un intero non negativo, si ha n−s n . = (n)s · (r)s · r−s r (2.16) Vale il seguente teorema6 Teorema 2.2.1 (Teorema Binomiale). Se n e t verificano opportune condizioni vale la relazione ∞ X n r t. (1 + t) = r r=0 n (2.17) (i) Se n è un intero positivo, la serie si riduce ad una somma finita e pertanto converge ∀t ∈ R. (ii) Se n è negativo o razionale, la serie converge se |t| < 1 e diverge se |t| > 1. Se t = +1, a serie a secondo membro della (2.17) converge se n > −1; se t = −1 essa converge per valori positivi di n. 6 Per la dimostrazione si consulti un testo avanzato di analisi. Si noti che coefficiente binomiale in quanto compare come coefficiente nella (2.17). n r prende il nome di 2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 61 Sia n un intero positivo e t = 1, dalla (2.17) si ottiene 0 2n = ∞ X r=0 n r }| { z n X n n n n n . (2.18) +··· = + +· · ·+ + = r n+1 n 1 0 r=0 Per n intero positivo, derivando la (2.17) rispetto a t e ponendo successivamente t = 1, si ricava n2 n−1 n X n . r = r r=1 (2.19) Teorema 2.2.2 (Identità ipergeometrica). Siano a e b numeri reali ed n un intero positivo, risulta, allora, verificata l’identità ∞ X a+b b a . = n n − r r r=0 (2.20) Dimostrazione. Come conseguenza del teorema binomiale 2.2.1, fissato un numero reale t che sia soddisfatta la condizione |t| < 1, possiamo scrivere le relazioni (1 + t) a (1 + t)b (1 + t)a+b X a tr , = r r X b ts , = s s X a + b tn . = n n 62 Capitolo 2. Spazi campionari discreti Possiamo, inoltre, scrivere # # " " X b X a ts tr · (1 + t)a+b = (1 + t)a · (1 + t)b = s r r s b 2 b b a 2 a a t ··· t+ + t ··· · t+ + = 2 1 0 2 1 0 b a b a b a ·t + + = 1 0 0 1 0 0 b a b a b a · t2 + · · · + + + 2 0 1 1 0 2 # " X X a b · tn = n−r r n r da cui # " X X a b X a + b n · tn . t = n−r r n r n n Uguagliando i coefficienti di tn nelle serie a primo e secondo membro, si dimostra la tesi. 2.2.5 Coefficiente multinomiale Siano n, k, r1 , r2 , . . . , rk numeri interi non negativi tali che k > 2 e n è definito come: coefficiente multinomiale r1 r2 . . . rk n! n = . r1 r2 . . . rk r1 ! × r2 ! × · · · × rk ! k X rj = n. Il j=1 (2.21) Esso rappresenta le possibili permutazioni di n oggetti di k tipologie differenti, essendo r1 gli oggetti del primo tipo, r2 del secondo, ... , ed rk del k-esimo. Utilizzando una terminologia più vicina alla statistica, il coefficiente multinomiale 2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 63 indica numero di modi in cui una popolazione di ampiezza n può essere suddivisa in k sottogruppi, di cui il primo contiene r1 elementi, il secondo r2 elementi e così via. Riferendoci a quest’ultima interpretazione, osserviamo che l’ordine dei sottogruppi è fondamentale, infatti la partizione con r1 = 3 ed r2 = 5 è diversa da quella che, viceversa, prevede cinque elementi nel primo sottogruppo e tre elementi nel secondo. All’interno dei sottogruppi l’ordinamento è, invece, irrilevante. Prima di rendere ragione della (2.21), cerchiamo di chiarire la nozione di coefficiente multinomiale con alcuni esempi. Esempio 2.2.9. Permutazioni di lettere Quante permutazioni distinte di lettere (stringhe o sequenze di simboli alfabetici) possono formarsi con le lettere della parola MISSISSIPPI? Si dispone di n = 11 simboli: una lettera M, quattro lettere I, quattro S e due P; il numero di permutazioni possibili, del tipo IMISSISSIP, IPMISSISSI, . . . , IPISSISSIM, è dato da coefficiente multinomiale 11! 11 = = 34.650 . 1442 1! · 4! · 4! · 2! Esempio 2.2.10. Gruppi sperimentali Nello stabulario di una casa farmaceutica sono disponibili dieci ratti; dovendo valutare la tossicità di tre sostanze sperimentali, occorre formare tre gruppi, il primo composto da due ratti, il secondo da tre ed il terzo da cinque. In quanti modi diversi si possono raggruppare i dieci ratti, supponendo di selezionarli a caso? La partizione del gruppo totale di animali a disposizione può effettuarsi in 10! 10 = 2.520 . = 2! · 3! · 5! 235 modi diversi. 64 Capitolo 2. Spazi campionari discreti Perdimostrare la (2.21) osserviamo che i primi r1 elementi possono essere scelti n! n diverse modalità; le possibilità di selezione quelli del = in r1 ! · (n − r1 )! r1 (n − r1 )! n − r1 = secondo sottogruppo e del terzo gruppo sono r2 r2 ! · (n − r1 − r2 )! (n − r1 − r2 )! n − r1 − r2 , rispettivamente. Analogamente si = e r3 · (n − r1 − r2 − r3 )! r3 procede per gli altri; una volta scelto il (k − 1)-esimo sottogruppo, per il quale sussistono (n − r1 − r2 − · · · − rk−2 )! n − r1 − r2 − · · · − rk−2 = rk−1 rk−1 ! · (n − r1 − r2 − · · · − rk−2 − rk−1 )! (n − r1 − r2 − · · · − rk−2 )! = rk−1 ! · rk ! possibili modalità, i rimanenti rk elementi vanno a formare l’ultimo sottogruppo. Calcolando il prodotto dei precedenti coefficienti binomiali si ha (n − r1 )! (n − r1 − r2 )! n! × × r1 ! · (n − r1 )! r2 ! · (n − r1 − r2 )! r3 · (n − r1 − r2 − r3 )! (n − r1 − r2 − · · · − rk−2 )! n! × = Qk rk−1 ! · rk ! j=1 rj ! e la formula (2.21) è stata dimostrata. Il teorema che enunciamo di seguito ha un ruolo rilevante nel calcolo combinatorio. Teorema 2.2.3 (Teorema multinomiale). Se n è un intero positivo e t1 , t2 , . . . , tm sono numeri reali, allora !n m X X XX ti = ··· i=1 km k2 k1 n tk11 tk22 · · · tkmm k1 k2 . . . km ove k1 , k2 , . . . , km sono interi non negativi tali che Pm i=1 ki = n. (2.22) 2.3 Problemi di occupazione 65 2.3 Problemi di occupazione Supponiamo di dover disporre a caso n palline identiche in n celle7 senza imporre vincoli sul numero di palline per ciascuna cella. Una cella quindi potrà contenere 0, 1, 2, . . . , n palline. Qual è la probabilità che tutte le celle risultino occupate? L’allocazione delle n palline può essere effettuata estraendo da un’urna n bussolotti numerati da 1 ad n. Non avendo posto limiti al numero di palline per cella è necessario campionare reimbussolando. Si ottiene così una successione ordinata di interi c1 , c2 , . . . , cn che individua la cella ove inserire la prima, la seconda, ... l’n-sima pallina. Chiariamo la procedura con un semplice esempio. Sia n = 3, supponiamo di estrarre dall’urna la terna c1 = 1, c2 = 3, c3 = 1. In questo caso la prima pallina occupa cella 1, la seconda la cella 3 e la terza ancora la 1. Analogamente, se dall’urna si estrae la terna c1 = 1, c2 = 1, c3 = 1, tutte e tre le palline vanno poste nella cella 1. Il numero totale di modi possibili di allocare le n palline nelle n celle è nn ; il numero di permutazioni di n oggetti su n posti rappresenta il numero di casi favorevoli, ovvero il numero di allocazioni nelle quali ogni cella risulta occupata8 . Di conseguenza, la probabilità che tutte le celle siano occupate è: p= n! . nn (2.23) Per n = 7, dalla (2.23) si ricava p = 0.00612: se in una città si verificano sette incidenti per settimana, la distribuzione uniforme di un incidente al giorno è estre1 mamente rara, 1 settimana ogni 164, infatti: = 6.1 × 10−3 . Per n = 6, si ha 164 p = 0.01543: lanciando sei volte un dado è altamente improbabile che compaiano tutte e sei le facce. Osserviamo che le celle, nel lancio di dadi, sono sei, quante 7 contenitori Per n = 3 i casi favorevoli sono le sei triplette: (1, 2, 3) − (3, 2, 1) − (1, 3, 2) − (3, 1, 2) − (2, 3, 1) − (2, 1, 3). 8 66 Capitolo 2. Spazi campionari discreti sono le facce del dado. Prendiamo ora in esame il caso in cui il numero di palline r non coincida con il numero di celle n. Dall’urna contenente gli n bussolotti corrispondenti alle n celle, se ne estraggono, con restituzione, r. La successione ordinata di interi c1 , c2 , . . . , cr enumera le celle nelle quali inserire le palline. Se la cella j-esima contiene rj palline, con j = 1, 2, . . . , n, gli interi r1 , r2 , . . . , rn prendono il nome di numeri di occupazione e soddisfano la relazione n X rj = r. (2.24) j=1 Prima di procedere è importante sottolineare che le palline sono considerate non distinguibili tra loro mentre lo sono le celle. I questo contesto non è rilevante quale pallina sia inserita in una particolare cella ma, ad esempio, sono differenti le situazioni nelle quali la prima cella contiene tre palline e la seconda cinque e quella in cui si verifica la situazione opposta. Il numero di possibili allocazioni casuali delle r palline in n celle è nr ; il numero di disposizioni, che realizzano una di numeri di occupazione fissata n-pla r . Pertanto la probabilità che il r1 , r2 , . . . , rn , è, ricordando la (2.21), r1 r2 . . . rn campionamento determini la distribuzione delle n palline in accordo ai numeri di occupazione r1 , r2 , . . . , rn è P(r1 , r2 , . . . , rn ) = r! × n−r . r1 ! × r2 ! × · · · × rn ! (2.25) La (2.25) è nota come statistica di Maxwell-Boltzman9. Nel caso in cui c1 = c2 = . . . = cr = 1, tutte le palline occupano la prima cella e 9 Il termine statistica nasce nell’ambito della fisica e viene comunemente mantenuto per convenzione; si può comunque sostituire statistica con distribuzione o legge. 2.3 Problemi di occupazione 67 la (2.25) assume la forma n−1 z }| { P(r, 0, . . . , 0) = r! × n−r = n−r . r! × (0!)n−1 (2.26) Se si lanciano r dadi, la (2.26) è la probabilità che tutti gli r dadi presentino come esito la faccia con il numero 1, essa è anche la probabilità che tutti i dadi si presentino genericamente con la stessa faccia. Se r < n, la probabilità che le r palline occupino esattamente le prime r celle è n−r z }| { r! P(1, . . . , 1, 0, . . . , 0) = × n−r = r! × n−r . r n−r | {z } (1!) × (0!) (2.27) r L’evenienza che risultino occupare le prime r celle equivale a dire che sono stati selezionati i primi r membri della popolazione. Per convincersi di ciò il lettore rammenti che nell’esperimento del lancio di dadi le celle sono sei quante le facce del dado; se i dadi sono due la (2.27) consente di calcolare P(1, 1, 0, 0, 0, 0) che è la probabilità che il primo dado si presenti con un 1 ed il secondo con un 2. Ogni n-pla di interi che verifichi il vincolo (2.24) descrive una possibile configurazione di numeri di occupazione. Poiché le palline sono supposte essere non distinguibili, due configurazioni di numeri di occupazione sono distinte o distinguibili o riconoscibili solo se le corrispondenti n-ple r1 , . . . , rn non sono identiche. Se si lanciano due dadi, i possibili esiti sono le trentasei coppie di interi (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (6,1) (6,2) (6,3) (6,4) (6,5) (6,6) 68 Capitolo 2. Spazi campionari discreti da cui si ricava la tabella di numeri di occupazione 200000 110000 101000 100100 100010 100001 110000 020000 011000 010100 010010 010001 101000 011000 002000 001100 001010 001001 100100 010100 001100 000200 000110 000101 100010 010010 001010 000110 000020 000011 100001 010001 001001 000101 000011 000002 nella quale, in grassetto, sono state evidenziate le ventuno configurazioni distinguibili dei numeri di occupazione. Proposizione 2.3.1. Il numero di distribuzioni riconoscibili di r palline in n celle10 è dato dal coefficiente binomiale n+r−1 n+r−1 . = Ar,n = n−1 r (2.28) Per dimostrare l’asserto della proposizione 2.3.1 ricorriamo ad un ragionamento proposto da Feller (vedi [5]). Indichiamo le r palline con il simbolo ⊙ e le n celle con n spazi tra n + 1 separatori, le doppie frecce l. In questo modo la successione di simboli 1 2 6 z }| { z}|{ z }| { l ⊙ ⊙ ⊙ l ⊙ l |{z} l |{z} l |{z} l ⊙ ⊙ ⊙⊙ l 3 4 5 descrive la distribuzione di r = 8 palline in n = 6 celle con numeri di occupazione 3, 1, 0, 0, 0, 4 . Una tale rappresentazione delle configurazioni possibili inizia e finisce con una doppia freccia; i rimanenti n − 1 separatori e gli r ⊙ possono apparire in un ordine arbitrario. Il numero di distribuzioni riconoscibili è, pertanto, uguale al numero di possibili scelte di r posizioni da un totale di n + r − 1: n+r−1 . r 10 in altri termini, il numero di differenti soluzioni dell’equazione (2.24). 2.3 Problemi di occupazione Lanciando r dadi identici, i risultati distinguibili sono Ar,6 7 = 21 (vedi tabella precedente). si ha A2,6 = 5 69 r+5 ; per r = 2, = 5 Proposizione 2.3.2. Il numero di distribuzioni distinguibili di r palline in n celle tali che nessuna cella risulti vuota è espressa dal coefficiente binomiale r−1 . n−1 (2.29) Il vincolo che nessuna cella sia vuota impone che due separatori non possono mai essere adiacenti. Tra le r palline, rappresentate in simboli da ⊙, sono interposti r − 1 spazi di cui n −1 devono essere occupati dai separatori l: sicché le scelte r−1 . possibili sono n−1 Ai fini del calcolo della probabilità di eventi, molte situazioni sperimentali tra loro diverse possono essere idealizzate con lo schema dell’allocazione casuale di r palline in n celle. Di seguito sono elencati alcuni esempi classici11 . • Compleanni. Le possibili configurazioni delle date di nascita di r persone corrisponde alle possibili distribuzioni di r palline in n = 365 celle (i giorni dell’anno). • Incidenti Stradali. La classificazione degli incidenti in base al giorno della settimana nel quale essi si verificano è equivalente a riporre a caso r palline (il numero di incidenti settimanali) in n = 7 celle (i giorni della settimana). 11 Ciascuno dei differenti modelli per descrivere problemi di occupazione trovano applicazione nella fisica statistica. Storicamente la maggior parte dei modelli sono stati sviluppati per risolvere problematiche di fisica atomica e nucleare. In questo ambito le palline rappresentano particelle elementari quali elettroni, protoni, neutroni fotoni, etc., e le celle sono stati microscopici, come, ad esempio, i livelli energetici che una particella può occupare. 70 Capitolo 2. Spazi campionari discreti • Radiazioni Ionizzanti. Nello studio degli effetti genetici dell’esposizione a radiazione ionizzante, i cromosomi sono assimilabili alle celle e le particelle α alle palline. • Radiazione Cosmica. In questo caso i contatori Geiger sono le celle e le particelle cosmiche che raggiungono i contatori le palline. • Distribuzione di Geni. Ciascun discendente di un individuo (pianta, animale o uomo) eredita geni dal progenitore. Se un particolare gene può apparire in n forme diverse, allora è possibile classificare i discendenti in base al tipo di gene. Ai fini del calcolo si possono assimilare i discendenti alle palline ed i genotipi alle celle. Prima di proseguire nella trattazione diamo un semplice esempio di applicazione della legge di Maxwell-Boltzman. Esempio 2.3.1. Lanciando dodici dadi la probabilità che ogni faccia si presenti due volte è P(2, 2, 2, 2, 2, 2) = 12! × 6−12 ≈ 3.4 × 10−3. 2! × 2! × 2! × 2! × 2! × 2! In alcuni problemi di occupazione, oltre alle palline, si considerano identiche anche le celle. In questi casi si deve calcolare la probabilità che una successione di numeri di occupazione r1 , r2 , . . . , rn si verifichi in un ordine qualsiasi. A tal fine, il valore di probabilità calcolato alla distribuzione di Maxwell-Boltzman in base n , ove q è il numero dei differenti valori deve essere moltiplicato per k1 k2 . . . kq rj nella data successione di numeri di occupazione e ki indica il numero di volte che si presenta quel particolare numero di occupazione. L’esempio che segue chiarisce la procedura di calcolo. 2.3 Problemi di occupazione 71 Esempio 2.3.2. Configurazioni di r = 8 palline uguali in n = 6 celle identiche Cominciamo con il considerare le celle come distinguibili. Il numero di possibili distribuzioni di 8 palline identiche in 6 celle è nr = 68 e la probabilità dei numeri di occupazione 2, 2, 2, 1, 1, 0 risulta, per la (2.25), P(2, 2, 2, 1, 1, 0) = 8! × 6−8 . 2! × 2! × 2! Se consideriamo anche le celle come identiche, il valore di probabilità precedentemente calcolato deve essere moltiplicato per il numero di modi di ottenere la data sequenza di numeri di occupazione in un qualunque ordine. Dei sei numeri di occupazione tre sono distinti, 2 con molteplicità tre, 1 con molteplicitàdue e 0 6 con molteplicità uno. Il valore numerico del coefficiente multinomiale 321 coincide con il numero di modi di realizzare la successione di numeri di occupazione di lunghezza sei nella quale, in un ordine qualsiasi, l’intero 2 sia presente tre volte, e gli interi 1 e 0 figurino per due volte ed una volta, rispettivamente. In conclusione si ha 6! 6 8! · P(2, 2, 2, 1, 1, 0) = · · 6−8 ≈ 0.180041 321 3! × 2! 2! × 2! × 2! ed un analogo calcolo si applica agli altri casi. La sottostante tabella nella seconda colonna riporta, per ciascuna delle venti distinte sequenze di numeri di occupazione, i valori di probabilità desunti dalla legge di Maxwell-Boltzman ed, in colonna quattro, quelli calcolati considerando anche le celle come identiche. 72 Capitolo 2. Numeri di occupazione 800000 710000 620000 611000 530000 521000 511100 440000 431000 422000 421100 411110 332000 331100 322100 321110 311111 222200 222110 221111 r! r1 !×r2 !×···×rn ! −r ×n 8! · 6−8 8! 8! · 6−8 7! 8! · 6−8 6!·2! 8! · 6−8 6! 8! · 6−8 5!·3! 8! · 6−8 5!·2! 8! · 6−8 5! 8! · 6−8 4!·4! 8! · 6−8 4!·3! 8! · 6−8 4!·2!·2! 8! · 6−8 4!·2! 8! · 6−8 4! 8! · 6−8 3!·3!·2! 8! · 6−8 3!·3! 8! · 6−8 3!·3!·2!·2! 8! · 6−8 3!·3!·2! 8! · 6−8 3! 8! · 6−8 2!·2!·2!·2! 8! · 6−8 2!·2!·2! 8! · 6−8 2!·2! Spazi campionari discreti n k1 k2 . . . kq 6! 1!·5! 6! 1!·1!·4! 6! 1!·1!·4! 6! 1!·2!·3! 6! 1!·1!·4! 6! 1!·1!·1!·3! 6! 1!·1!·3!·2! 6! 2!·4! 6! 1!·1!·1!·3! 6! 1!·2!·3! 6! 1!·1!·2!·3! 6! 1!·4!·1! 6! 1!·2!·1!·3! 6! 2!·2!·2! 6! 1!·1!·2!·1!·2! 6! 1!·1!·3!·1! 6! 1!·5! 6! 4!·2! 6! 3!·2!·1! 6! 2!·4! 0.000004 0.000143 0.000500 0.002000 0.001000 0.012003 0.012003 0.000625 0.020005 0.015003 0.090021 0.030007 0.020005 0.060014 0.180041 0.240055 0.024005 0.022505 0.180041 0.090021 ≈1 Esempio 2.3.3. Il compleanno di r persone Per semplicità assumiamo che l’anno sia composto da 365 giorni. Tutte le possibili date di nascita, intese come giorno e mese di nascita, sono poste in corrispondenza biunivoca con bussolotti numerati da 1 a 365 e riposti in un’urna. Le date di nascita 2.3 Problemi di occupazione 73 di r persone scelte a caso possono essere assimilate a r bussolotti estratti dall’urna, con restituzione. I campioni ordinati possibili sono 365r ; la probabilità che il campione ordinato non contenga ripetizioni (i compleanni siano tutti diversi), in virtù della (2.9), è qr = 365! (365)r = × 365−r . 365r (365 − r)! Qual è la probabilità che solamente due, tra le r persone, festeggino il compleanno nello stesso giorno? Supponiamo che il giorno del compleanno coincida con il primo di gennaio e che ciascuna delle alre r − 2 persone siano nate nei giorni successivi: una il 2 di gennaio, un’altra il 3 e così via. In pratica occorre calcolare la r−2 365−(r−1) z }| { z }| { probabilità della successione di numeri di occupazione 2, 1, . . . , 1, 0, . . . , 0 ; essa, ricordando la legge di Maxwell-Boltzman, è data da r−2 365−(r−1) z }| { z }| { P(2, 1, . . . , 1, 0, . . . , 0 ) = 2! × (1!)r−2 r! r! · 365−r = × 365−r . 365−(r−1) × (0!) 2 Non essendo importante l’ordine nel quale si presentano i singoli numeri di occupazione, si deve applicare il modello probabilistico che prevede che le celle (i giorni dell’anno) Occorre moltiplicare la precedente non siano distinguibili. 365 , in conclusione si ha: probabilità per 1 (r − 2) [365 − (r − 1)] pr = 365! r! × × 365−r . (r − 2)! × [365 − (r − 1)]! 2 Con buona approssimazione risulta: r 10 qr 0.883 0.747 0.589 0.431 pr 0.112 0.223 0.323 ’0.379 0.380 0.334 0.260 15 20 25 30 35 40 0.294 0.186 0.109 74 Capitolo 2. Spazi campionari discreti 2.3.1 Statistiche di Bose-Einstein e Fermi-Dirac La statistica di Maxwell-Boltzman trae la sua origine da studi di meccanica statistica tesi a descrivere il comportamento di particelle fisiche come, ad esempio, le molecole che compongono un gas12 . Con gli sviluppi della fisica atomica e nucleare divenne ben presto evidente che non tutte le particelle si comportano in accordo alla legge di Maxwell-Boltzmann. Furono, allora, introdotti due modelli ad hoc per particolari categorie di particelle. Proposizione 2.3.3. Il primo modello fu formulato dal fisico indiano Satyendra Nath Bose e da Albert Einstein. Il modello assume come possibili ed equiprobabili solo le distribuzioni riconoscibili delle r particelle identiche nelle n celle. Il numero di tali distribuzioni, Ar,n , è dato dalla (2.28), pertanto ciascuna di esse ha probabilità 1 n+r−1 P(r1 , . . . , rn ) = = 1/ Ar,n r (statistica di Bose-Einstein). (2.30) La statistica di Bose-Einstein descrive il comportamento di fotoni, nuclei ed atomi con un numero pari di particelle elementari. Proposizione 2.3.4. Il secondo modello, dovuto ad Enrico Fermi ed a Paul Dirac, considera le particelle come indistinguibili e pone due ipotesi: 1. non è possibile che due o più particelle occupino la stessa cella (i numeri di occupazione possibili sono solamente 0 oppure 1), 2. tulle le distribuzioni delle r particelle nelle n celle che verificano il precedente vincolo sono equiprobabili. La prima ipotesi richede, innanzitutto, che sia r 6 n. Un’allocazione delle particelle nelle celle è completamente descritta se si indica quale delle n celle contiene 12 In questo paragrafo useremo il termine particella e non pallina. 2.4 Distribuzione ipergeometrica 75 una particella;poiché le particelle sono r, le corrispondenti celle possono essere n modi diversi. Essendo ciascuna distribuzione r1 , . . . , rn delle selezionate in r particelle nelle celle equiprobabile, si ha: n (statistica di Fermi-Dirac). (2.31) P(r1 , . . . , rn ) = 1/ r Tra le particelle che si comportano in accordo alla statistica di Fermi-Dirac, ricordiamo gli elettroni, i protoni ed i neutroni. 2.4 Distribuzione ipergeometrica Supponiamo di estrarre a caso, senza restituzione, un campione di taglia n da una popolazione finita di N elementi. Supponiamo, inoltre, che la popolazione sia composta da elementi di due tipi diversi; ad esempio maschi e femmine, occupati e disoccupati, componenti elettronici funzionanti e difettosi. Qual è la probabilità che il campione estratto sia composto da x elementi del primo tipo ed n − x del secondo? Per effettuare il calcolo immaginiamo che gli N elementi della popolazione siano N palline contenute in un’urna, a di colore bianco e b nere, con a + b = N. Occorre, allora, calcolare la probabilità che estraendo a caso n palline, senza reimbussolare, x siano bianche ed n − x nere. Essendo interessati solo al numero di palline bianche e nere selezionate e non all’ordine nel qualeesse so a+b no estratte, si rientra nel caso di campioni non ordinati e quindi vi sono n differenti campioni possibili equiprobabili. Le possibilità di selezionare x palline bianche, fra le a presenti sono date dal valore del coefficiente binomiale nell’urna, b a rappresenta il numero delle possibili scelte delle ; analogamente n−x x n − x palline nere. Poiché ogni scelta di palline bianche sipuò con combinare b a e la · una qualunque scelta di palline nere, i casi favorevoli sono n−x x 76 Capitolo 2. Spazi campionari discreti probabilità cercata, ∀x ∈ N0 , è espressa dalla formula: a+b b a . / · f (x) = n n−x x (2.32) Dall’identità ipergeometrica (2.20) si ricava "∞ −1 # X a a+b b · · f (x) = n n − x x x=0 x=0 −1 a+b a+b · = = 1 . (2.33) n n ∞ X In virtù della precedente relazione, si deduce che la funzione f (x), come definita nella (2.32), distribuisce la probabilità totale unitaria su tutti gli interi non negativi; essa è detta distribuzione ipergeometrica. Si noti che, per le proprietà del coefficiente binomiale, f (x) = 0 per x > a o x > n, pertanto solo a un numero finito di valori di x è associato un valore di probabilità maggiore di zero13 . Al fine di agevolare il calcolo di f (x) per diversi valori consecutivi di x è utile far ricorso alla seguente formula ricorsiva f (x) = r(x) × f (x − 1). (2.34) Il coefficiente r(x) si ricava applicando la (2.32): r(x) = f (x) (a − x + 1) · (n − x + 1) = . f (x − 1) x · (b − n + x) (2.35) Esempio 2.4.1. In una mano di bridge fra quattro giocatori, qual è la probabilità che ad uno di essi siano servite x carte di cuori? I dati sui quali basare il calcolo sono riassunti nella seguente tabella. 13 Attribuendo alla condizione f (x) = 0 il significato di impossibilità, ha senso affermare che la legge f (x) è definita in N0 . 2.4 Distribuzione ipergeometrica 77 N = 52 numero di carte n = 13 a = 13 carte di cuori b = N − a = 39 carte di un seme differente carte per giocatore Per x ∈ [0, 13], valgono le seguenti relazioni che si ricavano rispettivamente, dalla (2.32) e dalla (2.35) e −1 52 39 13 · · f (x) = 13 13 − x x r(x) = (14 − x)2 . x · (26 + x) Una volta calcolato −1 −1 52 52 39 39 13 · = 0.01279 , · = · f (0) = 13 13 13 13 0 si procede alle applicazioni successive della formula ricorsiva: r(1) = 132 /27 ⇒ f (1) = r(1) · f (0) = 0.08006 , r(2) = 122 /56 ⇒ f (2) = r(2) · f (1) = 0.20587 , r(3) = 112 /87 ⇒ f (3) = r(3) · f (2) = 0.28633 . Il calcolo procede in maniera analoga per gli altri valori di x. Esempio 2.4.2. Una scolaresca, composta da N1 studentesse e N2 studenti si dispone in fila a caso per essere sottoposta ad un controllo medico. Qual è la probalità che la fila inizi con tre studentesse? Possiamo assimilare le studentesse ad N1 ≡ a palline bianche e gli studenti ad N2 ≡ b palline nere, la probalità che la fila inizi con tre studentesse coincide con la probabilità che estraendo a caso n = 3 palline esse siano tutte bianche: x = 3. Ricordando la (2.32), risulta N1 + N2 N2 N1 . / · f (3) = 3 0 3 78 Capitolo 2. Spazi campionari discreti Esempio 2.4.3. In uno stabilimento ad alta automazione si producono condensatori elettrolitici in lotti di N pezzi, il dieci per cento dei quali è difettoso. La procedura di controllo prevede di selezionare a caso il cinque per cento dei condensatori di un lotto e di verificarne il funzionamento. Se uno solo di questi dovesse non funzionare, l’intero lotto viene eliminato. Fissato N = 100, calcoliamo la probalità che un lotto di condensatori non venga immesso sul mercato. La probabilità di selezionare x condensatori difettosi da un campione di n = 5 è14 −1 100 90 10 · · f (x) = 5 5−x x ove x = 0, 1, . . . , 5. La probalità dell’evento che vi sia almeno un condensatore difettoso tra i cinque scelti si calcola semplicemente come −1 100 90 10 ≈ 0.42 . · · 1 − f (0) = 1 − 5 5 0 14 Nel caso in esame si ha a = 10 e b = 90. CAPITOLO 3 Condizionamento ed indipendenza di eventi 3.1 Probabilità condizionata Sia {Ω, F , P} lo spazio di probabilità associato ad un generico esperimento casuale E ed A un evento; prima di effettuare ciascuna prova, P(A) è una misura del- l’incertezza circa la possibilità che A occorra. Spesso nel corso dell’esperimento si rendono disponibili alcune informazioni in qualche modo collegate all’evento di cui si vuol calcolare la probabilità di occorrenza. Come è possibile modificare il modello probabilistico1 per utilizzare queste informazioni? Aiutiamoci con un esempio. Indagini statistiche hanno evidenziato che circa il sessanta per cento di soggetti maschi di età superiore a cinquanta anni è affetto da ipercolesterolemia. Nel corso della sperimentazione è stato anche osservato che il venti per cento dei soggetti soffre contemporaneamente di ipercolesterolemia e di problemi alle coronarie. Selezionando a caso un ultracinquantenne, e verificato che egli abbia un 1 in altre parole la misura di probabilità 80 Capitolo 3. Condizionamento ed indipendenza di eventi tasso ematico di colesterolo elevato, ci si chiede se questa informazione sia utile per calcolare la probabilità che il soggetto in questione sia anche coronaropatico? La nozione di probabilità condizionata costituisce un modello matematico per la definizione e la soluzione di problemi di tale natura. Fissata la terna {Ω, F , P} e gli eventi A, H ∈ F , per probabilità condizionata, P(A|H), dell’evento A, dato l’evento H, si intende, intuitivamente, la probabilità che A occorra, nell’ipotesi che si sia verificato H. In altre parole, P(A|H) rappresenta il ricalcolo della P(A) alla luce dell’informazione che H si è verificato. Definizione 3.1.1. Dato uno spazio di probabilità {Ω, F , P}, e sia H ∈ F , con P(H) > 0. Per un arbitrario A ∈ F , si definisce probabilità condizionata di A rispetto ad H il rapporto P(A|H) = P(AH) P(A ∩ H) ≡ . P(H) P(H) (3.1) La (3.1) non è definita se P(H) = 0 . La quantità a numeratore, P(A ∩ H) ≡ P(AH), prende il nome di probabilità congiunta2 di A e H. Nell’esempio menzionato all’inizio del presente paragrafo, la probabilità che un ultracinquantenne scelto a caso abbia anche problemi coronarici, essendo ipercolesterolemico, è: 0.2/0.6 = 1/3. Proposizione 3.1.1. La posizione (3.1), considerata per ogni A ∈ F , definisce una misura di probabilità su {Ω, F }. Per dimostrare la 3.1.1 bisogna far vedere che P(A|H) verifica i tre assiomi di Kolmogorov elencati nella definizione 1.3.1. 2 Essa esprime la probabilità che si verifichino contemporaneamente A e H; questa nozione è già stata incontrata in precedenza nel parafrafo 1.3.3. 3.1 Probabilità condizionata 81 Il primo assioma è verificato in quanto la probabilità condizionata è stata definita come il rapporto di un numero non negativo, P(AH), e di un numero positivo P(H). Anche il secondo assioma è di facile verifica. Se A ≡ Ω, la (3.1) assume la forma P(Ω|H) = P(Ω ∩ H) P(H) = =1. P(H) P(H) (3.2) L’ultimo passo consiste nel dimostrare che P(A|H) è numerabilmente additiva. F Sia A = ∞ i=1 Ai . Si ha: P( ∞ G i=1 Ai |H) = P [( F∞ P [ A ) ∩ H] i i=1 (Ai ∩ H)] i=1 = P(H) P(H) P∞ ∞ ∞ P (Ai ∩ H) X P (Ai ∩ H) X = i=1 = = P (Ai |H) . P(H) P(H) i=1 i=1 F∞ La precedente relazione dimostra che anche il terzo assioma è verificato e P(A|H), come definita nella 3.1.1, è una misura di probabilità su {Ω, F }. In altre parole, ponendo, per semplicità di notazione, PH (A) ≡ P(A|H), la precedente proposizione equivale ad affermare che la terna {Ω, F , PH } è uno spazio di probabilità. Osservazione 3.1.1. Gli sviluppi precedenti sono soggetti alla seguente rielaborazione. Gli esiti elementari ω ∈ Ω, tali che ω ∈ / H, non hanno rilevanza per il calcolo della probabilità condizionata PH (A). Possiamo, allora, assumere come spazio delle prove l’insieme H e definire la σ-algebra FH = F ∩H come la classe dei sottoinsiemi di H data dalle intersezioni A ∩ H, con A ∈ F . Definendo PH come il prodotto della probabilità di ciascun evento A ∩ H ∈ FH per la quantità P(H)−1, si ottiene un nuovo spazio di probabilità {H, FH , PH }. Osservazione 3.1.2. Nell’impostazione che si è scelta (confronta [12]) la (3.1) è posta come definizione a sé stante. Essa, se si assume come valida la definizione classica di probabilità, o anche quella frequentista, è invece conseguenza di queste ultime. Se si parte dalla definizione classica di probabilità, per quanto prima detto 82 Capitolo 3. Condizionamento ed indipendenza di eventi il numero dei casi possibili è rappresentato da nH , il numero dei casi favorevoli all’evento H; se si indica con nA∩H il numero dei casi favorevoli a A ∩ H, la pro- babilità che occorra A, nell’ipotesi che si sia verificato H è nA∩H /nH . Indicando con n la cardinalità dello spazio campione, si ha: P(A|H) = nA∩H nH nA∩H = / = P(A ∩ H) × P(H)−1 . nH n n Sviluppi analoghi sussistono per l’interpretazione frequentista; il lettore interessato può ritrovarli in numerosi testi (vedi, ad esempio, [4] e [10]). Esempio 3.1.1. Probabilità di corretta diagnosi Indagini epidemiologiche hanno dimostrato che la probabilità di essere portatore di una data malattia del sangue3 è p = 0.10 . Una ditta biomedica ha sviluppato un test di laboratorio per lo screening della malattia. La sperimentazione condotta al fine di saggiare l’efficacia del test ha messo in luce come, per una persona malata, la probabilità che il test sia positivo4 è p1 = 0.98 . La probabilità di un falso positivo5 è, invece, p2 = 0.04 . Calcoliamo la probabilità che il test dia luogo ad una diagnosi corretta, ovvero che risulti positivo se la persona è affetta da quella particolare patologia ematica, negativo altrimenti. Calcoliamo, inoltre, la probabilità di un falso negativo6. Definiamo i seguenti eventi: • H: il soggetto selezionato è affetto dalla patologia ematica in studio, • T + : il test di laboratorio è positivo, • T − : il test di laboratorio è negativo. 3 Si pensi come esempio all’anemia mediterranea. ovvero che il test dia luogo a valori al di fuori del range di normalità 5 ovvero che il test presenti un valore anomalo pur essendo la persona sana 6 ovvero che il risultato del test cada nei limiti della norma pur essendo la persona malata 4 3.1 Probabilità condizionata 83 Si ha: P(H) = 0.1 , P(H) = 0.9 , P(T + |H) ≡ PH (T + ) = p1 = 0.98 , P(T + |H) ≡ PH (T + ) = p2 = 0.4 . La probabilità di diagnosi corretta è: P (T + ∩ H) ⊔ (T − ∩ H) = P(T + ∩ H) + P(T − ∩ H). Calcoliamo P(T + ∩ H); ricordando la definizione di probabilità condizionata, possiamo scrivere la relazione P(T + |H) ≡ PH (T + ) = P(T + ∩ H) P(H) dalla quale segue P(T + ∩ H) = PH (T + ) · P(H) = 0.98 × 0.1 = 0.098 . Osserviamo che H = (T − ∩ H) ⊔ (T + ∩ H), quindi P(T − ∩ H) = P(H) − PH (T + ) = 0.9 − 0.04 = 0.86 e la probabiltà di diagnosi corretta è: 0.098 + 0.86 = 0.958 . Per quanto concerne la probabilità di un falso negativo, essa è data dalla probabilità condizionata P(H ∩ T − ) P(H|T ) = P(T − ) − ove P(H ∩ T − ) = P(H) − P(H ∩ T + ) = 0.1 − 0.098 = 2 × 10−3 84 Capitolo 3. Condizionamento ed indipendenza di eventi e, per la quantità a denominatore, vale la relazione P(T − ) = P(T − ∩ H) + P(T − ∩ H) = 2 · 10−3 + 0.86 = 0.862 . In conclusione si ottiene: P(H|T − ) = 2 · 10−3 = 2.32 × 10−3 . 0.862 Osservazione 3.1.3. L’informazione che si è verificato l’evento H non implica che P(A|H) > P(A). Infatti, se A ∩ H = ∅, P(A|H) = 0 6 P(A). In questo caso specifico la conoscenza del realizzarsi di H ci dice che A non può verificarsi. Se A ⊆ H, si ha A ∩ H = A e P(A|H) = P(A)/P(H) > P(A). Se A ⊇ H, sia ha P(A|H) = 1 . 3.1.1 La legge di Bayes Una semplice conseguenza della definizione 3.1.1 sono le relazioni P(A ∩ B) = P(A) · P(B|A) se P(A) > 0 (3.3a) P(A ∩ B) = P(B) · P(A|B) se P(B) > 0 (3.3b) che rappresentano un caso particolare della cosiddetta formula della moltiplicazione delle probabilità. Proposizione 3.1.2 (Formula di moltiplicazione delle probabilità o Teorema delle probabilità congiunte). Siano A1 , A2 , . . . , An eventi tali che P(A1 ∩ A2 ∩ · · · ∩ An−1 ) > 0 , allora vale la relazione ! n \ P Aj = P(A1 )·P(A2 |A1 )·P(A3|A1 ∩A2 ) · · · P(An |A1 ∩· · ·∩An−1 ). (3.4) j=1 3.1 Probabilità condizionata 85 Per dimostrare la (3.4), notiamo che A1 ⊇ (A1 ∩ A2 ) ⊇ · · · ⊇ (A1 ∩ A2 ∩ · · · ∩ An−1 ) e, pertanto, per l’ipotesi posta si ha P(A1 ) > P(A1 ∩ A2 ) > · · · > P n−1 \ j=1 Aj ! >0. La precedente relazione assicura che tutte le probabilità P(Ak | k−1 \ Ai ), che figu- i=1 rano nella (3.4), sono ben definite per k ∈ [2, n]. Nel caso di n = 2 si ricade nel caso della (3.3a) oppure della equivalente (3.3b); per n = 3 possiamo scrivere P(A1 ) P(A1 ∩ A2 ) · · P(A1 ∩ A2 ∩ A3 ) P(A1 ) P(A1 ∩ A2 ) P(A1 ∩ A2 ) P(A1 ∩ A2 ∩ A3 ) · = P(A1 ) · P(A1 ) P(A1 ∩ A2 ) = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 ∩ A2 ). P(A1 ∩ A2 ∩ A3 ) = La dimostrazione si completa per induzione. Osservazione 3.1.4. Una formulazione equivalente della la (3.4) è: ! n \ P Aj = P(An )·P(An−1 |An )·P(An−2 |An−1 An ) · · · P(A1 |A2 · · · An ) (3.5) j=1 ove abbiamo omesso il segno di intersezione nell’indicazione degli eventi congiunti. Esempio 3.1.2. Un’urna contiene cinque palline, di cui due sono bianche e le altre tre nere; estraendo le palline senza reimbussolare, qual è la probabilità che esse si presentino nel seguente ordine: bianca, nera, nera, bianca, nera? Per rispondere 86 Capitolo 3. Condizionamento ed indipendenza di eventi al quesito è necessario calcolare la probabilità P(B1 N2 N3 B4 N5 ) nella quale gli eventi Bi e Ni sono definiti come Bi la i-esima pallina estratta è bianca Ni la i-esima pallina estratta è nera e Bi = Ni , con i ∈ [1, 5]. Dalla (3.4) si ricava P(B1 N2 N3 B4 N5 ) = P(B1 ) · P(N2 |B1 ) · P(N3 |B1 N2 ) · P(B4 |B1 N2 N3 ) · P(N5 |B1 N2 N3 B4 ) ed, inoltre, si ha P(B1 ) = P(N2 |B1 ) = P(N3 |B1 N2 ) = P(B4 |B1 N2 N3 ) = P(N5 |B1 N2 N3 B4 ) = 2 , 5 3 , 4 2 , 3 1 , 2 1. Dalla (3.4) ricaviamo la probabilità cercata: P(B1 N2 N3 B4 N5 ) = 1 2 3 2 1 × × × ×1 = . 5 4 3 2 10 Si può pervenire al precedente risultato applicando la definizione classica di probabilità; infatti vi è un unico caso favorevole all’evento (B1 N2 N3 B4 N5 ) mentre il numero di modi possibili di estrarre due palle bianche e tre nere da un urna che le 5 = 10 . contiene è 23 3.1 Probabilità condizionata 87 Esempio 3.1.3. In un’urna sono riposte quindici palline, dieci bianche e cinque nere. Si estraggono quattro palline senza reimbussolare; calcoliamo la probabilità che almeno una di esse sia nera. Per tale scopo definiamo gli eventi Bi la i-esima pallina estratta è bianca (i = 1, 2, 3, 4) A almeno una delle quattro palline estratte è nera e notiamo che P(A) = 1 − P(A) = 1 − P(B1 B2 B3 B4 ). Si ha P(A) = P(B1 B2 B3 B4 ) = P(B1 ) · P(B2 |B1 ) · P(B3 |B1 B2 ) · P(B4 |B1 B2 B3 ) 10 9 8 7 2 = × × × = = 0.1538 15 14 13 12 13 da cui si ricava P(A) = 1 − P(A) = 1 − 0.1538 = 0.8462 . Esempio 3.1.4. In una prima urna ci sono n palline, k bianche e le rimanenti n − k nere. Una seconda urna contiene anch’essa n palline, ma le nere sono k e le bianche n − k. Una pallina scelta a caso viene spostata dalla prima alla seconda urna, successivamente si prende una pallina dalla seconda urna e la si ripone nella prima. Dopo questa operazione nella prima urna potranno esserci k, k − 1 o k + 1 palline bianche. Indicando con Ek , Ek−1 , Ek+1 i predetti eventi, calcoliamone la probabilità (vedi [4]). Per i = 1, 2, definiamo gli eventi Bi , nella i-esima estrazione la pallina è bianca, e Ni , nella i-esima estrazione la pallina è nera. Si ha P(Ek−1 ) = P(B1 N2 ) = P(B1 )P(N2 |N1) = k k k2 × = , n n+1 n · (n + 1) P(Ek ) = P[(B1 B2 ) ⊓ (N1 N2 )] = P(B1 ) · P(B2 |B1) + P(N1 ) · P(N2 |N1) = 2nk − 2k 2 + n k n−k+1 n−k k+1 × + × = n n+1 n n+1 n(n + 1) 88 e Capitolo 3. Condizionamento ed indipendenza di eventi (n − k)2 n−k n−k × = . P(Ek+1 ) = P(N1 B2 ) = n n+1 n(n + 1) Osserviamo che P(Ek−1 ) + P(Ek ) + P(Ek+1 ) = 2nk − 2k 2 + n (n − k)2 k2 + + =1. n(n + 1) n(n + 1) n(n + 1) Definizione 3.1.2. Dato una spazio di probabilità {Ω, F , P}, sia {Hj }j∈J una partizione finita o numerabile di Ω; se, ∀j ∈ J , P(Hj ) > 0 allora si dice che essa costituisce un insieme completo di alternative per lo spazio campionario Ω. Proposizione 3.1.3 (Formula della probabilità totale o Teorema delle alternative). Dato una spazio di probabilità {Ω, F , P}, sia {Hj }j∈J un insieme completo di alternative per Ω, allora ∀A ∈ F si ha: X P(A) = P(Hj )P(A|Hj ). (3.6) j∈J Dimostrazione. Sottolineamo, innanzitutto, che vale la relazione ! G G A= A∩Ω =A∩ Hj = (A ∩ Hj ) . j∈J j∈J Per l’assioma dell’additività e poichè, per ipotesi, P(Hj ) > 0, si ricava P(A) = X j∈J = X P(A ∩ Hj ) P(Hj )P(A|Hj ) j∈J e la (3.6) è verificata. La formula (3.6) è molto utile nei casi in cui sia complicato calcolare direttamente la P(A) e risulti più semplice il calcolo delle probabilità condizionate. 3.1 Probabilità condizionata 89 Esempio 3.1.5. Siano date tre urne contenenti la prima due palline bianche ed una nera, la seconda tre palline bianche ed una nera e la terza due palline bianche e due nere. Si calcoli la probabilità che, fissata a caso una delle tre urne, si estragga una pallina bianca. Se definiamo gli eventi Eb la pallina estratta è bianca H1 si sceglie la prima urna H2 si sceglie la seconda urna H3 si sceglie la terza urna possiamo scrivere le relazioni 1 3 2 P(Eb |H1 ) = 3 3 P(Eb |H2 ) = 4 1 P(Eb |H3 ) = 2 (j = 1, 2, 3) P(Hj ) = dalle quali, grazie alla (3.6), si ha: P(Eb ) = 1 3 × 2 3 + 34 + 1 2 ≈ 0.64 . Nella definizione 3.1.2 abbiamo considerato un insieme completo di alternative per Ω; la nozione di alternative è applicabile al caso in cui essa sia una partizione G di un insieme H contenuto in Ω: Hj = H ⊂ Ω. In questo caso la famiglia j∈J di eventi {Hj }j∈J forma un insieme di alternative per H. Essendo H l’unione di eventi con probabilità maggiore di zero, risulta anche P(H) > 0; se A ⊆ Ω, allora 90 Capitolo 3. Condizionamento ed indipendenza di eventi è ben definita la probabilità condizionata P(A|H). Si ha7 : P(A|H) = P(A ∩ H) = P(H) h i F P A ∩ j∈J Hj ) P hF j∈J (A ∩ Hj ) = P(H) P(H) X 1 P(Hj ) = · P(A ∩ Hj ) · P(H) j∈J P(Hj ) = i X P(A ∩ Hj ) P(Hj ∩ Hj ) · P(H ) P(H) j j∈J X = P(A|Hj ) · P(Hj |H). (3.7) j∈J Naturalmente la (3.6) e la (3.7) coincidono nel caso di H ≡ Ω. Consideriamo una spazio di probabilità {Ω, F , P} e sia {Hj }j∈J un insieme completo di alternative per Ω; J può essere sia finito che numerabile. È possibile pensare agli eventi Hj come a delle ipotesi o cause che influenzano l’esito di un esperimento casaule E; le P(Hj ) sono dette probabilità a priori. Supponiamo che l’esito elementare ω di E sia tale che ω ∈ A e P(A) > 0 . Qual è la probabilità che A sia conseguenza della causa Hj ? La risposta al quesito posto è nella probabilità condizionata P(Hj |A). Le P(Hj |A) sono note come probabilità a posteriori: il fatto che A si sia verificato porta ad un ricalcolo della probabilità che compete all’evento Hj ! Teorema 3.1.1. (Legge di Bayes) Sia {Hj }j∈J un insieme completo di alternative per Ω ed A un evento con P(A) > 0 . Vale, ∀j ∈ J , la relazione P(Hj ) · P(A|Hj ) . k∈J P(Hk ) · P(A|Hk ) 7 P(Hj |A) = P Valgono le relazioni Hi ∩ H = Hi e (A ∩ Hi ) ∩ (A ∩ Hj ) = ∅, se i 6= j (3.8) 3.1 Probabilità condizionata 91 Dimostrazione. Ricordando sia la definizione di probabilità condizionata che la formula della probilità totale, fissato un intero j ∈ J si ha P(Hj |A) = P(Hj ) · P(A|Hj ) P(Hj ) · P(A|Hj ) P(AHj ) = =P P(A) P(A) k∈J P(Hk ) · P(A|Hk ) come volevasi dimostrare. Esempio 3.1.6. La produzione di macchine agricole in un industria ad alta tecnologia è automatizzata; tre catene di montaggio producono, rispettivamente, il venti, il trenta ed il cinquanta per cento dei macchinari. Ciascuna di esse ha una probabilità di produzione difettosa, nell’ordine, del cinque, del tre e dell’uno per cento. Calcoliamo la frazione di macchine difettose prodotte e la probabilità che una macchina agricola, che non ha superato il controllo di qualità, sia stata realizzata dalla terza catena di montaggio. Avendo definito gli eventi A, la macchina agricola prodotta è difettosa, e Hi∈[1,3] , la catena di montaggio i-esima ha prodotto la macchina, si ha P(H1 ) = 0.2 P(H2 ) = 0.3 P(H1 ) = 0.5 P(A|H1 ) = 0.05 P(A|H2) = 0.03 P(A|H3 ) = 0.01 e, pertanto, essendo P(A) = P3 i=1 P(Hi )P(A|Hi ) = 0.024, concludiamo che la percentuale di macchine diffettose è del 2.4 per cento. La risposta al secondo quesito si desume dalla legge di Bayes: P(H3 |A) = P(A|H3 ) · P(H3 ) 0.01 × 0.5 = = 0.0208 . P(A) 0.024 Esempio 3.1.7. Una compagnia di assicurazione suddivide i propri assicurati in tre classi di età: A, B e C. Ad A appartengono gli utenti con meno di venticinque anni di età, a B quelli di età compresa tra i venticinque e i quaranta anni ed infine a C gli ultra quarantenni. La numerosità delle cassi è del 22, del 43 e del 35 per 92 Capitolo 3. Condizionamento ed indipendenza di eventi cento rispettivamente. Rilievi statistici stimano le seguenti probabilità di incidente per anno per ciascuna classe: P(I|A) = 0.11, P(I|B) = 0.03 e P(I|C) = 0.02. Con I indichiamo l’evento incidente automobilistico. La probabilità che nell’anno avvenga un incidente è P(I) = 0.22 × 0.11 + 0.43 × 0.03 + 0.35 × 0.02 ≈ 0.044 . La probabilità che a causare l’incidente si un assicurato della classe A è P(A|I) = P(A) · P(I|A) ≈ 0.55 . P(A) · P(I|A) + P(B) · P(I|B) + P(C) · P(I|C) 3.2 Indipendenza stocastica In generale sussiste la relazione P(A|B) 6= P(A); in termini colloquiali si può affermare che la conoscenza dell’essersi verificato B influenza la valutazione della probabilità di A. Nel caso in cui P(A|B) = P(A), condizionare l’evento A all’evento B non influisce sulla probabilità di A. In tal caso A è detto stocasticamente indipendente, o semplicemente indipendente, da B. Quanto sopra esposto ha senso solo se P(B) è maggiore di zero, in caso contrario, infatti, la probabilità condizionata P(A|B) non è definita. Per definizione si ha P(A|B) = P(AB)/P(B) e, quindi, nel caso di eventi indipendenti, risulta P(AB) = P(A) · P(B). Que- st’ultima relazione può essere scritta anche nel caso in cui la probabilità di B sia nulla, in tal caso, infatti, P(AB) è uguale a zero. Per quanto appena detto, anche se la definizione di indipendenza basata sulla probabilità condizionata è di facile intuizione, conviene dare la seguente definizione di eventi indipendenti8 . Definizione 3.2.1. Due eventi, A eB, si dicono indipendenti (stocasticamente, o probabilisticamente) se P(AB) = P(A) · P(B). 8 Naturalmente essa è equivalente alla definizione basata sulla probabilità condizionata. (3.9) 3.2 Indipendenza stocastica 93 Osservazione 3.2.1. Dalla simmetria della (3.9) segue che l’indipendenza degli eventi A e B è reciproca: se A è indipendente da B anche B è indipendente da A. Convenzionalmente, come conseguenza della definizione, l’evento impossibile è indipendente da ogni altro evento: P(A∅) = P(A)P(∅) = 0, ∀A. Teorema 3.2.1. Se A e B sono indipendenti, lo sono anche A e B, A e B, A e B. Dimostrazione. Ricordando la relazione P(A) = P(A ∩ B) + P(A ∩ B) e per l’ipotesi sull’indipendenza di A e B, si ha P(A ∩ B) = P(A) − P(A ∩ B) = P(A) − P(A) · P(B) = P(A)[1 − P(B)] = P(A) · P(B). In maniera del tutto analoga, scambiando l’ordine degli eventi, si dimostra che P(A ∩ B) = P(A) · P(B). Per quanto attiene all’ultima parte della tesi, osserviamo che P(A) = P(A ∩ B) + P(A ∩ B) e quindi P(A ∩ B) = P(A) − P(A ∩ B) = P(A) − P(A) · P(B) = P(A)[1 − P(B)] = P(A) · P(B). La definizione 3.2.1 di indipendenza è stata data mediante una relazione tra probabilità. L’indipendenza, diversamente dall’incompatibilità che è una proprietà intrinseca degli eventi, non dipende dalla struttura di questi ma solamente dalla loro probabilità: se si cambia la legge P l’indipendenza potrebbe venire a mancare. La nozione di indipendenza è generalizzabile al caso di una di una successione di eventi finita o numerabile. 94 Capitolo 3. Condizionamento ed indipendenza di eventi Definizione 3.2.2. Sia {Ej∈J } una successione di eventi, ove J può coincidere con l’insieme finito di interi [1, n] oppure con N. Si dice che essa è costituita da eventi collettivamente indipendenti9 se, comunque si fissa un intero r e una r-pla {j1 , . . . , jr }, risulta P (Ej1 ∩ · · · ∩ Ejr ) = P(Ej1 ) · P(Ej2 ) · · · P(Ejr ). (3.10) Per chiarire la precedente definizione, si consideri il caso particolare di tre eventi A, B, C. La condizione di indipendenza è espressa dal complesso di tre condizioni tra coppie di eventi P(AB) = P(A) · P(B), P(AC) = P(A) · P(C), P(BC) = P(B) · P(C) e dall’ulteriore condizione P(ABC) = P(A) · P(B) · P(C). È possibile, quindi, che eventi, a due a due indipendenti, non siano collettivamente indipendenti, infatti, nel caso particolare esaminato potrebbe non essere verificata la condizione P(ABC) = P(A) · P(B) · P(C). Consideriamo n eventi E1 , . . . , En , la probabilità di En , condizionata al verificarsi di E1 , . . . , En−1 , è P (En |E1 , . . . , En−1 ) = P (E1 · · · En−1 En ) P (E1 · · · En−1 ) (3.11) se il denominatore è maggiore di zero. Nel caso in cui gli eventi siano collettivamente indipendenti, per la (3.10), la 3.11 dà luogo alla relazione: P (Ej |Ei1 · · · Eik ) = P(Ej )P(Ei1 ) · · · P(Eik ) = P(Ej ) P(Ei1 ) · · · P(Eik ) (3.12) ∀j ∈ [1, n] diverso da i1 , i2 , . . . , ik . Siano A e B due famiglie di eventi; in altre parole A e B sono insiemi i cui elementi sono eventi che appartengono allo stesso spazio campionario Ω. Definizione 3.2.3. Due famiglie di eventi, A e B, sono dette essere indipendenti se sono indipendenti tra loro gli eventi A e B comunque scelti, il primo da A ed 9 o semplicemente indipendenti 3.2 Indipendenza stocastica 95 il secondo da B. Più in generale, n famiglie di eventi (A1 , . . . , An ) sono chiamate indipendenti se sono collettivamente indipendenti gli eventi A1 , . . . , An comunque scelti, il primo da A1 , il secondo da A2 e così via fino ad An ∈ An . Teorema 3.2.2. Siano E1 , . . . , En eventi collettivamente indipendenti. Sostituendo ad uno di tali eventi il suo complemento si ottiene ancora una n-pla di eventi collettivamente indipendenti. Dimostrazione. Per semplicità sostituiamo E1 con la sua negazione E1 . Al fine di dimostrare la tesi del teorema è necessario verificare la collettiva indipendenza degli eventi E1 , E2 , . . . , En . In altre parole deve valere la (3.10) per k di essi comunque scelti. È evidente che (3.10) è verificata se i k eventi selezionati non contengono E1 . Per contemplare il caso in cui tra essi è presente E1 consideriamo i primi k eventi E1 , E2 , . . . , Ek . Si ha P(E1 ∩ E2 ∩ · · · ∩ Ek ) = P(E2 ∩ · · · ∩ Ek ) − P(E1 ∩ E2 ∩ · · · ∩ Ek ) = P(E2 ) × · · · × P(Ek ) − P(E1 ) × P(E2 ) × · · · × P(Ek ) = [1 − P(E1 )] × P(E2 ) × · · · × P(Ek ) = P(E1 ) · P(E2 ) · · · P(Ek ) e la tesi è stata dimostrata. Osservazione 3.2.2. L’applicazione ripetuta del teorema 3.2.2 suggerisce come esso sia ancora valido se più eventi nella n-pla sono sostituiti dai rispettivi complementi. Osservazione 3.2.3. Fissati gli eventi collettivamente indipendenti E1 , . . . , En , vale la seguente relazione P(E1 ∩ E2 ∩ · · · ∩ En ) = P(E1 ) · P(E2 ) · · · P(En ) = [P(E1 ) · P(E2 ) · · · P(Er )] · [P(Er+1 ) · P(Er+2 ) · · · P(En )] = P(E1 ∩ E2 ∩ · · · ∩ Er ) · P(Er+1 ∩ Er+2 ∩ · · · ∩ En ) (3.13) 96 Capitolo 3. Condizionamento ed indipendenza di eventi per 1 6 r 6 n − 1 . Esempio 3.2.1. Dimostriamo che l’estrazione di una asso di un qualunque seme, evento A, e l’estrazione di una carta di cuori, evento B, da un mazzo di carte francesi ben mescolato sono eventi indipendenti. Il mazzo di carte francesi prevede quattro i semi e tredici carte per ciascun seme, 1 1 = . Inoltre, poiché per ciascun seme vi sono tredici si ha allora: P(A) = 52 13 1 13 = . Per calcolare la procarte, la probabilità che B si verifichi è P(B) = 52 4 babilità dell’evento intersezione (A ∩ B) si tenga presente che l’asso di cuori è 1 unico, quindi P(A ∩ B) = . In conclusione abbiamo 52 P(A ∩ B) = 1 ≡ P(A) · P(B) 52 e la condizione di indipendenza è verificata. Esempio 3.2.2. Supponiamo di lanciare due dadi, si verifichi l’indipendenza dei due eventi il primo dado mostra un numero pari e il secondo dado mastra un sei, che indichiamo con A e B, rispettivamente. Si ha P(A) = 3/6 = 1/2 e P(B) = 1/6. Inoltre A ∩ B = {(2, 6) ∪ (4, 6) ∪ (6, 6)} e pertanto otteniamo P(A ∩ B) = 3/36 = 1/12 da cui: P(A ∩ B) = P(A) · P(B). Esempio 3.2.3. Esaminando l’albero genealogico di una donna gravida si evince che ella ha una probabilità del cinquanta per cento di essere portatrice del gene per l’emofilia. Qualora sia portatrice, la probabilità di trasmettere alla prole di sesso maschile la malattia è 1 2 e la trasmissione ai diversi figli sono da considerare sono da considerare eventi indipendenti. Naturalmente non vi è alcuna possibilità che un figlio erediti l’emofilia da una madre non portatrice10 . 10 Il padre non ha alcun ruolo. 3.2 Indipendenza stocastica 97 Sia C l’evento la donna è portatrice del gene ed Ni l’evento l’i-esimo figlio maschio è sano. Valgono le relazioni: P(C) = P(C) = 1 2 e P(Ni |C) = 1 . 2 Per l’indipendenza della trasmissione della malattia genetica a più figli maschi, nel caso di due fratelli si ha P(N1 N2 |C) = P(N1 |C) · P(N2 |C) = 1/4 e, se partorisce tre maschi, P(N1 N2 N3 |C) = P(N1 |C) · P(N2 |C) · P(N3 |C) = 1/8. Allo stesso modo si procede nel caso di prole più numerosa. Nel caso in cui non sia nota la condizione genetica della madre, la probabilità che il suo primo figlio maschio sia sano è P(N1 ) = P(N1 |C) · P(C) + P(N1 |C) · P(C) = 1 1 1 3 × + 1 × = = 0.75 . 2 2 2 4 Se, oltre ad ignorare la condizione della mamma, si ignora anche lo stato di salute del primogenito, la probabilità P(N2 ) da assegnare all’evento che un secondo figlio maschio sia sano è sempre 0.75 . Tale probabilità cambia se il primogenito P(N1 N2 ) è normale, essa è data dalla probabilità condizionata P(N1 N2 |N1 ) = . P(N1 ) Osserviamo che due figli maschi consecutivi possono nascere non emofiliaci sia da una madre portatrice sia da una madre non portatrice del gene. Pertanto si ha P(N1 N2 ) = P(N1 N2 |C)·P(C)+P(N1 N2 |C)·P(C) = 1 5 1 1 × +1× = = 0.625 4 2 2 8 P(N2 N1 ) 0.625 = = 0.833 . P(N1 ) 0.75 Nel caso in cui il primo figlio maschio risultasse emofiliaco, allora è certo che la da cui segue: P(N2 |N1 ) = madre è portatrice del gene dell’emofilia quindi la probabilità P(N2 ) che il secondo figlio sia normale è uguale a 1 2 come indicato in precedenza. Nel caso si ignori la condizione della madre, la conoscenza della normalità del primogenito aumenta la probabilità che ella sia non portatrice ed è maggiore (0.833) la probabilità che 98 Capitolo 3. Condizionamento ed indipendenza di eventi anche il secondo maschio sia sano. Calcoliamo, infine, la probabilità che la madre sia portatrice nell’ipotesi che i primi due figli maschi siano non emofiliaci. Grazie alla legge di Bayes (teorema 3.1.1) possiamo scrivere P(C|N1 N2 ) = 0.5 × 0.25 P(C) · P(N1 N2 |C) = = 0.2 . P(N1 N2 ) 0.625 La probabilità che ha la madre di essere portatrice del gene dell’emofilia cambia da 0.5 a 0.2 se ella ha partorito due maschi normali. 3.2.1 La rovina del giocatore In questo paragrafo trattiamo un esempio più complesso della teoria esposta precedentemente. La rovina di un giocatore è un argomento classico nella teoria della probabilità che viene sviluppato utilizzando tecniche differenti. La formulazione che ora adottiamo è quella proposta da Gnedenko (confronta [6]). Due giocatori A e B continuano una partita11 fino alla completa rovina di uno dei due. Indichiamo con a il capitale iniziale12 del primo giocatore e con b quello del secondo. La probabilità di vincere una mano13 è p per A e q per B; p e q non cambiano durante il gioco. Se, ad esempio, A gioca alla roulette contro il banco puntando sul nero, poiché vi sono diciotto rossi, diciotto neri ed un verde, p è uguale a 18/37 = 0.4865 . Ad ogni mano ognuno dei giocatori può vincere o perdere una delle monete a sua disposizione. Se si presume che gli esiti di ciascuna 11 Ad esempio i due giocatori scommettono sull’uscita di testa o croce nel lancio ripetuto di una moneta oppure sul rosso e sul nero alla roulette. Esempi possono essere tratti anche in ambito assicurativo o nel gioco in borsa. Pertanto al termine partita deve essere attribuito un significato non letterale. 12 numero di monete in un qualunque valuta: euro, dollari, rubli, sterline. 13 Il termine mano non è utilizzato nel senso specifico del gioco delle carte ma indica una singola esecuzione dell’esperimento casuale. 3.2 Indipendenza stocastica 99 partita siano indipendenti, qual è la probabilità che uno dei due giocatori, diciamo A, perderà l’intero capitale (si rovinerà)? Prima di addentrarci nei calcoli definiamo la tipologia degli eventi semplici connessi all’esperimento casuale in studio. In questo contesto per evento elementare si intende una successione infinita di alternarsi dei risultati delle singole partite giocate. Per esempio un evento elementare14 è {ω1 } ≡ {A, A, A, A, A, A, . . .} ove A vince due mani consecutive e B la successiva e così per tutta la partita; un altro esempio di evento elementare è quello in cui B vince tutte le mani di posto dispari {ω2 } ≡ {A, A, A, A, A, . . .}. Ogni evento elementare {ωk } è una successione numerabile composta dai simboli A e A. L’evento, alla cui probabilità siamo interessati, consiste di tutti gli esiti elementari {ωk } per i quali il giocatore A perde la sua dotazione iniziale di monete a favore del giocatore B. Quest’ultimo, alla fine della partita, vedrà crescere il sua capitale ad a + b. Seguendo l’impostazione di Gnedenko, indichiamo con pn (N) la probabilità che A si rovini in N mani se disponeva di n monete prima di iniziare il gioco. Un generico evento elementare {ωk } è la successione di N simboli di cui m saranno A, se il primo giocatore vince per m volte, ed i rimanenti N − m posti saranno occupati da A ad indicare le vincite del secondo giocatore. In virtù delle ipotesi poste sullo svolgimento della partita possiamo scrivere la relazione pn (N) = pm q N −m . Analogamente si definiscono qn (N) e rn (N) che indicano, rispettivamente, la probabilità che sia B a perdere in N mani e la probabilità che si sia in parità. Qualunque sia N > 0 risulta pn (N) + qn (N) + rn (N) = 1 . (3.14) In quanto probabilità, pn (N), qn (N) e rn (N) sono quantità limitate, inoltre, è intuitivo che al crescere di N, pn (N) e qn (N) sono non decrescenti e rn (N) non 14 Per ciascuna mano indichiamo con A la vincita del giocatore A e con A quella di B. 100 Capitolo 3. Condizionamento ed indipendenza di eventi crescente. Valgono allora i seguenti limiti: pn = lim pn (N), N →∞ qn = lim qn (N), rn = lim rn (N). N →∞ N →∞ Chiameremo questi limiti, rispettivamente, probabilità di rovina del giocatore A, del giocatore B e di pareggio, purché all’inizio del gioco A possegga n monete e la diponibilità di B sia di a + b − n. Dalla (3.14) segue: pn + qn + rn = 1 . (3.15) Risulta inoltre che 1. se all’inizio del gioco A detiene l’intero capitale a+b e B non ha piú monete, allora pa+b = 0 qa+b = 1 ra+b = 0 ; (3.16) 2. se A inizia senza nessuna moneta e B possiede tutto, allora p0 = 1 q0 = 0 r0 = 0 . (3.17) Se il giocatore A in una determinata fase del gioco possiede n monete la sua rovina può concretizzarsi in due differenti modalità. Egli vince la mano successiva, aumenta il sua capitale ad n + 1 monete e poi perde la partita oppure perde sia la mano successiva che la partita. Dalla formula della probabilità totale segue che pn = p · pn+1 + q · pn−1 . (3.18) La (3.18) è un’equazione alle differenze finite in pn che possiamo riscrivere come15 q · (pn − pn−1 ) = p · (pn+1 − pn ). 15 Si moltiplichi il primo membro per (p + q). (3.19) 3.2 Indipendenza stocastica 101 Se il gioco è equo p = q = 1/2 e la (3.18) dà luogo alle relazioni pn+1 − pn = pn − pn−1 ≡ c pn − pn−1 = pn−1 − pn−2 ≡ c pn−1 − pn−2 = pn−2 − pn−3 ≡ c .. . p2 − p1 = p1 − p0 ≡ c con c costante. Dal precedente risultato si trova che pn = pn−1 + c = pn−2 + c + c = pn−3 + c + c + c · · · = p1 + (n − 1) × c = p0 + n × c e, tenuto conto che per la prima delle (3.17) p0 = 1, si ha pn = 1 + n × c ed in particolare pa+b = 1 + (a + b) × c. Quest’ultima relazione consente di determinare 1 il valore della costante c in quanto per le (3.16) pa+b = 0, si ha c = − e a+b l’espressione analitica di pn diventa pn = 1 − n . a+b (3.20) Quindi la probabilità che A si rovini, tenendo conto che all’inizio del gioco egli dispone di a monete, è uguale a pa = 1 − a b = . a+b a+b (3.21) Ripetendo il precedente ragionamento si determina la probabilità che sia B a rovinarsi16: qa = 1 − 16 b a = . a+b a+b (3.22) Si ricordi che n indica la disponibilità del primo giocatore; per tale motivo il pedice di q è sempre a. 102 Capitolo 3. Condizionamento ed indipendenza di eventi Osserviamo che pa + qa = 1 e pertanto ra è nulla nell’ipotesi che le probabilità p e q coincidano. q Nel caso generale di p 6= q, dalla (3.19) si ricava pn+1 − pn = (pn − pn−1 ) e da p quest’ultima q q p2 − p1 = (p1 − p0 ) = (p1 − 1), p p 2 q q (p1 − 1), p3 − p2 = (p2 − p1 ) = p p .. . n q q pn+1 − pn = (pn − pn−1 ) = (p1 − 1). (3.23) p p La (3.23) consente di esprimere la differenza pa+b − pn come una sommatoria finita di potenze del rapporto q/p. Si ha pa+b − pn = pn+1 − pn + pn+2 − pn+1 + pn+3 − pn+2 + · · · + pa+b − pa+b−1 a+b−1 a+b−1 X X q j . = (pj+1 − pj ) = (p1 − 1) p j=n j=n j q q Poiché p 6= q, 6= 1; inoltre, per j ∈ [0, a + b − 1], è una progressione p p geometrica, pertanto a+b q 1 − a+b−1 j X q p = q p 1− j=0 p e, spezzando la sommatoria a primo membro, otteniamo a+b q 1 − n−1 a+b−1 a+b−1 j j j X q X q X q p = + = q p p p 1− j=0 j=n j=0 p 3.2 Indipendenza stocastica 103 da cui segue a+b q 1− n−1 j a+b−1 X X q j q p − = q p p 1− j=0 j=n p a+b n n a+b q q q q 1− − 1− p p p p = − = q q q 1− 1− 1− p p p ed infine n a+b q q − p p pa+b − pn = (p1 − 1) × . q 1− p Osserviamo17 che pa+b = 0 e p0 = 1; dalla (3.24) seguono le relazioni n a+b q q − p p pn = (1 − p1 ) × q 1− p (3.24) (3.25) e 0 a+b a+b q q q 1− − p p p 1 = (1 − p1 ) × = (1 − p1 ) × . q q 1− 1− p p Dalla (3.26) ricaviamo il valore di 1 − p1 q 1 − p1 = 1 − p 17 confronta le (3.16) e (3.17) 1 a+b q 1− p (3.26) 104 Capitolo 3. Condizionamento ed indipendenza di eventi e, sostituiendo quest’ultimo nella (3.25), troviamo n a+b a+b n q q q q − − 1 q p p p p . = a+b pn = 1 − a+b × q p q q 1− −1 1− p p p (3.27) Quindi la probabilità che il giocatore A si rovini è b p 1− a+b a b q −q p q pa = a+b = a+b . a+b q −p p 1− q (3.28) Analogamente si dimostra che la probabilità della rovina del giocatore B è a q 1− p qa = (3.29) a+b . q 1− p È possibile che la partita finisca in parità? Ricordiamo che pa , qa e ra devono verificare il vincolo pa + qa + ra = 1 . Sommando i valori di pa e qa si ha a b q p q b − pb pa − q a 1− 1− q p qb pa + a+b + a+b = a+b q − pa+b pa+b − q a+b p q 1− 1− q a+b pa+b q p q b − pb q a+b pa − q a pa+b · + · qb q a+b − pa+b pa pa+b − q a+b q a (q b − pb ) pb (pa − q a ) q a q b − q a pb − pa pb + pb q a = a+b − = q − pa+b q a+b − pa+b q a+b − pa+b q a+b − pa+b =1. = a+b q − pa+b = 3.2 Indipendenza stocastica 105 Si conclude che anche nel caso generale di p 6= q la probabilità di pareggio è uguale zero e, quindi, la relazione pa + qa = 1 vale sempre. Le formule precedenti suggeriscono alcune considerazioni di rilievo. Supponiamo che il gioco sia equo, oppure che i due giocatori siano di uguale abilità. In altre parole sia p = q = 1 2 e supponiamo, inoltre, che la disponibilità iniziale di B sia di gran lunga superiore a quella di A. In questo caso il valore di b può considerarsi infinitamente grande. Allora per la (3.22) la rovina del secondo giocatore è praticamente impossibile. La situazione cambia se A gioca meglio di B, in questo a q caso risulta p > q. Se assumiamo b ∼ ∞, dalla (3.29) si ricava qa ∼ 1 − p a q . In conclusione un giocatore, A, con un capitale minore e pa = 1 − qa ∼ p ma più abile, ha meno probabilità di rovinarsi di un avversario, B, con maggiore disponibilità economica ma meno bravo nel gioco. 3.2.2 Il lemma di Borel e Cantelli Il celebre lemma di Borel-Cantelli costituisce il presupposto per la dimostrazione della cosiddetta legge 0-1 che svolge un ruolo fondamentale nella determinazione di alcune proprietà asintotiche della successione di eventi. Lemma 3.2.1 (di Borel-Cantelli). Sia {An }n∈N una successione di eventi, la con∞ X vergenza della serie P (An ) implica che sia uguale a zero la probabilità del- l’evento lim sup An . n=1 n→∞ Dimostrazione. Per la (1.20), P lim sup An = P n→∞ lim n→∞ ∞ [ k=n Ak ! e da quest’ultima, per la proprietà di continuità della probabilità e dalla disuguaglianza di Boole 106 Capitolo 3. Condizionamento ed indipendenza di eventi (1.44), si ricava P lim sup An = P n→∞ La quantità P∞ k=n lim n→∞ ∞ [ k=n Ak ! = lim P n→∞ ∞ [ k=n Ak ! 6 lim n→∞ P (Ak ) rappresenta il resto n-esimo della serie ∞ X P (Ak ) . k=n P∞ n=1 P (An ) che, essendo quest’ultima convergente per ipotesi, è infinitesimo per n che tende all’infinito. In conclusione si ha ∞ X P (Ak ) = 0 P lim sup An 6 lim n→∞ n→∞ k=n e la tesi del lemma è stata dimostrata. Il lemma di Borel e Cantelli afferma che, se P∞ n=1 P (An ) < ∞, è nulla la proba- bilità che esista un k > n tale che Ak si verifichi qualunque sia n. In altri termini, P dalla convergenza della serie ∞ n=1 P(An ) segue che il verificarsi di infiniti tra gli eventi della successione {An }n∈N è un evento quasi impossibile. Siamo ora nella condizione di poter dimostrare il seguente teorema che, come abbiamo sottolineato in precedenza, ha una importante valenza teorica. Teorema 3.2.3 (Legge 0-1). Sia {An }n∈N una successione di eventi collettivamente indipendenti. Si ha: a- ∞ X P (An ) < ∞ sse P lim sup An = 0 , ∞ X P (An ) = ∞ sse P lim sup An = 1 . n=1 b- n=1 n→∞ n→∞ Dimostrazione. La necessarietà della a coincide con la tesi del lemma di Borel e Cantelli. Dimostriamo la necessarietà della b; a tal fine ricordiamo la relazione 3.2 Indipendenza stocastica ∞ [ P lim sup An = lim P n→∞ n→∞ 107 ! Ak , utilizzata nella dimostrazione del lemma k=n 3.2.1, ed applichiamo ad essa la legge di De Morgan (1.4). Si ottiene: P lim sup An = lim P n→∞ n→∞ ∞ [ Ak k=n ! = lim P n→∞ ∞ \ Ak k=n ! = 1 − lim P n→∞ ∞ \ Ak k=n ! . (3.30) Valgono la relazioni P ∞ \ k=n Ak ! =P lim r→∞ r \ Ak k=n ! = lim P r→∞ r \ k=n Ak ! e, per l’ipotesi di indipendenza collettiva degli eventi An , si ricava ! r r ∞ \ Y Y lim P P Ak = P Ak . Ak = lim r→∞ r→∞ k=n k=n (3.31) k=n La (3.30) e la (3.31) conducono alla relazione ∞ ∞ Y Y [1 − P(Ak )] . P Ak = 1 − lim P lim sup An = 1 − lim n→∞ n→∞ k=n n→∞ k=n Ricordando che, ∀x ∈ R, vale la disuguaglianza 1 − x 6 exp(−x), si ricava la maggiorazione ) ( ∞ ∞ X Y P(Ak ) . e−P(Ak ) = 1 − lim exp − P lim sup An > 1 − lim n→∞ n→∞ k=n n→∞ k=n P∞ Poiché per ipotesi la serie n=1 P (An ) diverge, al tendere di n all’infinito diverP∞ P ge anche il resto n-simo ∞ k=n P(Ak )}. k=n P(Ak ) ed è nullo il limn→∞ exp {− Dal fatto che la probabilità di un qualunque evento non può eccedere l’unità, si 108 Capitolo 3. Condizionamento ed indipendenza di eventi ricava P (lim supn→∞ An ) = 1 . Il carattere di sufficienza della a e della b si dimostra per assurdo. P Se per P (lim supn→∞ An ) = 0 risultasse ∞ n=1 P (An ) = ∞, come conseguenza di b dovremmo avere P (lim supn→∞ An ) = 1 e quindi si cadrebbe in contraddiP zione. Ad analoga contraddizione si perviene se la serie ∞ n=1 P (An ) fosse convergente nel caso in cui P (lim supn→∞ An ) = 1, infatti per la a dovrebbe essere nulla la probabilità dell’evento lim supn→∞ An . Il teorema appena dimostrato afferma che, nel caso di una successione numerabile di eventi collettivamente indipendenti, la probabilità che si verifichi un numero P infinito di tali eventi è nulla se la serie ∞ n=1 P (An ) converge mentre è uguale ad 1 se la predetta serie diverge. 3.2.3 Esperimenti indipendenti e spazio campionario prodotto Definiamo, ora, formalmente il concetto di spazio campionario prodotto che è stato in precedenza utilizzato su base intuitiva. Consideriamo due esperimenti casuali E1 e E2 ai quali siano associati gli spazi campionari discreti Ω1 ed Ω2 , rispettivamente; indichiamo con {pi } e {qj } le distribuzioni di probabilità corrispondenti (vedi paragrafo 2.1). A partire da E1 e E2 si può definire un singolo esperimento composito E che consiste nell’eseguire sequenzialmente, o anche simultaneamente, i due esperimenti individuali. Ad esempio, se il primo esperimento consiste nel lancio di una moneta ed il secondo nell’estrazione di un bussolotto colorato da un’urna, l’esperimento composito consiste nel lanciare prima la moneta ed estrarre, poi, il bussolotto. Il nostro scopo è quello di definire lo spazio campionario Ω e la distribuzione di probabilità P per l’esperimento composito. Assumiamo che gli esperimenti siano indipendenti; ovvero ipotizziamo che l’esito di un esperimento non influenzi l’esito di quello successivo. Nell’esempio prece- 3.2 Indipendenza stocastica 109 dente si assume che l’esito del lancio della moneta non abbia effetti sul colore del bussolotto che sarà estratto dall’urna. Più in generale, siano ei ed fj eventi elementari tali che ei ∈ Ω1 e fj ∈ Ω2 ; siano inoltre pi e qj le rispettive probabilità. Se non vi è alcun effetto di trasferimento tra il primo esperimento ed il secondo, la probabilità che l’esito del primo esperimento sia ei e fj quello del secondo è data dal prodotto pi · qj . Esistono molte situazioni reali per le quali l’ipotesi dell’indipendenza degli esperimenti è ragionevolmente motivata da considerazioni teoriche a priori. Osserviamo che l’esito dell’esperimento composito è rappresentato da una coppia ordinata (ei , fj ) ove ei ∈ Ω1 e fj ∈ Ω2 ; quindi Ω è l’insieme, finito o numerabile di tutte le predette coppie; esso è denominato prodotto cartesiano di Ω1 e Ω2 , in simboli: Ω = Ω1 × Ω2 . Definizione 3.2.4. Due esperimenti casuali, E1 e E2 , sono detti indipendenti se l’assegnazione della probabilità agli eventi elementari18 dello spazio campionario Ω = Ω1 × Ω2 segue la regola del prodotto, ovvero se risulta rij = pi · qj ∀ (ei , fj ) ∈ Ω. Il modello probabilistico così definito è chiamato modello prodotto per l’esperimento composto E. Notiamo che per la definizione posta, per ogni coppia (ei , fj ) ∈ Ω, rij è una quantità maggiore o uguale a zero, inoltre si ha X X X qj = 1 pi · rij = i,j:(ei ,fj )∈Ω i:ei ∈Ω1 j:fj ∈Ωe e, pertanto, rij = pi · qj definisce una distribuzione di probabilità sullo spazio campionario prodotto Ω = Ω1 × Ω2 . Esaminiamo il caso particolare in cui il secondo esperimento sia una ripetizione 18 Indichiamo con rij la probabilità dell’evento elementare {(ei , fj )}. 110 Capitolo 3. Condizionamento ed indipendenza di eventi del primo, sicché Ω1 = Ω2 ≡ Ω e {pi } = {qj }. Considerate nel loro insieme le due ripetizioni formano un esperimento composito il cui spazio campionario è il prodotto cartesiano di Ω con se stesso: Ω2 = Ω × Ω. Le ripetizioni dell’esperimento sono indipendenti se e solo se rij = pi · pj ∀ei , fj ∈ Ω. Analogamente, per n ripetizioni dello stesso esperimento lo spazio campione è dato dal prodotto cartesiano Ωn = Ω {z· · · × Ω} e le n ripetizioni sono dette | ×Ω× n volte indipendenti se e solo se rij...k = pi · pj · · · pk 2 6 k 6 n. Esempio 3.2.4. Supponiamo che l’esperimento composito sia costituito dal lancio di due dadi. Lo spazio campione per un singolo lancio è Ω = {1, 2, 3, 4, 5, 6}, ciascun punto avendo probabilità pi = 61 . Per sua natura il lancio del secondo dado non è influenzato dal risultato del lancio del primo dado, pertanto lanci successivi del dado rappresentano esperimenti indipendenti il cui spazio campionario è l’insieme delle 36 coppie (i, j) con i, j ∈ [1, 6]. A ciascuna di tali coppie è assegnata la probabilità pi · pj = 1 . 36 La probabilità di un evento in Ω2 può essere calcolata sommando le probabilità delle coppie elementari ad esso favorevoli. Ad esempio sia A l’evento la somma del lancio dei due dadi è 6, esso è costituito dalle cinque coppie {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} e quindi: P(A) = 5 . 36 CAPITOLO 4 La distribuzione binomiale e la distribuzione di Poisson 4.1 Le prove del Bernoulli Ripetizioni indipendenti di un esperimento con solo due possibili esiti, S (successo) ed F (fallimento), con probabilità che rimane costante durante le ripetizioni sono chiamate prove del Bernoulli. La probabilità dell’esito successo è usualmente indicata con p, si indica con q la probabilità di F . Naturalmente p e q sono non negativi e tali che p + q = 1 . Lo spazio campionario di ciascuna prova è costituito dai due punti S ed F . Per n prove del Bernoulli lo spazio campionario contiene 2n punti, ciascun punto è la successione di n simboli S ed F e rappresenta un possibile esito dell’esperimento composto dalle n ripetizioni. Essendo le prove indipendenti le probabilità si moltiplicano; in altre parole la probabilità di una specificata sequenza SSF S...F F S è il prodotto ottenuto sostituendo i simboli S ed F con p e q rispettivamente: P [(SSF S...F F S)] = ppqp · · · qqp. 112 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson Nel caso di due prove del Bernoulli lo spazio campione contiene quattro punti Ω = {SS, SF, F S, F F } e le rispettive probabilità sono date da P({SS}) = p2 , P({SF }) = p · q, P({F S}) = q · p, P({F F }) = q 2 . Se le prove del Bernoulli sono tre si ha ( Ω= SS}, F F S}, F SF}, |SF F F} SSS | {z }, |SF {zS}, F | {z | {z | {z {zF}, F | {z | {z}, SSF ω1 e ) ω2 ω3 ω4 ω5 ω6 ω7 ω8 P({ω1 }) = p3 , P({ω2}) = P({ω3 }) = P({ω4 }) = p2 q, P({ω5 }) = P({ω6 }) = P({ω7 }) = pq 2 , P({ω8}) = q 3 . L’esempio più familiare delle prove del Bernoulli è rappresentato dal lancio successivo di una moneta, in questo caso p = q = 1/2 e l’evento successo potrebbe essere l’uscita di testa. Del tutto analogo è il caso in cui più monete sono lanciate contemporaneamente. Anche il lancio di dadi può essere descritto utilizzando il modello delle prove del Bernoulli. Lo stesso vale per l’estrazione con reimbussolamento di palline di due differenti colori da un’urna. Lo schema non è applicabile se il campionamento è senza restituzione in quanto, essendo in questo caso non costante la composizione dell’urna, la probabilità di successo, ad esempio dell’estrazione di una pallina rossa, varia dipendendo dal colore delle palline estratte in precedenza. Le prove del Bernoulli trovano applicazione in alcune situazioni sperimentali come il controllo di qualità, il calcolo del potere infettivo di un agente patogeno, la valutazione dell’efficacia di un vaccino o di un siero e così via. Nei casi reali, affinché il modello sia valido, occorre valutare con attenzione che sia verificata la condizione che la probabilità p rimanga costante nel corso delle ripetizioni dell’esperimento. 4.2 La distribuzione binomiale 113 4.2 La distribuzione binomiale Ritorniamo ora al caso generale di n prove del Bernoulli. Sia p la probabilità di successo ed indichiamo con b(k; n, p) la probabilità di ottenere k successi nelle n ripetizioni. La probabilità di realizzazione di una determinata sequenza di esiti nella quale vi siano esattamente k successi, S, ed n − k fallimenti, F , è data, per quanto prima esposto, dal prodotto pk ·q n−k = pk ·(1−p)n−k . Essendo interessati al numero di successi nelle n ripetizioni dell’esperimento e non all’ordine nel quale essi si verificano, per calcolare b(k; n, p) il valore pk ·q n−k deve essere moltiplicato per il numero di sequenze nelle quali k sono i successi ed n − k i fallimenti in un ordine qualsiasi di realizzazione: n k p (1 − p)n−k . b(k; n, p) = k (4.1) La (4.1) definisce una distribuzione discreta di probabilità: la distribuzione binomiale. Infatti qualunque sia k ∈ [0, n] risulta b(k; n, p) > 0 ed inoltre, per il teorema binomiale 2.2.1, si ha n n X X n k p (1 − p)n−k b(k; n, p) = k k=0 k=0 k n n X p n p n n = (1 − p) = (1 − p) 1 + k 1−p 1−p k=0 n 1 n = 1 . (4.2) = (1 − p) 1−p Dalla (4.1) si deduce che la probabilità che in n prove del Bernoulli non si verifichi alcun successo è b(0; n, p) = (1 − p)n e che la probabilità di ottenere almeno un successo è 1 − b(0; n, p) = 1 − (1 − p)n . 114 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson Il valore b(k; n, p) si ricava, noto b(k − 1; n, p), grazie alla seguente formula ricorsiva: (n + 1)p − k . b(k; n, p) = b(k − 1; n, p) 1 + kq Infatti possiamo scrivere la relazione n k n−k n p q p b(k; n, p) k k · = = n n b(k − 1; n, p) q pk−1 q n−k+1 k−1 k−1 n! (k − 1)! (n − k + 1)! p n−k+1 p k!(n − k)! = · · = · = (n)! q k! (n − k)! q k (k − 1)!(n − k + 1)! (4.3) · p q da cui segue la (4.3). La figura 4.1 mostra il grafico della distribuzione binomiale per n = 50 e tre diversi valori della probabilità di successo p. Esempio 4.2.1. Probabilità di contagio Il tasso di morbilità di una data malattia è del venticinque per cento. Qual è la probabilità che k di n soggetti non risultino contagiati? Se si ritiene ragionevole considerare costante nel tempo il tasso di morbilità è ragionevole far ricorso al modello binomiale ponendo p = 1 − 0.25 = 0.75 e q = 0.25: n × 0.75k × 0.25n−k . b(k; n, p) = k Esempio 4.2.2. Rischio di morte Da studi epidemiologici condotti nel reparto di cardiochirurgia di un ospedale di alta specialità si osserva una mortalità intraoperatoria del dieci per cento. Se nel reparto di eseguono in un anno cinquanta interventi, per calcolare la probabilità che k pazienti sopravvivano si utilizza la distribuzione del Bernoulli con p = 50 × 0.90k × 0.1050−k . 1 − 0.1 = 0.9: b(k; 50, 0.9) = k 4.2 La distribuzione binomiale 115 n=50; p=0.25 0.2 0.1 0 0 10 20 30 n=50; p=0.50 40 50 0 10 20 30 n=50; p=0.65 40 50 0 10 20 40 50 0.2 0.1 0 0.2 0.1 0 30 Figura 4.1: Distribuzione Binomiale. Esempio 4.2.3. Mutazioni geniche Supponiamo che per una fissata intensità di radiazione la probabilità di una mutazione per gene sia approssimativamente pari a p = 2.7 × 10−7 , calcoliamo la probabilità che si verifichi almeno una mutazione in 104 geni. La probabilità che 116 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson non si verifichi alcuna mutazione è 10000 −7 (2.7 · 10−7)0 (1 − 2.7 · 10−7 )10000 b(0; 10000, 2.7 · 10 ) = 0 = (1 − 2.7 · 10−7)10000 ≈ 0.9975 da cui si ricava: b(1; 10000, 2.7 · 10−7) = 1 − b(0; 10000, 2.7 · 10−7 ) ≈ 1 − 0.9975 = 2.5 × 10−3 . Osservazione 4.2.1. Come conseguenza della (4.3) si ha (n + 1)p − k b(k; n, p) =1+ b(k − 1; n, p) kq Pertanto per valori k tali che k < (n + 1)p risulta b(k; n, p) > b(k − 1; n, p), per k > (n + 1)p vale, invece, la disuguaglianza b(k; n, p) < b(k − 1; n, p). Esiste un unico intero m che verifica la relazione (n + 1)p − 1 < m 6 (n + 1)p sicché la distribuzione di Bernoulli assume il massimo quando k = m, inoltre, se (n + 1)p è un intero b(m; n, p) = b(m − 1; n, p). Esempio 4.2.4. Calcolare la probabilità che estratte a caso e contemporaneamente tre carte da un mazzo di carte napoletane, fra di esse vi siano due soli assi, di qualunque seme. Ricordiamo che le carte napoletane sono quaranta di quattro semi differenti. Pertanto il numero dei casi possibili è dato dal coefficiente binomiale 40 . Per calcolare il numero dei casi favorevoli notiamo che i due assi possono 3 4 modi possibili e che per la terza carta, che non si vuole sia un essere scelti in 2 36 possibilità. In conclusione la probabilità cercata è asso, sussistano 1 40 36 4 ≈ 2.2 · 10−2 . / · p= 3 1 2 4.2 La distribuzione binomiale 117 In molte applicazioni occorre calcolare la probabilità che il numero di successi in n prove del Bernoulli sia almeno pari ad un fissato intero l, in termini diversi si cerca la probabilià dell’evento Sn > l, ove con Sn indichiamo un generico numero di successi in n prove del Bernoulli. Si ha: ∞ n n X X n j n−j X n j n−j pq pq = P (Sn = j) = P (Sn > l) = j j j=l j=l j=l (4.4) ove la sommatoria finita è stata estesa all’infinito in quanto il coefficiente binomiale si annulla per j > n. Analogamente la probabilità che il numero di successi non sia superiore ad l è data da: l X n j n−j pq . P (Sn = j) = P (Sn 6 l) = j j=0 j=0 l X Infine la probabilità che il numero di successi sia compreso tra k ed l è: l X n j n−j pq . P (k 6 Sn 6 l) = P (Sn 6 l) − P (Sn 6 k − 1) = j j=k (4.5) (4.6) In letteratura sono consultabili tavole probabilistiche nelle quali sono tabulati i valori delle probabilità cumulative P (Sn 6 l), calcolati in accordo alla (4.5), per alcuni valori di p ed l. Esempio 4.2.5. Giocando a testa e croce Lanciando per dieci volte una moneta equa, qual è la probabilità di ottenere sei volte testa e che risulti testa in almeno sette lanci? Per quanto concerne il primo quesito si applica direttamente la 4.1: 10! 1 10 10 210 6 4 0.5 0.5 = P (S10 = 6) = b(6; 10, 0.5) = = ≈ 0.205 . 6 6!4! 2 1024 Per calcolare P (S10 > 7) osserviamo che per la (4.4) si ha P (S10 > 7) = b(7; 10, 0.5) + b(8; 10, 0.5) + b(9; 10, 0.5) + b(10; 10, 0.5). 118 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson Applicando la formula ricorsiva (4.3) si ricavano i seguenti valori: 11 × 0.5 − 7 ≈ 0.205 × 0.571 ≈ 0.117 , b(7; 10, 0.5) = b(6; 10, 0.5) · 1 + 7 × 0.5 11 × 0.5 − 8 ≈ 0.117 × 0.375 ≈ 0.044 , b(8; 10, 0.5) = 0.117 × 1 + 8 × 0.5 11 × 0.5 − 9 b(9; 10, 0.5) = 0.044 × 1 + ≈ 0.044 × 0.222 ≈ 10−3 . 9 × 0.5 1 1 ≈ 10−3 , si ottiene la risposta al secondo Essendo b(10; 10, 0.5) = 10 = 2 1024 quesito: P (S10 > 7) ≈ 0.163 . Esempio 4.2.6. Risposte casuali ad un questionario Un questionario è composto da otto domande e ciascuna di esse prevede tre risposte delle quali una sola è quella esatta. Assumendo di rispondere a caso, calcolare la probabilità che il numero di risposte esatte sia • uguale a otto, • almeno otto, • al massimo sette, • maggiore di uno e minore di otto. 1 2 Per le ipotesi poste abbiamo n = 10, p = e q = 1 − p = . Pertanto si ha: 3 3 8 2 1 2 1 10 ≈ 3 × 10−3 P (S10 = 8) = b(8; 10, ) = 3 8 3 3 10 X n j 10−j pq P (S10 > 8) = j j=8 8 2 9 10 1 10 2 2 1 1 10 = + + ≈ 3.4 × 10−3 8 3 3 3 3 3 9 P (S10 6 7) = 1 − P (S10 > 8) ≈ 0.9966 . 4.3 Distribuzione di Poisson 119 Per rispondere all’ultimo quesito occorre calcolare P (1 < S10 < 8) = P (S10 6 7) − P (S10 6 1) ≈ 0.9966 − P (S10 6 1) . Poiché P (S10 ottiene 9 0 10 1 2 2 10 1 10 + ≈ 0.104, si 6 1) = 1 3 3 3 3 0 P (1 < S10 < 8) ≈ 0.8926 . Esempio 4.2.7. Giocando a dadi Calcolare la probabilità che lanciando quattro volte un dado, almeno una volta esca il sei. Ricordiamo che in questo caso all’evento elementare successo corrisponde p = 61 , mentre la probabilità che il dado mostri una qualsiasi altra faccia è q = 65 , pertanto la probabilità di interesse è P (S4 > 1) = 4 j 4−j X 1 5 4 j=1 j 6 6 ≈ 0.518 . 4.3 Distribuzione di Poisson In molte situazioni reali si incontrano casi particolari di prove del Bernoulli dove n è molto grande e la probabilità elementare p piccola, ad esempio inferiore a 10−1 . In questi casi è conveniente far ricorso ad una funzione che approssima la b(k; n, p), essa è dovuta a Poisson e sarà ricavata di seguito. Per k = 0, ponendo λ = np, abbiamo n b(0; n, p) = (1 − p) = λ 1− n n e, passando ai logaritmi naturali, λ ln b(0; n, p) = n ln 1 − n = −λ − λ2 −··· 2n 120 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson ove l’ultimo passaggio si giustifica sviluppando in serie di MacLaurin1 la funzione ln 1 − nλ . Sicché, per grandi valori di n, b(0; n, p) ≈ e−λ . (4.7) Dalla formula ricorsiva (4.3) ricaviamo l’espressione np − (k − 1)p np (k − 1)p λ (k − 1)p b(k; n, p) = = − = − b(k − 1; n, p) kq kq kq kq kq che, per le ipotesi poste su n e p, diventa2 b(k; n, p) λ ≈ . b(k − 1; n, p) k (4.8) Possiamo, quindi, scrivere λ = λ · e−λ , 1 λ λ2 −λ b(2; n, p) ≈ b(1; n, p) · = ·e , 2 2 λ3 −λ λ3 −λ λ ·e = ·e b(3; n, p) ≈ b(2; n, p) · = 3 6 3! b(1; n, p) ≈ b(0; n, p) · e in generale b(k; n, p) ≈ 1 λk −λ ·e . k! (4.9) A tal proposito si ricordi: ln(1 + z) = z − z3 z4 z2 + − ± ··· 2 3 4 . 2 e Infatti, essendo per ipotesi p di poco maggiore di zero, è giustificato assumere q = 1 − p ≈ 1 ≈0. (k−1)p kq 4.3 Distribuzione di Poisson 121 La (4.9) rappresenta la cosiddetta approssimazione di Poisson della distribuzione binomiale. Per ogni intero k > 0 si ha b(k; n, p) > 0 ed inoltre3 ∞ X λk k=0 k! −λ ·e −λ =e ∞ X λk k! | {z } =1. k=0 eλ Quindi, per ogni fissato valore di λ, la (4.9) è una distribuzione di probabilità; essa è denominata distribuzione di Poisson ed è indicata con la notazione: p(k, λ) = λk −λ ·e . k! (4.10) La figura 4.2 illustra il grafico della distribuzione Poisson per alcuni valori del parametro λ. La distribuzione di Poisson in questo contesto (vedi [5] e [7]) è interpretata come una approssimazione di b(k; n, p), la probabilità di ottenere esattamente k successi in n prove del Bernoulli quando n è sufficientemente grande e p piccola. Essa si configura come un modello probabilistico adatto a descrivere quelle situazioni sperimentali che rientrano nella categoria degli eventi rari, ovvero quando le repliche sono in numero elevato e l’evento successo non è frequente. La distribuzione di Poisson è comunque deducibile indipendentemente dalla distribuzione binomiale, ma l’argomento rientra nell’ambito della teoria dei processi stocastici. Esempio 4.3.1. Confronto delle due distribuzioni La distribuzione binomiale con parametri n = 100 e p = 0.02 è 100 × 0.02k × 0.98100−k k = 0, 1, 2, . . . b(k; 100, 0.02) = k 3 Lo sviluppo in serie di Taylor di exp(λ) è dato da P λk k k! . . 122 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson λ=0.5 1 0.5 0 0 5 10 15 10 15 10 15 λ=2 0.4 0.2 0 0 5 λ=5 0.2 0.1 0 0 5 Figura 4.2: Distribuzione di Poisson. Per la distribuzione di Poisson si ha λ = np = 2 e e−2 k = 0, 1, 2, . . . . k! Per piccoli valori di k si ricavano i valori riportati nella sottostante tabella p(k, 2) = 2k · k 0 1 2 3 4 5 6 b(k; 100, 0.02) .1326 .2707 .2734 .1823 .0902 .0353 .0114 p(k, 2) .1353 .2707 .2707 .1804 .0902 .0361 .0120 4.3 Distribuzione di Poisson 123 dalla quale si deduce che i valori delle due distribuzioni sono molto vicini per piccoli valori di k, per k > 4 le discrepanze cominciano ad aumentare. Come criterio generale si tenga presente che una buona approssimazione della distribuzione binomiale con una distribuzione poissoniana si ottiene per n > 20 e p 6 0.05, tale approssimazione è ottima per n > 100 e λ 6 10 . Esempio 4.3.2. Malattia genetica rara Una malattia genetica molta rara viene osservata in una data popolazione con una frequenza relativa pari a 10−3 ; la diagnosi precoce viene effettuata esaminando un campione di sangue. Essendo nell’ambito degli eventi rari la distribuzione di Poisson consente il calcolo della probabilità di trovare k soggetti affetti dalla malattia in un gruppo di n persone. In particolare si ha p(k, λ) = p(k, 10−3n) e per calcolare probabilità che almeno due dei soggetti esaminati siano malati si può applicare la relazione: P (Sn > 2) ≈ 1 − p(0, λ) − p(1, λ) = 1 − e−λ − λe−λ = 1 − (1 + λ)e−λ . Quanti soggetti devono essere studiati affinché P (Sn > 2) > 0.95 ? La precedente condizione è verificata se (1 + λ)e−λ < 0.05 . (4.11) Nella figura 4.3 è mostrato l’andamento di (1 + λ)e−λ in funzione di λ; da essa si evince che la 4.11 è verificata per λ > 4.75 e, quindi, deve essere np > 4.75 =⇒ n > 4.75 = 4750 10−3 pertanto occorre sottoporre a screening almeno 4750 persone, affinché sia superiore a 0.95 la probabilità di individuare almeno due soggetti affetti dalla malattia rara. 124 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson 0.2 0.175 0.15 (1+λ)e −λ 0.125 0.1 0.075 0.05 0.025 0 3 3.25 3.5 3.75 4 4.25 4.5 λ 4.75 5 5.25 5.5 5.75 6 Figura 4.3: Grafico di (1 + λ)e−λ in funzione di λ. 4.4 Tempi di attesa in prove del Bernoulli Supponiamo di non aver fissato in anticipo il numero n di prove del Bernoulli e di continuare a ripetere l’esperimento fino a quando non sia stato osservato l’resimo successo. Indichiamo con f (k; r, p) la probabilità che l’r-esimo successo capiti esattamente dopo r + k ripetizioni. Cominciamo considerando il caso r = 1; f (k; 1, p) è la probabilità che le prime 4.4 Tempi di attesa in prove del Bernoulli 125 k ripetizioni diano luogo all’evento elementare F e che la k + 1 prova sia un successo, si ha4 P F | F F{z. . . F} S k da cui segue ! = (1 − p)(1 − p) . . . (1 − p) p {z } | k f (k; 1, p) = p(1 − p)k k = 0, 1, 2, . . . . (4.12) La (4.12) è denominata distribuzione geometrica in quanto le probabilità f (k; 1, p) P costituiscono i termini di una serie geometrica i ar i , ove a = p ed r = 1 − p. Inoltre, essendo 0 < p < 1, f (k; 1, p) > 0 e5 ∞ X k=0 p(1 − p)k = ∀k p =1 1 − (1 − p) come richiesto dagli assiomi di Kolmogorov. Nel caso generale, per determinare l’espressione analitica di f (k; r, p) è necessario calcolare la probabilità dell’evento   SSF SF F . . . SF  ∩ S {z } | r+k−1 ovvero la probabilità che nelle prime r + k − 1 prove si ottengano, in un ordine qualsiasi, esattamente k insuccessi F e r − 1 successi S ed infine alla ripetizione r + k si osservi un successo. Si ha f (k; r, p) = b(r − 1; r + k − 1, p) · p r+k−1 r k r + k − 1 r−1 k p q . (4.13) p q ·p = = r−1 r−1 4 5 Si tenga sempre presente che le prove del Bernoulli sono per definizione indipendenti. P i Infatti la serie geometrica ∞ i=0 ar , se r ∈ (−1, 1), converge al valore a/(1 − r). 126 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson Ricordando la (2.13), possiamo porre r+k−1 r+k−1 r+k−1 = = k (r + k − 1) − (r − 1) r−1 da cui: r+k−1 r k pq f (k; r, p) = k k = 0, 1, 2 . . . . (4.14) Per un arbitrario intero r > 0 e 0 < p < 1, la successione {f (k; r, p)}, definita dalla (4.14), è una distribuzione di probabilità che, spesso, è denominata distribuzione di Pascal. A tale proposito si noti che le quantità (4.14) sono non negative; P per dimostrare che la probabilità totale k f (k; r, p) ha valore 1 è utile richiamare la seguente proprietà del coefficiente binomiale −a k a+k−1 = (−1) k k ∀a ∈ R+ . (4.15) Pertanto si ha: −r r r+k−1 r k p (−q)k pq = f (k; r, p) = k k k = 0, 1, 2 . . . Per il teorema binomiale 2.2.1, riscrivendo la relazione (1 + t)a = ponendo t = −q e a = −r, si ha . (4.16) P∞ a k=0 k tk ∞ X −r (−q)k = (1 − q)−r = p−r k k=0 da cui ∞ X f (k; r, p) = k=0 ∞ X −r k=0 k r k p (−q) = p r ∞ X −r k=0 k (−q)k = pr p−r = 1 . Per la particolare espressione (4.16) la f (k; r, p) è anche chiamata distribuzione binomiale negativa. 4.4 Tempi di attesa in prove del Bernoulli 127 Osservazione 4.4.1. Si chiama distribuzione geometrica modificata la distribuzione di probabilità pk = p(1 − p)k−1 k = 1, 2, . . . . (4.17) La (4.17) coincide con la distribuzione geometrica (4.12) se in quest’ultima si pone k = k − 1: pk = f (k − 1; 1, p). In altre parole la distribuzione geometrica modificata calcola, al variare di k, la probabiltà congiunta che l’evento in considerazione non si verifichi per k − 1 prove consecutive e che si verifichi all k-esima prova (vedi [1],[2]). Osservazione 4.4.2. Un’urna contiene a palline bianche e b palline nere. Si estraggono a caso le palline fino a quando non sia stata ottenuta la r-ma pallina bianca. Se l’estrazione è con reimbussolamento, le estrazioni rientrano nella classe delle prove del Bernoulli e, posto p = a/(a + b), la distribuzione di Pascal (4.14) consente il calcolo della probabilità che siano state estratte k palline nere prima della r-sima bianca. La situazione cambia se le estrazioni sono senza restituzione, infatti, in questo caso, il modello del Bernoulli non è applicabile in quanto la probabilità p di successo, l’estrazione della pallina bianca, non è costante ma varia da ripetizione a ripetizione. Affinché siano state estratte k palline nere prima della r-sima bianca, devono essere state ottenute r − 1 palline bianche nelle prime r + k − 1 estrazioni ed una pallina bianca nella successiva. La distribuzione ipergeometrica (2.32) consente il calcolo della probabilità di ottenere k palline nere ed r − 1 bianche nelle prime r + k − 1 estrazione: a+b b a . / r+k−1 r−1 k A questo punto nell’urna sono contenute a + b − (r + k − 1) palline, di queste a − (r − 1) sono bianche; pertanto la probabilità di successo nella (r + k)-esima estrazione è a−r+1 a+b−r−k+1 128 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson da cui segue a+b b a a−r+1 . / g(k, r) = r+k−1 a+b−r−k+1 r−1 k (4.18) Si osservi che la (4.18) è valida per k ∈ [0, b] e r 6 a. Esempio 4.4.1. Pericolo di contagio Una malattia esantematica si sviluppa in un caso su cinque bambini esposti; calcoliamo la probabilità che il terzo a contrarla sia stato preceduto da nove bambini risultati immuni. Dalla distribuzione di Pascal si ricava il valore di probabilità richiesto: 1 f (9; 3, ) = 5 3 9 1 4 11 = 55 × 0.008 × 0.1342 = 0.059 . 9 5 5 Esempio 4.4.2. Una coppia con molti figli Ipotizziamo che una coppia possa avere, nel corso degli anni, un figlio maschio o femmina con uguale probabilità. Consideriamo successo la nascita di maschio. La distribuzione geometrica (4.12) permette di calcolare la probabilità che il quarto nato sia il primo maschio: f (3; 1, 0.5) = 0.5 × (0.5)3 = 0.0625 . La probabilità che il sesto nato sia il terzo maschio si deduce applicando la distribuzione di Pascal: 1 f (3; 3, ) = 2 3 3 6 1 1 5 1 1 = 10 × = 10 × = 0.156 . 3 2 2 2 64 Esempio 4.4.3. Lanciando ripetutamente un dado calcoliamo la probabilità che un determinato numero, ad esempio il quattro, esca due volte consecutivamente dopo esattamente k > 2 lanci. Affinché si realizzi l’evento fissato, nei primi k − 2 lanci non deve mai apparire il quattro; il (k − 1)-esimo lancio deve produrre il 4.5 La distribuzione multinomiale 129 primo successo, che ha probabilità p = 1/6, ed al lancio successivo deve ancora verificarsi l’uscita del quattro. La probabilità cercata è k−2 1 1 1 5 1 × = × × . f k − 2, 1, 6 6 6 6 6 4.5 La distribuzione multinomiale La distribuzione binomiale si generalizza facilmente al caso di n prove ripetute indipendenti di un esperimento casuale E, dove l’esito di ciascuna prova può essere uno fra m possibili risultati E1 , E2 , . . . , Em . L’insieme dei possibili esiti di F ciascuna prova costituisce una partizione dello spazio campione: Ω = m i=1 Ei . Ripetendo l’esperimento per n volte si ottiene una successione di eventi del tipo: E ,E ,E ,E ,E ,E ,... | 5 1 2 {zm 2 1 } . n Indichiamo con pi la probabilità dell’evento Ei e con ki il numero di volte in cui Ei occorre in n ripetizioni indipendenti di E. Valgono i seguenti vincoli: Pm 1. i=1 pi = 1 , 2. Pm i=1 ki = n . Qual è la probabilità che, in n ripetizioni indipendenti di E, E1 occorra k1 volte, E2 occorra k2 volte e . . . Em si verifichi km volte? Nel caso di m = 2 si ricade nell’ambito della distribuzione binomiale con p1 = p, p2 = 1 − p ≡ q, k1 ∈ [0, n] e k2 = n − k1 . Nel caso generale, come abbiamo già sottolineato in precedenza, l’esito della ripetizione di n prove è una successione degli n simboli Ei e, per l’ipotesi di indipendenza, la probabilità che E1 compaia per k1 volte e . . . Em per km volte, in un fissato ordine, è pk11 pk22 · · · pkmm . (4.19) 130 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson Ad esempio, con n = 7 si potrebbe ottenere E1 , E2 , E2 , E4 , E1 , E2 , E2 ; la probabilità associata a questa specifica successione di eventi è p21 p42 p4 . Non essendo rilevante l’ordine di presentazione dei singoli esiti Ei , ma solo il numero di volte in cui ciascuno di essi occorre, per ottenere la probabilità di interesse si deve moltiplicare la (4.19) per il coefficiente multinomiale n k1 k2 . . . km che rappresenta il numero di possibili successioni in cui sono presenti k1 simboli E1 e . . . km simboli Em . In conclusione si ha: n pk1 pk2 · · · pkmm . f (n; k1 , . . . , km ) = k1 k2 . . . km 1 2 (4.20) Le probabilità definite dalla (4.20) rappresentano la cosiddetta distribuzione multinomiale. La probabilità totale, ottenuta sommando i termini f (n; k1 , . . . , km ) su tutti gli interi non negativi k1 , k2 , . . . , km , è uguale a 1 come conseguenza del teorema multinomiale 2.2.3. Infatti in questo caso il primo membro della (2.22) coincide con (p1 + p2 + · · · + pm )n = 1n = 1 . Esempio 4.5.1. Giocando a testa e croce con più monete Supponiamo di lanciare tre monete e di contare il numero di monete che mostrano testa. Ripetiamo l’esperimento per n = 10 volte; se con i ∈ [0, 3] si indica il numero di monete che mostrano testa in ciascuna prova, qual è la probabilità che si osservi la situazione seguente k0 = 1 , k1 = 3 , k2 = 4 , k3 = 2 , ove ki è il numero di volte in cui lanciando le tre monete sono state osservate i monete con l’esito testa. Si ha k0 + k1 + k2 + k3 = 10 4.5 La distribuzione multinomiale e pertanto 131 3 /23 pi = i f (10; k0, . . . , k3 ) = i = 0, 1, 2, 3 10 p1 p3 p4 p2 . 1342 0 1 2 3 Calcoliamo i fattori pki i , valgono le relazioni 3 3 3 1 3 3 0 1 2 p0 = = , p1 = = , p2 = = , 8 8 8 8 8 8 3 1 3 p4 = = , 8 8 da cui 10! f (10; k0, . . . , k3 ) = 1! × 3! × 4! × 2! 1 3 4 2 1 3 3 1 ≈ 0.026 . 8 8 8 8 CAPITOLO 5 Variabili aleatorie 5.1 Il concetto di variabile casuale 5.1.1 Considerazioni preliminari Il concetto di variabile casuale o aleatoria svolge un ruolo fondamentale nella teoria della probabilità; prima di darne la definizione formale, illustriamo, con alcuni semplici esempi e considerazioni intuitive, la necessità di introdurre questa nuova nozione ed il razionale sotteso dalla definizione stessa. Nei capitoli precedenti abbiamo messo in luce come il calcolo della probabilità di un evento casuale ha senso solamente in relazione ad uno spazio campione, associato all’esperimento, sul quale sia stata definita una misura di probabilità. È facile convincersi che le operazioni con insiemi non sono sempre agevoli, inoltre la misura di probabilità stessa è una funzione di insieme; in generale è preferibile operare con numeri reali e funzioni definite su R. In molte situazioni applicative, inoltre, la terminologia propria della teoria degli insiemi non compare esplicitamente, sebbene essa sia concettualmente sempre presente in forma implicita, mentre sono coinvolte variabili reali e loro funzioni. Consideriamo, ad esempio, il 134 Capitolo 5. Variabili aleatorie numero di particelle cosmiche che cadono in una determinata area della superficie terrestre in un intervallo temporale fissato, il numero di chiamate che pervengono ad una centralina telefonica in un intervallo di tempo di durata fissata a priori, la quotazione di un titolo azionario alla Borsa di Milano all’apertura del mercato, il numero di nuovi casi di una malattia infettiva e così via. Nonostante la diversità dei settori applicativi, questi esempi sono accomunati da una caratteristica fondamentale. In ciascun caso interviene una quantità, la variabile che esprime il numero richiesto, che non assume un unico valore determinabile per via analitica ma, per effetto di circostante casuali, una varietà di valori diversi. Non è possibile stabilire a priori quale valore la quantità in studio assumerà, perché esso cambia in maniera casuale da prova a prova. Si prefigura, in base alle precedenti considerazioni, la necessità di passare dal modello {Ω, F , P} ad un nuovo modello in cui siano coinvolte funzioni reali di variabili reali1 . Seguendo Feller [5] diamo una prima definizione di variabile aleatoria che sarà ridefinita con maggior rigore nel paragrafo successivo. Definizione 5.1.1. Una funzione X definita su uno spazio campione è detta variabile casuale. Nel nuovo modello che stiamo cercando di costruire, ad ogni punto campione ω ∈ Ω è associato un numero reale X(ω). Esaminiamo, in questo nuovo contesto, il caso delle prove del Bernoulli, indicando con Sn la variabile casuale che conta il numero di successi osservati in n ripetizioni. Lo spazio campione è composto da 2n punti2 ω, a ciascuno di essi corrisponde un numero reale Sn (ω). Tipiche variabili casuali sono il numero di assi in una mano di ramino, il numero di uscite di testa in n lanci ripetuti di una moneta, il prezzo di un grammo di oro alla Borsa 1 In altre parole nel nuovo modello la funzione di insieme P(E) è sostituita da una funzione puntuale che permette l’uso, tra altre, delle operazioni aritmetiche ed algebriche. 2 Le possibili successioni di simboli S e F di lunghezza n. 5.1 Il concetto di variabile casuale 135 di Londra etc.; appare evidente che il nuovo modello si presta meglio ad analizzare situazioni nelle quali siano coinvolte quantità continue come energia, temperatura, posizione di una particella elementare in un esperimento di diffusione, variazioni di campo elettromagnetico etc.. Osservazione 5.1.1. Nel seguito le variabili casuali saranno rappresentate da lettere latine o greche in maiuscolo3, in minuscolo il particolare valore assunto: X ≡ X(·) X(ω1 ) = x1 , Γ ≡ Γ(·) Γ(ω1 ) = γ1 . Inoltre il termine variabile casuale, e il suo sinonimo variabile aleatoria, saranno abbreviati con v-c e v-a. 5.1.2 Definizione di variabile casuale Prima di definire formalmente il concetto di v-a, è utile richiamare il concetto di misurabilità riferito ad un’applicazione. Definizione 5.1.2. Sia H un insieme, H una σ-algebra su H e g un’applicazione di H in R. Si dice che g è H misurabile se la controimmagine tramite g di ogni insieme di Borel di R è un elemento di H. La definizione precedente afferma che g è H misurabile se, ∀B ∈ B, g −1 (B) ∈ H. Nel caso particolare in cui H ≡ R e H ≡ B, la funzione g è detta Borelmisurabile4. Per non appesantire le successive formulazioni, nel seguito si farà sempre riferimento ad uno spazio di probabilità {Ω, F , P} senza richiamarlo esplicitamente. Definizione 5.1.3. Una funzione X : Ω −→ R, F misurabile, è una variabile casuale. 3 4 talvolta si usa una lettera greca minuscola ed in grassetto come χ o κ B-misurabile 136 Capitolo 5. Variabili aleatorie In virtù della 5.1.3 la controimmagine di un qualsiasi boreliano di R appartiene alla σ-algebra F : è un evento. Osservazione 5.1.2. Si noti che nella definizione 5.1.3 non interviene in alcun modo la misura di probabilità P, è essenziale, invece, dichiarare esplicitamente la σ-algebra F rispetto alla quale la funzione X è misurabile. Come sottolineato nel paragrafo 1.2.2, ricordiamo, innanzitutto, che tutti gli intervalli di R appartengono alla σ-algebra B. La controimmagine5 X −1 (] − ∞, x]), dell’intervallo (−∞, x], è l’evento {ω ∈ Ω : X(ω) 6 x}. Per indicare quest’ultimo evento useremo la notazione6 {X 6 x}. Analogamente scriveremo {X > x} per rappresentare l’evento {ω ∈ Ω : X(ω) > x} ≡ X −1 (]x, ∞[). In generale, ∀B ∈ B, con {X ∈ B} si indicherà l’evento {ω ∈ Ω : X(ω) ∈ B} ≡ X −1 (B). Inoltre, con la notazione P(X ∈ B) si denota la probabilità del summenzionato evento X −1 (B). Teorema 5.1.1. Sia X una v-a. La posizione PX (B) ≡ P(X ∈ B) ∀B ∈ B (5.1) definisce una misura di probabilità su {R, B}. Dimostrazione. Bisogna dimostrare che PX (B) verifica gli assiomi di Kolmogorov. 1. Si ha, ∀B ∈ B, PX (B) ≡ P(X ∈ B) > 0 . 5 Per esigenze grafiche talvolta useremo il simbolo ], invece di (, per indicare che l’intervallo è aperto a sinistra, e [, invece di ), per indicare che è aperto a destra. Tale simbologia, sebbene non frequente, è di uso comune in matematica. 6 Richiamiamo l’attenzione del lettore su tale notazione che ricorrerà continuamente nel testo. 5.1 Il concetto di variabile casuale 137 2. Risulta PX (R) ≡ P(X ∈ R) = P(Ω) = 1 . 3. Sia {Bn }n∈N una successione di boreliani di R a due a due incompatibili. Si ha PX ∞ G n=1 Bn ! =P X∈ ∞ G n=1 Bn ! =P = " ∞ G (X ∈ Bn ) n=1 ∞ X n=1 # P (X ∈ Bn ) = ∞ X PX (Bn ) . n=1 La misura di probabilità PX è chiamata la distribuzione (o legge) di probabilità (ddp) della variabile aleatoria X. La figura 5.1 illustra graficamente la relazione che sussiste tra P e PX nel caso in cui la variabile casuale X faccia corrispondere all’evento E un intervallo B ∈ B dell’asse reale. Definizione 5.1.4. Due v-c X ed Y , definite sullo stesso spazio di probabilità {Ω, F , P}, sono (a) indistinguibili, in tal caso scriveremo X = Y , quando X(ω) = Y (ω) ∀ω ∈ Ω; qo (b) uguali in probabilità quasi ovunque, in simboli X = Y , se P(X 6= Y ) = P({ω ∈ Ω : X(ω) 6= Y (ω)}) = 0 ; d (c) identicamente distribuite7 (id), in questo caso useremo la notazione X = Y , se le loro ddp coincidono: PX (B) ≡ PY (B) 7 equidistribuite, somiglianti ∀B ∈ B. 138 Capitolo 5. Variabili aleatorie E = X −1 (B) Ω ω PX (B) = P (E) B x = X(ω) R Figura 5.1: Misura di probabilità indotta su R dalla v-a X. Si vede facilmente che variabili aleatorie indistinguibili sono anche uguali in probabilità quasi ovunque e che v-c, uguali in probabilità quasi ovunque, sono identicamente distribuite; in generale l’inverso non è vero. Osservazione 5.1.3. La misura di probabilità P, definita sul {Ω, F }, induce, per effetto della (5.1), una nuova misura di probabilità PX . In questo modo si definisce un nuovo spazio di probabilità {R, B, PX }. Dalla legge di probabilità della v-a X, PX , si è grado di calcolare la probabilità degli eventi del tipo {X ∈ B} ≡ {ω ∈ Ω : X(ω) ∈ B}, con B ∈ B. Ma questa procedura non è soddisfacente, infatti potrebbe essere necessario applicare la (5.1) per un ampio insieme di eventi {X(ω) ∈ B}. Come vedremo nel prossimo paragrafo, PX può essere determinata in modo diverso e si passa da funzioni di insieme a funzioni di variabile reale. 5.2 La funzione di distribuzione 139 5.2 La funzione di distribuzione Definizione 5.2.1. Sia X una variabile casuale. La funzione FX : R −→ [0, 1], definita ponendo FX (x) = PX (]−∞, x]) ≡ P(X 6 x) ∀x ∈ R, (5.2) prende il nome8 di funzione di distribuzione (fdd) della v-c X. L’importanza fondamentale della funzione di distribuzione FX è che essa specifica la ddp PX e, viceversa, quest’ultima determina univocamente la FX . Infatti, se è nota la ddp per tutti gli intervalli del tipo (−∞, x], la (5.2) determina la FX (x), per ogni numero reale x. Viceversa, supponiamo nota la FX (x). Per ogni coppia di numeri reali x1 e x2 , tali che x1 < x2 , si ha P({ω ∈ Ω : X(ω) 6 x2 }) = P({ω ∈ Ω : X(ω) 6 x1 }) + P({ω ∈ Ω : x1 < X(ω) 6 x2 }). (5.3) Infatti {ω ∈ Ω : X(ω) 6 x2 }) = {ω ∈ Ω : X(ω) 6 x1 }) ⊔ {ω ∈ Ω : x1 < X(ω) 6 x2 } ed, inoltre, la misura di probabilità P additiva su {Ω, F }. Dalla relazione (5.3) segue che P({ω ∈ Ω : X(ω) ∈ (x1 , x2 ]}) = P(X 6 x2 ) − P(X 6 x1 ) e pertanto PX (X ∈ (x1 , x2 ]) = FX (x2 ) − FX (x1 ). 8 o funzione di ripartizione (5.4) 140 Capitolo 5. Variabili aleatorie Nel caso particolare in cui x2 = +∞, otteniamo, ponendo x = x1 , PX (X ∈ (x, +∞[) ≡ PX (X > x) = 1 − FX (x). (5.5) Cosicché la descrizione di un modello probabilistico è da considerasi completa una volta che sia stata specificata la fdd FX (x). Osservazione 5.2.1. In virtù della definizione 5.1.4, se due variabili casuali X e Y sono equidistribuite si ha ∀x ∈ R, FX (x) = FY (y). Nel seguito, qualora non si determini confusione, per non appesantire le formule si ometterà il suffisso X nell’indicare la funzione di distribuzione. Teorema 5.2.1. Sia F (x) una funzione di distribuzione. Essa gode delle seguenti proprietà (i) 0 6 F (x) 6 1 ∀x ∈ R; (ii) F è non decrescente in R; (iii) F è continua a destra in R; (iv) limx→+∞ F (x) = 1 e limx→−∞ F (x) = 0 . Dimostrazione. La proprietà (i) deriva dalla definizione di funzione di distribuzione. L’asserto (ii) segue da carattere monotòno di P. Infatti, se x1 < x2 , l’evento {X 6 x1 } è contenuto nell’evento {X 6 x2 }, di conseguenza: P (X 6 x1 ) 6 P (X 6 x2 ) ⇐⇒ F (x1 ) 6 F (x2 ). Per dimostrare la (iii) si deve verificare la relazione lim F (x + ε) = F (x) ∀x ∈ R. ε→0+ (5.6) 5.2 La funzione di distribuzione 141 F è una funzione non decrescente e limitata, ciò garantisce l’esistenza del limite a primo membro della (5.6). Si deve dimostrare che il valore di tale limite è quello indicato a secondo membro della (5.6). Per tale scopo è sufficiente dimostrare che 1 = F (x) ∀x ∈ R. lim F x + n→+∞ n Poniamo An = X ∈ x, x + n1 , ove n è un generico intero; possiamo scrivere: 1 1 =P X 6x+ F x+ n n 1 = P(X 6 x) + P x < X 6 x + = F (x) + P (An ) . n Da quest’ultima relazione, passando al limite per n → ∞, tenendo conto che, al crescere di n, An tende all’evento impossibile e della continuità di P, si ottiene: 1 = F (x) + lim P(An ) = F (x) + P(∅) = F (x) lim F x + n→+∞ n→+∞ n ed anche la (iii) è stata dimostrata. Poiché F (x) è una funzione monotòna, per dimostrare la (iv) è sufficiente dimostrare che lim F (n) = 1 e n→+∞ lim F (−n) = 0 . n→+∞ + Poniamo, ∀n ∈ N, A+ n = {X 6 n}, la successione {An } è una successione crescente all’evento certo; dalla continuità di P segue lim F (n) = lim P(X 6 n) = lim P A+ n = 1 . n→+∞ n→+∞ n→+∞ Analogamente, se poniamo A− n = {X 6 −n}, ∀n ∈ N, si ricava lim F (−n) = lim P(X 6 −n) = lim P A− n = 0 n→+∞ n→+∞ n→+∞ in quanto la successione {A− n } è una successione decrescente all’evento impossibile. 142 Capitolo 5. Variabili aleatorie È possibile dimostrare il seguente teorema che evidenzia il ruolo caratterizzante delle proprietà (i)-(iv)9 . Teorema 5.2.2. Sia F (x) una funzione, definita su R ed a valori in [0, 1], tale che 1. F (x) è non decrescente; 2. F (x) è continua a destra in ogni x ∈ R; 3. limx→∞ F (x) = 1 e limx→−∞ F (x) = 0 . Esistono, allora uno spazio di probabilità {Ω, F , P} e una variabile aleatoria X definita su Ω per i quali si ha: FX (x) = F (x) ∀x ∈ R. Esprimiamo ora, in termini di funzione di distribuzione, la probabilità di alcuni eventi, riprendendo la linea di ragionamento che ha portato alle formulazione della (5.4) e della (5.5). Useremo la notazione F (x− ) per rappresentare il limε→0+ F (x − ε). Proposizione 5.2.1. P(X = x) = F (x) − F (x− ). (5.7) Per giustificare la (5.7) osserviamo che, ∀n ∈ N, 1 1 ⊔ x− <X 6x {X 6 x} = X 6 x − n n e, quindi, F (x) = F 9 1 x− n 1 +P x− <X 6x . n Nella dimostrazione ricorre il concetto di misura di Lebesgue-Stieltjes; il lettore interessato può far riferimento al testo [2]. 5.2 La funzione di distribuzione 143 Dalla precedente relazione discende: 1 1 + lim P x − < X 6 x . F (x) = lim F x − n→∞ n→∞ n n 1 decresce all’evento {x}, passando al liLa successione x − < X 6 x n n∈N mite per n → ∞, sicché 1 + P(X = x) F (x) = lim F x − n→∞ n e 1 . P(X = x) = F (x) − lim F x − n→∞ n Essendo P non decrescente, possiamo scrivere 1 F (x ) ≡ lim+ F (x − ε) = lim F x − n→∞ ε→0 n − e la proposizione è stata dimostrata. Proposizione 5.2.2. P(x1 6 X 6 x2 ) = F (x2 ) − F (x− 1 ). (5.8) La dimostrazione della (5.8) si basa sulla seguente decomposizione {x1 6 X 6 x2 } = {X = x1 } ⊔ {x1 < X 6 x2 } . Da essa si ricava P (x1 6 X 6 x2 ) = P (X = x1 ) + F (x2 ) − F (x1 ) − = F (x1 ) − F (x− 1 ) + F (x2 ) − F (x1 ) = F (x2 ) − F (x1 ) e la tesi della proposizione è stata dimostrata. 144 Capitolo 5. Variabili aleatorie Proposizione 5.2.3. P(x1 < X < x2 ) = F (x− 2 ) − F (x1 ). (5.9) La dimostrazione della (5.9) ricalca quella della (5.8); infatti si ha {x1 < X 6 x2 } = {x1 < X < x2 } ⊔ {X = x2 } e, passando alle probabilità, P (x1 < X < x2 ) = P (x1 < X 6 x2 )−P (x2 ) = F (x2 )−F (x1 )−F (x2 )+F (x− 2 ). Proposizione 5.2.4. − P(x1 6 X < x2 ) = F (x− 2 ) − F (x1 ). (5.10) Si ha {x1 6 X < x2 } = {X = x1 } ⊔ {x1 < X < x2 } da cui P (x1 6 X < x2 ) = P (x1 ) + P (x1 < X < x2 ) − − − = F (x1 ) − F (x− 1 ) + F (x2 ) − F (x1 ) = F (x2 ) − F (x1 ). Proposizione 5.2.5. P(X < x) = F (x− ). (5.11) Osserviamo che {X 6 x} = {X < x} ⊔ {X = x} e P(X < x) = F (x) − P(X = x) = F (x) − F (x) + F (x− ) = F (x− ). Proposizione 5.2.6. P(X > x) = 1 − F (x− ). (5.12) La (5.12) si dimostra considerando la relazione {X > x} = {X < x} e la (5.11). 5.3 Variabili aleatorie discrete 145 5.3 Variabili aleatorie discrete I concetti e le formule del precedente paragrafo hanno validità generale; tratteremo ora il caso particolare delle cosiddette variabili casuali discrete. A tale scopo rammentiamo che un sottoinsieme di R, finito o al più numerabile, appartiene a B. Definizione 5.3.1. Una variabile casuale X si dice discreta se esiste un sottoinsieme SX di R, finito o al più numerabile, che soddisfa le condizioni: (i) l’evento {X ∈ SX } è quasi certo; (ii) ∀x ∈ SX , PX ({x}) ≡ P(X = x) > 0 . L’insieme SX è chiamato spettro della variabile aleatoria X. In questo contesto si considera la restrizione, pX : R −→ [0, 1], della legge di probabilità PX ai singoletti {x} ∈ R: pX (x) ≡ PX ({x}) ≡ P(X = x) ∀x ∈ R. (5.13) La funzione pX assume un valore positivo esclusivamente se x ∈ SX ed è nulla per tutti gli altri x ∈ R; essa prende il nome10 di funzione di probabilità o distribuzione di probabilità o funzione massa della v-a. La funzione massa soddisfa la relazione11 : ∞ X pX (xi ) = PX (SX ) = 1 (5.14) i=1 10 Alcuni autori usano anche il termine densità discreta (vedi [1]); la giustificazione di tale terminologia sarà chiara dopo aver introdotto le variabili casuali assolutamente continue. 11 Per giustificare i termini funzione massa e densità discreta, immaginiamo di avere a disposizione una massa unitaria di una generica sostanza e di distribuirla sull’asse reale in modo tale che essa sia concentrata solamente nei punti xj ∈ SX per una quantità pari a pX (xj ). 146 Capitolo 5. Variabili aleatorie Teorema 5.3.1. Sia X una v-c discreta con spettro SX rappresentato da una successione crescente {xn }n∈N . La legge di probabilità PX è univocamente determinata da SX ≡ {xn }n∈N e dalla successione di numeri reali {pX (xn )}. Dimostrazione. Per dimostrare la tesi si osservi, innanzitutto, che, ∀B ∈ B, è possibile decomporre l’evento {X ∈ B} come l’unione di eventi disgiunti {X ∈ B} = {X ∈ (B ∩ SX )} ⊔ X ∈ B ∩ SX . ed allora possiamo scrivere PX (B) ≡ P(X ∈ B) = PX (X ∈ (B ∩ SX )) + PX X ∈ B ∩ SX . L’evento X ∈ B ∩ SX è contenuto nell’evento quasi impossibile B ∩ SX ed ha probabilità nulla. Dalle precedenti considerazioni si evince che, ∀B ∈ B, PX (B) ≡ P(X ∈ B) = PX (X ∈ (B ∩ SX )) = X pX (xn ). (5.15) n:xn ∈B Il teorema 5.3.1 vale in generale qualunque sia la v-a discreta. Nel caso di spettri a cardinalità finita m, PX è individuata, in maniera univoca dalla successione ordinata (x1 , x2 , . . . , xm ) e dalla m-upla pX (x1 ), pX (x2 ), . . . , pX (xm ) delle rispettive probabilità. Nel seguito, se non espressamente indicato, si farà riferimento a variabili casuali discrete con spettro a cardinalità numerabile ed i risultati ottenuti avranno validità anche nel caso di uno spettro finito12 . Per non appesantire le formule, al solito e se possibile, si ometterà di indicare il suffisso X. 12 In questo case alla serie con un numero infinito di termini deve essere sostituita una somma finita. 5.3 Variabili aleatorie discrete 147 Se il boreliano B coincide con l’intervallo (−∞, x], dalla (5.15) si ricava la funzione di distribuzione F : F (x) = P(X 6 x) = X p(xn ) n:xn 6x ∀x ∈ R. (5.16) Riprendiamo la (5.7); si ha ∆F (x) = F (x) − F (x− ) = P(X = x). Se x ∈ / SX , ∆F (x) = 0 ed F è continua in x. Se, invece, esiste un intero k per il quale x = xk ∈ SX allora ∆F (x) = p(xk ) e la F (x) ha una dicontinuità in xk , il salto coincide con la probabilità che la v-a X assuma il valore xk . Osservazione 5.3.1. La funzione a gradino di Heaviside, o funzione gradino unitario, è definita dalla relazione H(x) = ( 0 se x < 0 1 se x > 0 per cui H(x) assume il valore 1 quando il suo argomento è non negativo. Grazie alla funzione di Heaviside, possiamo riscrivere la (5.16) come: F (x) = ∞ X n=1 p(xn )H(x − xn ). (5.17) Infatti, per la (5.16), contribuiscono a determinare il valore di F (x) solamente i termini p(xn ) che verificano la condizione xn 6 x. Teorema 5.3.2. Sia {xn }n∈N una successione crescente di numeri reali, sia, inoltre {pn }n∈N una successione di numeri reali che verifica le condizioni 1. pn > 0 ∀n ∈ N; 2. P n pn = 1 (condizione di normalizzazione). 148 Capitolo 5. Variabili aleatorie Esistono allora una spazio di probabilità {Ω, F , P} ed una variabile casuale X discreta, definita su Ω e con spettro SX che coincide con la successione {xn }n∈N , tali che, ∀n ∈ N, pX (xn ) = pn . Dimostrazione. Definiamo la funzione F : R −→ [0, 1] ponendo: X F (x) = pn ∀x ∈ R (5.18) n:xn 6x e dimostriamo che essa gode delle proprietà che caratterizzano una funzione di distribuzione (vedi teoremi 5.2.1 e 5.2.2). Siano x e y due numeri reali tali che x < y; risulta X X pn = F (y) − F (x) = pn − n:xn 6y n:xn 6y X pn > 0 . n:x<xn 6y La precedente relazione dimostra che la F (x), definita dalla posizione (5.18), è non decrescente. Dimostriamo ora che essa è anche continua a destra. Fissato un generico numero reale x, indichiamo con k l’intero per il quale siano verificate le condizioni xk 6 x e xk+1 > x; poniamo, inoltre, δ = xk+1 − xk . Cal- coliamo il valore della funzione di distribuzione nel punto x + ε, per un qualunque valore di ε < δ; si ha F (x + ε) = X n:xn 6x+ε pn = k X n=1 pn ≡ X pn = F (x) n:xn 6x e da quest’ultima relazione si deduce che limε→0+ F (x + ε) = F (x). Poiché per definizione F (x) = 0 se ∀x < x1 , si ha limx→−∞ F (x) = 0; inoltre lim F (x) = x→+∞ X pn = n:xn <+∞ e la dimostrazione della tesi è stata completata13. 13 Dire che x < x1 equivale a dire che x ∈ / SX . ∞ X n=1 pn = 1 5.3 Variabili aleatorie discrete 149 5.3.1 Alcune variabili casuali discrete Nel dare qualche esempio di v-a discrete si evidenzierà come l’introduzione del concetto di variabile casuale permette di trattare tramite funzioni a variabile reale anche fenomeni di tipo qualitativo. Consideriamo l’esperimento casuale che consiste nel lancio di una moneta. Lo spazio di probablità associato all’esperimento è {Ω, F , P} con14 1. Ω = {T, C}; 2. F = {∅, {T }, {C}, Ω}; 3. P(∅) = 0 P({T }) = p P({C}) = q ≡ 1 − p P(Ω) = 1 . Introduciamo la funzione X : Ω −→ R, ponendo X(T ) = 1 e X(C) = 0, e verifichiamo che essa è una variabile casuale. Per tale scopo occorre dimostrare la F misurabilità di X. Ciò segue immediatamente dalle relazioni:  se x < 0 ,   ∅∈F {ω ∈ Ω : X(ω) 6 x} = {C} ∈ F se 0 6 x < 1 ,   Ω∈F se x > 1 . La fdd F (x), per la (5.2), è data da:  se x < 0 ,   P{∅} = 0 F (x) ≡ P({X 6 x}) = P({C}) = q se 0 6 x < 1 ,   P(Ω) = 1 se x > 1 . Grazie alla funzione a gradino unitario la F assume la forma più compatta: F (x) = qH(x) + pH(x − 1). 14 Ricordiamo che nel caso di una moneta equa p = q = 1/2. 150 Capitolo 5. Variabili aleatorie La funzione probabilità p(x) assume i valori p(0) = q e p(1) = p: la massa unitaria è concentrata nei due soli puti 0 e 1 . Nel capitoli precedenti, nel trattare gli spazi campione discreti, abbiamo introdotto alcune importanti distribuzioni di probabilità, esse sono valide anche utilizzando il formalismo connesso al concetto di variabile casuale15 . Esaminiamo, ad esempio, il caso della distribuzione binomiale b(k; n, p); fissato n ∈ N, la successione {b(k; n, p)} verifica i vincoli richiesti dalla definizione di funzione massa fissati nel paragrofo 5.3 ed inoltre la successione di interi {k} ≡ {k : 0 6 k 6 n} è finita e crescente. Il teorema 5.3.2 assicura che esiste una variabile casuale il cui spettro coincide con la successione degli interi positivi compresi tra 1 ed n e che ha come legge di probabilità la distribuzione di probabilità binomiale (4.1). Tale variabile casuale è generalmente denotata con Sn : in numero di successi in n prove del Bernoulli16 . La (4.5) consente il calcolo della funzione di distribuzione FSn . Un discorso analogo può essere proposto per definire la variabile casuale di Poisson. Una variabile casuale X è detta di Poisson con parametro λ se ammette come spettro l’insieme N0 , dei numeri interi positivi, zero incluso, e come funzione massa la successione di termine generale dato dalla (4.10): p(k, λ) = λk −λ ·e k! k ∈ N0 . L’esistenza della v-c di Poisson è assicurata dal teorema 5.3.2 e dalle proprietà della legge p(k, λ) richiamate nel paragrafo 4.3: X p(k, λ) = 1 . p(k, λ) > 0 ∀k ∈ N0 e k∈N0 15 Alcuni autori, citati in bibliografia, introducono tali leggi partendo direttamente dal concetto di v-a. 16 Il lettore interessato consulti [1] e [4] per le definizioni delle leggi di probabilità binomiale, di Poisson etc. partendo direttamente dal formalismo delle variabili casuali. 5.4 Variabili aleatorie assolutamente continue 151 La funzione di distribuzione, indicando con [x] il massimo intero non maggiore di x, è data da: F (x) = X −λ p(k, λ) = e [x] X λk k=0 k∈N0 :k6x k! . (5.19) Le considerazioni precedenti si applicano anche alle altre leggi di probabilità e, di conseguenza, si definiscono le variabili casuali geometrica, ipergeometrica e così via. Osservazione 5.3.2. La distribuzione geometrica gode della proprietà di mancanza di memoria. Sia X una variabile casuale geometrica, vale la seguente relazione: P(X > k) = ∞ X f (i; 1, p) = i=k i=k = ∞ X p(1 − p)i ponendo j = i − k ∞ X j=0 p(1 − p)j+k 1 z }| { ∞ X = (1 − p)k p(1 − p)j = (1 − p)k . (5.20) j=0 Si ha: P(X = k + m, X > k) P(X = k + m) = P(X > k) P(X > k) k+m p(1 − p) = = p(1 − p)m = f (m; 1, p) ≡ P(X = m). (1 − p)k P(X = k + m|X > k) = 5.4 Variabili aleatorie assolutamente continue Come abbiamo dimostrato la relazione (5.7), P(X = x) = F (x) − F (x− ), consente il calcolo della probabilità di singoli valori della variabile casuale X. Nel 152 Capitolo 5. Variabili aleatorie caso di variabili casuali discrete essa è diversa da zero e coincide con il valore che la funzione massa assume nel punto x. Nel caso di variabili casuali con fdp continua la probabilità che X assuma un fissato valore x, essendo F (x) = F (x− ), sarà sempre nulla; ha senso, invece, la determinazione della probabilità che una variabile casuale, caratterizzata da un F (x) continua, assuma valori in un prefissato intervallo dell’asse reale. Per tale scopo si introduce una nuova funzione. Definizione 5.4.1. Sia X una variabile casuale ed indichiamo con F (x) la sua funzione di distribuzione. Si dice che X è una variabile aleatoria assolutamente continua se esiste una funzione f (x) non negativa tale che, ∀x ∈ R, consenta di esprimere la funzione di distribuzione nella forma Z x F (x) = f (ξ)dξ. (5.21) −∞ La funzione f (x) prende il nome di densità di probabilità della v-c X e la F (x) è detta assolutamente continua. Dalla proprietà (iv) del teorema 5.2.1, limx→+∞ F (x) = 1, deriva la condizione di normalizzazione Z +∞ f (x)dx = 1 . (5.22) −∞ In ogni punto x in cui f (x) è continua, come conseguenza del teorema fondamentale del calcolo integrale17, si ha: d d F (x) = f (x) = dx dx Z x f (ξ)dξ. (5.23) −∞ Teorema 5.4.1. Data una funzione f (x) a valori reali non negativi che sia inteZ +∞ grabile in R e tale che f (x)dx = 1, esiste allora una variabile casuale X −∞ che ammette f (x) come funzione densità di probabilità. 17 Il lettore interessato può approfondire lo studio riferendosi ai corsi di analisi matematica che trattano l’integrazione di Lebesgue. 5.4 Variabili aleatorie assolutamente continue 153 Dimostrazione. Per dimostrare la tesi occorre costruire, data f (x), una funzione di distribuzione F (X) Z in modo tale che si possa, poi, richiamare il teorema x 5.2.2. Ponendo F (x) = f (ξ)dξ, si ottiene una funzione F (x) che verifica le −∞ proprietà (i)-(iv) dell’enunciato del teorema 5.2.1. Osservazione 5.4.1. Per una variabile casuale assolutamente continua la conoscenza della funzione di distribuzione è equivalente alla conoscenza della densità di probabilità, infatti da entrambe si può calcolare la probabilità che la variabile casuale assuma valori in un prefissato intervallo dell’asse reale. Si ha: Z b f (x)dx = a Z b −∞ f (x)dx − Z a −∞ f (x)dx = F (b) − F (a) = P(X 6 b) − P(X 6 a) = P(a < X 6 b). (5.24) Poiché P (X = x) = 0, qualunque sia il numero reale x, valgono le relazioni P(a < X < b) = P(a 6 X < b) = P(a < X 6 b) = P(a 6 X 6 b). (5.25) La figura 5.2 è l’interpretazione grafica della (5.24). Diversamente dalla funzione massa, la funzione densità di probabilità non rappresenta un valore di probabilità, è invece una probabilità l’integrale di f (x) calcolato tra due limiti di integrazione a < b, comunque fissati. Per rendere ancora più immediato il concetto, si consideri un piccolo intervallo ∆x dell’asse reale. Come risulta evidente dalla figura 5.3, in virtù della (5.24) è il prodotto f (x)∆x che approssima la probabiltà P(X ∈ [x, x + ∆x]) ≡ P(x 6 X 6 x + ∆x). La notazione f (x)dx ≈ P(x 6 X 6 x + dx), esprime lo stesso concetto. Osservazione 5.4.2. In molte circostanze la funzione di distribuzione FX (x), per x ∈ R, si decompone nella somma di due termini, FX (x) = α1 F1 (x) + α2 F2 (x), ove α1 e α2 sono costanti tali che α1 +α2 = 1, F1 (x) è una funzione di distribuzione assolutamente continua ed F2 (x) è la funzione di distribuzione di una variabile Capitolo 5. Variabili aleatorie f(x) 154 a b x Figura 5.2: P(a 6 X 6 b) ≡ Rb a f (x)dx ≡ area sottesa da f (x) tra a e b. casuale discreta. In questo caso la variabile casuale X può considerarsi composta dalla somma di due parti una assolutamente continua e l’altra discreta18 . Rimandiamo ai capitoli successivi l’introduzione di specifiche variabili casuali assolutamente continue di uso più comune nel calcolo delle probabilità; in questo paragrafo introduciamo, come esempio, la legge esponenziale e la legge uniforme. Esempio 5.4.1. Legge esponenziale Nel paragrafo 1.3.1 abbiamo sottolineato come evidenze sperimentali suggeriscano che la probabilità che un atomo di radio decada spontaneamente in un numero 18 Se α1 = 0 e α2 = 1, la v-c X è discreta; se α1 = 1 e α2 = 0, la v-c X è assolutamente continua. 155 f(x) 5.4 Variabili aleatorie assolutamente continue f(x)∆x ∆x x Figura 5.3: f (x)∆x ≈ P(x 6 X 6 x + ∆x). td di anni è 1 − exp(−γtd ), ove γ è una costante positiva. Se con T indichiamo la variabile casuale tempo di attesa per il decadimento, possiamo scrivere P(T 6 t) ≡ FT (t) = 1 − e−γt (5.26) con t ∈ [0, +∞); naturalmente la possibilità che t sia uguale a zero è considerata solo per ragioni di natura matematica. Dalla (5.26) si ricava: fT (t) = d FT (t) = γe−γt . dt (5.27) In generate con la variabile casuale T si può rappresentare il tempo di attesa di eventi di una qualunque natura: il tempo di buon funzionamento, o di rottura, di 156 Capitolo 5. Variabili aleatorie un’apparecchiatura, l’intervallo di tempo che intercorre tra due successive emissioni di particelle elementari o tra due incidenti, e così via. In molte situazioni pratiche il modello espresso dalla (5.26), o in modo equivalente dalla (5.27), è realistico. La (5.27) rappresenta la cosiddetta densità di probabilità o legge esponenziale a parametro γ > 0, la (5.26) è denominata distribuzione esponenziale19. Consideriamo un tempo t0 > 0, si ha P(T > t0 ) = 1 − FT (t0 ) = e−γt0 . (5.28) Calcoliamo, ora, P(t0 6 T 6 t0 + τ ), con τ > 0; vale la relazione P(t0 6 T 6 t0 + τ ) = FT (t0 + τ ) − FT (t0 ) = 1 − e−γ(t0 +τ ) − 1 + e−γt0 = e−γt0 1 − e−γτ . (5.29) Inoltre si ha P(T > t0 + τ |T > t0 ) = e−γ(t0 +τ ) P(T > t0 + τ ) = = e−γτ . P(T > t0 ) e−γt0 (5.30) Se T rappresenta il tempo di attesa di un generico evento per il quale è valido il modello probabilistico di tipo esponenziale, la precedente relazione afferma che se esso non si è verificato nel tempo t0 , la probabilità che non occorra in un intervallo successivo di tempo di durata τ dipende solamente dal valore di τ . Analogamente, con una interpretazione simile alla precedente, possiamo scrivere P(T 6 t0 + τ ) e−γt0 (1 − e−γτ ) P(T 6 t0 + τ |T > t0 ) = = = 1 − e−γτ . (5.31) −γt 0 P(T > t0 ) e Le figure 5.4 e 5.5 mostrano, rispettivamente, la ddp e la fdd esponenziale per due differenti valori del parametro γ. 19 Se x < 0 si pone f (x) = 0 e F (x) = 0 . 5.4 Variabili aleatorie assolutamente continue 157 4 f(x) 3.5 3 γ=4 2.5 2 1.5 1 γ=2 0.5 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 x Figura 5.4: Densità di probabilità esponenziale. Esempio 5.4.2. Distribuzione uniforme Una variabile casuale X ha una densità di probabilità uniforme nell’intervallo dell’asse reale (0, a) se f (x) assume un valore costante nell’intervallo ed è nulla al di fuori di esso. Indicando con k il valore della costante, per la condizione di normalizzazione si ha 1= Z +∞ f (x)dx = −∞ Z a kdx = ak 0 1 1 e quindi, deve essere k = . In conclusione, per x ∈ (0, a), f (x) = e f (x) = 0 a a se x ∈ / (0, a). La funzione di distribuzione uniforme si ricava integrando la f (x): Z x F (x) = f (x)dx. −∞ Dall’andamento analitico di f (x) si ricava che la funzione di distribuzione uniforme è nulla per ogni reale x < a, inoltre, se 0 < x 6 a, Z 1 x 1 F (x) = dξ = · x a −∞ a 158 Capitolo 5. Variabili aleatorie 1 F(x) γ=4 γ=2 0.5 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 x Figura 5.5: Funzione di distribuzione esponenziale. e, se x > a, F (x) = Z a f (x)dx + −∞ Z x a f (x)dx = F (a) ≡ 1 in quanto la f (x) è nulla per x > a. Esempio 5.4.3. Consideriamo la funzione ( 2x−3 se x > 1 f (x) = 0 altrove e verifichiamo che essa è una funzione densità di probabilità. La f (x), affinché sia una densità di probabilità, deve soddisfare le condizioni f (x) > 0, ∀x ∈ R e R +∞ f (x)dx = 1; la prima condizione è chiaramente soddisfatta, inoltre si ha: −∞ Z +∞ f (x)dx = 2 −∞ Z +∞ −∞ x−3 dx = −2 × 1 −2 +∞ × x 1 = −[0 − 1] = +1 . 2 5.4 Variabili aleatorie assolutamente continue 159 Esempio 5.4.4. Data la funzione f (x) = α exp(−x) determiniamo il valore della costante α affinché essa rappresenti una densità di probabilità, nell’ipotesi che x ∈ [0, 1]. R1 La costante α deve essere tale che f (x) > 0 e 0 f (x)dx = 1. Si ha 1 Z 1 1 e−1 1 −x −1 = e dx = − x = − e 0 e e 0 e quindi α deve verificare la condizione e−1 =1 e dalla quale segue α ≈ 1.6. Per il valore calcolato di α si ha anche f (x) > 0 se α· x ∈ [0, 1]. Fissato il valore di α, la funzione di distribuzione F (x) è data da Z x F (x) = α e−ξ dξ = −α e−x − 1 = α 1 − e−x se x ∈ [0, 1]. 0 F (x) è nulla se x < 0 e F (x) = 1 se x > 1. Esempio 5.4.5. Data la funzione   1 exp(x) se x ∈ [0, β] e β ∈ R+ f (x) = 2  0 altrove determiniamo β affinché essa rappresenti una densità di probabilità. Deve valere la condizione di normalizzazione, pertanto Z 1 β 1 β x e −1 e dx = 1= 2 0 2 da cui segue exp(β) = 3 ed infine otteniamo β = ln 3. La funzione di distribuzione F (x) è nulla se x < 0 ed assume il valore 1 se x > ln 3; nell’intervallo [0, ln 3] si ha 1 F (x) = 2 Z 0 x eξ dξ = 1 x (e − 1) . 2 160 Capitolo 5. Variabili aleatorie Esempio 5.4.6. La funzione f (x) = ( π π <x<+ 2 2 altrove a cos x se − 0 π π è non negativa in − , + , determiniamo a in modo tale f (x) possa essere 2 2 considerata una funzione densità di probabilità. Si ha Z +∞ Z +π 2 1= f (x)dx = a cos xdx − π2 −∞ =a· +π/2 sin x|−π/2 h π π i = a sin + − sin − = 2a 2 2 e quindi, per a = 1/2, la f (x) è una funzione densità di probabilità. Calcoliamo la probabilità che X assuma un valore nell’intervallo 0, π : 4 Z π π 1 +4 P 0<X< = cos xdx 4 2 0 i 1√ 1 h π 1 sin − sin(0) = = 2 ≈ 0.354 . = · sin x|π/4 0 2 2 4 4 Esempio 5.4.7. Data la funzione densità di probabilità   2 1− x se 0 < x < a f (x) = a a  0 altrove determiniamo Z xla funzione di distribuzione F (x). Per tale scopo si deve calcolare F (x) = f (ξ)dξ. Tenuto conto dell’andamento analitico di f (x), risulta −∞ F (x) = 0, ∀x 6 0. Se x ∈ (0, a), si ha Z Z Z 2 x ξ 2 x 2 x dξ = 1− dξ − 2 ξdξ F (x) = a 0 a a 0 a 0 2 xi 2 x2 xh = ·x− 2 · 2− . = a a 2 a a 5.5 Variabili casuali n-dimensionali Per x > a possiamo scrivere Z x Z F (x) = f (ξ)dξ = −∞ a f (ξ)dξ + 0 161 Z x f (ξ)dξ = F (a) + a Z x f (ξ)dξ. a Poiché per x > a la funzione densità di probabilità si annulla, si ha ai ah 2− = 1 se x > a. F (x) = F (a) = a a Esempio 5.4.8. Determiniamo il valore della costante c per cui la funzione f (x) = 2cx + 3c2 x2 possa rappresentare la funzione densità di probabilità di una v-c assolutamente continua. Si assuma c > 0 e x Z∈ [0, 1]. 1 La costante c deve verificare la condizione 0 Z 1 0 2cx + 3c2 x2 dx = 1. Si ha 1 2cx + 3c2 x2 dx = cx2 + c2 x3 0 . Pertanto c è soluzione dell’equazione c2 + c − 1 = 0 da cui si ricava √ −1 ± 5 c= 2 √ e, per il vincolo posto su c, abbiamo c = 5 − 1 /2 ≈ 0.62. 5.5 Variabili casuali n-dimensionali Siano X1 , X2 , . . . , Xn , n variabili casuali definite in uno stesso spazio di probabilità {Ω, F , P}; denominiamo variabile casuale n-dimensionale o vettore casuale X la n-pla X ≡ (X1 , X2 , . . . , Xn ) . Determiniamo FX . Fissata una generica n-pla di reali x = (x1 , . . . , xn ), si consideri l’insieme {ω ∈ Ω : X1 6 x1 , . . . , Xn 6 xn } ≡ {X1 6 x1 , . . . , Xn 6 xn }, si 162 Capitolo 5. Variabili aleatorie ha: {X1 6 x1 , . . . , Xn 6 xn } = {X1 6 x1 } ∩ · · · ∩ {Xn 6 xn } . (5.32) Essendo intersezione di elementi di F , anche {X1 6 x1 , . . . , Xn 6 xn } ∈ F , ossia è un evento. Definizione 5.5.1. Si definisce funzione di distribuzione della vettore casuale X, o funzione di distribuzione congiunta della variabili casuali X1 , . . . , Xn , la funzione FX (x) ≡ FX1 ...Xn (x1 , . . . , xn ) : Rn −→ [0, 1] data dalla relazione FX (x) = P (X1 6 x1 , . . . , Xn 6 xn ) . (5.33) Per introdurre le proprietà della funzione di distribuzione congiunta limitiamoci, per semplicità, ad esaminare in dettaglio il caso di n = 2, sottolineando che esse sono valide per un generico n > 1. Poniamo X1 = X e X2 = Y ed indichiamo la FXY (x, y) con F (x, y). La (5.33) diventa: F (x, y) = P (X 6 x, Y 6 y) . (5.34) Introduciamo la seguente notazione (vedi [9]) lim F (x, y) = F (−∞, y), lim F (x, y) = F (∞, y), x→−∞ x→+∞ lim F (x, y) = F (x, −∞), lim F (x, y) = F (x, ∞), y→−∞ y→+∞ lim lim F (x, y) = F (∞, ∞). x→+∞ y→+∞ Proposizione 5.5.1. La funzione di distribuzione F(x,y) è tale che F (−∞, y) = 0 , (5.35a) F (x, −∞) = 0 , (5.35b) F (∞, ∞) = 1 . (5.35c) 5.5 Variabili casuali n-dimensionali 163 Osserviamo che risulta {X = −∞, Y 6 y} ⊂ {X = −∞} ed, analogamente, {X 6 x, Y = −∞} ⊂ {Y = −∞}. Poiché P(X = −∞) = P(Y = −∞) = 0, si ricavano20 la (5.35a) e la (5.35b). La (5.35c) è una conseguenza delle relazioni {X 6 ∞, Y 6 ∞} ≡ Ω e P(Ω) = 1. Seguendo la stessa linea di ragionamento utilizzata nel caso unidimensionale, si dimostrano le proprietà enunciate nella seguente proposizione. Proposizione 5.5.2. Sia F(x,y) la funzione di distribuzione congiunta della variabile casuale bidimensionale (X,Y). Allora 1. per ogni coppia di reali (x, y) vale la disuguaglianza 0 6 F (x, y) 6 1, 2. F (x, y) è non decrescente in ciascuno degli argomenti, 3. F (x, y) è continua a destra in ciascuno degli argomenti. Rispetto al caso unidimensionale, per le funzioni di distribuzione dei vettori casuali sussiste una ulteriore proprietà. Proposizione 5.5.3. Sia F(x,y) la funzione di distribuzione congiunta della variabile casuale bidimensionale (X, Y ). Allora, per ogni x1 < x2 e y1 < y2 , vale la disuguaglianza F (x2 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) − F (x1 , y2 ) > 0 . (5.36) 20 Una dimostrazione alternativa è basata sulla relazione (5.32) che, per n = 2, si esprime come: {X 6 x, Y 6 y} = {X 6 x} ∩ {Y 6 y}. Se x → −∞, {X 6 x} → ∅ di conseguenza anche {X 6 x, Y 6 y} → ∅ e la (5.35a) risulta verificata. Analoghe considerazioni giustificano la (5.35b). 164 Capitolo 5. Variabili aleatorie y y y 2 1 x1 x2 x Figura 5.6: (x1 < X 6 x2 , y1 < Y 6 y2 ) ≡ (X, Y ) ∈ (x1 , x2 ] × (y1 , y2 ]. Il primo membro della (5.36) altro non è che la probabilità che il vettore casuale cada nel rettangolo della figura 5.6; infatti: F (x2 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) − F (x1 , y2 ) = P (X 6 x2 , Y 6 y2 ) − P (X 6 x2 , Y 6 y1 ) + P (X 6 x1 , Y 6 y1 ) − P (X 6 x1 , Y 6 y2 ) = P (X 6 x2 , y1 < Y 6 y2 ) − P (X 6 x1 , y1 < Y 6 y2 ) = P (x1 < X 6 x2 , y1 < Y 6 y2 ) ≡ P((X, Y ) ∈ (x1 , x2 ] × (y1, y2 ]) > 0 come asserito. Osservazione 5.5.1. Le condizioni indicate nelle proposizioni 5.5.1, 5.5.2, 5.5.3 sono sufficienti affinché una funzione F (x, y) sia una funzione di distribuzione congiunta. Sussistono esempi di funzioni di due variabili reali che soddisfano le proprietà elencate nelle prime due proposizioni ma non verificano le disu- 5.5 Variabili casuali n-dimensionali 165 guaglianza (5.36); esse non possono essere considerate funzioni di distribuzioni congiunte. Come nel caso unidimensionale, anche per i vettori casuali si definisce la funzione densità di probabilità. Definizione 5.5.2. Una variabile aleatoria n-dimensionale X, avente funzione di distribuzione FX , è assolutamente continua se esiste una funzione non negativa fX : Rn −→ R tale che per ogni n-pla di reali (x1 , . . . , xn ) risulti Z x1 Z xn fX (ξ1 , . . . , ξn )dξn . FX (x1 , . . . , xn ) = dξ1 · · · (5.37) −∞ −∞ La funzione fX (x1 , . . . , xn ) è denominata funzione densità di probabilità congiunta della variabile casuale n-dimensionale (X1 , . . . , Xn ). Per la definizione data, in ogni n-pla di valori (x1 , . . . , xn ) in cui la funzione di distribuzione congiunta ammette derivate di ordine n continue si ha: fX (x1 , . . . , xn ) = ∂n FX (x1 , . . . , xn ). ∂x1 · · · ∂xn (5.38) Definizione 5.5.3. Una variabile aleatoria n-dimensionale X, con di n funzione o (k) distribuzione FX , è discreta se esistono n successioni di reali xi , ove i∈N k = 1, 2, . . . , n, e una funzione non negativa pX : Rn −→ [0, 1] tali che si abbia FX (x1 , . . . , xn ) = X (1) 1 j1 :xj 6x1 ··· X (n) jn :xjn 6xn (1) (n) pX xj1 , . . . , xjn . (5.39) 166 Capitolo 5. Variabili aleatorie La funzione pX (x1 , . . . , xn ) ≡ P (X1 = x1 , . . . , Xn = xn ) rappresenta la cosiddetta distribuzione di probabilità congiunta. Nel caso bidimensionale, per effetto della (5.37), la v-c è assolutamente continua se esiste una funzione fXY (x, y) tale che FXY (x, y) = Z x du −∞ Z y fXY (x, y)dv −∞ ∀(x, y) ∈ R2 . (5.40) Se la funzione di distribuzione congiunta ammette derivate seconde continue vale la relazione fXY (x, y) = ∂2 FXY (x, y). ∂x∂y (5.41) Nel caso di variabili casuali discrete congiuntamente distribuite si ha FXY (x, y) = XX pXY (u, v) (5.42) u6x v6y ove pXY (u, v) ≡ P(X = u, Y = v). I teoremi 5.2.2, 5.3.1, 5.3.2 e 5.4.1 sono validi anche nel caso multidimensionale. In paricolare, per Zn = 2, ogni Z funzione f (x, y) > 0, che verifichi la condizione di +∞ +∞ dx normalizzazione −∞ f (x, y)dy = 1 è la funzione di densità di proba- −∞ bilità di una particolare variabile casuale (X, Y ). Analogamente nel caso discreto, P P data una funzione non negativa p(x, y), tale che x y p(x, y) = 1 esiste, allora, una v-c (X, Y ) che ha p(x, Y ) come distribuzione di probabilità congiunta. 5.5 Variabili casuali n-dimensionali 167 5.5.1 Distribuzioni marginali Sia X ≡ (X1 , . . . , Xn ) un vettore casuale ed indichiamo con k un intero compreso tra 1 e n; vale la relazione P (X1 6 x1 , . . . , Xk−1 6 xk−1 , Ω, Xk+1 6 xk+1 , . . . , Xn 6 xn ) = lim FX (x1 , . . . , xk−1 , xk , xk+1 , . . . , xn ). xk →+∞ dalla quale si evince che la funzione di distribuzione congiunta della variabile casuale (n − 1)-dimensionale (X1 , . . . , Xk−1, Xk+1 , . . . , Xn ) si ottiene dalla FX (x) calcolando il limite di quest’ultima per xk che tende all’infinito. Definizione 5.5.4. Sia X una variabile casuale n-dimensionale e k un intero minore di n, la funzione di distribuzione FXj1 Xj2 ···Xjk (xj1 , xj2 , · · · , xjk ) = lim · · · lim FX1 X2 ···Xn (x1 , x2 , . . . , xn ) (5.43) xj →+∞ j6=j1 ...jk è la funzione di distribuzione marginale congiunta del vettore casuale, con k componenti, (Xj1 , . . . , Xjk ), ∀{j1 , . . . , jk } ⊂ {1, 2, . . . , n}. Se X è assolutamente continua, la funzione fXj1 Xj2 ···Xjk (xj1 , xj2 , · · · , xjk ) Z +∞ Z = ··· −∞ +∞ fX1 ...Xn (x1 , . . . , xn ) −∞ n Y dxj (5.44) j=1 j6=j1 ...jk rappresenta la funzione densità di probabilità marginale congiunta della variabile aleatoria multidimensionale (Xj1 , . . . , Xjk ). 168 Capitolo 5. Variabili aleatorie Nel caso discreto pXj1 Xj2 ···Xjk (xj1 , xj2 , · · · , xjk ) = X ··· X pX1 X2 ···Xn (x1 , x2 , . . . , xn ). xj :j∈[1,n] j6=j1 ...jk (5.45) è la distribuzione di probabilità marginale congiunta di (Xj1 , . . . , Xjk ). Quando n = 2 si ha FX (x) = lim FXY (x, y) y→+∞ e FY (y) = lim FXY (x, y). x→+∞ Inoltre le distribuzioni marginali sono date da fX (x) = Z +∞ fXY (x, y)dy fY (y) = −∞ Z +∞ fXY (x, y)dx −∞ e, le distribuzioni di probabilità marginali, da pX (x) = X pXY (x, y) y pY (y) = X pXY (x, y). x 5.5.2 Distribuzioni condizionate Nel precedente paragrafo abbiamo visto come dalla conoscenza della funzione di distribuzione congiunta FX (x) si ricavano le distribuzioni marginali di una componete o di un sottoinsieme di componenti di X. Viceversa, note le distribuzioni marginali, non si riesce a risalire alle distribuzioni congiunte. Per tale scopo è necessaria la conoscenza della cosiddetta distribuzione condizionata. Nel seguito esamineremo in dettaglio il caso di variabili casuali bidimensionali (X, Y ), iniziando a trattare le v-a discrete. 5.5 Variabili casuali n-dimensionali 169 La probabilità che Y = yj condizionata da X = xi è data da P ({X = xi } ∩ {Y = yj }) P ({X = xi }) pXY (xi , yj ) P (X = xi , Y = yj ) ≡ (5.46) = P (X = xi ) pX (xi ) p(yj |xi ) ≡ P (Y = yj |X = xi ) = per definizione di probabilità condizionata. Osservazione 5.5.2. Nel definire nel paragrafo 3.1 la probabilità condizionata, abbiamo messo in evidenza come la (3.1.1) ha senso solo se la probabilità a denominatore è maggiore di zero. Nel caso di vettori casuali discreti, se ci limitiamo ai singoletti xi ∈ SX , essendo P(X = xi ) > 0, la P (Y = yj |X = xi ) è sempre definita. Per il momento assumiamo di essere in questa condizione. Considerando nella (5.46) xi fisso ed yj variabile, si ha p(yj |xi ) > 0 (5.47) e X j p(yj |xi ) = X pXY (xi , yj ) j pX (xi ) = X pX (xi ) 1 · pXY (xi , yj ) = = 1 (5.48) pX (xi ) j pX (xi ) per la definizione di distribuzione di probabilità marginale di X. Pertanto la p( yj |xi ), data dalla (5.46) per j ∈ N, è una distribuzione di probabilità. Definizione 5.5.5. Sia (X, Y ) un vettore casuale; la relazione p(yj |xi ) = P (X = xi , Y = yj ) pXY (xi , yj ) ≡ P (X = xi ) pX (xi ) 170 Capitolo 5. Variabili aleatorie definisce21 , per j ∈ N, la funzione di probabilità di Y condizionata da {X = xi }, se P ({X = xi }) ≡ pX (xi ) > 0. Altrimenti per xi comunque fissato in R, se pX (xi ) = 0, per convenzione si pone p(yj |xi ) = 0. La P (Y = yj |X = xi ) gode di tutte le proprietà tipiche di una legge di probabilità, sicché, indicando con E un generico evento, si ha: P (Y ∈ E|X = xi ) = X i:yi ∈E P (Y = yj |X = xi ) . (5.49) Nel caso in cui E ≡ (−∞, y], la (5.49), considerando xi fissato ed y variabile, definisce la funzione di distribuzione di Y condizionata da {X = xi }: F (y|xi ) ≡ P (Y 6 y|X = xi ) = X j:yj 6y P (Y = yj |X = xi ) . (5.50) Naturalmente tutte le precedenti formule possono essere riscritte scambiando il ruolo di X con quello di Y . Supponiamo, ora, che X ed Y siano dotate di una densità congiuntafXY (x, y). Poiché, in questo caso, P(X = x) = 0, ∀x ∈ R, la precedente definizione della distribuzione condizionata di Y rispetto a {X = x} perde di significato. Comunque, sulla falsariga della (5.46), possiamo scrivere22 , ∀y ∈ R, g(y|x) = fXY (x, y) fX (x) (5.51) se si suppone che fX (x) sia maggiore di zero. La g(y|x) è una funzione densità di probabilità, infatti g(y|x) > 0 e 21 22 Z +∞ −∞ 1 g(y|x)dy = fX (x) Z +∞ fXY (x, y)dy = 1 . −∞ Per la p(yj |xi ) si utilizzano gli stessi sinonimi introdotti nel caso non condizionato. Talvolta si usa la notazione fY |X (y|x). 5.5 Variabili casuali n-dimensionali 171 Definizione 5.5.6. Sia (X, Y ) un variabile casuale bidimensionale assolutamente continua con funzione densità di probabilità congiunta fXY (x, y) e densità marginali fX (x) e fY (y), si definisce, ∀y ∈ R, funzione densità di probabilità di Y condizionata da {X = x} la funzione g(y|x) = fXY (x, y) fX (x) sempre che risulti fX (x) > 0 . Diamo una giustificazione della precedente definizione. Sia h un numero reale positivo; consideriamo l’evento Eh ≡ {x − h < X 6 x + h} e supponiamo che P(Eh ) sia maggiore di zero. Ha senso, quindi, considerare la probabilià condizionata dell’evento {Y 6 y} rispetto a Eh : P (Y 6 y|Eh ) = P (Eh , Y 6 y) . P(Eh ) (5.52) Osserviamo che P(Eh ) = FX (x + h) − FX (x − h), poiché FX è una funzione continua si ha: lim P(Eh ) = 0 . h→0 Inoltre, per h che tende a zero, l’evento Eh ≡ {x − h < X 6 x + h} tende a {X = x}, di conseguenza possiamo scrivere, nel caso in cui il limite a primo membro esiste, lim P(Y 6 y|Eh ) = P(Y 6 y|X = x) h→0 e la (5.52) diventa FXY (x + h, y) − FXY (x − h, y) . h→0 FX (x + h) − FX (x − h) P(Y 6 y|X = x) = lim (5.53) Sia il numeratore che il denominatore della (5.53) tendono a zero per h → 0 e si ricade in un caso tipico al quale si applica la regola dell’Hôpital. Dividendo per 172 Capitolo 5. Variabili aleatorie 2h il numeratore ed il denominatore del secondo membro della (5.53) si ha Z y 1 fXY (x, v)dv lim [FXY (x + h, y) − FXY (x − h, y)] = h→0 2h −∞ e 1 [FX (x + h) − FX (x − h)] = fX (x). h→0 2h Per effetto delle due precedenti relazioni, se fX (x) > 0, possiamo scrivere la lim (5.53) nella forma: P(Y 6 y|X = x) = Z y −∞ fXY (x, v) dv. fX (x) (5.54) Il primo membro della (5.54) definisce, al variare di y, la funzione di distribuzione di Y considerando x fissato. Tale funzione, indicata in simboli con FY |X (y|x), è denominata funzione di distribuzione condizionata di Y rispetto a X = x. Nell’ipotesi in cui fXY (x, v) sia continua in (x, y) ed fX (x) sia maggiore di zero e continua in x, differenziando rispetto a y la (5.54) si ha d fXY (x, v) d P(Y 6 y|X = x) ≡ FY |X (y|x) = dy dy fX (x) (5.55) che corrisponde alla (5.51) (vedi anche la definizione 5.5.6). Poiché g(y|x) è una densità di probalità si ha: P(Y ∈ A|X = x) = Z g(y|x)dy. (5.56) A Dalla (5.51), o dalla equivalente (5.55), si ricava fXY (x, y) = fX (x)g(y|x) (5.57) dalla quale si deduce che, nel caso bidimensionale, per ricavare la densità congiunta fXY (x, y) è necessario conoscere la densità marginale fX (x) e la densità condizionata g(y|x). Naturalmente si può scambiare il ruolo di X ed Y ed anche estendere le precedenti considerazioni al caso n-dimensionale. 5.6 Indipendenza di variabili casuali 173 5.6 Indipendenza di variabili casuali Supponiamo che X ed Y siano variabili casuali congiuntamente distribuite su uno spazio di probabilità {Ω, F , P} e sia FXY (x, y) la loro funzione di distribuzione congiunta. Nel paragrafo 3.2 abbiamo introdotto il concetto di indipendenza di eventi; in particolare, due eventi A e B sono indipendenti se P(A ∩ B) = P(A) · P(B). Ciò premesso, è ragionevole riformulare la definizione, nel caso di un vettore casuale bidimensionale, affermando che X ed Y sono indipendenti se, per ogni coppia di numeri reali x e y, sono indipendenti gli eventi {X 6 x} e {Y 6 y}, ossia se risulta P(X 6 x, Y 6 y) = P(X 6 x) · P(Y 6 y). Facendo ricorso alle funzioni di distribuzione si dà la seguente definizione. Definizione 5.6.1. Le variabili casuali X, Y si dicono indipendenti se vale la relazione FXY (x, y) = FX (x) · FY (y) ∀x, y ∈ R (5.58) ovverosia se la distribuzione di probabilità congiunta si fattorizza nel prodotto delle due funzioni di distribuzione marginali. La precedente definizione è generalizzabile al caso di n variabile aleatorie. Definizione 5.6.2. Siano X1 , X2 , . . . , Xn variabili casuali, definite sullo spazio di probabilità {Ω, F , P}; con FX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) indichiamo la funzione di distribuzione congiunta. Esse si dicono indipendenti se, ∀x1 , x2 , . . . , xn ∈ R, risulta FX1 X2 ...Xn (x1 , x2 , . . . , xn ) = FX1 (x1 ) · FX2 (x2 ) · · · FXn (xn ) ≡ n Y j=1 FXj (xj ). (5.59) 174 Capitolo 5. Variabili aleatorie Dalla (5.58), se X eY sono indipendenti e assolutamente continue, si ricava che anche la funzione densità di probabilità congiunta si fattorizza nel prodotto delle due densità marginali, infatti si ha fXY (x, y) = dFX (x) dFY (y) ∂ 2 FXY (x, y) = · = fX (x) · fY (y). ∂x∂y dx dy (5.60) Nel caso di n variabili casuali assolutamente continue indipendenti, la funzione densità di probabilità congiunta verifica la relazione fX1 X2 ...Xn (x1 , x2 , . . . , xn ) = n Y fXj (xj ). (5.61) j=1 La (5.61) è da molti autori posta come definizione di indipendenza di n variabili casuali assolutamente continue; per variabili casuali discrete la (5.61) diventa pX1 X2 ...Xn (x1 , x2 , . . . , xn ) = n Y pXj (xj ). (5.62) j=1 Osservazione 5.6.1. Si può facilmente verificare che se X1 , X2 , . . . , Xn sono indipendenti tali sono anche k < n di esse comunque scelte. L’inverso non è necessariamente vero. Definizione 5.6.3. Siano X ≡ (X1 , X2 , . . . , Xn ) e Y ≡ (Y1 , Y2 , . . . , Xm ) variabili casuali assolutamente continue, la prima n-dimensionale e la seconda mdimensionale. Esse sono indipendenti se e solo se vale la relazione fXY (x1 , . . . , xn , y1 , . . . , yn ) = fX (x1 , . . . , xn ) · fY (y1 , . . . , yn ). (5.63) 5.7 Funzioni di una variabile casuale Sia {Ω, F , P} uno spazio di probabilità e X : Ω −→ R una variabile casuale con funzione di distribuzione FX (x). Indichiamo con g : R −→ R una funzione 5.7 Funzioni di una variabile casuale 175 Borel-misurabile e definiamo la funzione di X, Y = g(X) : Ω −→ R, ponendo Y (ω) = g(X(ω)). Essa è una variabile casuale. Questo asserto è di immediata dimostrazione. Infatti g −1(B) ∈ B, per l’ipotesi posta su g; inoltre X −1 (B) ∈ F per la F misurabilità di X. In conclusione, ∀B ∈ B, si ha Y −1 (B) ≡ X −1 [g −1 (B)] ∈ F e Y è allora una v-a che si dice funzione di X. Quale legame esiste fra la funzione di distribuzione di Y e quella di X? Innanzitutto si noti che, qualunque sia il boreliano B, P(Y ∈ B) ≡ P (Y −1 (B)), ove Y −1 (B) è un evento di F . Sicché, anche per la v-c Y , si deve fare riferimento allo spazio di probabilità {Ω, F , P}. In particolare possiamo scrivere P(Y ∈ B) = P (g(X) ∈ B) ≡ P X ∈ g −1(B) e FY (y) ≡ P(Y 6 y) = P(g(X) 6 y) = P X ∈ g −1(] − ∞, y]) . (5.64) (5.65) La (5.65) assicura che la FY (y) si può ricavare a partire dalla funzione di distribuzione della variabile casuale X. Naturalmente la natura del X e le caratteristiche analitiche della funzione g rendono il calcolo più o meno complicato. Teorema 5.7.1. Sia X una variabile casuale discreta con funzione massa pX (x) e spettro SX ≡ {xn }n∈N ; sia inoltre g : R −→ R una funzione Borel-misurabile. La distribuzione di probabilità della variabile aleatoria Y = g(x) è data dalla funzione pY (y) = X pX (xi ). (5.66) i:xi ∈g −1 (y) Per quanto concerne la funzione di distribuzione di Y , vale la relazione X FY (y) = pX (xi ) i (5.67) 176 Capitolo 5. Variabili aleatorie ove la sommatoria è da intendersi estesa a tutti gli indici i ∈ N per i quali si verifica: xi ∈ g −1 (]−∞, y]). Dimostrazione. Sia y un qualunque numero reale, indichiamo con By il boreliano By = g −1(y). Tenendo conto della (5.64) possiamo scrivere la seguente relazione: pY (y) ≡ P(Y = y) = P(X ∈ By ) = P(X ∈ By ∩ {xn }n∈N ). L’ultimo passaggio si giustifica tenendo conto che, essendo la v-c X discreta, P (X = xi ) è maggiore di zero solo se xi ∈ SX . Infine il valore della proba- bilità P(X ∈ By ∩ {xn }n∈N ) coincide con la sommatoria dei valori di pX (xi ) ove l’indice i è tale da verificare contemporaneamente le condizioni pX (xi ) > 0 e xi ∈ By . La dimostrazione della (5.66) è stata così completata. Considerazioni analoghe, partendo dalla (5.65), dimostrano la (5.67). Osservazione 5.7.1. Si noti che la (5.66) e la (5.67) possono essere anche scritte come X pY (y) = pX (xi ) xi :g(xi )=y e FY (y) = X pX (xi ). xi :g(xi )6y Osservazione 5.7.2. Se la funzione g è strettamente monotòna, per ogni y numero reale, l’intersezione By ∩ {xn }n∈N o coincide con ∅ oppure con {xi } per un certo indice i, pertanto, per la (5.66), pY (y) = pX (xi ), se esiste un xi ∈ SX per il quale risulti y = g(xi ), altrimenti pY (y) = 0. La funzione di distribuzione FY (y) assume una differente espressione analitica in relazione all’andamento di g. Se g è strettamente crescente si ha g −1 (]−∞, y]) ≡ −∞, g −1(y) 5.7 Funzioni di una variabile casuale 177 e FY (y) ≡ P(g(x) 6 y) = FX g −1 (y) . (5.68) FY (y) ≡ P(g(x) > y) = 1 − FX g −1(y) . (5.69) Nel caso in cui g sia strettamente decrescente si ha g −1 (]−∞, y]) ≡ g −1 (y), +∞ e Osservazione 5.7.3. Se X è assolutamente continua, la funzione di distribuzione della v-c Y , in virtù della (5.65), è data da: Z FY (y) = f (x)dx. (5.70) x:g(x)6y Nel caso in cui g sia una funzione continua, la funzione densità di probabilità fY (y) si ottiene derivando la FY (y) rispetto a y. La metodologia fino ad ora esposta per la determinazione della legge di probabilità della g(X) è denominata metodo delle funzioni di distribuzione (vedi [13]). Esempio 5.7.1. Sia X una variabile casuale con distribuzione di probabilità di Poisson  x  λ · e−λ se x ∈ N 0 pX (x) ≡ p(x, λ) = x!  0 altrimenti ed Y = g(X), con g(x) = 2x + 3; determiniamo pY (y). Si ha y−3 P(Y = y) = P(2X + 3 = y) = P X = 2 e pertanto la legge di probabilità cercata è data da pY (y) = λ(y−3)/2 × 1 × e−λ [(y − 3)/2]! se y è un intero dispari > 3; pY (y) = 0 altrove. 178 Capitolo 5. Variabili aleatorie Esempio 5.7.2. Sia X un v-c con densità di probabilità fX (x) = α exp(−x) con α uguale alla costante determinata nell’esempio 5.4.4 e x ∈ [0, 1]. Definita la nuova variabile casuale Y = 2X + 1, determiniamo la funzione di distribuzione FY (y). Notiamo innanzitutto che y ∈ [1, 3]. Si ha y−1 FY (y) = P(Y 6 y) ≡ P(2X + 1 6 y) = P X 6 2 y−1 y−1 = α 1 − exp . ≡ FX 2 2 Esempio 5.7.3. Distribuzione di Rayleigh Supponiamo che X sia una v-c con densità di probabilità esponenziale a parametro γ>0 fX (x) = ( γe−γx se x > 0 0 se x 6 0 e sia Y = X 1/2 ; determiniamo fY (y). y y=x1/2 (0,y) (y2,0) x Figura 5.7: X 1/2 6 y . 5.7 Funzioni di una variabile casuale 179 Con l’aiuto della figura 5.7, per y > 0 possiamo scrivere la relazione √ FY (y) ≡ P(Y 6 y) = P( X 6 y) = P(X 6 y 2) ≡ FX (y 2) ed ancora, ∀y 6 0, P(Y 6 y) = 0. La densità di probabilità della v-c Y si calcola derivando rispetto a y la funzione di distribuzione FY (y) e quindi d dx d FY (y) = FX (y 2) · = fX (y 2) · 2y. dy dx dy In conclusione si ottiene fY (y) = ( 2γy · e−γy 2 se y > 0 0 (5.71) se x 6 0 che è la densità di probabilità di Rayleigh. Esempio 5.7.4. Sia X una variabile casualecon funzione di distribuzione unifor1 me nell’intervallo (0, 1) e poniamo Y = ln = − ln X. Se y ∈ (0, +∞) si X ha FY (y) = P(− ln X 6 y); altrimenti, se y 6 0, risulta FY (y) = 0. Dalla figura 5.8 si deduce, per y > 0, −y FY (y) ≡ P(Y 6 y) = P X > e = Z 1 fX (x)dx. e−y Essendo per ipotesi fX (x) = 1 nell’intervallo (0, 1), si ha FY (y) = 1 − e−y . Da quest’ultima relazione, derivando rispetta ad y, si ottiene fY (y) = ( e−y se y > 0 0 altrimenti che coincide con la fdp esponenziale a parametro unitario. 180 Capitolo 5. Variabili aleatorie y = − ln(x) y (0,y) 0 0 −y (e ,0) 1 x Figura 5.8: (− ln(X) 6 y). 5.7.1 Il metodo delle trasformazioni Prendiamo in esame il caso di una variabile casuale X assolutamente continua e sia g(x) una funzione monotòna; per le ipotesi poste anche Y è assolutamente continua. In questo caso è possibile calcolare la fY (y) senza la necessità di determinare la funzione di distribuzione FY (y), si dimostra, infatti, il seguente teorema. Teorema 5.7.2. Sia X assolutamente continua di densità di probabilità fX (x) e g : R → R una funzione strettamente monotòna; la densità di probabilità della v-c Y = g(x) è data da ove x = g −1(y). −1 dx fY (y) = fX g (y) · dy (5.72) Dimostrazione. Cominciamo con il considerare il caso in cui g sia una funzione dg crescente (vedi figura 5.9) così che risulti > 0. Per ogni numero reale y vale dx 5.7 Funzioni di una variabile casuale 181 la relazione FY (y) ≡ P(Y 6 y) = P X 6 g −1 (y) ≡ FX g −1(y) da cui, derivando ambo i membri rispetto a y, si ottiene dx d d FY (y) ≡ fY (y) = FX g −1 (y) = fX g −1 (y) · dy dy dy (5.73) ove x = g −1 (y). y y 0 g−1(y) x Figura 5.9: g(x) funzione crescente. Il caso di g(x) funzione decrescente è illustrato in figura 5.10. Si ha FY (y) ≡ P(Y 6 y) = P X > g −1 (y) = 1 − P X 6 g −1(y) ≡ 1 − FX g −1 (y) . La densità di probabilità fY (y), derivando la funzione di distribuzione FY (y) rispetto ad y, è 182 Capitolo 5. Variabili aleatorie y y 0 −1 g (y) x Figura 5.10: g(x) funzione decrescente. fY (y) = dx d 1 − FX g −1(y) = −fX g −1 (y) · dy dy (5.74) con x = g −1 (y). Essendo g(x) decrescente, la derivata dx/dy è negativa, pertanto la 5.72 è valida sia per g crescente che per g decrescente. Osservazione 5.7.4. Il metodo prima descritto può essere esteso ai casi nei quali l’insieme di definizione della g(x) è ripartibile in intervalli An sui quali g(x) è strettamente monotona. Infatti se definiamo ( g(x) se x ∈ An gn (x) = 0 altrove P∞ si ha g(x) = n=1 gn (x) con gn (x) che ammette un’unica funzione inversa in An . Considerando separatamente ciascuna gn e sommando su tutti gli n si ricava la fY (y): fY (y) = ∞ X d fX gn−1(y) · gn−1 (y). dy n=1 (5.75) 5.7 Funzioni di una variabile casuale 183 Esempio 5.7.5. Sia X una v-c assolutamente continua con densità di probabilità ( exp(x) se x < 0 fX (x) = 0 altrove e poniamo Y = X 2 . La funzione g(x) = x2 è strettamente decrescente in (−∞, 0) √ e x = g −1(y) = − y. Si ha dx 1 =− √ dy 2 y e, per y > 0, fY (y) = fX dx 1 √ g (y) · = √ exp (− y) . dy 2 y −1 Infine, per y 6 0, vale la relazione fY (y) = 0. Esempio 5.7.6. Supponiamo che la v-c X abbia densità di probabilità uniforme   1 se a < x < b e a, b ∈ R+ b−a fX (x) =  0 altrove e poniamo Y = exp(X); determiniamo fY (y). La funzione g(x) = ex è strettamente crescente in (a, b) e x = g −1 (y) = ln y. Dalla (5.73) si deduce dx dx fX (ln y) = fX (ln y) · = fY (y) = fX g −1 (y) · dy dy y per ea < y < eb ; sicché fY (y) = 1 per y ∈ ea , eb e fY (y) = 0 altrove. y(b − a) Riprendiamo, ora, l’esempio 5.7.4. Esempio 5.7.7. Sia X una variabile casuale distribuita uniformemente nell’inter1 vallo (0, 1), determiniamo la funzione densità di probabilità di Y = − ln X, con k 184 Capitolo 5. Variabili aleatorie k costante positiva. 1 La funzione g(x) = − ln x è strettamente decrescente nell’intervallo (0, 1) e23 k dx −1 g (y) = exp(−ky), inoltre = k exp(−ky); pertanto si ha dy fY (y) = fX (e−ky ) · ke−ky (0 < y < +∞). Tenendo presente che per ipotesi fX (x) = 1, se x ∈ (0, 1), ed è nulla altrove, si evince che, per y > 0, fY (y) = k exp(−ky); se y < 0 la fY (y) è nulla. Concludiamo il capitolo calcolando la funzione densità di probabilità della funzione max(X, Y ) nel caso in cui X e Y siano v-c indipendenti. Osserviamo che si ha Z ≡ max(X, Y ) 6 z se e solo se sono verificate simultaneamente le disuguaglianze X 6 z e Y 6 z. Per l’ipotesi di indipendenza si ha FZ (z) = P(Z 6 z) = P(X 6 z, Y 6 z) = FX (z) · FY (z). (5.76) Derivando la (5.76) si ottiene la densità d fZ (z) = FZ (z) = fX (z) · FY (z) + fY (z) · FX (z). (5.77) dz In molte applicazioni, soprattutto in quelle in cui si studia il tempo di buon funzionamento di strumentazione o componentistica elettronica, si assume che le variabili casuali sia distribuite secondo la legge esponenziale a parametro γ1 e γ2 , rispettivamente. In questo caso, per z > 0, la (5.77) diventa: fZ (z) = γ1 exp (−γ1 z) [1 − exp (−γ2 z)] + γ2 exp (−γ2 z) [1 − exp (−γ1 z)] . Un calcolo analogo si applica al caso della variabile casuale W = min(X, Y ); stavolta conviene calcolare P(W > w) = 1 − FW (w). Si ha 1 − FW (w) = P[min(X, Y ) > w] = P(X > w, Y > w) = [1 − FX (w)] · [1 − FY (w)] . (5.78) 23 y=− ln(x) ⇒ −ky = ln(x) k 5.8 Somme, prodotti e rapporti di variabili casuali 185 Nel caso si variabili casuali esponenziali, per w > 0, abbiamo 1 − FW (w) = e−γ1 w e−γ2 w da cui FW (w) = 1 − e−(γ1 +γ2 )w ed infine fW (w) = (γ1 + γ2 ) e−(γ1 +γ2 )w . 5.8 Somme, prodotti e rapporti di variabili casuali La teoria delle variabili casuali n-dimensionali fornisce uno strumento utile per calcolare la funzione di distribuzione di somme, prodotti e rapporti di v-c unidiP mensionali. Ad esempio sia Y = ni=1 Xi , per definizione si ha FY (y) = P(Y 6 y) = P (X1 + · · · + Xn 6 y) . FY (y) è dunque la probabilità che la v-c Pn i=1 Xi assuma il valore punto x = (x1 , . . . , xn ) appartenga al semispazio Pn i=1 xi e il D ≡ {x ∈ Rn : x1 + · · · + xn 6 y} . Se le variabili casuali Xi sono assolutamente continue e congiuntamente distribuite, indicando con fX1 X2 ...Xn (x1 , x2 , . . . , xn ) la loro densità di probabilità congiunta, si ha FY (y) = Z ··· Z D fX1 X2 ...Xn (x1 , x2 , . . . , xn )dx1 dx2 · · · dxn . (5.79) Nei successivi paragrafi prenderemo in esame, per semplificare gli sviluppi matematici, il caso di n = 2; i risultati possono essere estesi al caso generale di un intero n qualsiasi. 186 Capitolo 5. Variabili aleatorie 5.8.1 Somma di due variabili casuali Poniamo Z = X + Y ed indichiamo con f (x, y) la funzione di densità di probabilità congiunta delle variabili casuali X e Y . Proposizione 5.8.1. Per ogni numero reale z, la densità di probabilità della variabile casuale somma Z = X + Y è data dalla relazione Z +∞ Z +∞ fZ (z) = f (x, z − x)dx = f (z − y, y)dy. −∞ (5.80) −∞ y x+y=z (0,z) x+y ≤ z (z,0) 0 x Figura 5.11: Dominio di integrazione della (5.79) per il calcolo di FX+Y (z). Per dimostrare la tesi della proposizione notiamo che nella (5.79) il dominio di integrazione coincide con il semispazio, D ≡ {(x, y) : x + y 6 z}, delimitato superiormente dalla retta di equazione x + y = z (vedi la figura 5.11). Pertanto possiamo riscrivere quest’ultima relazione come ZZ FZ (z) = f (x, y)dxdy x+y6z 5.8 Somme, prodotti e rapporti di variabili casuali 187 da cui si ottiene FZ (z) = ZZ f (x, y)dxdy = x+y6z Per quanto concerne l’integrale Z +∞ −∞ R z−x −∞ Z z−x f (x, y)dy dx. −∞ f (x, y)dy, introducendo la nuova variabile u = x + y, si ha, essendo x fissato, du = dy, ed inoltre, quando y = −∞ risulta u = −∞ e, quando y = z − x, u = x + (z − x) = z. In conclusione si ha R z−x Rz f (x, y)dy = f (x, u − x)du e −∞ −∞ FZ (z) = ZZ f (x, y)dxdy = x+y6z Z +∞ −∞ Z z f (x, u − x)du dx Z z Z +∞ = f (x, u − x)dx du −∞ −∞ −∞ ove l’ultimo passaggio si giustifica cambiando di posto agli integrali. Infine, ricordando il teorema fondamentale del calcolo integrale, si perviene, ∀z ∈ R, alla relazione d fZ (z) = FZ (z) = dz Z +∞ −∞ f (x, z − x)dx. Scambiando x con y si dimostra la seconda formulazione della (5.80). Osservazione 5.8.1. Nel caso di variabili casuali discrete, fissato il valore di z, ∀(xi , yj ) tale che xi + yj = z, vale la relazione P(Z = z) = ∞ X P(X + Y = z, X = xi ) i=1 = ∞ X i=1 P(X = xi , Y = yj − xi ). Altrimenti, per tutte la altre coppie di valori (xi , yj ), si ha P(Z = z) = 0. 188 Capitolo 5. Variabili aleatorie 5.8.2 Differenza di due variabili casuali Determiniamo, ora, la funzione di densità di probabilità di Z = Y − X. Proposizione 5.8.2. Per ogni numero reale z, la densità di probabilità della variabile casuale differenza Z = Y − X è data dalla relazione fZ (z) = Z +∞ f (x, z + x)dx = −∞ Z +∞ f (z + y, y)dy. (5.81) −∞ y y−x ≤ z y−x=z x 0 Figura 5.12: Dominio di integrazione della (5.79) per il calcolo di FY −X (z). La dimostrazione della (5.81) si basa sullo stesso ragionamento utilizzato per pervenire alla (5.80), tenendo presente che, per la differenza di variabili casuali, nella (5.79) il dominio di integrazione è il semispazio al disotto della retta di equazione y − x = z (vedi la figura 5.12). Si ha FZ (z) = ZZ y−x6z f (x, y)dxdy = Z +∞ −∞ Z x+z f (x, y)dy dx. −∞ 5.8 Somme, prodotti e rapporti di variabili casuali 189 Se si pone u = y − x, segue che du = dy, ed inoltre, quando y = −∞ otteniamo u = −∞ e, quando y = x + z, u = (x + z) − x = z. Per quanto sopra esposto si perviene alla relazione FZ (z) = Z +∞ −∞ Z e, scambiano di posto gli integrali, Z z Z FZ (z) = −∞ z f (x, u + x)du dx −∞ +∞ −∞ f (x, u + x)dx du. Differenziando rispetto a z, ∀z ∈ R, si dimostra la prima parte della tesi della 5.8.2 e, scambiando di ruolo alle variabili x e y, anche la seconda parte della (5.81) risulta verificata. 5.8.3 Prodotto di due variabili casuali Esaminiamo ora il caso della variabile casuale Z prodotto delle variabili casuali X eY. Proposizione 5.8.3. Per ogni numero reale z, la densità di probabilità della variabile casuale prodotto Z = X · Y è data dalla relazione Z +∞ Z +∞ z 1 1 z fZ (z) = f (x, )dx = f ( , y)dy. x y −∞ |x| −∞ |y| (5.82) Per dimostrare quanto affermato nella 5.8.3, notiamo che dalla (5.79) si ottiene: ZZ ZZ FZ (z) ≡ P(Z 6 z) = P(XY 6 z) = f (x, y)dxdy = f (x, y)dxdy. D xy6z Cominciamo con il considerare la condizione z > 0. L’equazione z = xy rappresenta l’iperbole equilatera y = z/x i cui rami giacciono, rispettivamente, nel 190 Capitolo 5. Variabili aleatorie y xy=z {(x,y): x<0, y ≥ z/x} 0 x {(x,y): x>0, y ≤ z/x} xy=z Figura 5.13: Dominio di integrazione, D, della (5.79) per il calcolo di FXY (z) ove z è un numero reale positivo. primo e nel terzo quadrante come mostrato nella figura 5.13 e delimitano la regione RR di integrazione, D, dell’integrale doppio D f (x, y)dxdy, costituita dall’insieme dei punti (x, y) tali che xy 6 z. Si noti che n zo zo n ∪ (x, y) : x > 0, y 6 D ≡ {(x, y) : xy 6 z} = (x, y) : x < 0, y > x x e, di conseguenza, decomponendo la regione di integrazione nei due domini parziali corrispondenti a x > 0 e x < 0, abbiamo FZ (z) = Z 0 −∞ Z ∞ f (x, y)dy dx + z/x Z ∞ 0 "Z z/x # f (x, y)dy dx. −∞ Eseguiamo il cambiamento di variabile u = xy. Si ha du = xdy; inoltre, quando y = z/x si ha u = z, se x < 0 e y = +∞ abbiamo u = −∞ ed infine u = −∞ se y = −∞ e x > 0. Pertanto possiamo scrivere la funzione di distribuzione di Z 5.8 Somme, prodotti e rapporti di variabili casuali 191 come Z +∞ Z z u u −1 du dx + du dx x f x, FZ (z) = x f x, x x 0 −∞ −∞ z Z 0 Z z Z +∞ Z z u u −1 −1 = −x f x, du dx + du dx x f x, x x −∞ −∞ 0 −∞ Z +∞ Z z Z z u u −1 −1 = du + du dx x f x, −x f x, x x −∞ −∞ −∞ Z z Z +∞ Z +∞ Z z 1 u 1 u du dx = dx du. (5.83) f x, f x, = x x −∞ −∞ |x| −∞ −∞ |x| Z 0 Z −∞ −1 Derivando rispetto a z la funzione 5.83 così ottenuta, e scambiando successivamente il ruolo di x e y, si perviene alla dimostrazione della 5.8.3. y {(x,y): x<0, y ≥ z/x} xy=z x 0 xy=z {(x,y):x>0, y ≤ z/x} Figura 5.14: Dominio di integrazione, D, della (5.79) per il calcolo di FXY (z) per ogni z numero reale negativo. Per quanto concerne il secondo caso, z < 0, i rami dell’iperbole equilatera z = xy giacciono nel secondo e nel quarto quadrante (vedi figura 5.14). Il dominio di integrazione è l’unione delle due regioni delimitate superiormente ed inferiormente 192 Capitolo 5. Variabili aleatorie dal ramo dell’iperbole per il secondo ed il quarto quadrante rispettivamente. Riapplicano il ragionamento precedente si dimostra lo stesso risultato che ha, quindi, validità generale. 5.8.4 Rapporto di due variabili casuali Proposizione 5.8.4. Per ogni numero reale z, la densità di probabilità della vaY riabile casuale Z rapporto delle variabili casuali Y e X, Z = , è data dalla X relazione fZ (z) = Z +∞ −∞ |x|f (x, zx)dx = Z +∞ −∞ |y| y f , y dy. z2 z (5.84) Per dimostrare la (5.84) determiniamo ZdiZdistribuzione della v-c Z che la funzione Y 6z = f (x, y)dxdy. A tal fine in questo caso è data da FZ (z) ≡ P X y/x6z si osservi che, se x < 0, allora la condizione y/x 6 z è verificata se e solo se y > xz, ∀z ∈ R. La regione di integrazione da considerare è n o y D ≡ (x, y) : 6 z = {(x, y) : x < 0, y > zx} ∪ {(x, y) : x > 0, y 6 zx}. x Essa è illustrata nelle figure 5.15 e 5.16, rispettivamente per z > 0 e z < 0. Osserviamo che la curva di equazione z = y/x coincide con la retta y = xz che, per z numero reale positivo, giace nel primo e nel terzo quadrante e nel secondo e quarto quadrante, se z < 0. 5.8 Somme, prodotti e rapporti di variabili casuali y 193 y=xz {(x,y): x<0, y ≥ xz} {(x,y):x>0, y ≤ xz} x 0 Figura 5.15: Dominio di integrazione, D, della (5.79) per il calcolo di FY /X (z) per z numero reale positivo. Si ha24 FZ (z) = Z 0 Z +∞ Z ∞ Z xz f (x, y)dy dx + f (x, y)dy dx 0 −∞ Z ∞ Z z = xf (x, ux)du dx + xf (x, ux)du dx −∞ z 0 −∞ Z 0 Z z Z ∞ Z z = −xf (x, ux)du dx + xf (x, ux)du dx −∞ −∞ 0 −∞ Z +∞ Z z Z z = −xf (x, ux)du + xf (x, ux)du dx −∞ −∞ −∞ Z +∞ Z z Z z Z z = |x|f (x, ux)du dx = |x|f (x, ux)dx du. (5.85) −∞ Z 0 −∞ 24 xz Z −∞ −∞ −∞ −∞ Eseguiamo il cambiamento di variabile u = y/x e nell’ultimo passaggio scambiamo di posto agli integrali. 194 Capitolo 5. Variabili aleatorie y {(x,y): x<0, y ≥ xz} 0 x y=xz {(x,y):x>0, y ≤ xz} Figura 5.16: Dominio di integrazione, D, della (5.79) per il calcolo di FY /X (z) con z numero reale negativo. DerivandoZ la FZ (z) rispetto a z, si ottiene la funzione di densità di probabilità +∞ fZ (z) = |x|f (x, zx)dx. La seconda parte della tesi si ricava scambiando il −∞ ruolo delle variabili x e y. 5.8.5 Variabili casuali indipendenti ed alcuni esempi Il caso di maggior interesse nelle applicazioni si ha quando X e Y sono variabili casuali indipendenti; l’ipotesi di indipendenza consente di riscrivere le relazioni dimostrate nei paragrafi precedenti esprimendo la fXY (x, y) come il prodotto delle funzioni di densità di probabilità marginali di X e Y . Proposizione 5.8.5. Siano X e Y variabili casuali indipendenti, con funzione di densità di probabilità fX (x) e fY (y), rispettivamente. 5.8 Somme, prodotti e rapporti di variabili casuali 195 Per ogni numero reale z si ha: (Z = X + Y ) fZ (z) = = (Z = X − Y ) fZ (z) = Z +∞ −∞ Z +∞ −∞ Z +∞ fX (x)fY (z − x)dx fX (z − y)fY (y)dy, (5.86a) fX (x)fY (z + x)dx −∞ Z +∞ = fX (z + y)fY (y)dy, −∞ Z +∞ z 1 dx fX (x)fY (Z = XY ) fZ (z) = x −∞ |x| Z +∞ z 1 = fY (y) dy, fX y −∞ |y| Z +∞ Y fZ (z) = |x|fX (x)fY (zx)dx Z= X −∞ Z +∞ |y| y fY (y) dy. = f 2 X z −∞ z (5.86b) (5.86c) (5.86d) Definizione 5.8.1. Siano date le funzioni densità di probabilità f (x) e g(y), si definisce25 convoluzione di f e g la funzione h(z) Z +∞ Z +∞ h(z) = f (x)g(z − x)dx = f (z − y)g(y)dy −∞ (5.87) −∞ che è essa stessa una densità di probabilità. La definizione precedente e la (5.86a) affermano che la densità di probabilità della somma di due variabili casuali indipendenti è la convoluzione delle loro densità individuali. La convoluzione viene indicata simbolicamente con la notazione h(z) = f (x) ⊗ g(y) oppure come h(z) = f (x) ∗ g(y). 25 Nella teoria di processi stocastici, in particolare nella branca che si occupa dell’analisi di segnali casuali, l’integrale di convoluzione è definito utilizzando una formulazione più generale: non è limitata alle densità di probabilità. 196 Capitolo 5. Variabili aleatorie Osservazione 5.8.2. Dal fatto che la densità di probabilità di X + Y coincide con convoluzione ottenuta dalle densità marginali di X e Y non segue che queste ultime siano indipendenti. Esempio 5.8.1. Siano X1 e X2 variabili casuali esponenziali indipendenti a parametro γ. Indichiamo con Y la v-c somma. La funzione densità di probabilità congiunta di (X1 , X2 ) è data da f (x1 , x2 ) = γ −2 exp {− (x1 + x2 ) /γ} se x1 > 0 e x2 > 0, f (x1 , x2 ) = 0 altrimenti. Applicando la (5.86a) e ricordando che che la densità esponenziale è nulla per valori dell’argomento minori o uguali a zero, otteniamo la densità di probabilità di Y = X1 + X2 : fY (y) = Z Z +∞ y 1 −x1 /γ e γ 1 −(y−x1 )/γ dx1 e γ f (x1 ) f (y − x1 ) dx1 = 0 Z y = γ −2 exp (−y/γ) dx1 = γ −2 y exp (−y/γ) −∞ per y > 0. 0 La fY (y) è nulla per valori di y minori o uguali a zero. Calcoliamo P (X1 + X2 > a) per a > 0. Si ha26 1 P (X1 + X2 > a) = 2 γ Z = Z a +∞ a/γ 26 +∞ (−y/γ) ye dy = Z +∞ (y/γ) e(−y/γ) d (y/γ) a we−w dw = e−w (−w − 1)|+∞ α/γ a a −a/γ −a/γ 1+ . − −1 = e =0−e γ γ Z exp(cx) · (cx − 1); nel nostro caso c = −1. Memento: x exp(cx)dx = c2 5.9 Funzioni di un vettore casuale 197 Consideriamo ora laZv-c differenza Z = X2 − X1 e determiniamo, a partire dalla +∞ (5.86b), la fZ (z) = f (x1 ) f (z + x1 ) dx1 . Per z > 0 abbiamo −∞ Z +∞ γ −1 e−x1 /γ γ −1 e−(z+x1 )/γ dx1 0 Z +∞ Z +∞ 2x1 −2 −z/γ −2x1 /γ −1 −z/γ −2x1 /γ 1 d =γ e e dx1 = γ e e 2 γ 0 0 Z +∞ = (2γ)−1 e−z/γ e−w dw = (2γ)−1 e−z/γ . fZ (z) = 0 Se z è un numero reale negativo, tenuto conto che −z > 0, si ha Z +∞ γ −1 e−x1 /γ γ −1 e−(z+x1 )/γ dx1 −z Z +∞ Z +∞ 2x1 −2 −z/γ −2x1 /γ −1 −z/γ −2x1 /γ 1 d =γ e e dx1 = γ e e 2 γ −z 0 Z +∞ = (2γ)−1 e−z/γ e−w dw −2z/γ +∞ = (2γ)−1 ez/γ . = (2γ)−1 · e−z/γ · −e−w fZ (z) = −2z/γ Dalle precedenti relazioni si ricava la cosiddetta densità di Laplace |z| −1 fZ (z) = (2γ) exp − ∀z ∈ R. γ (5.88) 5.9 Funzioni di un vettore casuale Seguendo la stessa linea di ragionamento sviluppata all’inizio del paragrafo 5.7, si dimostra che, se X ≡ (X1 , X2 , . . . , Xn ) è un variabile casuale n-dimensionale e g : Rn → Rm una funzione Borel-misurabile, anche U ≡ g(X) è una variabile casuale m-dimensionale. Se X è un vettore casuale discreto il calcolo di P(U = u) 198 Capitolo 5. Variabili aleatorie non pone problemi particolari come mostrano i successivi esempi che esaminano il caso di variabili casuali bidimensionali, X ≡ (X1 , X2 ), per semplicità di calcolo. Esempio 5.9.1. Siano X1 e X2 variabili casuali indipendenti, distribuite con legge binomiale con parametro 0 < p < 1; determiniamo la distribuzione di probabilità di Y = g [X ≡ (X1 , X2 )] = X1 + X2 . Indicando con n il numero di ripetizioni, si ha SX1 = SX2 ≡ (0, 1, 2, . . . , n) e SY ≡ (0, 1, 2, . . . , 2n). Vale la relazione P(Y = j) = P (X1 + X2 = j) = n X k=0 e, per le ipotesi poste, possiamo scrivere P(Y = j) = n X k=0 P (X1 = k, X2 = j − k) P (X1 = k) · P (X2 = j − k) = n X k=0 b(k; n, p) · b(j − k; n, p) n X n n k j−k n−j+k n−k p (1 − p) p (1 − p) × = j−k k k=0 n X 2n j n n j 2n−j p (1 − p)2n−j . p (1 − p) = = j j − k k k=0 Per giustificare l’ultimo passaggio di faccia riferimento all’identità ipergeometrica (2.20) ed in essa si ponga27 a = b = n, r = k e n − r = j − k. Esempio 5.9.2. Supponendo ancora valide le ipotesi sulle componenti di X, consideriamo la variabile casuale differenza W = g(X) = X1 − X2 e determiniamo P(W = j) con j ∈ SW ove SW ≡ [−n, −(n − 1), −1, 0, +1, . . . , n]. Osserviamo innanzitutto che P(W = j) = n X P (X1 = k + j, X2 = k) k=0 27 n k si annulla per k > n e la sommatoria è composta di un numero finito di termini. 5.9 Funzioni di un vettore casuale 199 e, pertanto, P(W = j) = n X k=0 P (X1 = k + j) · P (X2 = k) = n X k=0 b(k + j; n, p) · b(k; n, p). Si ha n X n k n n−k k+j n−k−j p (1 − p) p (1 − p) × P(W = j) = k k + j k=0 n X n 2k+j n p (1 − p)2n−2k−j = k k+j k=0 j X n p n 2k n = p (1 − p)2n−2k . k 1 − p k=0 k + j In particolare abbiamo P(W = 0) = n 2 X n k=0 k p2k (1 − p)2n−2k e −n X n p n 2k n P(W = −n) = p (1 − p)2n−2k k−n k 1−p n k=0 n n 2n 1−p n p (1 − p)2n−2n [infatti k−n = 0 se k < n] = n 0 p n 1−p = p2n = pn (1 − p)n . p Esempio 5.9.3. Siano X1 e X2 due variabili casuali di Poisson indipendenti a parametro λ1 e λ2 rispettivamente, determiniamo la legge di probabilità della variabile casuale Y = g [X ≡ (X1 , X2 )] = X1 + X2 . 200 Capitolo 5. Variabili aleatorie Tenendo presente che SX1 = SX2 = SY ≡ N0 , per ogni y ∈ N0 abbiamo P(Y = y) = P(X1 + X2 = y) e per la formula della probabilità totale (3.6) ∞ ∞ X X = P(X1 = x)P(X1 + X2 = y|X1 = x) = P(X1 = x, X1 + X2 = y) x=0 x=0 = y X x=0 P(X1 = x, X2 = y − x) = y X x=0 = e per l’ipotesi di indipendenza P(X1 = x)P(X2 = y − x) y X exp(−λ1 )λx exp(−λ2 )λy−x 1 2 y X y! λx1 λy−x 2 y! x!(y − x)! x=0 y X y x y −x λ1 λ2 λ2 x x=0 = e−(λ1 +λ2 ) · (y − x)! y e−(λ1 +λ2 ) ) X y x y−x e−(λ1 +λ2 ) = λ1 λ2 = y! y! x x=0 x y λ1 e−(λ1 +λ2 ) y X y = λ2 e per il teorema binomiale x y! λ2 x=0 y e−(λ1 +λ2 ) y λ1 (λ1 + λ2 )y −(λ1 +λ2 ) = λ2 1 + ·e = y! λ2 y! x=0 x! pertanto la v-c Y è una variabile casuale di Poisson a parametro λ1 + λ2 . Esempio 5.9.4. Sia X ≡ (X1 , X2 ) un vettore casuale ove28 X1 ∼ b(k; n, p), per k = 0, 1, . . . , n, e X2 ∼ b(j; n, p), j = 0, 1, . . . , n. Supponiamo che X1 e X2 siano v-c indipendenti e consideriamo il vettore casuale U ≡ (U1 , U2 ) funzione di X: U = g(X). Posto U1 = X1 / (X2 + 1) e U2 = X2 + 1, determiniamo pU1 U2 (u1, u2 ) = P (U1 = u1 , U2 = u2). Le trasformazioni inverse sono espresse dalle relazioni X1 = U1 · U2 e X2 = U2 − 1, da esse segue che SU1 U2 ≡ SX1 ≡ (0, 1, . . . , n) 28 X ∼ f (x) vuol significare che la funzione massa, o la densità di probabilità, di X è f (x), nel nostro caso la distribuzione binomiale. 5.9 Funzioni di un vettore casuale 201 e SU2 ≡ SX2 +1 ≡ (0, 1, . . . , n, n + 1). La distribuzione congiunta di U1 e U2 è data da pU1 U2 (u1 , u2) = P (U1 = u1 , U2 = u2 ) = P (X1 = u1 u2 , X2 = u2 − 1) = b (u1 u2 ; n, p) · b (u2 − 1; n, p) n n u1 u2 n−u1 u2 pu2 −1 (1 − p)n−(u2 −1) p (1 − p) × = u2 − 1 u1 u2 n n pu1 u2 +u2 −1 (1 − p)2n+1−u2 −u1 u2 = u2 − 1 u1 u2 sicché pU1 U2 (n, 1) = pn (1 − p)n e, per k, j = 0, 1, 2, . . . , n, pU 1 U 2 k ,j + 1 j+1 = P U1 = k , U2 = j + 1 j+1 n n k+j p (1 − p)2n−k−j . = j k Nel caso di una variabile casuale multidimensionale, le cui componenti siano assolutamente continue, il calcolo di fg(X) [g(x)] non è altrettanto semplice; per tale motivo esamineremo in dettaglio il caso bidimensionale. Sia X ≡ (X1 , X2 ) una variabile bidimensionale assolutamente continua con densità di probabilità congiunta fX1 ,X2 (x1 , x2 ) ed A un sottoinsieme del piano x1 x2 definito da: A = {(x1 , x2 ) : fX1 ,X2 (x1 , x2 ) > 0}. Consideriamo la funzione U ≡ (U1 , U2 ) = g(X). Sia ( u1 = g1 (x1 , x2 ) u2 = g2 (x1 , x2 ) (5.89) 202 Capitolo 5. Variabili aleatorie una trasformazione biunivoca che proietta A su un certo sottoinsieme29 D del piano u1 u2 . In altre parole supponiamo che esista la trasformazione inversa ( x1 = g1−1(u1 , u2 ) x2 = g2−1(u1 , u2 ) (5.90) per l’insieme di definizione della trasformazione. Ulteriori ipotesi sono la continuità delle funzioni g1 , g2 , g1−1 , g2−1, e che le derivate parziali ∂x1 ∂x2 ∂x2 ∂x1 ∂u1 ∂u2 ∂u1 ∂u2 esistono e sono continue. Infine assumiamo che lo Jacobiano della trasformazione inversa ∂(x1 , x2 ) ∂x1 /∂u1 ∂x1 /∂u2 J = = ∂(u1 , u2 ) ∂x2 /∂u1 ∂x2 /∂u2 sia diverso da zero. La densità di probabilità congiunta fU1 U2 (u1 , u2) è data da fU1 U2 (u1, u2 ) = |J |fX1 X2 g1−1(u1 , u2 ), g2−1(u1 , u2 ) . (5.91) Per dimostrare la (5.91) richiamiamo alcune nozioni connesse al concetto di prodotto vettoriale. Siano a ≡ (ax , ay ) e b ≡ (bx , by ) due generici vettori ed indichiamo con a ∧ b il loro prodotto vettoriale che, come è noto, è esso stesso un vettore. Il modulo di tale vettore, |a ∧ b| = ab sin θ, è l’area del parallelogramma individuato dai due vettori (vedi figura 5.17). Dal calcolo vettoriale si ricava a a x y (5.92) |a ∧ b| = = ax by − ay bx . bx by Nel sistema di assi cartesiani x1 x2 fissiamo un rettangolino R ⊂ A di area dx1 dx2 (vedi figura 5.18), il prodotto fX1 X2 (x1 , x2 ) dx1 dx2 è la probabilità che la variabile casuale bidimensionale (X1 , X2 ) assuma valori all’interno di R. 29 D è un sottoinsieme del piano u1 u2 costituito dai punti (u1 , u2 ) per i quali esiste un elemento (x1 , x2 ) ∈ A tale che (u1 , u2 ) = [g1 (x1 , x2 ), g2 (x1 , x2 )]. 5.9 Funzioni di un vettore casuale 203 b θ a Figura 5.17: Significato geometrico del modulo di un prodotto vettoriale. Se x1 varia di una quantità dx1 , come conseguenza, nel piano u1 u2 , la variazione di u1 sarà du1 = (∂u1 /∂x1 ) dx1 e, quella di u2 , du2 = (∂u2 /∂x1 ) dx1 . Analogamente, ad una variazione dx2 di x2 corrispondono le variazioni (∂u1 /∂x2 ) dx2 e (∂u2 /∂x2 ) dx2 di u1 e u2 , rispettivamente. Pertanto le (5.89) trasformano il rettangolo R ⊂ A del piano x1 x2 nel parallelogramma S ⊂ D nel sistema di coordinate u1 u2 , come mostrato nella figura 5.19. Le precedenti considerazioni consentono di scrivere la relazione P [(X1 , X2 ) ∈ R] ≡ fX1 X2 (x1 , x2 ) dx1 dx2 | {z } area di R = fU1 U2 (u1 , u2 ) × area di S ≡ P [(U1 , U2 ) ∈ S] . (5.93) A questo puntosi osservi che la lunghezza della base di S coincide con il modu ∂u1 ∂u2 lo del vettore · dx1 , · dx1 , mentre la lunghezza del lato obliquo con ∂x1 ∂x1 204 Capitolo 5. Variabili aleatorie x2 dx R 2 dx1 x1 Figura 5.18: R ⊂ A. ∂u2 ∂u1 · dx2 , · dx2 il modulo del vettore ∂x2 ∂x2 l’area del parallelogramma S è ∂u1 ∂u 2 · dx · dx 1 1 ∂x1 ∂x1 = ∂u1 ∂u 2 ∂x · dx2 ∂x · dx2 2 2 . Pertanto, dalla (5.92) segue che ∂u1 ∂x1 ∂u1 ∂x2 dx1 dx2 . ∂u2 ∂x2 ∂u2 ∂x1 (5.94) Poiché il valore del determinante di una matrice non cambia se in essa si scambiano le righe con le colonne, la (5.94) può essere riscritta come ∂u1 ∂u2 ∂u1 ∂u1 ∂x1 ∂x1 ∂x1 ∂x2 dx1 dx2 = dx1 dx2 = |J |dx1 dx2 . ∂u1 ∂u2 ∂u2 ∂u2 ∂x ∂x ∂x ∂x 2 2 1 2 (5.95) 5.9 Funzioni di un vettore casuale 205 (∂ u1/∂ x2)dx2 u 2 S (∂ u2/∂ x2)dx2 (∂ u2/∂ x1)dx1 (∂ u /∂ x )dx 1 1 1 u 1 Figura 5.19: S ⊂ D Nella (5.95) è stato introdotto il valore assoluto |J | del determinante Jacobiano30 ∂(u1 , u2) in quanto l’area di un poligono è un numero reale positivo. Il valore ∂(x1 , x2 ) assoluto di J svolge il ruolo di fattore di trasformazione per la misura delle aree quando si passa dal sistema di coordinate x1 x2 al sistema di coordinate u1 u2 : l’area del parallelogramma S è |J | volte l’area del rettangolo R. Dalla (5.93) e dalla (5.95) deduciamo che fX1 X2 (x1 , x2 ) dx1 dx2 = fU1 U2 (u1 , u2 ) |J |dx1 dx2 da cui segue fX1 X2 (x1 , x2 ) = |J |fU1 U2 (u1 , u2 ) 30 Si sottolinea che in questo caso J è il determinate Jacobiano della trasformazione diretta ui = gi (x1 , x2 ), i = 1, 2. 206 ed infine Capitolo 5. Variabili aleatorie ∂(u1 , u2 ) −1 fX1 X2 (x1 , x2 ) fU1 U2 (u1 , u2) = ∂(x1 , x2 ) ove xi = gi−1 (u1 , u2), i = 1, 2. Fino ad ora abbiamo fatto ricorso al determinante Jacobiano della trasformazione diretta laddove nella (5.91) compare quello della trasformazione inversa. Ragionando all’inverso, ovvero passando dal sistema di coordinate u1 u2 al sistema di coordinate x1 x2 , il fattore di conversione di un’area nel piano u1 u2 nella sua immagine nel piano x1 x2 è il valore assoluto del determinate Jacobiano ∂(x1 , x2 )/∂(u1 , u2 ). Infine si perviene alla (5.91) esprimendo x1 e x2 in funzione di u1 e u2 : x1 = g1−1(u1 , u2 ) e x2 = g2−1 (u1 , u2). Esempio 5.9.5. Supponiamo che la variabile casuale (X1 , X2 ) abbia la funzione ( exp (−x1 − x2 ) se x1 > 0, x2 > 0 fX1 X2 (x1 , x2 ) = 0 altrove come funzione densità di probabilità congiunta e di essere interessati alla densità congiunta di (X1 + X2 , X2 /X1 ). Le trasformazioni coinvolte sono u1 = x1 + x2 x2 u2 = x1 e le inverse u1 1 + u2 u1 u2 = 1 + u2 x1 = x2 5.9 Funzioni di un vettore casuale 207 che pongono in corrispondenza biunivoca i punti nel primo quadrante del piano x1 x2 e quelli nel primo quadrante del piano u1 u2 . Si ha ∂(x1 , x2 ) ∂x1 /∂u1 ∂x1 /∂u2 = ∂(u1 , u2) ∂x2 /∂u1 ∂x2 /∂u2 1 u1 − 1 + u2 (1 + u2 )2 = u u1 u2 u1 2 − 1 + u2 1 + u2 (1 + u2 )2 In conclusione, se u1 , u2 > 0, abbiamo u1 u1 u2 u1 × exp − − fU1 U2 (u1 , u2 ) = (1 + u2 )2 1 + u2 1 + u2 u1 >0. = (1 + u2 )2 = u1 exp (−u1 ) × 1 (1 + u2 )2 e sarà fU1 U2 (u1 , u2) = 0, altrove. Le variabili casuali U1 e U2 sono indipendenti. Esempio 5.9.6. Si supponga che X1 e X2 siano variabili casuali indipendenti, ognuna uniformemente distribuita nell’intervallo (0, 1). Abbiamo fX1 X2 (x1 , x2 ) = fX1 (x1 ) fX2 (x2 ) e A = {(x1 , x2 ) : 0 < x1 < 1 e 0 < x2 < 1} coincide con il quadrato di lato unitario con un vertice nell’origine degli assi (vedi figura 5.20). Sia U1 = X1 + X2 e U2 = X2 − X1 , determiniamo fU1 U2 (u1 , u2). La relazione (5.89) diventa31 31 ( u1 = g1 (x1 , x2 ) = x1 + x2 u2 = g2 (x1 , x2 ) = x2 − x1 Si osservi che u1 ∈ (0, 2) e u2 ∈ (−1, 1). 208 Capitolo 5. Variabili aleatorie x 2 x =0 2 x =1 2 x =0 1 1 x =1 1 A 0 1 x1 Figura 5.20: A ≡ {(x1 , x2 ) : fX1 X2 (x1 , x2 ) > 0}. mentre ( x1 = g1−1(u1 , u2 ) = x2 = g2−1(u1 , u2 ) = 1 2 1 2 (u1 − u2 ) (u1 + u2 ) rappresenta la trasformazione inversa. Si noti che la trasformazione ui = gi (x1 , x2 ) (i = 1, 2) proietta A nel sottoinsieme D del piano u1 u2 (vedi figura 5.21). Infatti la frontiera x1 = 0 di A diventa la frontiera di D 1/2(u1 − u2 ) = 0, ovvero u2 = u1 ; la frontiera x2 = 0 di A diventa 1/2(u1 + u2) = 0, ovvero u2 = −u1 . Analogamente la frontiera x1 = 1 diventa u2 = u1 − 2 e x2 = 1 diventa u2 = 2 − u1 . Il determinante Jacobiano della trasformazione inversa è ∂(x1 , x2 ) ∂x1 /∂u1 ∂x1 /∂u2 = ∂(u1 , u2 ) ∂x2 /∂u1 ∂x2 /∂u2 1/2 −1/2 = 1/2. = 1/2 1/2 5.9 Funzioni di un vettore casuale 209 u2 2 1 u2 = u1 D u2 = −u1 0 u2 =2− u1 u2 = u1−2 −1 −2 0 1 2 u 1 Figura 5.21: D ≡ {(u1, u2 ) : fU1 U2 (u1 , u2 ) > 0}. Si ha fU1 U2 (u1 , u2 ) = |J |fX1 X2 g1−1 (u1 , u2) , g2−1 (u1 , u2) 1 = × fX1 g1−1 (u1 ) ] × fX2 g2−1 (u2 ) ] 2 1 u1 + u2 u1 − u2 = × fX1 × fX2 2 2 2 e quindi fU1 U2 (u1 , u2 ) = 1/2 per (u1 , u2) ∈ D, fU1 U2 (u1 , u2 ) = 0 altrimenti. In termini più dettagliati, tenuto conto dell’espressione analitica della distribuzione uniforme, fU1 U2 (u1 , u2 ) = 1/2 se u1 e u2 verificano le condizione u1 − u2 <1 2 e 0< 0 < u1 − u2 < 2 e 0 < u1 + u2 < 2 . 0< u1 + u2 <1 2 o l’equivalente 210 Capitolo 5. Variabili aleatorie Calcoliamo le densità marginali32 . Per quanto concerne U1 si ha Z 1 u1 du2 = u1 se u1 ∈ (0, 1] fU1 (u1 ) = 2 −u1 Z 1 2−u1 = du2 = 2 − u1 se u1 ∈ (1, 2) 2 u1 −2 ed fU1 (u1 ) = 0 altrimenti. Analogamente otteniamo Z 1 u2 +2 du1 = 1 + u2 se u2 ∈ (−1, 0] fU2 (u2 ) = 2 −u2 Z 1 2−u2 du1 = 1 − u2 se u2 ∈ (0, 1) = 2 u2 ed fU2 (u2 ) = 0 altrimenti. La (5.91) si generalizza al caso di variabili casuali n-dimensionali, con n > 2; illustreremo il procedimento con un esempio. Esempio 5.9.7. Sia X = (X1 , X2 , X3 ) una variabile casuale tridimensionale, supponiamo, inoltre, che le variabili casuali Xi siano indipendenti ed identicamente distribuite con una densità esponenziale fXi (xi ) = exp (−xi ), se xi ∈ (0, +∞), e fXi (xi ) = 0, se xi ∈ / (0, +∞), con (i = 1, 2, 3). Sia U = (U1 , U2 , U3 ) ≡ g(X); definiamo la trasformazione diretta come   u1 = g1 (x1 , x2 , x3 ) = x1 + x2 + x3    x1 + x2 u2 = g2 (x1 , x2 , x3 ) = x1 + x2 + x3   x1   u3 = g3 (x1 , x2 , x3 ) = x1 + x2 da cui si ottiene u2 = (x1 + x2 )/u1, x1 + x2 = u1 u2 , u3 = x1 /u1 u2 ed infine: x1 = u1 u2 u3 . 32 u1 ∈ (0, 2), u2 ∈ (−1, 1); per i limiti di integrazione fare riferimento alla figura. 5.9 Funzioni di un vettore casuale 211 Inoltre si ha x2 = u1 u2 − x1 = u1 u2 − u1 u2 u3 = u1 u2 (1 − u3 ) e x3 = u1 − (x1 + x2 ) = u1 − u1 u2 = u1 (1 − u2 ). In virtù delle precedenti relazioni, lo Jacobiano della trasformazione inversa è ∂x1 ∂x1 ∂x1 ∂u1 ∂u2 ∂u3 u1 u3 u1 u2 u2 u3 ∂x2 ∂x2 ∂x2 = u2 (1 − u3 ) u1 (1 − u3 ) −u1 u2 = −u21 u2 . J = ∂u1 ∂u2 ∂u3 1 − u2 −u1 0 ∂x3 ∂x3 ∂x3 ∂u ∂u ∂u 1 2 3 Notiamo che fX1 X2 X3 = exp(−x1 ) exp(−x2 ) exp(−x3 ) = exp[−(x1 + x2 + x3 )] e che u1 ∈ (0, +∞), u2, u3 ∈ (0, 1). La densità di U è fU1 U2 U3 (u1 , u2 , u3 ) = u21u2 × e−u1 = u21 e−u1 u2 . CAPITOLO 6 Caratteristiche numeriche delle variabili aleatorie Abbiamo sottolineato in precedenza come la descrizione più completa di una variabile casuale sia rappresentata dalla sua funzione di distribuzione. Infatti essa indica sia i valori che la variabile casuale può assumere sia con quale probabilità questi valori occorrono. Dalla funzione di distribuzione, applicando determinate regole, si calcolano alcuni parametri caratteristici delle variabili aleatorie. Fra queste costanti la più comune è la cosiddetta media o speranza matematica o valore atteso o valore di aspettazione. Definizione 6.0.1. Siano X una variabile casuale e g : R → R una funzione Borel-misurabile; consideriamo la variabile aleatoria g(X). (i) Supponiamo che X sia discreta, con spettro a cardinalità numerabile e funP zione massa {pX (xi )}i∈N . Se ∞ i=1 |g(xi )|pX (xi ) < +∞, si definisce speranza matematica di g(X) la quantità E[g(X)] = ∞ X i=1 g(xi )pX (xi ) (6.1) 214 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie (ii) Se X è assolutamente continua, con densità di probabilità fX (x), definiamo speranza matematica di g(X) la quantità E[g(X)] = Z ∞ g(x)fX (x)dx (6.2) −∞ a patto che R∞ −∞ |g(x)|fX (x)dx < +∞. In accordo alla precedente definizione possiamo affermare che E[g(X)] esiste se risulta E[|g(X)|] < +∞. Nel seguito, specificando opportunamente la legge g(X), esamineremo alcuni casi di interesse. 6.1 Valore medio Se g(X) = X, le formule 6.1 e 6.2 consentono il calcolo del valore medio o momento di ordine 1 della variabile casuale X. In particolare si ha (iii) per X discreta, se la serie P i xi pX (xi ) è assolutamente convergente, allora E[X] ≡ µ = ∞ X xi pX (xi ) (6.3) i=1 (iv) per X assolutamente continua E[X] = Z ∞ xfX (x)dx (6.4) −∞ a patto che la funzione |x|fX (x) sia integrabile. Osservazione 6.1.1. I termini, valore atteso o valore di aspettazione quali sinonimi di valore medio potrebbero indurre in errore, infatti il valore µ ≡ E[X] non 6.1 Valore medio 215 necessariamente coincide con uno dei valori che la v-c X può assumere una volta eseguito l’esperimento casuale E. Si consideri, ad esempio, l’esperimento del lancio di un dado; si ha µ= 6 X i=1 21 1 = 3.5 i · pi = (1 + 2 + 3 + 4 + 5 + 6) = 6 6 che non è tra i risultati possibili. Osservazione 6.1.2. Se con FX denotiamo la funzione di distribuzione della variabile casuale X, i termini media di X e media di FX sono da intendersi come sinonimi. Osservazione 6.1.3. Il concetto di valore medio può essere messo in relazione al concetto di baricentro proprio della meccanica. A tale scopo prendiamo in esame il caso di una distribuzione di probabilità discreta e finita {p(xi )}i∈[1,n] ; immaginiamo di disporre lungo una retta, nei punti di coordinata x1 , x2 , . . . , xn , delle biglie di massa p(x1 ), p(x2 ), . . . , p(xn ) rispettivamente. La speranza matematica P P i xi · p(xi ) coincide, ricordando che i p(xi ) = 1, con il baricentro del sistema di masse: Pn i=1 xi · mi xB = P . n i=1 mi Da un punto di vista meccanico possiamo studiare il sistema immaginando che la massa complessiva, unitaria nel nostro caso, in concentrata nel baricentro: il punto di ascissa xB . Naturalmente l’analogo meccanico, se X è assolutamente continua, è ancora valido. In questo caso dobbiamo immaginare di diluire la massa unitaria sull’asse delle ascisse con una densità ρ(x) uguale alla densità di probabilità f (x): xB = R +∞ xρ(x)dx R−∞ +∞ −∞ ρ(x)dx = R +∞ xf (x)dx R−∞ +∞ −∞ f (x)dx = Z +∞ −∞ xf (x)dx ≡ µ. 216 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie Esempio 6.1.1. Variabile casuale del Bernoulli Essendo P(X = 1) = p e P(X = 0) = 1 − p, si ha E[X] = 1 · p + 0 · (1 − p) = p (6.5) sicché il numero atteso di successi in una singola prova del Bernoulli coincide con la probabilità che la prova dia luogo ad un successo. Esempio 6.1.2. Variabile casuale binomiale Ricordando la 4.1 possiamo scrivere E[X] = = n X i=0 n X i=1 n n X X n i n i n−i p (1 − p)n−i p (1 − p) = i i · b(i; n, p) = i i i i=1 i=0 n X n! i · n! pi (1 − p)n−i = pi (1 − p)n−i i! · (n − i)! (i − 1)! · (n − i)! i=1 = np n X i=1 (n − 1)! pi−1 (1 − p)n−i . (i − 1)! · (n − i)! Eseguiamo la trasformazione di variabile k = i − 1. Per i = 1 si ha k = 0 e per i = n risulta k = n − 1. Pertanto n X i=1 (n − 1)! pi−1 (1 − p)n−i (i − 1)! · (n − i)! n−1 X (n − 1)! pk (1 − p)n−k−1 (k + 1 − 1)! · (n − k − 1)! k=0 m n−1 X X m k n−1 k (n−1)−k p (1 − p)m−k = 1 p (1 − p) = = k k k=0 k=0 = in virtù della condizione di normalizzazione (4.2). In conclusione E[X] = n X i=0 i · b(i; n, p) = np. (6.6) 6.1 Valore medio 217 La media della distribuzione binomiale è uguale al prodotto del numero delle prove per la probabilità p di successo. Esempio 6.1.3. Distribuzione di Poisson Sia X una variabile casuale di Poisson, si ha E[X] = ∞ X i=0 i · p(i, λ) = ∞ X i=0 ∞ −λ i·e X λi λi = e−λ · i! (i − 1)! i=1 ∞ X λi−1 −λ =λ·e (i − 1)! i=1 (ponendo j = i − 1) = λ · e−λ ∞ X λj j=0 j! = λ · e−λ · eλ = λ (6.7) P∞ λj = eλ . La (6.7) afferma che il parametro λ j=0 j! che compare nella (4.10) coincide con il valore medio della v-c di Poisson. ove si è fatto uso dell’identità Esempio 6.1.4. Variabile casuale geometrica Ricordando l’espressione analitica (4.12) della densità di probabilità della variabile casuale geometrica e ponendo q = 1 − p, possiamo scrivere1 E[X] = ∞ X k=0 k · f (k; 1, p) = ∞ X k=1 k · p · q k = p q + 2q 2 + 3q 3 + · · · ∞ ∞ X X d k k · q k−1 = p · q q = p · q 1 + 2q + 3q 2 + · · · = p · q dq k=1 k=1 "∞ # d q 1 d X k q =p·q· =p·q· =p·q· dq k=1 dq 1 − q (1 − q)2 q·p = 2 = q/p. (6.8) p P∞ P∞ P∞ Si ha k=0 q k = 1/(1 − q), da cui 1 + k=1 q k = 1/(1 − q) ed ancora k=1 q k = 1/(1 − q) − 1 = q/(1 − q). 1 218 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie Il valore di E[X], espresso dalla (6.8), è il numero medio di insuccessi che precedono il primo successo in una successione di prove del Bernoulli. Osservazione 6.1.4. La speranza matematica della distribuzione geometrica modificata (4.17) è uguale ad 1/p. Esempio 6.1.5. Distribuzione binomiale negativa Calcoliamo ora il valore medio di una variabile casuale Xr con funzione massa data dalla distribuzione binomiale negativa −r r p (−q)k f (k; r, p) = k k ∈ N0 . Per la definizione data di valore medio, possiamo scrivere E [Xr ] = ∞ X kf (k; r, p) = k=0 ∞ X kf (k; r, p). k=1 Sviluppiamo il prodotto kf (k; r, p); si ha −r −1 r+1 −r r k p p (−q)k−1 (−q) p (−q) = k kf (k; r, p) = k k k (6.9) ove, per la definizione di coefficiente binomiale, (−r)k −r (−r)(−r − 1)(−r − 2) · · · (−r − k + 1) = = k k! k! e, quindi, (−r)(−r − 1)(−r − 2) · · · (−r − k + 1) −r . = k (k − 1)! k Osserviamo che (−r − 1)k−1 = (−r − 1) · [(−r − 1) − 1] · [(−r − 1) − 2] · | {z } | {z } −r−2 −r−3 · · · [(−r − 1) − (−k − 1) + 1] {z } | −r+k+1 6.1 Valore medio 219 ed allora si ricava −(r + 1) −r − 1 (−r − 1)k−1 −r . = (−r) = (−r) = (−r) k k−1 k−1 (k − 1)! k I risultati precedenti consentono di riscrivere la (6.9) come rq −(r + 1) r+1 −1 p (−q)k−1 = f (k − 1; r + 1, p) kf (k; r, p) = (−r)p (−q) k−1 p ed, in conclusione, si ottiene la relazione ∞ rq X E [Xr ] = f (k − 1; r + 1, p) = r(q/p). p k=1 {z } | (6.10) 1 Per convincersi della validità della precedente relazione si ponga2 r + 1 = l e ∞ ∞ X X j = k − 1, si ha f (k − 1; r + 1, p) = f (j; l, p) ≡ 1. k=1 j=0 Esempio 6.1.6. Distribuzione ipergeometrica Sia X una v-c con densità di probabilità ipergeometrica, calcoliamo ∞ X a+b b a / k E[X] = n n−k k k=0 −1 X ∞ b a+b a . (6.11) = · k n − k n k k=1 La serie che compare nella definizione del valore medio (6.11) apparen è solo b a , si e temente una serie infinita in quanto i coefficienti binomiali, n−k k annullano per k > a e n − k > b, rispettivamente. nel seguito continueremo a 2 Si rammenti che r è un intero positivo. 220 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie considerarla come tale per esigenze formali. Calcoliamo la somma della serie a secondo membro; per la (2.15) si ha X ∞ ∞ X b a−1 b a = a k k−1 n−k n−k k k=1 k=1 ∞ X a+b−1 b a−1 =a =a n−1 n − 1 − l l l=0 ove si è fatto uso del cambiamento di variabile l = k − 1 e dell’identità ipergeometrica (2.20). Infine, ritornando alla (6.11), possiamo porre a+b−1 a −1 X ∞ b a a+b n−1 = k E[X] = · a+b n − k k n k=1 n (a + b − 1)! n! · (a + b − n)! =a· · = an(a + b)−1 . (6.12) (a + b)! (n − 1)! · (a + b − n)! Esempio 6.1.7. Densità di probabilità di Cauchy La funzione −1 f (x) = π 1 + x2 x∈R (6.13) è denominata densità di probabilità di Cauchy, Essa è non negativa ∀x ∈ R ed inoltre Z +∞ −∞ 1 f (x)dx = π Z +∞ 1 1 π π 1 +∞ =1. dx = · arctan | = · + −∞ 1 + x2 π π 2 2 −∞ La densità di Cauchy non ammette valore medio, infatti Z +∞ −∞ |x| dx = 2 1 + x2 Z 0 +∞ x 1 2 +∞ dx = 2 · · ln 1 + x = +∞. 0 1 + x2 2 6.1 Valore medio 221 Esempio 6.1.8. Speranza matematica di una variabile casuale esponenziale Ricordando la definizione di densità di probabilità esponenziale a parametro γ, il valore atteso di X è E[X] = Infatti, integrando per parti3 si ha Z +∞ −γx xγe 0 dx = −x Z +∞ e−γx 0 +∞ xγe−γx dx = 0 + Z 1 . γ (6.14) +∞ e−γx dx 0 =0− 1 1 −γx +∞ ·e = − · (0 − 1) = 1/γ. 0 γ γ Il precedente risultato dimostra che la speranza matematica di un variabile casuale esponenziale coincide con il reciproco del parametro che caratterizza la funzione di distribuzione. Nell’ipotesi che il tempo di attesa per effettuare un’operazione presso uno sportello bancario sia una variabile casuale esponenziale T con media µ = 6 minuti, calcoliamo la probabilità che un cliente attenda più dieci minuti. Essendo γ = 1/6 e utilizzando la relazione (5.28), si ha 1 5 P(T > 10) = 1 − P(T 6 10) = exp − · 10 = exp − ≈ 0.19 . 6 3 Inoltre la probabilià che il cliente attenda dieci minuti per essere servito, sapendo che ne ha già atteso quattro, è, per la (5.30), 1 P(T > 4 + 6|T > 4) = exp − · 6 = e−1 ≈ 0.37 . 6 Esempio 6.1.9. Speranza matematica di una variabile casuale uniforme Sia X un v-a con densità di probabilità uniforme nell’intervallo dell’asse reale R u(x)v ′ (x)dx = u(x)v(x) − u′ (x)v(x)dx ove u(x) = x e v(x) = − exp(−γx); d inoltre risulta [− exp(−γx)] = +γ exp(−γx) dx 3 Si ha R 222 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie [a, b]; la funzione f (x) è così definita: f (x) = (b − a)−1 , se 0 6 a 6 x 6 b, f (x) = 0 altrove. Si ha b Z b Z b 1 1 x2 x xdx = dx = · E[X] = b−a a b − a 2 a a b−a a+b 1 1 = · · b2 − a2 = . (6.15) b−a 2 2 Osservazione 6.1.5. Se si pone g(x) = |x|, E[|X|] prende il nome di momento assoluto della variabile casuale X. Possiamo, allora, affermare che X, discreta o assolutamente continua, ammette un valore medio se esiste il momento assoluto E[|X|]. Teorema 6.1.1. Se X ammette una media E[X], allora, ∀a, b ∈ R, E[aX + b] = aE[X] + b. (6.16) Dimostrazione. Dobbiamo innanzitutto dimostrare che E[|aX + b|] < +∞. A tale scopo, dalla disuguaglianza triangolare4 e dalla non negatività di f (x), segue Z +∞ E[|aX + b|] ≡ |ax + b|f (x)dx −∞ Z +∞ Z +∞ 6 |ax|f (x)dx + |b|f (x)dx = |a|E[|X|] + |b| < +∞. −∞ −∞ | {z } | {z } E[|aX|] E[|b|] La precedente relazione assicura che g(X) = aX + b ammette una media finita, in particolare E[aX + b] = Z +∞ −∞ (ax + b)f (x)dx Z +∞ Z =a xf (x)dx + b −∞ +∞ −∞ La dimostrazione è del tutto analoga nel caso discreto 4 |a + b| 6 |a| + |b| f (x)dx = aE[X] + b. 6.2 Momenti di ordine superiore 223 Proposizione 6.1.1. Se X è una variabile casuale che assume solamente valori non negativi, per ogni numero reale a sussiste la seguente disuguaglianza di Markov: P(X > a) 6 µX /a. (6.17) Per la verifica della (6.17) limitiamoci a considerare il caso di X assolutamente continua con funzione densità di probabilità fX (x). Si ha µX = > Z Z +∞ xfX (x)dx = 0 +∞ xfX (x)dx > a Z Z a xfX (x)dx + 0 Z +∞ a +∞ afX (x)dx = a a xfX (x)dx Z +∞ fX (x)dx = aP(X > a) a e la validità della disuguaglianza di Markov è stata dimostrata. 6.2 Momenti di ordine superiore Ponendo nella 6.1 e nella 6.2 g(x) = xk , con k ∈ N0 , si definiscono i cosiddetti momenti di ordine k X k µk ≡ E X k = xi pX (xi ) µk ≡ E X k = Z (se X è discreta) (6.18a) i ∞ xk fX (x)dx (se X è assolutamente continua) (6.18b) −∞ P sempre assumendo che risultino verificate le condizioni |g(x)|pX (xi ) < +∞ R +∞ e −∞ |g(x)|fX (x)dx < +∞, rispettivamente. I momenti µk sono spesso denominati momenti intorno all’origine. Se k = 0 si ha µ0 = 1 che esprime semplicemente la condizione di normalizzazione; nel caso in cui k = 1 si ricade nel caso prima esaminato del momento di ordine 1 o del valore medio. Il momento di ordine 2, µ2 = E [X 2 ], prende il nome di media quadratica della v-a X. 224 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie La definizione dei momenti assoluti di ordine k, E |X|k , è del tutto analoga a quelle precedentemente date X |xi |k pX (xi ) Z ∞ −∞ i |x|k fX (x)dx per distribuzioni di probabilità discrete e continue, rispettivamente. Osservazione 6.2.1. Poiché xk = |x|k , l’esistenza del momento assoluto di ordine k implica l’esistenza di µk . Applicando le relazioni menzionate nella definizione 6.0.1 con g(x − µ), si definiscono momenti centrali di ordine k: ′ µk = E (X − µ)k k ∈ N0 . (6.19) ′ Corollario 6.2.1. Se X è dotata di media finita allora µ1 ≡ E[(X − µ)] = 0. Dimostrazione. La dimostrazione segue dal teorema 6.1.1 se si assume a = 1 e b = −E[X]. Teorema 6.2.1. Se µn < +∞, esistono allora finiti tutti i momenti µm , ∀m < n. Dimostrazione. Per dimostrare la tesi è sufficiente dimostrare che se µr < +∞ anche µr−1 < +∞. Si rammenti che µr−1 esiste finito se la funzione xr−1 fX (x) è assolutamente integrabile (o sommabile). Possiamo scrivere Z ∞ Z Z r−1 r−1 |x| fX (x)dx = |x| fX (x)dx + |x|r−1 fX (x)dx −∞ |x|61 6 Z +∞ fX (x)dx + −∞ Z |x|>1 |x|>1 |x| r−1 fX (x)dx = 1 + Z |x|>1 |x|r−1 fX (x)dx. La condizione |x| > 1 implica che |x|r−1 < |x|r , pertanto Z ∞ Z Z ∞ r−1 r |x| fX (x)dx < 1 + |x| fX (x)dx < 1 + |x|r fX (x)dx < +∞ −∞ |x|>1 −∞ e la tesi è stata verificata per X assolutamente continua. La dimostrazione, nel caso discreto, è analoga. 6.2 Momenti di ordine superiore 225 6.2.1 La varianza di una variabile casuale Per introdurre il concetto di varianza è utile fare riferimento al modello meccanico che ha consentito di mettere in relazione il valore di aspettazione con il baricentro di un sistema lineare di masse. La conoscenza della posizione del centro di gravità non dà alcuna informazione circa la dispersione delle masse intorno ad esso. In meccanica tale informazione è insita nel momento di inerzia I. Indicando con sj la distanza della massa mj dal baricentro del sistema (lineare) di masse, si ha I= X j mj · s2j . Nel caso che la distribuzione della massa unitaria sia continua, con densità ρ(s), la precedente definizione assume la forma5 I= Z +∞ s2 ρ(s)ds. −∞ Tornando alla nostra variabile casuale X, il valore µ è una misura della tendenza centrale della densità di probabilità fX (x), se X è assolutamente continua, o, nel caso discreto, della distribuzione {pX (xi )}. Qual è il parametro che può svolgere lo stesso ruolo del momento d’inerzia e, quindi, consentire una valutazione quantitativa della dispersione intorno al valore medio dei valori assunti dalla variabile casuale? Poichè la media delle deviazioni X − µ è nulla (vedi il corollario 6.2.1), è chiaro che non possiamo usare E[X − µ] come una misura di dispersione. Una possibiltà potrebbe essere rappresentata dalla speranza matematica di |X − µ|, ma i calcoli matematici che coinvolgono i valori assoluti non sono sempre agevoli. Una ulteriore alternativa consiste nel considerare la v-c (X − µ)2 . 5 In questo caso, invece delle masse discrete mj , dobbiamo considerare le massa distribuita nell’intervallino ds: dm = ρ(s)ds. 226 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie Definizione 6.2.1. Sia X una variabile casuale tale che E [X 2 ] < +∞, la varianza di X è definita come il momento centrale di ordine 2 2 σX ≡ E (X − µ)2 . (6.20) La radice quadrata σX è denominata deviazione standard di X. Una v-c dotata di varianza finita è non degenere. 2 In particolare, se X è di tipo discreto si ha σX = 2 assolutamente continua, la varianza è data da σX = Vale la seguente importante relazione: X (xj − µ)2 pX (xi ); se X è Zj +∞ −∞ (x − µ)2 f (x)dx. 2 σX ≡ E (X − µ)2 = E X 2 − 2µX + µ2 = E X 2 − 2µE[X] + µ2 = E X 2 − µ2 . (6.21) Osservazione 6.2.2. Se la v-c X assume valori prossimi alla speranza matematica 2 µ, il valore di σX = E [(X − µ)2 ] sarà piccolo, viceversa accade se X tende ad assumere valori molto diversi dalla media. La varianza è il valore atteso della variabile casuale scarto quadratico rispetto alla media. Osservazione 6.2.3. Sia c un numero reale, si ha E (X − c)2 = E (X − µ − c + µ)2 2 = E (X − µ)2 − 2(c − µ)E[X − µ] + (c − µ)2 = σX + (c − µ)2 . Dalla precedente relazione segue che E [(X − c)2 ] assume il valore minimo se si pone c = µ. Proposizione 6.2.1. Moltiplicando la variabile casuale X per un costante reale a si produce il seguente effetto sulla varianza: 2 2 σaX = a2 σX . (6.22) 6.2 Momenti di ordine superiore 227 Infatti si ha 2 σaX = E (aX)2 − {E[aX]}2 = a2 E X 2 − (aE[X])2 2 = a2 E X 2 − a2 (E[X])2 = a2 E X 2 − (E[X])2 = a2 σX . Proposizione 6.2.2. La varianza non cambia se si somma una costante alla variabile casuale: 2 2 σX+a = σX . (6.23) Infatti 2 σX+a = E (X + a)2 − {E[X + a]}2 = E X 2 + 2aE[X] + a2 − {E[X] + a}2 = E X 2 + 2aE[X] + a2 − (E[X])2 − 2aE[X] − a2 2 = E X 2 − (E[X])2 ≡ σX e la (6.23) è stata verificata. Teorema 6.2.2. Una variabile casuale X a valore medio µ < +∞ e varianza nulla assume il valore µ con probabilità 1: P(|X − µ| > ε) = 0 ∀ε > 0 . Dimostrazione. Supponiamo per assurdo che la tesi non sia vera, ossia esiste un valore di ε positivo per il quale si ha P(|X − µ| > ε) > 0. Dovrebbe allora risultare, in contraddizione con l’ipotesi posta, σ 2 > 0, infatti Z +∞ 2 σ = (x − µ)2 f (x)dx −∞ Z Z 2 = (x − µ) f (x)dx + (x − µ)2 f (x)dx |x−µ|>ε |x−µ|6ε Z > (x − µ)2 f (x)dx > ε2 P(|X − µ| > ε) > 0 . |x−µ|>ε 228 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie Quindi, ∀ε > 0, deve essere verificata la relazione P(|X − µ| > ε) = 0 che, per l’arbitrarietà di ε, implica che X assume il valore µ con probailità 1. Definizione 6.2.2. Se X è una variabile aleatoria di valore medio µ finito e varianza σ 2 finita e non nulla, la v-a Y = X −µ σ è la normalizzata o standardizzata di X. La definizione si giustifica osservando che µY = 0 e σY = 1. Esempio 6.2.1. Distribuzione binomiale Prima di procedere al calcolo della varianza della distribuzione binomiale, ricordiamo che, dato un numero naturale arbitrio n, una utile applicazione del coefficiente binomiale è il calcolo della potenza (x + y)n . Infatti in algebra si dimostra la formula n (x + y) = n X n k=0 k xk y n−k . (6.24) Derivando ambo i membri della 6.24 rispetto ad x, otteniamo n(x + y) n−1 n(n − 1)(x + y)n−2 n(n − 1)(n − 2)(x + y)n−3 n X n k−1 n−k x y k = k k=1 n X n k−2 n−k x y k(k − 1) = k k=2 n X n k−3 n−k x y = k(k − 1)(k − 2) k k=3 (6.25a) (6.25b) (6.25c) 6.2 Momenti di ordine superiore 229 e così via. Se sostituiamo x con p ed y con q = 1 − p, abbiamo n X n k−1 n−k p q k n= k k=1 n X n k−2 n−k p q k(k − 1) n(n − 1) = k k=2 n X n k−3 n−k p q k(k − 1)(k − 2) n(n − 1)(n − 2) = k (6.26a) (6.26b) (6.26c) k=3 Dalla (6.26a) segue il risultato già dimostrato che la media di una variabile casuale binomiale è data dal prodotto np. Le altre due formule sono utili per il calcolo della varianza; infatti quest’ultima si può scrivere come σ 2 = E X 2 − (E[X])2 = E[X(X − 1)] + E[X] − (E[X])2 . (6.27) Calcoliamo E[X(X − 1)], si ha6 n X n X n k n−k p q k(k − 1)b(k; n, p) = k(k − 1) E[X(X − 1)] = k k=2 k=2 n X n k−2 n−k p q = n(n − 1)p2 . (6.28) k(k − 1) = p2 k k=2 In conclusione vale la formula: σ 2 = n(n − 1)p2 + np − (np)2 = np(1 − p). (6.29) Indicando con X/n la percentuali di successi in n prove del Bernoulli, dalle precedenti relazioni si ricavano le seguenti formule µX = p n p(1 − p) n n che consentono il calcolo della media e della varianza di X/n. σ 2X = 6 (6.30a) (6.30b) La variabile casuale X assume valori sull’insieme dei numeri naturali: k = 0, 1, 2, . . . . 230 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie Esempio 6.2.2. Distribuzione di Poisson Per calcolare la varianza della distribuzione di Poisson partiamo dalla relazione (6.27) che è valida per ogni variabile casuale; nel caso di X v-c di Poisson si ha σ 2 = E[X(X − 1)] + λ − λ2 . Per calcolare E[X(X − 1)] osserviamo che risulta eλ = ∞ X λk k=0 k! e, calcolando la derivata prima e seconda rispetto a λ, ricaviamo ∞ X λk−1 e = k k! k=1 λ e λ e = ∞ X k=2 k(k − 1) λk−2 . k! ∞ X ∞ X λk −λ λk−2 −λ 2 Poiché E[X(X − 1)] = k(k − 1) e = e λ k(k − 1) = λ2 , k! k! k=1 k=2 otteniamo σ 2 = λ2 + λ − λ2 = λ. (6.31) Nel caso della distribuzione di Poisson valore atteso e varianza coincidono! Esempio 6.2.3. Distribuzione ipergeometrica Nel calcolare la speranza matematica della distribuzione ipergeometrica abbiamo fatto uso della identità n X a+b−1 b a . =a k n−1 n−k k k=1 (6.32) In maniera analoga si perviene alla identità n X a+b−2 b a . = a(a − 1) k(k − 1) n − 2 n − k k k=2 (6.33) 6.2 Momenti di ordine superiore 231 Infatti spossiamo scrivere X n n X b a−2 b a = a(a − 1) k(k − 1) k−2 n−k n − k k k=2 k=2 n X a+b−2 b a−2 = a(a − 1) = a(a − 1) n−2 n−2−l l l=0 ove l’ultimo passaggio si giustifica ricordando l’identità ipergeometrica (2.20). La media della distribuzione ipergeometrica è uguale a an(a + b)−1 , pertanto 2 a·n a·n 2 σ = E[X(X − 1)] + − . a+b a+b Inoltre si ha " # −1 b a a+b k(k − 1) E[X(X − 1)] = n−k k n k=2 −1 X n b a a+b k(k − 1) = n−k k n k=2 a+b−2 a(a − 1) [a(a − 1)][n(n − 1)] n−2 = = a+b (a + b)(a + b − 1) n n X ed in conclusione, ponendo N = a + b per semplificare la notazione, si perviene alla formula [a(a − 1)][n(n − 1)] a · n a · n 2 + − N(N − 1) N N a · n (a − 1)(n − 1) a · n (a − 1)(n − 1) N − an a·n = = +1− + N N −1 N N N −1 N a N −a N −n b a+b−n a =n· . (6.34) · · =n N N N −1 a+b a+b a+b−1 σ2 = 232 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie Esempio 6.2.4. Distribuzione geometrica Per il calcolo della varianza della distribuzione geometrica è ricordare alcuni riP k sultati riguardanti la serie geometrica ∞ k=0 r . Per 0 < |r| < 1 si ha ∞ X k=0 r k = (1 − r)−1. (6.35) Derivando la (6.35) rispetto ad r, otteniamo "∞ # ∞ X d X k kr k−1 = (1 − r)−2 r ≡ dr k=0 k=1 (6.36) e, derivando ancora una volta, "∞ # ∞ X d2 X k k(k − 1)r k−2 = 2(1 − r)−3 . r ≡ dr 2 k=0 (6.37) k=2 In effetti la (6.36) è già stata utilizzata nel calcolo della speranza matematica della distribuzione geometrica. Calcoliamo E[X(X − 1)], E[X(X − 1)] = ∞ X k=2 k k(k − 1)pq = pq 2 ∞ X k=2 k(k − 1)r k−2 = pq 2 2 2 2 = pq = 2q 2 p−2 . (1 − q)3 (p)3 In conclusione si ottiene σ2 = 2q 2 + qp − q 2 q 2 + qp 2q 2 q q 2 + − = = = qp−2 . p2 p p2 p2 p2 (6.38) Osservazione 6.2.4. La varianza della distribuzione geometrica modificata coincide con la varianza della distribuzione geometrica. 6.2 Momenti di ordine superiore 233 Esempio 6.2.5. Distribuzione binomiale negativa Come primo passo determiniamo E[X(X − 1)]. Si noti che −r −2 r+2 p p (−q)−2 (−q)k−2 k(k − 1)f (k : r, p) = k(k − 1) k −r r+2 q2 p (−q)k−2 = 2 k(k − 1) k p ove −(r + 2) −(r + 2) −r . = r(r + 1) = (−r)(−r − 1) k(k − 1) k−2 k−2 k Si ha ∞ X −r k(k − 1) E[X(X − 1)] = k k=2 ∞ X q2 q2 −(r + 2) r+2 = 2 r(r + 1) p (−q)k−2 = 2 r(r + 1). k−2 p p k=2 Infatti risulta ∞ ∞ X X −l l −(r + 2) r+2 k−2 p (−q)j = 1 . p (−q) = j k−2 j=0 k=2 In conclusione otteniamo σ2 = q2 qr q 2 r 2 r(r + 1) + − 2 p2 p p 2 2 q r + q 2 r + qrp − q 2 r 2 qr = = 2 (q + p) = r(q/p−2). (6.39) 2 p p Esempio 6.2.6. Distribuzione uniforme in [a, b] Ricordiamo che E[X] = 1/(b − a), inoltre vale la relazione7 b Z b 2 b3 − a3 1 b2 + ab + a2 x3 1 2 = x dx = = . E X ] = (b − a) a (b − a) 3 a 3(b − a) 3 7 Si tenga presente la formula: an − bn = (a − b) an−1 + an−2 b + · · · + abn−2 + bn−1 . 234 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie I precedenti risultati danno luogo alla formula: b2 + ab + a2 − σ = E[X ] − (E[X]) = 3 2 2 2 a+b 2 2 = (b − a)2 . 12 (6.40) Esempio 6.2.7. Distribuzione esponenziale Come abbiamo dimostrato in precedenza la media della variabile casuale esponenziale è µX = 1/γ; per applicare la formula σ 2 = E [X 2 ]] − µ2 è necessario il calcolo del momento di ordine 2 , µ2 . Posto, per x > 0, fX (x) = γe−γx , si ha µ2 = Z 0 +∞ x2 γ exp(−γx)dx +∞ Z +∞ 1 − 2γx − exp(−γx) dx = −γx exp(−γx) γ γ 0 0 Z +∞ +∞ 2 2 = −x2 exp(−γx)0 + xγ exp(−γx)dx = 2 γ 0 γ {z } | 21 µX e da quest’ultima segue: 2 σX = 2 1 − 2 = 1/γ 2 . 2 γ γ (6.41) Esempio 6.2.8. Legge di Pareto La funzione densità di probabilità di Pareto trova applicazione soprattutto in campo economico in quanto essa viene utilizzata nelle problematiche connesse alla ottimizzazione delle risorse. È caratterizzata da due parametri, entrambi positivi, uno di forma, che denotiamo con α, ed uno di posizione, β. Quest’ultimo determina il valore minimo che la variabile casuale di Pareto può assumere (vedi il grafico in figura 6.1). La legge di Pareto ha l’espressione analitica fX (x) = αβ α xα+1 se x > β (6.42) 6.2 Momenti di ordine superiore 235 f(x) α/β 0 β x Figura 6.1: Funzione di densità di Pareto. e si assume fX (x) = 0, se x < β. La funzione di distribuzione si ottiene integrando la funzione densità tra β e x ∈ (β, +∞): FX (x) = αβ α Z x ξ −(α+1) β x x 1 −α 1 α dξ = αβ · − ξ = −β · α α ξ β β 1 1 = −β α − α = 1 − (β/x)α . (6.43) α x β α La funzione (6.42) verifica la condizione di normalizzazione: Z +∞ β αβ α dx = αβ α xα+1 Z +∞ x−(α+1) dx β +∞ +∞ 1 1 1 −α α α = −β · α = −β 0 − α = 1 . = αβ · − x α x β β β α 236 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie Calcoliamo ora la media e la varianza della v-c di Pareto. Abbiamo +∞ Z +∞ Z +∞ αβ α x1−α −α α α µ1 = x α+1 dx = αβ x dx = αβ · x 1 − a β β β +∞ αβ α 1 αβ 1 αβ α = 0 − α−1 = · α−1 (6.44) = 1−a x 1−a β α−1 β e, pertanto, il parametro di forma deve soddisfare il vincolo α > 1 affinché la speranza matematica sia definita positiva. Il momento di ordine 2 è dato da +∞ Z +∞ 2 Z +∞ x 1 α α 2−α 1−α α µ2 = αβ dx = αβ x x dx = αβ · α+1 x 2−α β β β +∞ 1 1 1 1 = αβ α · 0 − α−2 = = αβ α · α−2 2−α x 2−α β β − αβ α 1 αβ 2 · α−2 = . (6.45) 2−α β α−2 Dalle precedenti relazioni si ricava 2 α2 β 2 αβ αβ 2 αβ 2 2 2 − − = σ = µ2 − µ1 = α−2 α−1 α − 2 (α − 1)2 αβ 2 (α − 1)2 − α2 β 2 (α − 2) = (α − 2)(α − 1)2 αβ 2 α3 β 2 + αβ 2 − 2α2 β 2 − α3 β 2 + 2α2 β 2 = (6.46) = (α − 2)(α − 1)2 (α − 2)(α − 1)2 e quindi deve essere α > 2 affinché il valore della varianza sia positivo. 6.2.2 La disuguaglianza di Tchebycheff e il teorema di Bernoulli Come abbiamo sottolineato nell’osservazione 6.2.2, la varianza è una misura della dispersione della v-a X intorno al suo valore medio µ. La disuguaglianza di Tchebycheff dà un significato quantitativo alla precedente considerazione. 6.2 Momenti di ordine superiore 237 Teorema 6.2.3 (Disuguaglianza di Tchebycheff). Per ogni variabile aleatoria X con varianza finita σ 2 vale la seguente disuguaglianza P(|X − µ| > ε) 6 σ2 ε2 ∀ε > 0 . (6.47) Dimostrazione. Si ha 2 σ = Z +∞ (x − µ)2 fX (x)dx −∞ Z Z 2 = (x − µ) fX (x)dx + (x − µ)2 fX (x)dx |x−µ|<ε |x−µ|>ε Z Z 2 > (x − µ) fX (x)dx > ε2 fX (x)dx |x−µ|>ε |x−µ|>ε = ε2 · P(|X − µ| > ε) ed, essendo ε > 0, si deduce la (6.47). Nel caso discreto la dimostrazione è simile. Osservazione 6.2.5. La seguente è una formulazione equivalente della (6.47): P(|X − µ| < ε) > 1 − σ2 ε2 ∀ε > 0 . (6.48) Corollario 6.2.2. Le seguenti disuguaglianze equivalenti P(|X − µ| > kσ) 6 1 k2 P(|X − µ| < kσ) > 1 − (6.49a) 1 k2 sono verificate comunque si scelga un intero k > 1. Dimostrazione. La dimostrazione si ricava ponendo nella (6.47) ε = kσ. (6.49b) 238 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie Esempio 6.2.9. Fissati σ e µ, si ha P(|X − µ| > 5σ) 6 1 = 0.04 25 e 1 = 0.01 . 100 Osservazione 6.2.6. La disuguaglianza di Tchebycheff, nonostante l’eleganza forP(|X − µ| > 10σ) 6 male e la generale validità, non deve essere considerata come un affidabile metodo di stima; infatti, in molti casi particolari, il secondo membro dalla (6.49a) sovrastima P(|X − µ| > kσ). La disuguaglianza di Tchebycheff consente di dimostrare molto semplicemente il cosiddetto teorema di Bernoulli o legge dei grandi numeri. Si noti che James Bernoulli pubblicò il risultato nel suo celebre testo Ars Conjecturandi edito nel 1713 e Tchebycheff, uno dei fondatori della scuola matematica russa, visse in pieno XIX secolo. Teorema 6.2.4 (Teorema di Bernoulli). Sia A un evento e p la sua probablità di occorrenza; indichiamo con Yn la frequenza con cui esso si verifica in n prove ripetute indipendenti. Si ha lim P (|Yn − p| < ε) = 1 n→∞ ∀ε > 0 . (6.50) Dimostrazione. Sia Sn la v-c che conta il numero di successi, il verificarsi di A, nelle n prove indipendenti. Sn è una variabile casuale binomiale con media np e varianza np(1 − p). Tra Sn ed Yn sussiste la relazioneYn = Sn/n. Pertanto Yn k è essa stessa una variabile casuale binomiale, infatti P Yn = = P (Sn = k). n 1 1 p(1 − p) Si ha, quindi, µYn = · µSn = p e σY2n = 2 · σS2 n = . La disuguaglianza n n n (6.47) fornisce la relazione P (|Yn − p| < ε) > 1 − σY2n p(1 − p) =1− 2 ε nε2 6.3 Ulteriori misure di tendenza centrale e dispersione 239 e, passando al limite per n → ∞, si giustifica la tesi. 6.3 Ulteriori misure di tendenza centrale e dispersione Nel definire i momenti abbiamo sottolineato che in alcuni casi essi possono non esistere, una tale evenienza è particolarmente rilevante se riguarda la media e la varianza. In questo paragrafo saranno definiti alcuni parametri di tendenza centrale e di dispersione che esistono sempre. Definizione 6.3.1. Sia X una v-c assolutamente continua con funzione di distribuzione FX (x), sia, inoltre, α un numero reale in (0, 1). Il quantile di ordine α di FX (x) è il particolare valore ξα di X tale che P (X 6 ξα ) ≡ FX (ξα ) = α. (6.51) L’area sottesa dalla densità di probabilità fX (x) a sinistra di ξα è α, quella a destra è 1 − α. Il quantile di ordine α è anche denominato 100 × α-esimo percentile; ad esempio, assumendo α = 0.3, ξ0.3 è il quantile di ordine 0.3 o 30-esimo percentile. Di particolare interesse è il 50-esimo percentile ξ0.5 , chiamato anche mediana di X. Si ha P (X < ξ0.5 ) = P (X > ξ0.5) = 1/2. Per questo motivo la mediana è utilizzata in luogo della media µX per indicare la posizione del centro di una distribuzione continua. Se la funzione densità di probabilità fX (x) ha un centro di simmetria, la mediana e la media, se quest’ultima esiste, coincidono. Inoltre fX (x) è simmetrica rispetto all’asse verticale di ascissa µ ≡ ξ0.5 . 240 Capitolo 6. Caratteristiche numeriche delle variabili aleatorie Osservazione 6.3.1. Se X è di tipo discreto, essendo FX (x) una funzione a gradino, i quantili potrebbero essere non ben definiti, nel senso che potrebbe non esistere un valore ξα di X che verifichi la (6.51); in tal caso si calcola un valore approssimato di ξα . Una ulteriore misura di tendenza centrale è il valore modale o moda. La moda di una variabile casuale, o di una funzione di distribuzione, è il valore di X più probabile, ovvero è il valore ξM tale che maxx∈R fX (x) = fX (ξM ), se X è assolutamente continua; nel caso discreto la moda è il valore ξM per il quale maxx∈SX P(X = x) = P(X = ξM ). La differenza ξ0.75 − ξ0.25 è spesso usata come una misura di dispersione; ξ0.25 è il cosiddetto primo quartile e ξ0.75 è il terzo quartile. Esempio 6.3.1. Determiniamo la mediana della distribuzione di Pareto. Ricordando la (6.43), possiamo scrivere 1 − (β/ξ0.5)α = 0.5 e α 1 β = ξ0.5 2 ed infine ξ0.5 = 21/α β. 6.3.1 Valori caratteristici di forma Come si deduce dagli esempi finora trattati, sia le funzioni densità di probabilità che le distribuzioni di probabilità possono avere forme assai diverse. È evidentemente impossibile caratterizzare la forma di una curva con un solo indice, nel seguito daremo la definizione di due di questi, i più importanti. Si noti che essi sono numeri adimensionali. Definizione 6.3.2. Sia X una variabile casuale dotata di media µ e deviazione standard σ, si definisce coefficiente di asimmetria, o skewness, il momento di 6.3 Ulteriori misure di tendenza centrale e dispersione ordine 3 della variabile casuale normalizzata: " 3 # E [(X − µ)3 ] ′ −3/2 ′ X −µ = ≡ µ2 · µ3 . γ1 = E σ σ3 A sua volta la relazione " 4 # ′ X −µ E [(X − µ)4 ] µ4 γ2 = E −3= − 3 ≡ ′ 2 − 3 σ σ4 µ2 241 (6.52) (6.53) definisce il coefficiente di piccatezza o di eccesso o di kurtosis. Nel caso in cui la densità di probabilità sia simmetrica, risulta γ1 = 0; un valore di γ1 negativo si riscontra nel caso in cui fX (x) abbia una coda a sinistra, al contrario si ha γ1 > 0 se la funzione fX (x) presenta una coda a destra. Il significato del coefficiente di piccatezza sarà discusso nel seguito dopo aver introdotto la legge di Gauss. CAPITOLO 7 Momenti di variabili casuali multidimensionali 7.1 Momenti congiunti Il concetto di speranza matematica, introdotto nel capitolo 6, si generalizza considerando n variabili casuali X1 , . . . , Xn definite su uno stesso spazio di probabilità {Ω, F , P} e con densità di probabilità congiunta f (x1 , . . . , xn ). Per i nostri scopi ci limiteremo a trattare in extenso il caso due variabili aleatorie. Definizione 7.1.1. Siano X ed Y due variabili aleatorie e sia, inoltre h : R2 −→ R una funzione Borel-misurabile; consideriamo la variabile casuale h(X, Y ). (a) X,Y assolutamente continue Se assolutamente convergente, si definisce valore atteso di h(X, Y ) l’integrale E[h(X, Y )] = Z +∞ −∞ Z +∞ h(x, y)f (x, y)dxdy −∞ ove f (x, y) è la densità di probabilità congiunta di X e Y . (7.1) 244 Capitolo 7. Momenti di variabili casuali multidimensionali (b) X,Y di tipo discreto Se è verificata la condizione P P xi yj nisce valore atteso di h(X, Y ) la serie E[h(X, Y )] = |h (xi , yj )| p (xi , yj ) < +∞, si defi- XX xi h (xi , yj ) p (xi , yj ) (7.2) yj ove p (xi , yj ) è la distribuzione di probabilità congiunta di X e Y . Proposizione 7.1.1. L’operatore E è lineare. Abbiamo già visto che, se X è dotata di valore medio risulta E[cX] = cE[X] per ogni numero reale c. Per completare la dimostrazione della linearità di E, resta da verificare che E[X + Y ] = E[X] + E[Y ] se entrambe le variabili hanno speranza matematica finita. Nel caso discreto si ha E[X + Y ] = XX xi (xi + yj ) p (xi , yj ) yj = X xi xi X p (xi , yj ) + yj X yj yj = X xi X p (xi , yj ) xi xi p (xi ) + X yj p (yi ) = E[X] + E[Y ]. yj Se le variabili casuali sono assolutamente continue otteniamo Z +∞ Z E[X + Y ] = −∞ Z +∞ Z = x −∞ +∞ (x + y)f (x, y)dxdy Z +∞ Z +∞ f (x, y)dy dx + y f (x, y)dx dy −∞ −∞ Z +∞ Z +∞ = xf (x)dx + yf (y)dy = E[X] + E[Y ]. −∞ +∞ −∞ −∞ −∞ 7.1 Momenti congiunti 245 I calcoli precedenti si estendono al caso della somma di n variabili casuali con media finita; in generale vale la relazione " n # n X X E Xk = E [Xk ] . k=1 (7.3) k=1 Esempio 7.1.1. In precedenza abbiamo calcolato il valore atteso, µSn = np, della variabile casuale Sn , numero di successi in n prove del Bernoulli con probabilità di successo p. Osservando che Sn è la somma, Sn = X1 + X2 + · · · + Xn di n variabile casuali del Bernoulli, ciascuna con media p, dalla (7.3) si ricava, senza effettuare laboriosi calcoli, µSn = np. Definizione 7.1.2. Siano r ed s interi fissati. (i) X,Y assolutamente continue Se assolutamente convergente, l’integrale Z +∞ Z +∞ r s µrs ≡ E [X Y ] = xr y s f (x, y)dxdy −∞ (7.4) −∞ definisce il momento prodotto di ordine r, s delle variabili casuali X e Y . (ii) X,Y di tipo discreto Se è verificata la condizione P P xi µrs ≡ E [X r Y s ] = |xr y y | p (xi , yj ) < +∞, la serie yj XX xi xri yjs p (xi , yj ) (7.5) yj definisce momento prodotto di ordine r, s delle variabili casuali X e Y Il caso r = s = 1 è particolarmente interessante; se le variabili casuali sono continue si ha E[XY ] = Z +∞ −∞ Z +∞ xyf (x, y)dxdy −∞ 246 Capitolo 7. Momenti di variabili casuali multidimensionali e E[XY ] = XX xi xi yj p (xi , yj ) yj nel caso di variabili casuali discrete. Se X ed Y sono indipendenti, essendo f (x, y) = fX (x) · fY (y) o, p (xi , yj ) = pX (xi ) · pY (yj ), risulta E[XY ] = E[X] · E[Y ]. (7.6) Osservazione 7.1.1. Il verificarsi della (7.6) non implica l’indipendenza delle variabili aleatorie. Osservazione 7.1.2. La (7.6) è valida anche nel caso di n variabili aleatorie indipendenti, si ha E " n Y k=1 # Xk = n Y E [Xk ] . (7.7) k=1 Se X e Y sono dotate di valori medi finiti, la definizione 7.1.2, applicata alla funzione h(X − Y ) = (X − µX )r (Y − µY )s , dà luogo al cosiddetto momento centrale prodotto di ordine r, s µrs ≡ E [(X − µX )r (Y − µY )s ] . ′ (7.8) 7.1.1 Covarianza e correlazione ′ Ponendo nella (7.8) r = s = 1, si definisce la covarianza, µ11 , delle variabili aleatorie X e Y : ′ µ11 ≡ CXY = E [(X − µX ) (Y − µY )] . (7.9) Per la definizione data risulta CXY = CY X . Sviluppando il prodotto nella 7.9 e ricordando che l’operatore E è lineare, otteniamo CXY = E [(X − µX ) (Y − µY )] = E [XY − XµY − µX Y + µX µY ] = E[XY ] − µX µY − µX µY + µX µY = E[XY ] − µX µY . (7.10) 7.1 Momenti congiunti 247 Se X e Y sono v-a indipendenti, la (7.10) e la (7.6) implicano che esse hanno covarianza nulla; inoltre, se X = Y , dalla (7.10) si deduce che 2 CXX = E[X 2 ] − µ2X ≡ σX . (7.11) Proposizione 7.1.2. Siano X e Y variabili casuali congiuntamente distribuite, comunque si fissano i numeri reali a, b, c e d, si ha CaX+b,cY +d = acCXY . (7.12) Infatti, per definizione di covarianza si ha CaX+b,cY +d = E[(aX + b − µaX+b ) · (cY + d − µcY +d )] = E[(aX + b − aµX − b) · (cY + d − cµY − c)] = E[a (X − µX ) · c (Y − µY )] = acCXY e l’asserto della proposizione è stato dimostrato. Osserviamo che la (7.12) è una 2 2 = a2 σX . ulteriore dimostrazione della relazione σaX+b Se X e Y hanno varianza non nulla, il rapporto ρXY = CXY σX σY (7.13) è denominato coefficiente di correlazione di X e Y . Osservazione 7.1.3. Diversamente dalla covarianza, il coefficiente di correlazione è un numero adimensionale. Tale coefficiente coincide con la covarianza delle variabili normalizzate. Definizione 7.1.3. Due variabili casuali sono non correlate se la loro covarianza è nulla: CXY = 0. Definizione 7.1.4. Due variabili casuali sono chiamate ortogonali se E[XY ] = 0. Per indicare l’ortogonalità di X e Y si usa la simbologia: X ⊥ Y . 248 Capitolo 7. Momenti di variabili casuali multidimensionali Osservazione 7.1.4. Se X e Y sono non correlate allora X − µX ⊥ Y − µY . Se X e Y sono non correlate ed hanno media nulla allora X ⊥ Y . Calcoliamo, ora, la varianza di X + Y . Si ha1 2 = E (X + Y )2 − (E[X + Y ])2 = E (X + Y )2 − (µX + µY )2 σX+Y = E X 2 + Y 2 + 2XY − µ2X − µ2Y − 2µX µY = E X 2 − µ2X + E Y 2 − µ2Y + E[2XY ] − 2µX µY 2 2 = σX + σY2 + 2CXY = σX + σY2 + 2ρσX σY . (7.14) Se le variabili casuali sono non correlate otteniamo 2 2 σX+Y = σX + σY2 . (7.15) I precedenti risultati si applicano anche al caso più generale di n variabili casuali con varianza finita (vedi [5]); posto Sn = X1 + · · · + Xn , vale la relazione σS2 n = n X σk2 + 2 k=1 X C Xj Xk (7.16) j,k n coppie (Xj , Xk ) nella quale la seconda sommatoria è estesa a ciascuna delle 2 con j < k. Se le variabili aleatorie sono non correlate, possiamo riscrivere la precedente relazione come σS2 n = n X σk2 . (7.17) k=1 Esempio 7.1.2. Ragionando come nell’esempio 7.1.1, dalla (7.17) si evince che σS2 n = npq. 1 2 σX−Y 2 = σX + σY2 − 2CXY 7.2 Alcune disuguaglianze notevoli 249 Esempio 7.1.3. Prove del Bernoulli con probabilità di successo variabile Siano X1 , . . . , Xn variabili casuali indipendenti tali che ciascuna di esse assuma i valori 1 e 0 con probabilità pk e qk = 1 − pk rispettivamente. Allora E [Xx ] = pk Pn 2 = p q e, ponendo al solito S = e σX k k n k=1 Xk , abbiamo k µ Sn = n X pk e σS2 n = n X pk qk . k=1 k=1 la variabile Sn è il numero totale di successi in n prove indipendenti ciascuna P delle quali ha come esito un successo o un insuccesso, pertanto p = ( nk=1 pk ) /n rappresenta la probabilità media di successo. Osserviamo che µSn = np e σS2 n = n X k=1 pk (1 − pk ) = np − n X p2k . k=1 P Fissato un valore p esistono più combinazioni {pk } tali che k pk = np; la comP binazione che rende minima la k p2k è quella in cui tutte le pk sono uguali tra loro e, quindi, a p. In conclusione σS2 n è massima se la probabilità di successo è costante o, con altre parole, la variabilità delle pk riduce la varianza di Sn . 7.2 Alcune disuguaglianze notevoli In questo paragrafo saranno dimostrate alcune disuguaglianze che ricorrono spesso sia nelle applicazioni sia nelle elaborazioni teoriche. Dalla relazione |X + Y | 6 |X| + |Y | e dalla proprietà di linearità dell’operatore E segue la cosiddetta disuguaglianza triangolare: E[|X + Y |] 6 E[|X|] + E[|Y |]. (7.18) 250 Capitolo 7. Momenti di variabili casuali multidimensionali Consideriamo, ora, la disuguaglianza |X + Y |2 = |X 2 + Y 2 + 2XY | 6 |X 2 | + |Y 2 | + 2|XY | = X 2 + Y 2 + 2|XY | − 2X 2 − 2Y 2 + 2X 2 + 2Y 2 = 2X 2 + 2Y 2 − X 2 + Y 2 − 2|XY | = 2X 2 + 2Y 2 − (|X| − |Y |)2 6 2|X|2 + 2|Y |2 . passando ai valori di aspettazione si ottiene E |X + Y |2 6 2E |X|2 + 2E |Y |2 . (7.19) Si può dimostrare (vedi [2]) che, se X ed Y sono dotati di momenti assoluti di ordine r, sussiste la disuguaglianza E [|X + Y |r ] 6 2r−1 E [|X|r ] + 2r−1 E [|Y |r ] . (7.20) Pertanto la (7.18) e la (7.19) sono da considerarsi casi particolari della più generale disuguaglianza (7.20). 7.2.1 La disuguaglianza di Cauchy e Schwarz Proposizione 7.2.1. Siano X e Y variabili casuali congiuntamente distribuite; se E [X 2 ] e E [Y 2 ] esistono finiti, risulta2 E 2 [XY ] 6 E X 2 E Y 2 . (7.21) Per dimostrare la (7.21) osserviamo che per ogni coppia di numeri reali a, b si ha |ab| 6 (a2 + b2 ) /2 e, quindi, l’esistenza del momento di ordine 2 delle variabili 2 La (7.21) è nota come la disuguaglianza di Cauchy e Schwarz. 7.2 Alcune disuguaglianze notevoli 251 aleatorie X e Y implica l’esistenza di E[|XY |] e di conseguenza esiste finito anche E[XY ]. Poiché la speranza matematica di una v.a positiva è > 0, si ha E (aX − Y )2 > 0 ∀a ∈ R. Come conseguenza diretta della precedente disuguaglianza e della linearità dell’operatore E possiamo scrivere 0 6 a2 E X)2 − 2aE[XY ] + E Y )2 2 2 E[XY ] E [Y 2 ] + a − 2a =E X E [X 2 ] E [X 2 ] 2 2 E[XY ] E 2 [XY ] E 2 [XY ] E [Y 2 ] + 2 2 − 2 2 + =E X a − 2a E [X 2 ] E [X ] E [X ] E [X 2 ] ) ( 2 2 E 2 [XY ] E [Y 2 ] E [X 2 ] E 2 [XY ] − 2 2 + a− 2 2 =E X E [X ] E [X ] E [X 2 ] E [X 2 ]   2  2 2  E [XY ] 1 2 2 2 . a− 2 2 =E X − 2 2 E [XY ] − E X E Y  E [X ] E [X ] | {z } ∆ Affinché la precedente disequazione sussista per ogni reale a la quantità ∆ deve essere non positiva: di qui segue la (7.21). ∆ = E 2 [XY ] − E X 2 E Y 2 6 0 Proposizione 7.2.2. Il coefficiente di correlazione ρXY soddisfa la condizione3 −1 6 ρXY 6 +1 . 3 o la equivalente |ρXY | 6 1. (7.22) 252 Capitolo 7. Momenti di variabili casuali multidimensionali La (7.22) segue dalla disuguaglianza di Schwarz E 2 [(X − µX ) (Y − µY )] 6 E (X − µX )2 E (Y − µY )2 2 2 2 da cui si ricava CXY 6 σX σY ed infine ρ2XY 6 1. Proposizione 7.2.3. Sia X una variabile aleatoria non degenere e Y = aX + b, ove a, b sono reali qualunque con a 6= 0. Si ha ρXY = +1, se a > 0, oppure, se a < 0, ρXY = −1 . 2 Per dimostrare l’asserto, osserviamo che µY = aµX + b, σY2 = a2 σX e 2 CXY = E [(X − µX ) (aX + b − aµX − b)] = E a (X − µX )2 = aσX . Si ha allora 2 aσX a CXY = = σX σY σX · |a|σX |a| e la tesi della proposizione è stata verificata. ρXY = Si può, infine, dimostrare (vedi [2]) che, se |ρXY | = 1, con probabilità 1 Y dipende linearmente da X. 7.3 Momenti condizionati Siano X e Y due variabili casuali definite in uno stesso spazio di probabilità {Ω, F , P}. Definizione 7.3.1. Si dice valore medio, o valore di attesa, 1. X,Y discrete X yi p (yi |xj ), se i X essa è assolutamente convergente; analogamente E [X|yj ] = xi p (xi |yj ) di Y condizionato da {X(ω) = xj }, la serie E [Y |xj ] = è la media condizionata di X dato {Y (ω) = yj }; i 7.3 Momenti condizionati 253 2. X,Y assolutamente continue di Y condizionato da {X(ω) = x}, l’integrale E[Y |x] = Z +∞ yg(y|x)dy, −∞ se esso è assolutamente convergente; allo stesso modo si definisce E[X|y] = Z +∞ xg(x|y)dx. −∞ Fissata una qualsiasi funzione h, sussistono analoghe definizioni per E[h(X)|y] e E[h(Y )|x]. Osservazione 7.3.1. Sia p (yi |xj ) che g(y|x) dipendono dal valore x, di conseguenza Z = γ(X), con γ(x) = E[Y |x] e x variabile in SX o in R, è una variabile casuale. In questo caso si usa la notazione E[Y |X] (o E[X|Y ]). Osservazione 7.3.2. Se X e Y sono indipendenti e dotate di speranza matematica si ha E[X|Y ] = E[X] e E[Y |X] = E[Y ]. Teorema 7.3.1. Se µX < +∞, allora la media condizionata E[X|y] assume valori finiti per ogni y per il quale è definita la distribuzione condizionata di X dato Y = y; inoltre µX = E[E[X|Y ]]. (7.23) Dimostrazione. Dimostreremo la tesi del teorema solamente nel caso discreto; per le variabili aleatorie assolutamente continue sussiste una dimostrazione similare, operando le opportune sostituzioni. Supponiamo che pY (yj ) sia maggiore di zero, allora la p (xi |yj ) è definita e p (xi |yj ) = pXY (xi , yj ) pX (xi ) 6 . pY (yj ) pY (yj ) Dalla precedente relazione si ricava X i |xi |p (xi |yj ) 6 X i |xi | X 1 pX (xi ) = · |xi |pX (xi ) < +∞ pY (yj ) pY (yj ) i 254 Capitolo 7. Momenti di variabili casuali multidimensionali e la prima porte del teorema è dimostrata. Possiamo, infine, scrivere X XX X X µX = xi pX (xi ) = xi pXY (xi , yj ) = xi pY (yj ) p (xi |yj ) i i = X j pY (yj ) X i j xi p (xi |yj ) = i X j pY (yj ) E [X|yj ] = E[E[X|Y ]]. j Esempio 7.3.1. Siano X e Y variabili casuali indipendenti e distribuite secondo la legge di Poisson con media λ1 e λ2 , rispettivamente. Poniamo Z = X + Y e calcoliamo E[X|Z = n]. Osserviamo che P(X = k, Z = n) = P(X = k, Y = n − k) = P(X = k) · P(Y = n − k) da cui: (λ1 )k (λ2 )n−k pXZ (k, n) = exp(−λ1 ) · exp(−λ2 ). k! (n − k)! Ricordiamo che nell’esempio 5.9.3 abbiamo fatto vedere come la somma di due variabili aleatorie indipendenti di Poisson, a parametro λ1 e λ2 rispettivamente, sia ancora una variabile casuale di Poisson a parametro λ1 + λ2 ; pertanto si ha (λ1 + λ2 )n exp [−(λ1 + λ2 )] . pZ (n) = n! Dalle precedenti relazioni si ricava e−λ1 (λ1 )k e−λ2 (λ2 )n−k n! pX|Z (k, n) = · · −(λ1 +λ2 ) k! (n − k)! e (λ1 + λ2 )n n! e−(λ1 +λ2 ) (λ1 )k (λ2 )n−k = · −(λ1 +λ2 ) · k!(n − k)! e (λ1 + λ2 )n k n−k λ1 n λ2 λ1 = . ≡ b k; n, k λ1 + λ2 λ1 + λ2 λ1 + λ2 In conclusione otteniamo: E[X|Z = n] = n · [λ1 / (λ1 + λ2 )] . 7.3 Momenti condizionati 255 7.3.1 Somma di un numero casuale di variabili aleatorie indipendenti Siano X1 , X2 , . . . , Xk , . . . variabili casuali indipendenti ed identicamente distribuite; indichiamo, inoltre, con N una variabile aleatoria a valori interi positivi che sia indipendente da ciascuna delle Xk . Per l’ipotesi posta sulla legge di distribuzione delle Xk , si ha E [X1 ] = · · · = E [Xk ] = · · · ≡ µ, imponiamo che µ < +∞; come ipotesi ulteriore assumiamo che anche il valore medio di N, µN , PN esista finito. Sia SN = k=1 Xk , calcoliamo E[SN ]. Per tale scopo, essendo N una variabile casuale, non possiamo fare ricorso alla (7.3). Poiché SN = Sn quando N = n, si ha E [SN ] = E [E [SN |N]] = = ∞ X ∞ X n=1 E [Sn ] pN (n) n=1 = ∞ X (nµ)pN (n) E [SN |N = n] pN (n) infatti N e Sn sono indipendenti ∀n come conseguenza della (7.23) n=1 =µ ∞ X n=1 npN (n) = µ · µN . (7.24) CAPITOLO 8 La legge di Gauss ed alcune distribuzioni collegate La legge di Gauss o densità di probabilità normale è la funzione densità di probabilità di uso più comune nella teoria della probabilità ed in statistica matematica. Il teorema centrale del limite, che sarà introdotto in seguito, è probabilmente la ragione principale che ha determinato tale situazione. Anche nelle applicazioni pratiche la legge di Gauss svolge un ruolo fondamentale. Definizione 8.0.2. Una variabile casuale X è dotata di una funzione di distribuzione normale o di Gauss con parametri µ e σ 2 , se la sua funzione densità di probabilità, ∀x ∈ R, ∀µ ∈ R e ∀σ > 0, è data da 1 (x − µ)2 f (x) = √ exp − 2σ 2 σ 2π e, quindi, 1 (ξ − µ)2 √ exp − F (x) = dξ. 2σ 2 −∞ σ 2π In tal caso X è denominata v-c normale o gaussiana. Z (8.1) x (8.2) 258 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate Per come è stata definita f (x) è sempre positiva, rimane da verificare la condizione R +∞ f (x)dx = 1. Ricordiamo, per tale scopo, che vale l’uguaglianza1 : −∞ Z +∞ √ (x − a)2 dx. (8.3) exp − b 2π = 2b2 −∞ Si ha, pertanto, Z +∞ Z +∞ 1 (x − µ)2 f (x)dx = √ dx = exp − 2σ 2 σ 2π −∞ −∞ √ σ 2π √ =1. σ 2π 8.1 Proprietà della densità normale Cominciamo con il calcolare la media di una variabile casuale normale. Si ha Z +∞ Z +∞ (x − µ)2 1 dx E[X] = xf (x)dx = x √ exp − 2σ 2 σ 2π −∞ −∞ 2 Z +∞ x−µ 1 y dy ove y = = (σy + µ) √ exp − 2 σ 2π −∞ 2 2 Z +∞ Z +∞ σ 1 y y dy +µ √ dy = µ. (8.4) =√ y exp − exp − 2 2 2π −∞ 2π −∞ | | {z } {z } 0 1 L’ultimo passaggio si giustifica osservando che la funzione integranda, nel primo integrale, è una funzione dispari e tenendo presente il risultato (8.3) riscritto ponendo a = 0 e b = 1. Dimostriamo, ora, che il parametro σ 2 coincide con la varianza di X; per tale scopo si rammenti la seguente relazione r Z +∞ √ 1 π x exp(−ax)dx = 2a a 0 che, per a = 1/2, diventa: Z 0 1 +∞ √ x √ dx = 2π. x exp − 2 (8.5) Per la dimostrazione di questo risultato, il lettore interessato può consultare [2] oppure [13]. 8.1 Proprietà della densità normale 259 Si ha 2 σX 1 (x − µ)2 = dx (x − µ) √ exp − 2σ 2 σ 2π −∞ 2 Z +∞ y x−µ σ2 2 y exp − dy ponendo y = =√ 2 σ 2π −∞ Z +∞ 2σ 2 y2 =√ dy y 2 exp − 2 2π 0 Z +∞ z dz 2σ 2 √ =√ ove z = y 2 z exp − 2 2 z 2π 0 Z +∞ z √ σ2 z exp − dz = σ 2 . (8.6) =√ 2 2π 0 Z +∞ 2 Osservazione 8.1.1. Si noti che la funzione densità di probabilità normale è simmetrica rispetto alla media, ovvero f (x + µ) = f (x − µ). Essa assume il valore √ massimo in x = µ: f (µ) = 1/(σ 2π); inoltre f (x) è unimodale in quanto media, mediana e moda coincidono in x = µ. Come |x| → ∞, f (x) → 0: l’asse delle ascisse è asintoto orizzontale di f (x). Quest’ultima, nei punti x1 = µ − σ e x2 = µ + σ mostra due punti di flesso, quindi la curva cambia concavità. Il valore medio della variabile casuale normale fissa la posizione della funzione di densità nel grafico, la varianza ne determina la forma. La figura 8.1 mostra l’andamento della funzione densità di variabili aleatorie normali con la stessa tendenza centrale ma con varianza diversa; nella figura 8.2 sono rappresentate funzioni densità di probabilità con uguale varianza e diversa tendenza centrale. Osservazione 8.1.2. Nel caso della legge di Gauss il coefficiente di eccesso γ2 , definito dalla formula (6.53), risulta nullo. In generale chiameremo mesocurtica una distribuzione per la quale si ha γ2 = 0. Quelle con γ2 > 0, sono denominate leptocurtiche, platicurtiche nel caso contrario: γ2 < 0. Molto spesso curve simmetriche con un picco più pronunciato della legge di Gauss sono leptocurti- 260 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate f(x) µ x Figura 8.1: Funzione di densità di v-c normali con la stessa media e differente varianza. che, quelle più appiattite mesocurtiche. Tale corrispondenza non ha una validità generale. La standardizzata della variabile casuale normale, (X − µ)/σ, è spesso indicata con Z. La funzione densità di probabilità fZ (z) ≡ n(z) è data da 2 z 1 ∀z ∈ R. n(z) = √ exp − 2 2π (8.7) Il relativo grafico è illustrato nella figura 8.3. La funzione di distribuzione (vedi figura 8.4) si calcola integrando la (8.7): 2 Z z 1 ζ N(z) = √ dζ. exp − 2 2π −∞ (8.8) La v-c normale standardizzata conserva tutte le proprietà della variabile casuale normale. Si ricordi che questo non è vero per tutte le variabili aleatorie. 8.1 Proprietà della densità normale 261 f(x) µ1 µ2 x Figura 8.2: Funzione di densità di v-c normali con la media diversa e identica varianza. Osservazione 8.1.3. Valgono le seguenti relazioni R +0.67 (i) −0.67 n(z)dz = 0.5 R +1 (ii) −1 n(z)dz = 0.683 R +2 (iii) −2 n(z)dz = 0.9545 R +3 (iv) −3 n(z)dz = 0.9973 che quantificano l’area della curva sottesa da n(z) tra gli estremi di integrazione. In particolare dalla (iii) si evince che P(−2 6 Z 6 +2) = 0.956 e, considerando la generica v-c normale X con media µ e varianza σ 2 , dalla (iv) si ricava che P(X ∈ [µ ± 3σ]) ≈ 1 . Data la rilevanza teorica ed applicativa della legge di Gauss, la distribuzione N(z) è stata tabulata e la relativa tavola è facilmente reperibile. Essa fornisce la proba- 262 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate 0.5 0.4 0.3 0.242 0.2 0.1 0 −4 −3 −2 −1 0 1 2 3 4 x Figura 8.3: Funzione di densità n(x) della v-c normale standardizzata. bilità P(0 < Z < z) ≡ Rz 0 n(z)dz, l’area sottesa dal grafico della funzione densità di probabilità compresa tra i punti di ascissa 0 e z. Le probabilità corrispondenti a valori negativi di z si ricavano per simmetria. Sicché per z > 0 possiamo scrivere P(−∞ < Z < z) = 0.5 + P(0 < Z < z) P(0 < Z < z) = P(−z < Z < 0) P(|Z| < z) = P(−z < Z < z) = 2P(−z < Z < 0) P(|Z| > z) = 2P(Z > z) = 2[0.5 − P(0 < Z < z)] P (z1 < Z < z2 ) = P (Z < z2 ) − P (Z 6 z1 ) dalle quali si risale ai valori di probabilità di interesse. 8.1 Proprietà della densità normale 263 1 0.9 0.8 0.7 (0.67,0.75) 0.6 0.5 0.4 (−0.67,0.25) 0.3 0.2 0.1 0 −4 −3 −2 −1 0 x 1 2 3 4 Figura 8.4: Funzione di distribuzione N(x) della v-c normale standardizzata. Esempio 8.1.1. Abbiamo P(Z 6 1.75) = 0.5 + P(0 < Z 6 1.75) = 0.9599. Inoltre si ha P(Z 6 −0.75) = P(Z > 0.75) = 1 − P(Z 6 0.75) = 1 − [0.5 − P(0 < Z > 0.75)] = 1 − (0.5 − 0.2734) = 0.2266 e P(−0.38 < Z 6 1.42) = P(0 6 Z 6 1.42) + P(0 6 Z 6 0.38) = 0.4222 + 0.1480 = 0.5702 . Osservazione 8.1.4. Con la notazione zα , per 0 < α < 1, si indica il quantile di ordine 1 − α della distribuzione normale standardizzata, in altri termini il valore 264 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate di Z per cui P (Z > zα ) = α e P |Z| > zα/2 = α. I valori riportati nella sottostante tabella α zα/2 zα 0.01 2.575 2.33 0.02 2.33 2.05 0.05 1.96 1.645 0.10 1.645 1.28 sono di uso comune in statistica. Nel caso in cui µ 6= 0 e σ 6= 1 è necessario considerare la standardizzata di X, infatti P(X 6 c) = P c−µ X −µ 6 σ σ c−µ =P Z6 . σ Esempio 8.1.2. Data la variabile casuale normale X con µ = 3 e σ 2 = 4, calcoliamo P(1 6 X 6 4). Si ha 4−3 1−3 = P(−1 6 Z 6 0.5) 6X6 P(1 6 X 6 4) = P 2 2 Z 0.5 Z 0 Z 0.5 Z 0.5 Z = n(z)dz = n(z)dz + n(z)dz = n(z)dz + −1 −1 0 0 1 n(z)dz 0 = 0.1915 + 0.3413 = 0.2328 . Esempio 8.1.3. Siano Z1 e Z2 due variabili casuali normali standardizzate indipendenti: 1 1 2 2 fZ1 Z2 (z1 , z2 ) = n (z1 ) × n (z2 ) = exp − z1 + z2 . 2π 2 8.1 Proprietà della densità normale 265 Sia Y1 = Z1 + Z2 e Y2 = Z1 /Z2 , determiniamo fY1 Y2 (y1 , y2 ). Si ha y1 = z1 + z2 e y1 = z1 /z2 . Per quanto concerne le trasformazioni inverse abbiamo z1 = y1 z2 e z2 = z1 /y2, da cui y1 = z1 (1 + y2 ) /y2 e z1 = y1 y2 / (1 + y2 ) ≡ g1−1 (y1 , y2 ). Essendo inoltre y1 = y2 z2 + z2 , si ha z2 = y1 / (1 + y2 ) ≡ g2−1 (y1 , y2 ). Lo Jacobiano2 della trasformazione inversa è ∂(z1 , z2 ) ∂z1 /∂y1 ∂z1 /∂y2 = J = ∂(y1 , y2) ∂z2 /∂y1 ∂z2 /∂y2 y2 y1 1 + y (1 + y )2 2 2 = 1 y1 − 2 1 + y2 (1 + y2 ) y1 (1 + y2 ) = −y1 /(1 + y2 )2 . =− 3 (1 + y2 ) Ricordando la (5.91), la densità congiunta di Y1 e Y2 è fY 1Y2 (y1 , y2 ) = |J |fZ1 Z2 g1−1 (y1 , y2 ) , g2−1 (y1 , y2 ) |y1| 1 1 (y1 y2 )2 y12 = × exp − + (1 + y2 )2 2π 2 (1 + y2 )2 (1 + y2 )2 1 y12(1 + y22 ) |y1| 1 . exp − = 2π (1 + y2 )2 2 (1 + y2 )2 È interessante calcolare la distribuzione marginale di Y2 integrando fY 1Y2 (y1 , y2 ) rispetto a y1 . Si ha Z +∞ 1 1 y12 (1 + y22) 1 fY2 (y2 ) = dy1 |y1 | exp − 2π (1 + y2 )2 −∞ 2 (1 + y2 )2 Z +∞ 1 1 1 y12 (1 + y22 ) = ×2 dy1 . y1 exp − 2π (1 + y2 )2 2 (1 + y2 )2 0 ∂z1 /∂y2 = ∂ [y1 y2 / (1 + y2 )] /∂y2 = y1 (1 + y2 )−1 − y2 (1 + y2 )−2 = y1 /(1 + y2 )−2 ; ∂z2 /∂y2 = ∂ y1 (1 + y2 )−1 /∂y2 = −y1 (1 + y2 )−2 . 2 266 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate Con l’ausilio della trasformazione di variabile 1 (1 + y22 ) 2 y u= 2 (1 + y2 )2 1 otteniamo (1 + y22) du = y1 · dy1 (1 + y2 )2 e così la distribuzione Z 1 (1 + y22 ) +∞ −u 1 1 1 fY2 (y2 ) = × 2 e du = 2π (1 + y2 )2 (1 + y2 )2 0 π 1 + y22 coincide con la distribuzione di Cauchy (6.13). In conclusione il rapporto di due variabili casuali indipendenti normali standardizzate è una v-c di Cauchy. 8.1.1 Momenti della distribuzione normale I momenti intorno all’origine della v-c normale standardizzata sono dati da Z +∞ Z +∞ 1 1 2 r r (8.9) µr = z n(z)dz = √ z exp − z dz. 2 2π −∞ −∞ Ricordiamo che µ0 = 1 e µ1 = 0 Per r > 2, esprimiamo µr come: Z +∞ 1 2 1 r−1 dz. z exp − z µr = √ z 2 2π −∞ Per calcolare µr adottiamo il metodo dell’integrazione per parti osservando che: d −2z 1 2 1 2 1 2 − exp − z =− exp − z = z exp − z . dz 2 2 2 2 Abbiamo Z +∞ 1 2 1 r−1 z exp − z z dz µr = √ 2 2π −∞ +∞ Z +∞ 1 1 1 2 1 2 r−1 r−2 = − √ · z exp − z +(r − 1) √ z exp − z dz 2 2 2π 2π −∞ −∞ | {z } 0 = (r − 1)µr−2 . (8.10) 8.1 Proprietà della densità normale 267 Dalla (8.10) segue µ2 = (2 − 1)µ0 = 1 µ3 = (3 − 1)µ1 = 0 µ4 = (4 − 1)µ2 = 3 · 1 = 3 µ5 = (5 − 1)µ3 = 4 · 0 = 0 µ6 = (6 − 1)µ4 = 5 · 3 = 15 ed, infine, si ottiene: µ2r+1 = 0 µ2r = (2r − 1)(2r − 3) · · · 3 · 1 . e (8.11) 8.1.2 La variabile casuale lognormale Sia, al solito, Z la v-c normale standard e poniamo Y = g(Z) = eZ . Se y > 0 si ha −1 dz 1 1 [ln(y)]2 fY (y) = n g (y) · . = n [ln(y)] · = √ exp − dy y 2 y 2π (8.12) Il comportamento di fY (y) è diverso da quello di n(z), infatti essa è nulla per y < 0 e non possiede la proprietà di simmetria intorno al suo massimo. La (8.12) è nota quale densità di probabilità lognormale. Al fine di determinare la media della distribuzione lognormale è necessario calcolare E[Y ] = Z +∞ −∞ 1 e n(z)dz = √ 2π z Z +∞ ez e−z 2 /2 dz. −∞ Dal calcolo integrale si ricava la seguente relazione 2 √ Z +∞ q π 2 2 exp −p x ± qx dx = exp 2 4p p −∞ (p > 0) (8.13) 268 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate √ che, ponendo p = 1/ 2 e q = 1, dà luogo a Z +∞ √ 1 2 · 2π exp −z /2 + z dz = exp 2 −∞ da cui segue E[Y ] = e1/2 . (8.14) Abbiamo, inoltre, 2 σY2 = E Y 2 − µ2Y = E [exp(2Z)] − e1/2 = E [exp(2Z)] − e. Calcoliamo E[exp(2Z)]; si ha3 Z +∞ Z +∞ √ 1 1 2z exp −z 2 /2 + 2z dz = √ e2 2π = e2 e n(z)dz = √ 2π −∞ 2π −∞ da cui σY2 = e2 − e = e(e − 1). (8.15) Nel caso in cui sia Y = eX , ove X è la v-c normale con media µ e varianza σ 2 , la densità lognormale assume l’espressione analitica [ln(y) − µ]2 1 . fY (y) = √ exp − 2σ 2 yσ 2π (8.16) 8.2 Distribuzione Gamma Dai corsi di analisi è noto che l’integrale4 Z +∞ Γ(α) = xα−1 e−x dx. (8.17) 0 3 Si applichi la (8.13) ponendo q = 2. Tranne che in alcuni casi particolari l’integrale non si può calcolare analiticamente e si deve far ricorso a metodi numerici o tavole specifiche. 4 8.2 Distribuzione Gamma 269 converge5 ∀α ∈ R+ . Quindi, per α ∈ (0, +∞), l’integrale (8.17) definisce una funzione, a valori in R+ , che è denotata con il termine funzione gamma. Osserviamo innanzitutto che per α = 1 vale la relazione Γ(1) = Z +∞ e−x dx = 1 (8.18) 0 ed inoltre, se α > 0, Z Γ(α + 1) =  +∞ α −x 0 α x e dx = − +∞ e−x 0 = − x · {z | 0 } −α Z 0 Z +∞ α x 0 +∞ α−1 −x x −x −e  dx e dx = α Z +∞ xα−1 e−x dx 0 = αΓ(α). (8.19) Dalle (8.18) e (8.19), per n intero positivo, si ottiene Γ(n) = (n − 1)!. (8.20) Osservazione 8.2.1. Di seguito elenchiamo alcune proprietà della funzione gamma rimandando, per la dimostrazione, ai testi di analisi: Z +∞ √ 1 =2 exp −t2 dt = π, Γ 2 0 √ (2n)! π 1 = (n = 0, 1, 2, . . .), Γ n+ 2 n!22n √ (−1)n n!22n π 1 = Γ −n + (n = 0, 1, 2, . . .), 2 2n! π Γ(x)Γ(1 − x) = (x 6= 0, ±1, ±2, . . .). sin πx 5 Il lettore interessato trova la dimostrazione anche in [13]. (8.21a) (8.21b) (8.21c) (8.21d) 270 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate Per β > 0, poniamo nell’integrale (8.17), x = y/β Si ha Z +∞ α−1 Z +∞ α−1 y y −y/β e d(y/β) = e−y/β dy. Γ(α) = α−1 α β β 0 0 e, come conseguenza della precedente relazione, otteniamo Z +∞ 1 y α−1 e−y/β dy = 1 . α Γ(α)β 0 (8.22) (8.23) Poiché la funzione integranda nella (8.23) è positiva per y > 0, la funzione  1  y α−1e−y/β se 0 < y < +∞ Γ(α)β α (8.24) f (y) =  0 se y 6 0 definisce una funzione densità di probabilità per α > 0 e β > 0. Definizione 8.2.1. Una variabile casuale X, con funzione densità di probabilità definita dalla (8.24), ha una distribuzione gamma con parametri α e β; in simboli X ≡ Γ(α, β) o anche X ∼ Γ(α, β). La funzione di distribuzione di una v-c Γ(α, β) è data da   0 se x 6 0 R x α−1 −y/β F (x) = 1  y e se 0 < x Γ(α)β α 0 (8.25) ove, ricordiamo, i parametri α e β sono numeri reali positivi. Osservazione 8.2.2. La (8.24), nel caso particolare in cui sia α = 1, coincide con la densità di probabilità esponenziale con γ = β −1 . 8.2.1 La variabile casuale chi-quadrato Sia Z la variabile casuale normale standardizzata, poniamo χ2 = Z 2 . Poiché χ2 non può assumere valori negativi, la probabilità P(χ2 6 χ) è definita solamente 8.2 Distribuzione Gamma 271 se χ ∈ [0, +∞), si ha P(χ2 6 χ) = P Z 2 6 χ = P |Z| 6 χ1/2 = 2P 0 < Z 6 χ1/2 = 2 P Z 6 χ1/2 − 0.5 = P Z 6 χ1/2 − 1 . Derivando rispetto a χ, abbiamo la funzione densità di probabilità 1 −1/2 1 −1/2 1 1/2 =√ χ (se χ > 0) exp − χ f (χ) = 2n χ · ·χ 2 2 2π che è la cosiddetta funzione densità di una variabile casuale chi-quadrato con un grado di libertà. Quest’ultima si indica con il simbolo χ21 . Possiamo riformulare la precedente relazione come  1  exp (−χ/2) χ−1/2 se 0 < x < +∞ 1/2 Γ(1/2)2 fχ21 (χ) =  0 se x 6 0 √ ove si è fatto uso del risultato Γ(1/2) = π. (8.26) Osservazione 8.2.3. La (8.26) è una caso particolare della (8.24) se in quest’ultima si pone α = 1/2 e β = 2. Proposizione 8.2.1. Siano Z1 , . . . , Zn variabili casuali normali standardizzate indipendenti, la variabile casuale χ2n = Z12 + · · · + Zn2 è denominata variabile casuale chi-quadrato con n gradi di libertà, χ2n , ed è definita nell’intervallo [0, +∞). La funzione densità di probabilità fχ2n (χ) è data da   1 exp (−χ/2) χn/2−1 se χ > 0 n/2 Γ(n/2)2 fχ2n (χ) =  0 se x 6 0 ed è chiamata distribuzione chi-quadrato con n gradi di libertà. (8.27) 272 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate Per dimostrare la precedente proposizione è necessario premettere un interessante risultato che riguarda la somma di variabili casuali distribuite secondo la legge gamma. A tale scopo consideriamo la variabile casuale Z, somma di due v-c indipendenti, X1 ∼ Γ (α1 , β) e X2 ∼ Γ (α2 , β); determiniamo fZ (z). Ricordando la (5.86a) possiamo scrivere Z +∞ Z fZ (z) = f1 (x1 ) f1 (z − x1 ) dx1 = −∞ 0 z f1 (x1 ) f2 (z − x1 ) dx1 . L’ultimo passaggio si giustifica tenendo conto che le densità gamma è nulla per valori negativi dell’argomento. Si ha 1 xα1 −1 exp (−x1 /β) Γ(α1 )β α1 1 1 (z − x1 )α2 −1 exp (− (z − x1 ) /β) × Γ(α2 )β α2 1 1 = xα1 1 −1 (z − x1 )α2 −1 e−z/β (α +α ) 1 2 Γ(α1 )Γ(α2 ) β f1 (x1 ) f2 (z − x1 ) = sicché 1 fZ (z) = e−z/β (α +α ) 1 2 Γ(α1 )Γ(α2 )β Z z 0 xα1 1 −1 (z − x1 )α2 −1 dx1 . Con il cambio di variabile y = x1 /z, l’integrale a secondo membro nell’ultima espressione di fZ (z) diventa Z z α2 −1 xα1 1 −1 Z 1 dx1 = (z − x1 ) (zy)α1 −1 (z − zy)α2 −1 zdy 0 0 Z 1 Z 1 α1 −1 α2 −1 α1 −1 α2 −1 α1 +α2 −1 = zz z y (1 − y) dy = z y α1 −1 (1 − y)α2 −1 dy 0 0 e pertanto 1 fZ (z) = Γ(α1 )Γ(α2 )β (α1 +α2 ) Z 1 y 0 α1 −1 (1 − y) α2 −1 dy z α1 +α2 −1 e−z/β 8.3 Distribuzione Beta 273 ove l’integrale in parentesi assume un valore costante. In particolare si ha6 Z 1 Γ (α1 ) Γ (α2 ) (8.28) y α1 −1 (1 − y)α2 −1 dy = Γ (α1 ) + Γ (α2 ) 0 e da quest’ultima si ricava fZ (z) = 1 z α1 +α2 −1 e−z/β . Γ(α1 + α2 )β (α1 +α2 ) Da tale relazione si evince che X1 +X2 ∼ Γ (α1 + α2 , β). Applicando lo stesso ragionamento alla variabile casuale Z +X3 ≡ (X1 + X2 )+X3 , con X3 ∼ Γ (α3 , β), si dimostra che X1 +X2 +X3 ∼ Γ (α1 + α2 + α3 , β). Estendendo il procedimento alla somma di k v-c indipendenti, X1 , . . . , Xk , di legge Γ (α1 , β) , . . . , Γ (αk , β), si dimostra che essa ha una densità Γ (α1 + · · · + αk , β). La variabile casuale χ2n = Z12 + · · · + Zn2 è la somma di n variabili casuali indipendenti, ciascuna con legge Γ(1/2, 2), tenedo conto del precedente risultato si dimostra la (8.27). L’andamento analitico di fχ2n (χ) dipende dal valore di n; si rammenti che, per grandi valori di n, la fχ2n (χ) ≈ n(z). Sono facilmente reperibili tavole della distribuzione χ2n che è coinvolta in molte applicazioni e problematiche teoriche. 8.3 Distribuzione Beta La funzione beta è definita dalla relazione Z 1 B(α, β) = xα−1 (1 − x)β−1 dx (8.29) 0 con α e β reali positivi. Dalla precedente definizione segue che la funzione  α−1 β−1  x (1 − x) se 0 < x < 1 B(α, β) f (x) = (8.30)  0 alrimenti 6 Il risultato (8.28) sarà discusso in seguito trattando la distribuzione beta. 274 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate è una densità di probabilità7. Definizione 8.3.1. Una v-c X si dice avere una distribuzione beta con parametri α e β se la sua densità di probabilità è definita dalla (8.30) con α e β entrambi reali maggiori di zero. In simboli si scrive X ≡ B(α, β) oppure X ∼ B(α, β). La funzione di distribuzione di una v-a B(α, β) è  se x 6 0   0 R x F (x) = B(α, β)−1 × 0 y α−1 (1 − y)β−1 dy se 0 < x < 1   1 se x > 1 (8.31) e si ottiene integrando la (8.30). La seguente proposizione rende esplicito lo stretto legame esistente tra la funzioni gamma e beta. Proposizione 8.3.1. Si ha8 Z B(α, β) ≡ 0 1 xα−1 (1 − x)β−1 dx = Γ(α)Γ(β) . Γ(α) + Γ(β) (8.32) La dimostrazione dell’asserto richiede conoscenze avanzate del calcolo integrale, il lettore interessato trova due differenti dimostrazioni in [3] e in [2]. Dalla (8.32) segue che B(α, β) = B(β, α). Osservazione 8.3.1. Nel caso particolare in cui α = β = 1 la distribuzione beta coincide con la distribuzione uniforme in (0, 1). 7 8 Si osservi che la funzione integranda in (8.29) è non negativa nell’intervallo di integrazione Si colleghi l’asserto alla (8.28). CAPITOLO 9 Funzioni generatrici Il calcolo dei momenti di una variabile casuale implica spesso procedimenti matematici complessi, l’introduzione di opportune funzioni ausiliarie conduce a notevoli semplificazioni. Esse sono anche utili per determinare l’andamento analitico di funzioni di distribuzione. 9.1 Funzione generatrice dei momenti Definizione 9.1.1. Sia X una variabile casuale con funzione di distribuzione F , si definisce funzione generatrice dei momenti di X (o di F ) la funzione M(θ) = E[exp(θX)] (9.1) dove θ è una variabile reale di comodo, che assume valori in un intervallo chiuso contenente lo zero, scelta in modo da rendere finita, se possibile, la speranza matematica di exp(θX). 276 Capitolo 9. Funzioni generatrici Se X è discreta, abbiamo M(θ) = ∞ X eθxj p (xj ) . j=1 Nel caso di una variabile casuale assolutamente continua con densità di probabilità f (x), la (9.1) diventa: M(θ) = Z +∞ eθx f (x)dx. −∞ Il nome funzione generatrice dei momenti scaturisce dal fatto che, come faremo vedere nel seguito, i momenti µk di X possono essere calcolati derivando M(θ) in θ = 0. Osservazione 9.1.1. Ponendo θ = 0, si ricava M(0) ≡ 1. Esempio 9.1.1. Sia X una variabile casuale con funzione densità di probabilità f (x) = (1/2) exp(−x/2), se x > 0; poniamo, inoltre, f (x) = 0, se x 6 0. R +∞ Ricordiamo1 che 0 exp(−ax)dx = 1/a. Si ha M(θ) = Z +∞ 1 e f (x)dx = 2 θx 0 Z +∞ θx −x/2 e e 0 1 dx = 2 Z +∞ 1 e(θ− 2 )x dx 0 e, se θ < 1/2, = 1 1 · 2 θ− 1 2 = 1/(1 − 2θ). Proposizione 9.1.1. Sia X una variabile casuale con funzione generatrice dei momenti MX (θ). Definiamo la nuova variabile aleatoria Y = aX + b, con a, b numeri reali ed a tale che esiste MX (aθ), vale la relazione MY (θ) = ebθ MX (aθ). 1 da cui segue: 1/2 R +∞ 0 exp(−x/2) = 1 (9.2) 9.1 Funzione generatrice dei momenti 277 La (9.2) è facilmente dimostrabile, infatti MY (θ) = E eθY = E eθ(aX+b) = ebθ E eaθX = ebθ MX (aθ). Naturalmente se MX (θ) è definita nell’intervallo [−θ0 , +θ0 ], allora MY (θ) è defi θ0 θ0 . nita in − , + a a Teorema 9.1.1. Sia θ0 un numero reale positivo, se X ha una funzione generatrice dei momenti finita per |θ| 6 θ0 , allora X ammette momenti µk di qualsiasi ordine. Dimostrazione. Ricordiamo che per ogni numero reale t vale la relazione e|t| 6 e|t| + e−|t| = et + e−t . Allora, supponendo che X sia assolutamente continua, ∀θ ∈ [−θ0 , +θ0 ], si ha Z +∞ E[exp(|θX|)] = e|θX| f (x)dx −∞ Z +∞ Z +∞ θX 6 e f (x)dx + e−θX f (x)dx = M(θ) + M(−θ) < +∞. (9.3) −∞ −∞ Poiché, per ogni numero reale t ed n numero intero maggiore di zero, è valida la ∞ X |t|n |t|j disuguaglianza 6 ≡ e|t| , ponendo t = θx, dove con x denotiamo un n! j! j=0 generico valore di X, otteniamo |θx|n |θ|n n = |x| 6 e|θx| n! n! ed infine |θ|n n! Z +∞ −∞ n |x| f (x)dx 6 Z +∞ e|θX| f (x)dx < +∞. −∞ Pertanto tutti i momenti assoluti di X, e quindi tutti i momenti intorno all’origine, esistono finiti. 278 Capitolo 9. Funzioni generatrici Proposizione 9.1.2. Se X ha una funzione generatrice dei momenti M(θ), per |θ| 6 θ0 , si ha dk M(θ) . µk = dθk θ=0 (9.4) La dimostrazione rigorosa dell’asserto presuppone la conoscenza di alcuni teoremi di analisi matematica generalmente poco noti al di fuori dei corsi di laurea in matematica e fisica, il lettore interessato può consultare [2], [4] e [11]. Intuitivamente possiamo affermare2 che, essendo la speranza matematica e la derivazione entrambi operatori lineari, essi possono essere scambiati di posto; in altre parole è possibile scrivere le seguenti relazioni θX dM(θ) d de = E[XeθX ] = E [exp(θX)] = E dθ dθ dθ 2 θX d2 de d2 M(θ) = E[X 2 eθX ] = 2 E [exp(θX)] = E 2 2 dθ dθ dθ 3 θX 3 3 d M(θ) de d = 3 E [exp(θX)] = E = E[X 3 eθX ] 3 dθ dθ dθ3 .. . k θX dk d e dk M(θ) = k E [exp(θX)] = E = E[X k eθX ] k dθ dθ dθk (9.5) e, posto θ = 0, otteniamo la (9.4) per k = 1, 2, . . . . Si perviene alla stessa conclusione considerando lo sviluppo in serie di potenze P (θx)k . Se esiste la funzione generatrice dei momenti, si ha eθx = ∞ k=0 k! "∞ # X θk θX M(θ) = E e =E Xk k! k=0 2 Seguiamo l’impostazione data da Parzen (vedi [10]). 9.1 Funzione generatrice dei momenti 279 e, applicando la proprietà di linearità3 dell’operatore E, abbiamo ∞ X ∞ θk X θk E X µk M(θ) = = k! k! k=0 k=0 k (9.6) e, pertanto, µk è, per ogni intero k, il coefficiente di θk /k! nello sviluppo in serie di potenze di M(θ). Poiché una serie di potenze può essere derivata termine a termine, si ottiene θ2 d θ3 ′ 1 + µ1 · θ + µ2 · M (θ) = + µ3 · +··· dθ 2! 3! 3θ2 2θ + µ3 · + · · · (9.7) = µ1 + µ2 · 2! 3! da cui segue M′ (0) = µ1 . Derivando la (9.7) si ricava d 2θ 3θ2 6θ ′′ M (θ) = µ1 + µ2 · + µ3 · + · · · = µ2 + µ3 · +··· dθ 2! 3! 3! (9.8) e da quest’ultima segue che M′′ (0) = µ2 . Continuando a derivare si perviene alla formula generale (9.4) Definiamo la funzione φ(θ) ponendo φ(θ) = ln[M(θ)]. Si ha φ′ (θ) = ed inoltre M′ (θ) M(θ) M′′ (θ)M(θ) − [M′ (θ)]2 . φ (θ) = [M(θ)]2 ′′ Per θ = 0 otteniamo φ′ (0) = e M′ (0) = µ1 M(0) M′′ (0)M(0) − [M′(0)]2 2 φ (0) = = µ2 − µ21 = σX . [M(0)]2 ′′ 3 Vedi [2] e [11] per la dimostrazione in base al teorema della convergenza dominata. (9.9) (9.10) 280 Capitolo 9. Funzioni generatrici Il seguente teorema, del quale si omette la dimostrazione, illustra la proprietà fondamentale della funzione generatrice dei momenti che è quella di determinare univocamente la funzione di distribuzione. Teorema 9.1.2. Siano X e Y due v-c con funzione di distribuzione FX (x) ed FY (y), rispettivamente; denotiamo con MX (θ) e MY (θ) le funzioni generatrici dei momenti. X e Y hanno la stessa funzione di distribuzione, FX ≡ FY , se e solo se MX (θ) = MY (θ), ∀θ. Osservazione 9.1.2. Supponiamo che esistano finiti i momenti µk , ∀k, di una v-c X. Tale condizione non è sufficiente affinché esista la funzione generatrice dei momenti di X. Possiamo renderci conto della validità della precedente affermazione con un esempio. Sia X una variabile casuale con densità di probabilità f (x) = c exp (−|x|α ) ove 0 < α < 1, x ∈ (−∞, +∞) e la costante c è tale da verificare la condizione R +∞ di normalizzazione c −∞ exp (−|x|α ) dx = 1. Sia θ > 0, si ha Z +∞ Z +∞ α exp(θx) exp (−x ) dx = exp x θ − xα−1 dx. 0 0 Poiché α − 1 < 0, l’integrale R +∞ 0 exp(θx) exp (−xα ) dx non assume valori finiti ∀θ > 0 e, quindi, X non ha una funzione generatrice dei momenti. Essa, invece, ha momenti finiti di ogni ordine. Infatti si ha Z +∞ Z k k α E[|X| ] = c |x | exp (−|x| ) dx = 2c −∞ +∞ xk exp (−xα ) dx 0 e, con il cambio di variabile y = xα , otteniamo4 Z +∞ 1 −(1+ 1 ) k k/α −y α E[|X| ] = 2c y e · dy < +∞ y α 0 4 ∀k. I limiti di integrazione non cambiano; inoltre y 1/α = x e dx = (1/α) · y 1/α−1 dy. 9.1 Funzione generatrice dei momenti 281 La convergenza dell’integrale a secondo membro segue dall’essere y −(1+ α ) fun1 zione decrescete di y e dal fatto che e−y tende a zero più rapidamente di quanto y k/α cresca a +∞ al crescere di y. Teorema 9.1.3. Sia {µk } la sequenza dei momenti di una v-c X. Se la serie ∞ X µk 1 k! θk converge assolutamente per un valore θ > 0, allora {µk } determina univocamente FX (x). Il precedente teorema, dovuto ad Hamburger (1920), è di difficile dimostrazione; il lettore interessato trova in [13] i riferimenti bibliografici originali in lingua tedesca. Osservazione 9.1.3. In particolare, se esiste una costante c che verifica la disuguaglianza |µk | 6 ck , con k = 1, 2, . . ., allora, per θ > 0, si ha ∞ X µk 1 k! k θ 6 ∞ X (cθ)k k! 1 < ecθ e {µk } determina in maniera univoca la distribuzione di X. Esempio 9.1.2. Consideriamo la densità di probabilità esponenziale con parametro γ > 0, abbiamo θX M(θ) = E e = Z ∞ θx −γx e γe 0 dx = γ Z ∞ e(θ−γ)x dx. 0 Se θ < γ l’integrale all’ultimo membro esiste finito: Z ∞ Z ∞ (θ−γ)x e dx = e−(γ−θ)x dx = 1/(γ − θ). 0 0 282 Capitolo 9. Funzioni generatrici In conclusione l’espressione analitica della funzione generatrice dei momenti è M(θ) = γ γ −θ ∀θ ∈ [−θ0 , +θ0 ] (9.11) ove 0 < θ0 < γ. γ (γ − θ)2 ′ e µ1 ≡ M (0) = 1/γ. Derivando ancora una volta la funzione generatrice dei 2γ momenti abbiamo M′′ (θ) = e µ2 ≡ M′′ (0) = 2/γ 2 ; infine si ritrova la (γ − θ)3 formula (6.41): 2 1 σ 2 = µ2 − µ21 = 2 − 2 = 1/γ 2 . γ γ Calcoliamo la media e la varianza della distribuzione; si ha M′ (θ) = 6γ (γ − θ)4 3 e ponendo, al solito θ = 0, otteniamo µ3 = 6/γ ; continuando nel processo di La derivata terza della funzione generatrice dei momenti è M′′′ (θ) = derivazione si perviene alla formula generale µn = n!/γ n . (9.12) Esempio 9.1.3. Sia X una variabile casuale di Poisson con parametro λ. La funzione generatrice dei momenti è data da M(θ) = ∞ X k=0 θk e · p(k, λ) = = e−λ ∞ X k=0 eθk · ∞ X (eθ λ)k k=0 k! λk −λ ·e k! = e−λ · ee θλ = ee θ λ−λ = eλ(e ) . (9.13) θ −1 i h λ(eθ −1) = λ eθ − 1 . Da quest’ultima si ricavano le Inoltre, si ha φ(θ) = ln e relazioni φ′ (θ) = λ exp(θ) e φ′′ (θ) = λ exp(θ) da cui: µ1 = λ e σ 2 = λ. 9.1 Funzione generatrice dei momenti 283 Esempio 9.1.4. Nel caso della distribuzione binomiale abbiamo M(θ) = ∞ X k=0 θk e n X n k p (1 − p)n−k · b(k; n, p) = e k k=0 n X k n n peθ (1 − p)n−k = 1 − p + peθ (9.14) = k k=0 θk ove l’ultimo passaggio si giustifica ricordando la formula del binomio (6.24). Calcolando la derivata prima e seconda della funzione generatrice dei momenti, otteniamo M′ (θ) = n 1 − p + peθ e M′′ (θ) = n(n − 1) 1 − p + peθ n−2 n−1 · p · eθ · p2 · e2θ + n 1 − p + peθ n−1 · p · eθ . Ponendo θ = 0, otteniamo µ1 = M′(0) = np e µ2 = M′′ (0) = n(n − 1)p2 + np. Da queste ultime relazioni si calcola il valore della varianza della distribuzione binomiale espresso in precedenza dalla formula (6.29). Esempio 9.1.5. Determiniamo la funzione generatrice dei momenti della variabile casuale normale standardizzata. 284 Capitolo 9. Funzioni generatrici Si ha M(θ) = = = = = 2 Z +∞ z 1 √ dz exp(θz) exp − 2 2π −∞ Z +∞ 1 1 2 √ exp − z − 2θz dz 2 2π −∞ Z +∞ 1 1 2 2 √ dz exp − (z − θ) − θ 2 2π −∞ 2 Z +∞ θ 1 (z − θ)2 √ exp − exp dz 2 2 2π −∞ | {z } 1 2 θ exp . 2 (9.15) Si noti, infatti, che la funzione integranda che compare nel penultimo passaggio è la densità di probabilità di una variabile casuale normale a media θ e varianza unitaria. Abbiamo φ(θ) = ln[M(θ)] = θ2 /2, da cui si trae φ′ (θ) = θ φ′′ (θ) = 1 e ed infine, ponendo θ = 0, ritroviamo media e varianza della v-c normale standardizzata. Dalle relazioni (9.15) e (9.2) si ricava la funzione generatrice dei momenti di X = σZ + µ; si ha (σθ)2 (σθ)2 = exp µθ + . (9.16) MX (θ) = e ·MZ (σθ) = exp (µθ)·exp 2 2 µθ Teorema 9.1.4. Siano X1 , X2 , . . . , Xn variabili casuali indipendenti, dotate di funzione generatrice dei momenti Mi (θ), con i = 1, 2, . . . , n. Sia Y la variabile casuale somma delle Xi : Y = X1 + · · · + Xn , si ha MY (θ) = n Y i=1 Mi (θ). (9.17) 9.1 Funzione generatrice dei momenti 285 Dimostrazione. Consideriamo per semplicità formale il caso in cui sia n = 2. Nel caso discreto, in virtù dell’indipendenza delle variabili casuali, possiamo scrivere MY (θ) = E eθY = E eθ(X1 +X2 ) XX = exp θ x1i + x2j pX1 X2 x1i , x2j i = i = X j XX j exp (θx1 i ) exp θx2 j pX1 (x1 i ) pX2 x2 j exp (θx1i ) pX1 (x1i ) X j i exp θx2j pX2 x2j = E eθX1 · E eθX2 da cui segue immediatamente l’asserto. La dimostrazione nel caso di v-c assolutamente continue è analoga: θY MY (θ) = E e = = Z Z +∞ +∞ Z +∞ eθ(x1 +x2 ) fX1 X2 (x1 , x2 ) dx1 dx2 −∞ −∞ Z +∞ θx1 θx2 e e fX1 (x1 ) fX2 (x2 ) dx1 dx2 Z +∞ Z +∞ θx1 = e fX1 (x1 ) dx1 eθx2 fX2 (x2 ) dx2 = E eθX1 · E eθX2 . −∞ −∞ −∞ −∞ Nel caso in cui le variabili casuali, oltre ad essere indipendenti, hanno anche la stessa funzione di distribuzione FX (x), la (9.17) diventa: MY (θ) = [MX (θ)]n . (9.18) Esempio 9.1.6. Siano Z1 e Z2 due variabili casuali normali standardizzate indipendenti, poniamo Z = Z1 + Z2 e calcoliamo MZ (θ). Si ha 2 2 θ θ 2 MZ (θ) = MZ1 (θ) · MZ2 (θ) = exp · exp = eθ . 2 2 286 Capitolo 9. Funzioni generatrici Z è essa stessa una v-c gaussiana, non è però standardizzata; infatti, essendo φ(θ) = θ2 , abbiamo φ′ (θ) = 2θ e φ′′ (θ) = 2; pertanto Z ha media nulla e varianza σZ2 = 2. Esempio 9.1.7. Consideriamo due variabili casuali normali indipendenti,X1 e X2 con media e varianza µ1 , σ12 e µ2 , σ22 , rispettivamente; determiniamo la distribuzione di X = X1 + X2 . Si ha MX (θ) = MX1 (θ) · MX2 (θ) (σ2 θ)2 (σ1 θ)2 · exp µ2 θ + = exp µ1 θ + 2 2 (σ12 + σ22 ) θ2 = exp (µ1 + µ2 ) θ + . 2 Dalla precedente relazione deduciamo che X è una v-c gaussiana con valore atteso µ1 + µ2 e varianza σ12 + σ22 . Esempio 9.1.8. Supponiamo che la funzione generatrice dei momenti di una va riabile casuale X sia data da M(θ) = exp 3(eθ − 1) , calcoliamo P{X = 0}. Ricordando la (9.13), deduciamo che M(θ) è la funzione generatrice dei momenti di una v-a di Poisson con media 3. In virtù del teorema 9.1.2 possiamo affermare che X ammette come distribuzione di probabilità la legge di Poisson con λ = 3 e pertanto: P{X = 0} = e−3 . Esempio 9.1.9. Determiniamo la funzione generatrice dei momenti della variabile 9.1 Funzione generatrice dei momenti 287 casuale X ∼ Γ(α, β). Si ha 1 M(θ) = Γ(α)β α Z +∞ exp(θx) exp(−x/β)xα−1 dx 0 Z +∞ 1 = exp[x(θ − 1/β)]xα−1 dx Γ(α)β α 0 Z +∞ 1 = exp[−x(1/β − θ)]xα−1 dx Γ(α)β α 0 Z +∞ x 1 exp[− (1 − βθ)]xα−1 dx. = α Γ(α)β 0 β Con il cambio di variabile 1 x 1 − βθ y=x = (1 − βθ) −θ =x β β β risulta dx = β/(1 − βθ)dy e x = β/(1 − βθ)y, pertanto Z +∞ β β α−1 1 × × × e−y y α−1 dy M(θ) = Γ(α)β α 1 − βθ (1 − βθ)α−1 0 Z +∞ 1 1 = e−y y α−1 dy × α (1 − βθ) Γ(α) 0 {z } | 1 con θ < 1/β. In conclusione la funzione generatrice di X ∼ Γ(α, β) è data M(θ) = (1 − βθ)−α (9.19) con θ < 1/β. Dalla (9.19) ricaviamo dM(θ) = −α(1 − βθ)−α−1 · −β = αβ(1 − βθ)−(α+1) dθ e d2 M(θ) = −αβ(α + 1)(1 − βθ)−(α+2) · −β = αβ 2 (α + 1)(1 − βθ)−(α+2) . dθ2 288 Capitolo 9. Funzioni generatrici Dalle precedenti relazioni ricaviamo la media e la varianza di X. Si ha infatti Il momento di ordine due è dM(θ) = αβ. µX = dθ θ=0 d2 M(θ) E[X ] = = α(α + 1)β 2 dθ2 θ=0 2 sicché 2 σX = E[X 2 ] − (µX )2 = αβ 2 . (9.20) (9.21) (9.22) Concludiamo calcolando direttamente i momenti di ordine a partire dalla densità di probabilià. Abbiamo Z +∞ 1 xn exp(−x/β)xα−1 dx µk ≡ E[X ] = α Γ(α)β 0 Z +∞ 1 βn = × × exp(−x/β)xα+n−1 dx Γ(α)β α β n 0 Z +∞ βn 1 = exp(−x/β)xα+n−1 dx Γ(α) 0 β α+n βn × Γ(α + n) = Γ(α) n = β n (α + n − 1)(α + n − 2) · · · α. (9.23) Per giustificare l’espressione finale di E [X n ] si deve far riferimento alla (8.19): Γ(α) = (α − 1)Γ(α − 1). 9.1 Funzione generatrice dei momenti 289 Esempio 9.1.10. Sia X ∼ B(α, β), calcoliamo M(θ). Si ha 1 M(θ) = B(α, β) Z 1 exp(θx)xα−1 (1 − x)β−1 dx 0 ! Z 1 X +∞ k 1 θ k = x xα−1 (1 − x)β−1 dx B(α, β) 0 k! k=0 +∞ k Z 1 X 1 θ = xα+k−1 (1 − x)β−1 dx B(α, β) k=0 k! 0 {z } | B(α+k,β) = +∞ X B(α + k, β) k=0 B(α, β) × θk (9.24) k! ed è possibile dimostrare la convergenza della serie per ogni intero k. Osservazione 9.1.4. Si noti che la funzione generatrice dei momenti esiste qualunque sia θ; infatti, essendo la funzione integranda exp(θx)xα−1 (1 − x)β−1 continua R1 in x nell’intervallo [0, 1], l’integrale 0 exp(θx)xα−1 (1−x)β−1 dx esiste ed assume un valore finito. Dalla (9.24), ricordando la (9.6), segue Γ(α + k)Γ(β) k B(α + k, β) Γ(α + β + k) µk ≡ E X = = Γ(α)Γ(β) B(α, β) Γ(α + β) Γ(α + β) Γ(α + k) × = Γ(α + β + k) Γ(α) (k = 1, 2, . . .). (9.25) 290 Capitolo 9. Funzioni generatrici In particolare, da quest’ultima relazione si ricava E [X] = Γ(α + β) Γ(α + 1) × Γ(α + β + 1) Γ(α) αΓ(α) Γ(α + β) = × (α + β)Γ(α + β) Γ(α) = α/(α + β) (9.26) e E X2 = Γ(α + β) Γ(α + 2) × Γ(α + β + 2) Γ(α) Γ(α + β) (α + 1)Γ(α + 1) × = (α + β + 1)Γ(α + β + 1) Γ(α) Γ(α + β) (α + 1)αΓ(α) × = (α + β + 1)(α + β)Γ(α + β) Γ(α) = α(α + 1)/[(α + β)(α + β + 1)]. (9.27) Infine si ottiene l’espressione della varianza: 2 σX = E X 2 − (E [X])2 = αβ/[(α + β)2 (α + β + 1)]. (9.28) È possibile ottenere la (9.25) attraverso il calcolo diretto a partire dalla densità di probabilità; si ha Z 1 k µk = x × 1 α−1 β−1 dx x (1 − x) B(α, β) 0 Z 1 1 = xα+k−1 (1 − x)β−1 dx B(α, β) 0 B(α + k, β) = [Γ(α + k)Γ(α + β)] / [Γ(α)Γ(α + β + k)] . (9.29) = B(α, β) La (9.29) afferma che X ∼ B(α, β) è dotata di momenti µk finiti ∀k. In particolare vale la disuguaglianza E [X]k < 1, per ogni intero k. Infatti B(α, β), fissato il 9.1 Funzione generatrice dei momenti 291 valore di β, è funzione decrescente di α: B(α + k, β) < B(α, β). Per convincersi della validità della precedente affermazione si osservi che nella (8.29) la funzione potenza xα−1 , essendo 0 < x < 1, è funzione decrescente dell’esponente, mentre (1 − x)β , per β fissato, è una costante moltiplicativa. Da quanto sopra premesso si deduce che, essendo verificate le condizioni richiamate nel teorema 9.1.3 e nell’osservazione 9.1.3, la distribuzione beta è dotata di funzione generatrice dei P momenti M(θ) ≡ k µk (θk /k!), ove µk si ricava dalla (9.29). Esempio 9.1.11. Calcoliamo la moda della distribuzione beta nel caso in cui i parametri α e β siano entrambi maggiori di 1. Ricordiamo che la moda coincide con il valore x di X in cui f (x) assume il valore massimo, in altre parole è il valore x per cui f ′ (x) = 0. Si ha α−1 1 df (x) x (1 − x)β−1 = dx B(α, β) 1 d = (α − 1)xα−2 (1 − x)β−1 + xα−1 (β − 1)(1 − x)β−2 (−1) B(α, β) dx 1 (α − 1)xα−2 (1 − x)β−1 − xα−1 (β − 1)(1 − x)β−2 = B(α, β) 1 = xα−2 (1 − x)β−2 [(α − 1)(1 − x) − x(β − 1)] . B(α, β) Da quest’ultima relazione, tenuto conto che x ∈ (0, 1), segue che il valore x deve essere tale da verificare l’uguaglianza (α − 1)(1 − x) − x(β − 1) = 0 e, pertanto, x = (α − 1)/(α + β − 2). CAPITOLO 10 La convergenza stocastica e teoremi limite 10.1 La convergenza delle variabili aleatorie Sia {Xn }, n = 0, 1, 2, . . ., una successione infinita di variabili casuali definite in un medesimo spazio di probabilità {Ω, F , P}. Per un fissato ω ∈ Ω, Xn (ω) ≡ xn costituisce, al variare di n, una successione di numeri reali che converge ad un limite finito oppure risulta divergente. In generale la nozione di convergenza di una successione casuale si presta a differenti interpretazioni. Una approfondita trattazione dell’argomento è consultabile in [12], nel seguito daremo le definizioni fondamentali utili allo studente per gli studi futuri; analogamente enunceremo, omettendo la dimostrazione, proprietà e teoremi essenziali. Inizieremo col definire la modalità di convergenza più debole. 294 Capitolo 10. La convergenza stocastica e teoremi limite 10.1.1 Convergenza in distribuzione Definizione 10.1.1. Sia {Fn } una successione di funzioni di distribuzione; se esiste una funzione di distribuzione F tale che lim Fn (x) = F (x) n→∞ in ogni punto x in cui F è continua, allora si dice che Fn converge in legge o w in distribuzione o debolmente a F e si usa la simbologia1 Fn − → F . Se {Xn } è una successione di variabili casuali ed {Fn } è la corrispondente successione di distribuzioni di probabilità, {Xn } converge in distribuzione, o in legge, a X, se w esiste una variabile casuale X la cui funzione di distribuzione è tale che Fn −→ F . Per indicare che {Xn } converge in distribuzione a X si scrive D Xn − → X. Si noti che una data successione di funzioni di distribuzione potrebbe convergere ad una funzione che non ha i requisiti per essere considerata essa stessa una legge di distribuzione. Inoltre la convergenza in distribuzione non implica né la convergenza dei momenti né la convergenza delle corrispondenti funzioni di densità di probabilità. Il seguente teorema, dimostrato da Scheffé2 , mette in relazione la convergenza in distribuzione con la convergenza della funzioni densità. Teorema 10.1.1. Siano {Xn }n∈N e X variabili casuali continue ed indichiamo con fn (x) ed f (x) le rispettive funzioni di densità di probabilità. Se, ∀x, lim fn (x) = f (x) n→∞ allora D 1 Xn − → X. w sta per weakly (debolmente). Per la dimostrazione si rimanda a: H. Scheffé: A useful convergence theorem for probability distribution. Ann. Math. Stat. (1947), 434-438. 2 10.1 La convergenza delle variabili aleatorie 295 Per variabili casuali discrete e a valori interi, sussiste il teorema che enunciamo di seguito. Teorema 10.1.2. Siano Xn e X variabili casuali discrete e a valori nell’insieme dei numeri interi, allora lim pn (x) = p(x) n→∞ se e solo se D → X. Xn − D La convergenza in distribuzione gode delle seguenti proprietà. Se Xn − →Xecè una generica costante, anche Xn + c converge in distribuzione a X + c; inoltre per D c 6= 0 si ha: cXn − → cX. D Osservazione 10.1.1. Se Xn − → X e g è una funzione reale continua anche g (Xn ) converge in legge a g(X). La dimostrazione di questo risultato è riportata in: C.R. Rao, “Linear statistical inference and its applications”, Wiley, 1965. 10.1.2 Convergenza in probabilità La convergenza in probabilità definisce un concetto di convergenza immediatamente più forte della convergenza in legge. Definizione 10.1.2. Sia {Xn } una successione di variabili casuali. La successione {Xn } converge in probabilità alla variabile casuale X, definita nello stesso spazio di probabilità {Ω, F , P}, se lim P (|Xn − X| > ε) = 0 n→∞ ∀ε > 0 . (10.1) P La convergenza in probabilità, in simboli, è espressa come: Xn − → X. Osservazione 10.1.2. La definizione appena formulata non deve essere intesa nell’ambito della convergenza nota dall’analisi matematica. In altri termini la convergenza in probabilità di Xn a X non implica che, dato ε > 0, esista un n0 tale 296 Capitolo 10. La convergenza stocastica e teoremi limite che risulti |Xn − X| < ε per n > n0 . Essa assicura solamente la convergenza a zero della successione di probabilità P (|Xn − X| > ε). Osservazione 10.1.3. Il limite X è unico nel senso che se si verificano contemP P poraneamente le condizioni Xn − → X e Xn − → Z allora, quasi certamente, Z ≡ X: P{X − Z = 0} = 1 . Osservazione 10.1.4. La condizione (10.1) è equivalente alla seguente lim P (|Xn − X| < ε) = 1 n→∞ ∀ε > 0 . (10.2) La convergenza in probabilità gode delle proprietà che elenchiamo nel seguito. 1. Vale la condizione necessaria e sufficiente: P Xn − →X P 2. Xn − →X implica che P P se e solo se Xn − X − →0. P Xn − Xm − → 0 per P (10.3) n, m → ∞. P 3. Se Xn − → X e Yn − → Y allora Xn ± Yn − → X ±Y. 4. Sia c una costante, se Xn converge in probabilità alla variabile casuale X, cXn converge in probabilità a cX. P P 5. Dalla condizione Xn − → c segue che Xn2 − → c2 . 6. Siano a e b due costanti, la convergenza in probabilità di Xn ad a e di Yn a b assicura che P Xn Y n − → ab. (10.4) 7. Siano X e Y due variabili casuali, dalla convergenza in probabilità di Xn a X segue che P Xn Y − → XY. (10.5) 10.1 La convergenza delle variabili aleatorie 297 8. Se Xn converge in probabilità a X e Yn a Y , la successione prodotto Xn Yn converge in probabilità a XY P Xn Y n − → XY. (10.6) Un caso particolare della (10.6) è P Xn2 − → X2 P Xn − → X. se (10.7) 9. La seguente3 è ulteriore condizione necessaria e sufficiente: Xn converge in probabilità se e solo se, ∀ε, η > 0, esiste un n0 tale che P {|Xn − Xm | > ε} < η ∀n, m > n0 . (10.8) Teorema 10.1.3. Sia g una funzione continua definita nell’insieme dei numeri P P reali R, se Xn − → X anche g (Xn ) − → g(X). P P Corollario 10.1.1. Se c è una costante, la condizione Xn − → c implica g (Xn ) − → g(c), essendo g una funzione continua. I teoremi seguenti illustrano la relazione tra convergenza debole e convergenza in probabilità. Teorema 10.1.4. Se la successione Xn converge in probabilità a X, vale anche la D proprietà: Xn − → X. Teorema 10.1.5. Sia c una costante; la convergenza in legge di Xn a c implica P che Xn − → c. D P Corollario 10.1.2. Fissata una costante c, Xn − → c se e solo se Xn − → c. 3 Vedi: M. S. Bartlett, “An introduction to stochastic processes”, Cambrige University Press, 1966. 298 Capitolo 10. La convergenza stocastica e teoremi limite È importante sottolineare che il corollario (10.1.2) non è valido se si sostituisce a c una variabile casuale: in generale la convergenza in legge non implica la convergenza in probabilità. Grazie ad opportuni esempi si deduce che la convergenza in probabilità non garantisce la convergenza, per n → ∞, di E Xnk a E X k qualunque sia l’intero k. Enunciamo, infine, un teorema dovuto a Cramér4 utile in molte situazioni. Per semplicità espressiva useremo il simbolo matematico ⇒ per implica. Teorema 10.1.6. Sia c una costante e {Xn , Yn } una successione di coppie di variabili casuali, si ha: D D P Xn − → X, Yn − → c ⇒ Xn ± Y n − → X ±c, ( D Xn Y n − → cX se c 6= 0 , D P Xn − → X, Yn − →c⇒ P Xn Y n − →0 se c = 0 , Xn D X D P − → se c 6= 0 . Xn − → X, Yn − →c⇒ Yn c (10.9) (10.10) (10.11) 10.1.3 Convergenza in media r-ma Definizione 10.1.3. Sia {Xn } una successione di variabili casuali tale che, per un dato intero r ≥ 1, E (|Xn |r ) < ∞. Essa converge in media di ordine r ad una variabile casuale X se E [|X|r ] < ∞ e lim E [|Xn − X|r ] = 0 . n→∞ r La convergenza in media r-ma si indica con Xn − → X. Per r = 1 si ha la cosiddetta convergenza in media, se r = 2 in media quadratica. In generale, se non altrimenti specificato, si considera il caso della convergenza in 4 H. Cramér, “Mathematical methods of statistics”, Princeton University Press, 1946. 10.1 La convergenza delle variabili aleatorie 299 media quadratica che viene anche espressa dalla formula l.i.m.Xn = X. n→∞ Il teorema successivo afferma che la convergenza in media r-ma è più forte della convergenza in probabilità. r Teorema 10.1.7. Sia {Xn } una successione di variabili casuali tale che Xn − →X P allora Xn − → X. 2 Teorema 10.1.8. Se Xn − → X allora, per n → ∞, E [Xn ] → E[X] E Xn2 → E X 2 . e Corollario 10.1.3. La convergenza in media quadratica di Xn a X implica che 2 2 −−−→ σX σX n n→∞ . 2 = E [Xn2 ] −E2 [Xn ]; passando al limite e tenendo conto Dimostrazione. Si ha σX n dei risultati del teorema (10.1.8) si dimostra la tesi. Il limite nel senso della media quadratica è un operatore lineare. Vale, infatti, il teorema: Teorema 10.1.9. Se si verificano contemporaneamente le condizioni l.i.m.Xn = X n→∞ e l.i.m.Yn = Y n→∞ risulta anche l.i.m. (aXn + bYn ) = aX + bX. n→∞ 300 Capitolo 10. La convergenza stocastica e teoremi limite Concludiamo la trattazione della convergenza in media di ordine r ricordando alcuni importanti risultati. 2 2 2 2 (i) Xm − → X, Yn − → Y ⇒ E [Xm , Yn ] → E[XY ]; (ii) Xm − → X, Yn − → Y ⇒ ρXm Yn → ρXY ; r (iii) Xn − → X ⇒ E [|Xn |r ] → E [|X|r ]; r s (iv) Xn − → X ⇒ Xn − → X, per r > s; r (v) Xn − → X ⇒ E [|Xn |s ] → E [|X|s ] per s ≤ r. 10.1.4 Convergenza quasi certa Definizione 10.1.4. La successione di variabili casuali {Xn } converge quasi certamente o con probabilità 1 ad una variabile casuale X se e solo se P (ω : Xn (ω) → X(ω) per n → ∞) = 1 . q.c. La notazione Xn −→ X indica la convergenza quasi certa. La convergenza quasi certa è una modalità di convergenza più forte delle precedenti, per questo motivo è talvolta chiamata anche convergenza forte. Per rendere più chiaro il concetto sotteso dalla convergenza forte consideriamo la realizzazione x1 , . . . , xn , . . . della sequenza Xn ; {xn } può o convergere o non convergere in senso ordinario ad un limite x. Se la probabilità che essa sia convergente è 1, alloq.c. ra diciamo che Xn −→ X. Una definizione equivalente, nella quale non compare esplicitamente la variabile casuale limite X, afferma che se ∀(ε, η), esiste un n0 tale che, ∀n > n0 , P (|Xn − Xm | > ε per almeno un m ≥ n) < η 10.2 Teorema limite locale 301 allora Xn converge quasi certamente. Alcune delle più rilevanti proprietà della convergenza quasi certa sono elencate di seguito5. q.c. (a) Xn −→ X ⇔ limn→∞ P supm≥n |Xm − X| > ε = 0, ∀ε > 0 ; q.c. P (b) Xn −→ X ⇒ Xn − → X; (c) sia {Xn } una successione strettamente decrescente di variabili casuali posiP q.c. tive, Xn − → 0 ⇒ Xn −→ 0; (d) sussiste il seguente criterio sufficiente per la convergenza forte: X n q.c. E {|Xn − X|p } < ∞ per un certo p > 0 ⇒ Xn −→ X; (e) una condizione sufficiente alternativa è: X |Xn+1 − Xn | p < ∞, E ε n n ove X n εn < ∞. (10.12) (10.13) Non esiste nessuna condizione necessaria e sufficiente tra convergenza forte e convergenza in media quadratica. 10.2 Teorema limite locale Il calcolo della probabilità b(k; n, p) dalla formula (4.1) comporta, per grandi valori di n ed k, notevoli difficoltà se non si utilizza un calcolatore elettronico. Non 5 Il simbolo matematico ⇔ sta per se e solo se. Inoltre la condizioni sufficienti sono riportate nel libro di Bartlett citato in precedenza. 302 Capitolo 10. La convergenza stocastica e teoremi limite stupisce, pertanto, che in passato si sia presentata la necessità di sviluppare formule asintotiche per il calcolo di questa probabilità con un grado di accuratezza sufficientemente elevato. Nel caso particolare delle prove del Bernoulli con p = q = 1/2, una formula che soddisfa sia i requisiti di semplicità che di elevata approssimazione fu dimostrata nel 1730 dal matematico francese de Moivre; successivamente Laplace generalizzò il risultato al caso generale di 0 < p < 1. Teorema 10.2.1 (Teorema limite locale di de Moivre-Laplace). Se in uno schema del Bernoulli la probabilità di successo6 p ∈ (0, 1) e se il numero di prove n → ∞, la probabilità b(k; n, p) tende al valore (k − np)2 1 √ exp − 2npq 2πnpq (10.14) ove q = 1 − p. Il teorema limite locale7 afferma che la distribuzione di probabilità della variabile casuale numero di successi in n prove del Bernoulli con p ∈ (0, 1), se n è molto grande, è approssimata dalla legge di Gauss con media np e varianza npq. La rappresentazione asintotica della distribuzione binomiale con la legge di Gauss peggiora sempre di più via via che la probabilità elementare p si discosta da 1/2. In questi casi, affinché l’applicazione del teorema precedente dia errori trascurabili, n deve essere veramente molto grande. In numerose applicazioni p ha un valore dell’ordine di 1/10 o anche inferiore e quindi il problema è rilevante. In questi casi una formula asintotica più affidabile, come abbiamo visto, fu determinata da Poisson nel 1837 (vedi paragrafo 4.3). L’approssimazione di Poisson della legge binomiale è un altro dei teoremi limite locale di grande valore pratico e storico. Le tavole della densità di probabilità n(z) della variabile normale standardizzata Z 6 7 Ricordiamo che essa è per ipotesi costante. Il lettore interessato trova in [6] una possibile dimostrazione basata sulla formula di Stirling. 10.3 Teorema limite integrale 303 rendono abbastanza agevole l’utilizzo del teorema limite locale. Ponendo, infatti, √ z = (k − np)/ npq, la (10.14) diventa 2 1 1 z 1 =√ · √ exp − · n(z). (10.15) b(k; n, p) ≈ √ npq 2 npq 2π Esempio 10.2.1. Sia n = 104 , k = 40 e p = 5 · 10−3, dal calcolo diretto si ottiene b (40; 104, 5 · 10−3) ≈ 0.0197. Dal teorema appena dimostrato segue " 2 # 1 k − np 1 1 b(k; n, p) ≈ √ · √ exp − √ npq 2 npq 2π e, sostituendo i parametri assegnati, si ricava √ √ √ npq = 104 · 5 · 10−3 · 0.995 = 49.75 ≈ 7.05 ed inoltre k − np ≈ −1.42 . √ npq Di conseguenza abbiamo 1 1 1 1 2 = · √ exp − · 1.42 · n(1.42). b(k; n, p) ≈ 7.05 2 7.05 2π Dalle tavole della n(z) si ha n(1.42) = 0.1456 ed infine b(k; n, p) ≈ 0.1456 ≈ 0.0206 . 7.05 10.3 Teorema limite integrale Indichiamo come al solito con Sn la variabile casuale numero di successi in n prove del Bernoulli a parametro p; ricordiamo che essa ha media np e varianza npq. Introduciamo la variabile casuale standardizzata Sn − np Sn∗ = √ . npq 304 Capitolo 10. La convergenza stocastica e teoremi limite Vale il seguente teorema 8 . Teorema 10.3.1 (Teorema limite integrale di de Moivre-Laplace). Fissati due numeri reali z1 e z2 , ove z1 < z2 , come n tende all’infinito la successione di variabili casuali {Sn∗ } converge in distribuzione alla variabile normale standardizzata: 2 Z z2 z 1 ∗ exp − dz = N(z2 ) − N(z1 ). (10.16) P (z1 6 Sn 6 z2 ) → √ 2 2π z1 In particolare il precedente teorema afferma che per grandi valori di n la probabilità a primo membro della (10.3.1) non dipende da p. Percome è stata definita Sn∗ , è possibile riscrivere la (10.16) come √ √ P (np + z1 npq 6 Sn 6 np + z2 npq) → N(z2 ) − N(z1 ). (10.17) Osservazione 10.3.1. Il teorema 10.3.1 consente di dimostrare facilmente il teorema di Bernoulli che abbiamo ricavato in precedenza grazie alla disuguaglianza di Tchebycheff. Valutiamo la probabilità connessa alla disuguaglianza |Sn /n − p| < ε, con ε > 0 costante. Abbiamo Sn P − p < ε = P (|Sn − np| < nε) = P(−nε < Sn − np < +nε) n r r nε n n Sn − np nε ∗ = P −√ = P −ε . < √ < +√ < Sn < +ε npq npq npq pq pq Come conseguenza della precedente relazione si ha Z +∞ Sn 1 exp −z 2 /2 dz = 1 . lim P − p < ε = √ n→∞ n 2π −∞ Quindi, comunque si fissi il valore ε > 0, la probabilità connessa alla disuguaglianza |Sn /n − p| < ε tende ad 1 per n che tende all’infinito. 8 Per la dimostrazione il lettore faccia riferimento a [6] e [5]. 10.3 Teorema limite integrale 305 Esempio 10.3.1. Calcoliamo la probabilità che il numero di volte che esce testa, lanciando duecento volte una moneta, si discosti dal valore atteso al più per cinque uscite. Essendo n = 200 e p = 1/2, si ha E (S200 ) = 100; dobbiamo quindi calcolare P (95 6 S200 6 105) . Determiniamo z1 e z2 . Si ha ( √ np + z1 npq = 95 √ np + z2 npq = 105 e, sostituendo gli opportuni valori numerici, otteniamo ( √ 100 + z1 50 = 95 √ 100 + z2 50 = 105 √ √ ed infine z1 = −5/ 50 e z2 = +5/ 50. √ √ Per migliorare l’approssimazione, quando gli estremi np+z1 npq e np+z2 npq della disuguaglianza che compare a primo membro della (10.17) sono interi, si sottrae 1/2 a z1 e si somma la stessa quantità a z2 . Nel nostro caso si perviene √ √ ai nuovi valori z1 = −5.5/ 50 ≈ −0.7778 e z2 = +5.5/ 50 ≈ +0.7778. Ricordando la simmetria della n(z), abbiamo N(−0.7778) = 1 − N(0.7778) ed infine P (95 6 S200 6 105) ≈ 2 · N(0.7778) − 1 ≈ 0.56331. L’approssimazione è alla quarta cifra decimale, infatti dal calcolo diretto, applicando la definizione di distribuzione binomiale, si ricava un valore all’incirca pari a 0.56325. Esempio 10.3.2. Assumendo n = 500 e p = 10−1 , calcoliamo P (50 6 S500 6 55) . 306 Capitolo 10. Abbiamo E (S500 ) = 50 e σS500 = precedenti relazioni otteniamo ( La convergenza stocastica e teoremi limite √ 5 · 102 · 10−1 · 9 · 10−1 = √ 45. Dalle √ 50 + z1 45 = 50 √ 50 + z2 45 = 55 ed infine, tenendo conto della correzione prima menzionata, si ricavano i valori √ √ z1 = −0.5/ 45 ≈ −0.074 e z2 = 5.5/ 45 ≈ +0.82. Pertanto P (50 6 S500 6 55) ≈ N(0.82) − N(−0.074) = N(0.82) + N(0.074) − 1 ≈ 0.3235. Il valore esatto dedotto applicando la distribuzione binomiale è all’incirca 0.3176. Anche se il numero di prove del Bernoulli è molto più alto di quello dell’esempio precedente, l’approssimazione è stavolta sulla seconda cifra decimale e l’errore è circa il due per cento. Questo effetto, come abbiamo già sottolineato, è dovuto al valore di p = 0.1 che si discosta di molto dal valore p = 0.5. In questo caso l’approssimazione di Poisson fornisce valori maggiormente vicini al valore teorico. Esempio 10.3.3. Grazie alle relazioni (iii) e (iv) in 8.1.3 possiamo calcolare le probabilità P (Sn ∈ [E (Sn ) ± 2σSn ]) e P (Sn ∈ [E (Sn ) ± 3σSn ]) assumendo che n sia ragionevolmente grande (≫ 100). Abbiamo √ √ P (np − 2 npq 6 Sn 6 np + 2 npq) Z +2 ≈ n(z)dz = N(2) − N(−2) ≈ 0.9545 −2 e √ √ P (np − 3 npq 6 Sn 6 np + 3 npq) Z +3 ≈ n(z)dz = N(3) − N(−3) ≈ 0.9973. −3 10.4 Legge dei grandi numeri 307 10.4 Legge dei grandi numeri È noto dall’esperienza che un evento con probabilità prossima a uno si verifica quasi certamente, esso è comunemente ritenuto praticamente certo. Al contrario eventi la cui probabilità sia prossima a zero avvengono assai raramente, un evento assai poco probabile viene considerato praticamente impossibile. Quanto deve valere la probabilità di un evento affinché lo si possa ritenere praticamente certo (praticamente impossibile)9? Una risposta univoca al precedente interrogativo non esiste, essendo essa legata alla natura dell’evento in questione. Supponiamo, ad esempio, di dover misurare la distanza tra due punti e che essa sia dell’ordine dei chilometri. Se l’errore commesso nell’effettuare tale misura ha probabilità pari a 0.02 di essere maggiore o uguale ad un metro, allora possiamo trascurare la possibilità di un tale errore e considerare il valore ottenuto come sostanzialmente corretto. Un valore di probabilità pari a 0.02 in altre situazioni sperimentali non può essere trascurato. Se, fissate le caratteristiche dei materiali utilizzati, sussiste una probabilità del due per cento che, in determinate situazioni, il peso che la struttura deve sopportare raggiunga un valore superiore al carico di rottura della stessa con conseguente crollo, è evidente che tale evento non possa essere ignorato ed è necessario impiegare materiali con caratteristiche adeguate. È di volta in volta quindi, in relazione al problema pratico che si sta esaminando, che va scelto il criterio in base al quale considerare certi eventi come praticamente impossibili ed altri come praticamente certi10 . Per chiarire la differenza tra l’impossibilità teorica e l’impossibilità pratica ricorriamo ad un esempio. Un mazzo di carte francesi contiene trentasei carte di quattro semi differenti. Supposto che le carte siano ben 9 Il contenuto del presente paragrafo è tratto in gran parte dal capitolo sesto del testo di Gnedenko citato in bibliografia 10 A questo proposito il lettore ricordi le definizioni formali di evento quasi certo e quasi impossibile formulate nel paragrafo 1.3.5. 308 Capitolo 10. La convergenza stocastica e teoremi limite mescolate, la probabilità che, in una partita a quattro giocatori, nella prima mano a ciascun giocatore siano servite carte tutte dello stesso seme è straordinariamente bassa: (9!)4 · 4! < 1.1 · 10−18 . 36! Pur tuttavia una simile disposizione delle carte è stata registrata almeno una volta. Da quanto detto appare chiaro come gli eventi di probabilità prossima ad uno o a zero siano di grande importanza sia dal punto di vista pratico che teorico. In particolare sono state studiate a fondo leggi riguardanti probabilità prossima ad uno soprattutto in quelle situazioni in cui il fenomeno osservato è il risultato della sovrapposizione di un gran numero di effetti aleatori indipendenti o debolmente dipendenti. La legge dei grandi numeri si inserisce in questo ambito teorico. Per legge dei grandi numeri si intende l’insieme di tutte quelle proposizioni che affermano che un dato evento, dipendente da un numero via via crescente di eventi aleatori, ciascuno dei quali ha solo un debole effetto sull’evento in questione, si verificherà con probabilità arbitrariamente prossima ad uno. Di seguito riportiamo la formulazione generale dei teoremi legati alla legge dei grandi numeri data da Gnedenko [6]. Sia data una successione di variabili aleatorie X1 , X2 , . . . , Xn , · · · (10.18) e consideriamo le variabili aleatorie Zn = fn (X1 , X2 , . . . , Xn ) (10.19) definite come funzioni simmetriche delle prime n variabili casuali della successione (10.18). Se esiste una successione di costanti a1 , a2 , . . . , an . . . tali che per ogni ε > 0 lim P (|Zn − an | < ε) = 1 n→∞ (10.20) allora la successione (10.18) verifica la legge dei grandi numeri relativamente alle date funzioni fn . 10.4 Legge dei grandi numeri 309 Abitualmente tuttavia si dà un significato più limitato alla legge dei grandi numeri, ossia ci si limita ad analizzare quei casi in cui le funzioni fn rappresentano la media aritmetica delle variabili X1 , . . . , Xn . Osservazione 10.4.1. La (10.20) ci dice che la successione Zn − an converge in probabilità a zero. Se tutte le grandezze an che compaiono nella (10.20) sono uguali ad uno stesso valore a, diremo che le variabili aleatorie Xn convergono in probabilità ad a (vedi paragrafo 10.1.2). Osservazione 10.4.2. Quando si studia un fenomeno fisico, questo viene osservato assieme a tutti i fattori individuali che non sono intimamente collegati con la natura del processo e compaiono solo sporadicamente producendo effetti casuali sulla singola osservazione (misura). Si è osservato sperimentalmente che questi, allorché viene considerata la media su un gran numero di osservazioni, tendono ad annullarsi l’un l’altro rendendo statisticamente stabile la media calcolata. La legge dei grandi numeri è collegata a questo effetto livellatore caratteristico di quei fenomeni fisici, che sono il risultato della somma di un gran numero di contributi elementari. Chiariamo il concetto con un esempio. Un gas è costituito da un enorme numero di particelle in costante moto caotico e, per ciascuna particella, è impossibile predire con esattezza la posizione e la velocità in un determinato istante. La pressione del gas è data dalla forza complessiva esercitata da tutte quelle particelle che, nel loro insieme, colpiscono un’area unitaria nell’unità di tempo. Il numero di urti e la velocità con la quale le varie particelle collidono varia casualmente, ma, in virtù della legge dei grandi numeri nella forma di Tchebycheff che studieremo nel successivo paragrafo, la pressione11 può essere considerata costante, fissate alcune condizioni come ad esempio la costanza della temperatura, e questo fenomeno si osserva sperimentalmente con sorprendente regolarità. Il valore del contributo teorico di Tchebycheff e degli altri studiosi a cui si devono i 11 somma di un numero straordinariamente grande di contributi elementari indipendenti 310 Capitolo 10. La convergenza stocastica e teoremi limite teoremi che saranno introdotti nel seguito consiste nel fatto che essi hanno determinato le condizioni generali il cui verificarsi dà luogo alla stabilità statistica delle quantità medie calcolate o osservate sperimentalmente. 10.4.1 Legge dei grandi numeri nella forma di Tchebycheff Dimostriamo, ora, alcuni teoremi dovuti a Tchebycheff, Markov ed altri, seguendo il metodo introdotto nel 1866 dallo stesso Tchebycheff (vedi [6]). Teorema 10.4.1 (Teorema di Tchebycheff). Sia {Xk } una successione numerabile di variabili casuali non correlate12 , aventi varianze finite13 e limitate da una medesima costante C, allora vale la relazione ! n n 1 X 1X Xk − E (Xk ) < ε = 1 lim P n→∞ n n k=1 k=1 ∀ε > 0 . (10.21) Dimostrazione. Indichiamo con µk il valore atteso e con σk2 la varianza di Xk . Osserviamo che vale la relazione " n # n 1X 1X E Xk = µk . n k=1 n k=1 Dalle ipotesi fatte segue inoltre che 2 P n σ1/n k=1 Xk n 1 X 2 = 2 σ n k=1 k 12 Nell’edizione inglese del libro di Gnedenko, l’autore ipotizza l’indipendenza a due a due delle variabili casuali, in realtà questa ipotesi è troppo forte in quanto per la dimostrazione occorre che siano verificate le condizioni per applicare la (7.17). Nell’edizione italiana [6] il termine pairwise independent è stato tradotto erroneamente come indipendenza. 13 e l’ipotesi implica che le Xk abbiano anche valore di aspettazione finito 10.4 Legge dei grandi numeri 311 e, essendo, per ogni intero k, σk2 6 C, si ha 2 P n σ1/n 6 C/n. k=1 Xk In virtù della disuguaglianza di Tchebycheff (6.48) abbiamo ! 2 P n n 1 X X σ1/n n 1 C k=1 Xk Xk − µk < ε > 1 − >1− 2 P 2 n n k=1 ε nε k=1 e, passando al limite per n → ∞, otteniamo n ! n 1 X X 1 Xk − µk < ε > 1 lim P n→∞ n n k=1 k=1 da cui segue la tesi del teorema non potendo, per definizione, la probabilità essere maggiore di uno. Nel paragrafo 6.2.2 abbiamo dimostrato il teorema del Bernoulli 6.2.4. Con ovvio significato della terminologia, la relazione (6.50) afferma che la v-c frequenza relativa Yn ≡ Sn /n converge in probabilità al valore p, la probabilità che l’evento P 2 = in studio ha di verificarsi. Ricordando che Sn = ni=1 Xi , ove µXi = p e σX i pq 6 1/4, è facile convincersi che il teorema di Bernoulli è un caso particolare del teorema di Tchebycheff14 . Osservazione 10.4.3 (Alcune considerazioni sul teorema di Bernoulli). Poiché è spesso necessario valutare, basandosi sull’esperienza sperimentale, probabilità a priori incognite, è stata verificata in passato la validità del teorema di Bernoulli. Lo schema seguito era il seguente. Sono stati considerati eventi di probabilità nota per i quali era facile realizzare un gran numero di prove, potendo ritenere tali prove indipendenti e costante la probabilità in ciascuna ripetizione. Illustriamo alcuni di questi esperimenti paradigmatici, facilmente riproducibili. 14 In questo caso, essendo le ripetizioni indipendenti, le v-c Xk sono non correlate. 312 Capitolo 10. La convergenza stocastica e teoremi limite Nel XVIII secolo il naturalista francese Buffon ha lanciato una moneta 4040 volte ottenendo testa 2048 volte. Nell’esperimento di Buffon la frequenza di successo, ove per successo si intende l’apparizione di testa, è approssimativamente uguale a 0.507. Lo statistico inglese Karl Pearson ripetè l’esperimento lanciando 12000 volte la moneta ottenendo testa 6019 volte; in questo caso la frequenza di successo è pari a 0.5016. In una ulteriore ripetizione di 24000 lanci testa apparve 12012 volte, con una frequenza di successo pari a 0.5005. Osserviamo che in tutti i casi il risultato differiva di poco dal valore teorico della probabilità uguale a 1/2. Un altro esperimento facilmente riproducibile consiste nel dividere per cento volte in due parti uguali un mazzo di trentasei carte francesi. La probabilità che le diciotto carte che costituiscono una metà del mazzo siano esattamente nove rosse e nove nere è p= 18 9 · 36 18 18 9 ≈ 0.26 . L’esecuzione delle tagliate15 ha dato luogo a risultati che, all’inizio, si discostano abbastanza dal valore teorico, successivamente la frequenza di successi oscilla tra 0.23 e 0.25. È interessante calcolare la probabilità che il valore stimato di p, attraverso la frequenza relativa osservata, differisca dal valore teorico p = 0.26 per uno scostamento maggiore o uguale al due per cento. In virtù del teorema limite integrale si ha Sn P − p > 0.02 n r r Sn − np n n =P √ > 0.02 · ≈ 1 − 2 · N 0.02 · npq pq pq ! r 100 = 1 − 2 · N 0.02 · = 1 − 2 · N(0.455) ≈ 0.65 . 0.26 · 0.74 15 I risultati ottenuti sono riportati, sia in grafico che in tabella, in [6]. 10.4 Legge dei grandi numeri 313 Possiamo concludere che, ripetendo molte volte l’esperimento costituito dalle cento tagliate, in circa i due terzi dei casi l’errore nella valutazione di p attraverso la frequenza osservata dei successi non sarà inferiore al due per cento. È importante notare che nell’enunciato del teorema di Bernoulli compare la frequenza relativa con la quale l’evento si realizza e non il numero assoluto di realizzazioni dell’evento che può comunque fluttuare arbitrariamente. La probabilità che sulla ruota di Napoli venga estratto il numero 48 è 5 90 90 = / p= = 1/18. 5 4 90 Il numero medio di estrazioni del 48 è, quindi, una volta ogni diciotto, ma questo non garantisce l’incauto scommettitore a puntare una fortuna se il numero non è stato estratto nelle cinquanta estrazioni precedenti. Così quando una moneta onesta lanciata sei volte mostra testa tutte le volte, la probabilità di osservare croce nella successiva prova è sempre 1/2; la legge dei grandi numeri non condiziona i risultati dei lanci successivi per bilanciare il risultato delle prime sei prove nelle quali si è osservato sempre testa. È senz’altro vero che la probabilità di ottenere per sette volte testa consecutivamente è piccola, 0.57 ≈ 8 · 10−3 , pur tuttavia la probabilità di osservare croce al settimo lancio è ancora 1/2. Se un delicato intervento chirurgico ha una probabilità di successo di 1/10, il decimo paziente non trova conforto da fatto che le prime nove sono fallite. Un altro teorema, che è un caso particolare della legge dei grandi numeri secondo Tchebychef, è il seguente teorema di Poisson, ove con Sn si indica il numero di volte in cui si è verificato l’evento A nelle prime n prove. Teorema 10.4.2 (Teorema di Poisson). Se in una successione di prove indipendenti la probabilità che l’evento A si verifichi nella k-esima prova è pk , allora ! n S X 1 n ∀ε > 0 . (10.22) pk < ε = 1 lim P − n→∞ n n k=1 314 Capitolo 10. La convergenza stocastica e teoremi limite Dimostrazione. Per le v-a Xk , che indicano il numero di volte che l’evento A si è verificato nella k-esima prova, valgono le relazioni µk = pk e σk 6 1/4. P Ricordando che Sn = nk=1 Xk , segue l’asserto. Il teorema di Poisson ha un’importanza fondamentale nelle applicazioni pratiche della teoria della probabilità. Infatti i metodi probabilistici si utilizzano molto spesso per lo studio di fenomeni che non hanno possibilità di ripetersi nelle medesime condizioni. Il mutare delle condizioni induce in ciascuna prova variazioni del valore della probabilità associata all’evento di interesse. Ciò nonostante la frequenza relativa dei successi tende in probabilità alla probabilità media dell’evento. Una forma particolare del teorema di Tchebycheff, di dimostrazione immediata, è la seguente. Teorema 10.4.3. Sia {Xk } una successione numerabile di variabili casuali non correlate tali che E (X1 ) = E (X2 ) = . . . = E (Xk ) = . . . = µ e, per ogni intero k, σk2 6 C allora per ogni ε costante maggiore di zero n ! 1 X lim P Xk − µ < ε = 1 . n→∞ n (10.23) k=1 La (10.23) asserisce che, supponendo verificate le ipotesi poste, per un numero sufficientemente grande di prove indipendenti la media aritmetica dei valori osservati di una variabile aleatoria converge in probabilità alla sua speranza matematica. In altre parole per n sufficientemente grande la media aritmetica si comporta quasi come una grandezza non aleatoria16. Approfondiamo ulteriormente 16 Il lettore ricordi quanto appreso nel corso di statistica circa la dipendenza da 1/n della varianza della v-c media aritmetica. 10.4 Legge dei grandi numeri 315 questo concetto. Supponiamo di dover misurate una certa quantità fisica µ, ad esempio il carico di rottura di un cavo di acciaio, e che ripetendo n volte tale misurazione, sempre nelle medesime condizioni sperimentali, si ottengano i valori x1 , x2 , . . . , xn lievemente differenti l’uno dall’altro. La regola comunemente usata consiste nell’assumere come valore approssimato di µ la media aritmetica dei valori osservati xi : n µ= 1X xi . n i=1 Se le misure effettuate non presentano errori sistematici, ossia se è lecito assumere che E (X1 ) = E (X2 ) = . . . = E (Xn ) = µ, allora, per n sufficientemente grande, il teorema 10.4.3 assicura che in tal modo si può ottenere un valore arbitrariamente vicino alla quantità µ, con probabilità uno. Il successivo teorema di Khinchin (1928) permette di ottenere un analogo risultato presupponendo l’uguale distribuzione delle v-c Xi , ma senza porre vincoli sulle varianze. Teorema 10.4.4 (Teorema di Khinchin). Se le variabili aleatorie X1 , X2 , . . . sono indipendenti ed ugualmente distribuite con valore medio µ, allora ! n 1 X lim P Xk − µ < ε = 1 ∀ε > 0 . n→∞ n k=1 (10.24) Una semplice dimostrazione di questo teorema basata sulla funzione caratteristica è riportata in [2]. Gnedenko [6] utilizza per la dimostrazione una tecnica dovuta a Markov (1907) nota come metodo del troncamento. Si rimanda ai testi citati per gli approfondimenti. Osservazione 10.4.4. I teoremi precedentemente introdotti si prestano a numerose applicazioni pratiche. Per un loro corretto uso occorre poter legittimamente porre l’ipotesi che i fenomeni in studio siano il frutto di cause indipendenti. I mutamenti 316 Capitolo 10. La convergenza stocastica e teoremi limite delle condizioni esterne nelle quali il fenomeno si svolge inducono modificazioni fenomenologiche alle quali il modello matematico deve adeguarsi. In prima approssimazione si può in generale assumere che le cause che agiscono sul fenomeno sono indipendenti e trarre le dovute conseguenze dal modello. In base all’accordo tra risultati sperimentali e le previsioni dello schema teorico adottato si valuta la bontà del modello stesso. Nel caso si osservino differenze sensibili tra dati osservati e dati previsti si dovranno modificare le ipotesi di base, per esempio rimuovere l’ipotesi di totale indipendenza a favore di una debole dipendenza. L’esperienza sinora fatta sull’uso dei teoremi relativi alla legge dei grandi numeri permette di affermare che l’ipotesi di indipendenza è soddisfatta nella maggior parte dei più importanti problemi delle scienze naturali e tecnologiche. Concludiamo il paragrafo enunciano un risultato dovuto a Markov. Se una successione di variabili casuali X1 , X2 , . . . è tale che 1 P σ 2 nk=1 Xk = 0 n→∞ n2 lim allora vale il teorema di Tchebyceff, come espresso dalla (10.21), per ogni ε > 0. 10.4.2 Legge forte dei grandi numeri Accade spesso di trarre conclusioni del tutto ingiustificate dalla legge debole dei grandi numeri. Per esempio letture errate del teorema del Bernoulli portano a dire che la frequenza di un evento A tende alla probabilità di A quando il numero delle prove cresce indefinitamente. Il teorema del Bernoulli stabilisce che per un numero n sufficientemente grande di prove la probabilità di una singola disuguaglianza |Sn /n − p| < ε diviene maggiore di 1 − η per un arbitrario η > 0. Per valori n′ > n alcune frequenze relative potrebbero differire dal valore teorico p per una quantità maggiore di ±ε. La legge dei grandi numeri nella forma di Tchebycheff17 17 che denoteremo come legge debole dei grandi numeri 10.4 Legge dei grandi numeri 317 si basa sul concetto di convergenza in probabilità; nel 1909 il matematico francese Emil Borel ha enunciato una proposizione assai più profonda, divenuta nota come la legge forte dei grandi numeri18 , nella quale compare la convergenza quasi certa. Teorema 10.4.5 (Teorema di Borel). Sia Sn il numero di volte che un evento A accade in n prove indipendenti, in ciascuna delle quali A ha probabilità p di verificarsi. Allora si ha Sn q.c. −→ p n per n → ∞. Cerchiamo di chiarire la differenza tra il teorema di Borel e quello di Bernoulli. Se la sequenza Sn /n obbedisce alla legge forte dei grandi numeri, ossia se vale il teorema 10.4.5, comunque si sceglie un intero k, la probabilità che la frequenza relativa Sn /n fuoriesca dall’intervallo p ± ε è minore di un prefissato η piccolo a piacere per tutti i k lanci successivi all’n-esimo: Sn Sn+1 Sn+k P − p < ε ∩ − p < ε ∩ · · · ∩ − p < ε · · · n n+1 n+k < 1 − η. A partire dal teorema di Borel una serie di studi ha dimostrato la validità dei teoremi introdotti nel paragrafo precedente sostituendo in essi la convergenza quasi certa alla convergenza in probabilità. In particolare ricordiamo un teorema dovuto a Kolmogorov nel quale si dimostra che il teorema di Tchebicheff vale nella forma della legge forte dei grandi numeri, se la successione di variabili casuali mutuamente indipendenti Xk soddisfa la condizione ∞ 2 X σX k=1 18 Per la dimostrazione vedi [6]. k n2 < +∞. (10.25) 318 Capitolo 10. La convergenza stocastica e teoremi limite Osservazione 10.4.5. Si noti che la (10.25) è senz’altro verificata se esiste una 2 6 C, ∀k. Pertanto la legge forte dei grandi numeri vale costante C tale che σX k anche nel caso dello schema di Poisson (vedi il teorema 10.4.2). Un ultimo teorema dovuto ancora a Kolmogorov afferma che l’esistenza del valore medio µ è condizione necessaria e sufficiente affinché la legge forte dei grandi numeri si possa applicare alla sequenza di variabili aleatorie X1 , X2 , . . . mutuamente indipendenti ed identicamente distribuite (vedi il teorema di Khinchin 10.4.4). 10.4.3 Il teorema centrale del limite Il teorema limite integrale 10.3.1 afferma che Sn − np Sn − E (Sn ) ∗ 6 z2 P (z1 6 Sn 6 z2 ) ≡ P z1 6 √ 6 z2 ≡ P z1 6 npq σSn 2 Z z2 1 z →√ dz = N(z2 ) − N(z1 ). exp − 2 2π z1 Se al solito con Xi indico la v-c che nella i-esima prova del Bernoulli assume il valore 1 in caso di successo e 0 nel caso di un insuccesso, la relazione precedente diventa  P z1 6 Pn i=1 [Xi − E (Xi )] qP n 2 i=1 σXi  1 6 z2  → √ 2π Z z2 z1 2 z dz. exp − 2 Ci si pone a questo punto una domanda molto naturale: quanto è forte il legame tra il teorema limite integrale e le ipotesi sugli addendi Xi ? Se si impongono condizioni più deboli alla legge di distribuzione delle v-a Xi il teorema di de MoivreLaplace è ancora valido? La formulazione rigorosa e la risoluzione del problema sono dovute essenzialmente a Tchebycheff, ai suoi allievi Markov e Ljapunov, a Lévy ed a Lindeberg che dimostrarono, in varie forme, il cosiddetto Teorema Centrale di Convergenza o Teorema Centrale del Limite (Central Limit Theorem). 10.4 Legge dei grandi numeri 319 Osservazione 10.4.6. Il quesito posto è rivolto a stabilire la regolarità di cui gode la somma di un gran numero di variabili aleatorie indipendenti, ciascuna delle quali ha un effetto trascurabile sulla somma. L’interesse applicativo del problema matematico sopra menzionato è considerevole. Infatti molti fenomeni naturali e sociali su larga scala sono il risultato dell’influenza di un gran numero di fattori aleatori tra loro indipendenti, ciascuno dei quali, preso singolarmente, ha un effetto trascurabile sullo svolgimento del fenomeno macroscopico. L’osservatore non è interessato all’effetto separato dei singoli fattori ma all’azione sovrapposta di questi. Sussiste il seguente teorema. Teorema 10.4.6 (Teorema centrale del limite di Lévy). Sia {Xi } una successione di variabili casuali indipendenti e identicamente distribuite con media µ Pn e varianza σ 2 , ove 0 < σ 2 < ∞. Poniamo Sn = i=1 Xi , n = 1, 2, . . . e √ −1 Zn = (σ n) (Sn − nµ). Allora per ogni numero reale z si ha √ Z z exp −t2 /2 dt = N(z). (10.26) lim P (Zn 6 z) = 1/ 2π n→∞ −∞ La dimostrazione rigorosa del teorema di Lévy presuppone la conoscenza della funzione caratteristica di una v-c, il lettore interessato consulti [2]. Se ci si limita al caso in cui le Xi siano dotate di una funzione generatrice dei momenti M(θ) finita in |θ| < θ0 per un fissato θ0 > 0, è possibile far ricorso nella dimostrazione alla M(θ) in luogo dellafunzione caratteristica (vedi [13]). Si noti che l’esistenza di M(θ) implica che E |Xi |k < +∞ per tutti gli interi k. Quest’ultima condizione è molto più forte di quanto ipotizzato nella tesi del teorema. Ricordiamo, inoltre, che sussiste una ulteriore formulazione del teorema centrale del limite dovuta a Lyapunov che si basa sulla condizione di Lindeberg e non presuppone che le v-a siano identicamente distribuite. Il teorema di Ljapunov, che riguarda corsi avanzati di teoria della probabilità, è descritto in [6]. 320 Capitolo 10. La convergenza stocastica e teoremi limite Osservazione 10.4.7. Il teorema di Lévy rappresenta un risultato notevole. Esso afferma che la distribuzione limite delle somme parziali standardizzate è una normale standard indipendentemente dalla legge di distribuzione delle variabili casuali che compongono la somma a patto che esse rispettino le ipotesi poste. Osservazione 10.4.8. Poniamo X = Sn /n, la (10.26) dà luogo alla relazione Sn − nµ √ P (Zn 6 x) = P 6x σ n dividendo per n il numeratore ed il denominatore della frazione √ Z x X −µ √ 6 x → 1/ 2π exp −t2 /2 dt = N(x). =P σ/ n −∞ Dalla (10.26) ricaviamo che per grandi valori di n si ha b − nµ a − nµ √ 6 Zn 6 √ P (a 6 Sn 6 b) = P σ n σ n a − nµ b − nµ √ √ −N ≈N σ n σ n Z b √ = 1/σ 2πn exp −(t − nµ)2 / 2nσ 2 dt. a Asintoticamente X ha una distribuzione normale con media µ e varianza σ 2 /n ed Sn tende ad una normale con media nµ e varianza nσ 2 . Osservazione 10.4.9. In virtù della (6.49b), per k > 1 si ha ! X − µ √ 6 k > 1 − 1/k 2 . P σ/ n Dal teorema centrale del limite ricaviamo, per n grande, ! Z k X − µ 1 2 √ 6k ≈ √ P e−x /2 dx. σ/ n 2π −k (10.27) (10.28) Rispetto alla (10.27), la (10.28) fornisce una stima più precisa della probabilità a primo membro. Bibliografia [1] P. Baldi: Calcolo delle probabilità, McGraw-Hill, Milano, 2011. [2] A. Buonocore, A. Di Crescenzo, L.M. Ricciardi: Appunti di probabilità, Liguori editore, Napoli, 2011. [3] H. Cramér: Mathematical methods of statistics, Princeton University Press, Princeton, 1966. [4] G. Dall’Aglio: Calcolo delle probabilità, Zanichelli editore, Bologna, 2003. [5] W. Feller: An introduction to probability theory and its application, Vol. 1, John Wiley and sons inc., New York, 1968. [6] B. Gnedenko: Teoria della probabilità, Editori Riuniti, Roma, 1979. [7] J.G. Kalbfleisch: Probability and statistical inference Vol. I, II, SpringerVerlag, New York, 1979. [8] A.N. Kolmogorov: Fundations of the theory of probability, Chelsea Publishing Company, New York, 1956. [traduzione della monografia Grundbegriffe der Wahrscheinlichkeitsrechnung, 1933.] 322 Bibliografia [9] A. Papoulis: Probability, random variables and stochastic processes, McGraw-Hill Series in Electrical Enginering, New York, 1991. [10] E. Parzen: Modern probability theory and its application, John Wiley and sons, New York, 1992. [11] P.E. Pfeiffer: Concepts of probability theory, McGraw-Hill Book Company, New York, 1965. [12] V.K. Rohatgi: An introduction to probability theory and mathematical statistics, John Wiley and sons, New York, 1976. [13] V.K. Rohatgi: Statistical inference, John Wiley and sons, New York, 1984.

Comments

Description