Onésimo - Probabilidad y Procesos Estocásticos I

Septiembre 2009.Notas de clase PROBABILIDAD Y PROCESOS ESTOCASTICOS Onésimo Hernández–Lerma Parte I. Probabilidad 1. Espacios de medida 2. Espacios discretos y continuos 3. Probabilidad condicional e independencia 4. Variables aleatorias 5. Vectores aleatorios 6. Esperanza de vv.aa. discretas y continuas 7. La integral de Lebesgue 8. Esperanza e independencia 9. Convergencia de vv.aa. 10. Funciones caracter´ısticas y el Teorema L´ımite Central 11. Esperanza condicional 12. Martingalas Parte II. Procesos estocásticos 13. Cadenas de Markov: conceptos básicos ´ de estados de una CM 14. Clasificacion ´ l´ımite de una CM 15. Distribucion ´ 16. Procesos a tiempo continuo: introduccion 17. Proceso markoviano de saltos 18. La matriz generadora de un PMS ´ 19. Comportamiento asintotico de un PMS 20. Procesos de segundo orden 21. Cálculo en L2 22. Ecuaciones diferenciales en L2 23. La integral de Ito 24. La regla diferencial de Ito 25. Ecuaciones diferenciales estocásticas 26. Apéndice: propiedades de las soluciones de EDEs Bibliograf´ıa de Probabilidad R.B. Ash (1970). Basic Probability Theory. Wiley. R.B. Ash (1972). Real Analysis and Probability, Academic Press. Se´ (2000): Probability and Measure Theory. gunda edicion L. Breiman (1968). Probability, Addison–Wesley. (Second edition, SIAM, 1992.) R.M. Dudley (2003). Real Analysis and Probability, Second Edition, Cambridge University Press. P.G. Hoel, S.C. Port, C.J. Stone (1972). Introduction to Stochastic Processes, Houghton Mifflin. O. Kallenberg (2002). Foundations of Modern Probability, Second Edition, Springer–Verlag. J. Jacod, P. Protter (2003). Springer. Probability Essentials, Second Edition. D. Khoshnevisan (2007). Probability. American Math. Soc. R.G. Laha, V.K. Rohatgi (1979). Probability Theory, Wiley. I.K. Rana (2002). An Introduction to Measure Theory and Integration. Second Edition. American Math. Soc. J.S. Rosenthal (2000). A First Look at Rigorous Probability Theory. World Scientific. S.M. Ross, E.A. Pekoz (2007). A Second Course in Probability, Probability Bookstore.com. H.G. Tucker (1967). A Graduate Course in Probability, Academic Press. 1 Espacios de medida Contenido: Espacios medibles, conjuntos de Borel, medidas, el teorema ´ de Carathéodory. de extension Un espacio de medida es una terna (Ω, F, µ) cuyas componentes defi´ nimos en esta seccion. 1.1 Definicion. ´ Sea Ω un conjunto no vac´ıo y F una familia de subconjuntos de Ω. Decimos que F es una σ–álgebra si: (a) Ω ∈ F, (b) si A ∈ F, entonces Ac ∈ F, ´ de conjuntos en F, entonces ∪An ∈ F. (c) si {A1 , A2 , . . .} es una sucesion ´ ´ (a) se puede obtener de (b) y (c). Sin embargo, Notese que la condicion ´ (a) se incluye expl´ıcitamente a pesar de ser una redundancia, la condicion ´ 1.1 para enfatizar el hecho de que el “espacio total” Ω en la Definicion pertenece a la familia F. 1.2 Proposicion. ´ Si F es una σ–álgebra de Ω, entonces (a) φ ∈ F, ´ en F, entonces ∩An ∈ F. (b) si {An } es una sucesion 1.3 Definicion. ´ Si F es una σ–álgebra de Ω, se dice que el par (Ω, F) es un espacio medible. Si A es un conjunto en F, decimos que A es F–medible (o medible con respecto a F). Terminolog´ıa de probabilidad. Si (Ω, F) es un espacio medible, en probabilidad se dice que Ω es el espacio muestral o evento seguro, y que F es σ{A} es una σ–álgebra y. ωn }.1 no se cumple. 1. ´ numerUn conjunto abierto en IR se puede expresar como una union able de intervalos abiertos. (El nombre conjunto potencia se debe a que si Ω consiste de n elementos. entonces la inter´ ∩Fi también es una σ–álgebra. A = {B}. Entonces σ{A} = {B. interseccion por (c). Entonces.5 Definicion. Por ejemplo.) es una σ–álgebra porque la condicion (d) Sea A una familia arbitraria de subconjuntos de Ω. . es la m´ınima σ–álgebra que contiene a A. b] o [a. y es la “m´ınima” σ–álgebra de Ω. si F es cualquier σ–álgebra de Ω que contiene a A.4(d) es el siguiente. (b) La σ–álgebra que consiste de todos los subconjuntos de Ω se llama el conjunto potencia de Ω y se denota por 2Ω . Esta es la “máxima” σ– a´ lgebra de Ω. los intervalos de la forma (a. cualquier conjunto abierto en IR es un conjunto de Borel. 2 Un caso especial muy importante del Ejemplo 1. φ}.5 y 1. Entonces la σ–álgebra σ{A} generada por A se llama la σ–álgebra de Borel de IR y se denota por B(IR). entonces σ{A} ⊂ F. entonces tiene 2n subconjuntos. digamos Ω = {ω1 . la union ´ ∪Fi no seccion ´ (c) en 1.) (c) Si {Fi . B c . de hecho.1(b). Al conjunto vac´ıo φ ∈ F se le llama evento imposible. b] ∩ (a.2 Probabilidad una familia de eventos. Ω.8. b] = (−∞. y sea σ{A} la ´ de todas las σ–álgebras de Ω que contienen a A. Luego. Vea el Ejemplo 2. . b) ⊂ IR. b) son conjuntos de Borel. 1. Si B ∈ B(IR) se dice que B es un conjunto de Borel de IR. Por ´ ´ ejemplo. φ} se le llama la σ–álgebra trivial. ∞) ∈ B(IR). ω2 . es decir. i ∈ I} es una familia de σ–álgebras de Ω. (a. también cualquier conjunto cerrado en IR es un conjunto de Borel. por las Definiciones 1. A σ{A} se le llama la σ–álgebra generada por A. .4 Ejemplos (a) A la familia {Ω. Por lo tanto. . por 1. (Nota. supongase que A consiste de un unico conjunto B ⊂ Ω. En general.1(c). es decir. A un conjunto A ∈ F se le llama evento. Asimismo. ´ Sea Ω = IR y sea A la familia de todos los intervalos abiertos (a. . F)) si (a) µ(φ) = 0. ´ de conjun(c) µ es σ–aditiva en el sentido de que si {An } es una sucesion tos ajenos en F (es decir. Medidas 1. b) en IRn como el producto cartesiano (a. . P) . La σ–álgebra generada por A se llama la σ–álgebra de Borel de IRn y se denota por B(IRn ). n}. Si µ es una m. F. Si µ(Ω) < ∞. A µ(A) se le llama la medida del conjunto A ∈ F (con respecto a µ).7 Definicion.1. . . bn ) = {x ∈ IRn |ai < xi < bi para i = 1. b) en IRn . . .6 Definicion. Si B está en B(IRn ) se dice que B es un conjunto de Borel en IRn . F. decimos que a < b si ai < bi para i = 1. se acostumbra escribir µ ≡ P y decimos que (Ω. µ) es un espacio de medida. F) un espacio medible y IR := IR ∪ {+∞.p.p. ´ Sea Ω = IRn y sea A la familia de todos rectángulos abiertos (a. si µ(Ω) = 1.5 se puede extender al caso “vectorial” Ω = IRn como La Definicion sigue. b) := (a1 . . . . (b) µ(A) ≥ 0 para cada A ∈ F. Espacios de medida 3 ´ 1. se dice que µ es una medida finita. Se dice que una funcion µ : F → IR es una medida sobre F (o sobre (Ω. (1) n=1 En este caso se dice que (Ω. . 1.). entonces µ( ∞ [ n=1 An ) = ∞ X µ(An ). . . an ) y b = (b1 . b1 ) × · · · × (an . En particular. An ∩ Am = φ para n 6= m). . . . En este caso definimos el “rectángulo abierto” (a. n. . . se dice que µ es una medida de probabilidad (en forma abreviada: m. bn ) son vectores en IRn . Al igual que en el caso “escalar” (n = 1) se puede ver que cualquier conjunto abierto — y por tanto cualquier conjunto cerrado — en IRn es un conjunto de Borel. ´ Sea (Ω. Si a = (a1 . −∞} ´ ´ el conjunto “extendido” de los numeros reales. La medida de conteo es µ(A) := #(A).9(a). para ver que P es una m. +∞ en c. definimos `( k [ Ii ) := `(I1 ) + · · · + `(Ik ). ´ (b) Sea #(A) la cardinalidad (o numero de elementos) de A ∈ F. (2) i=1 Un resultado de Análisis Real (vea el Teorema 1. A δω también se le llama la m. definimos la longitud de I como `(I) := b − a.) 1. se dice que P(A) es la probabilidad del evento A ∈ F. Ik son intervalos ajenos.p.c. . (a) La medida trivial: µ(A) = 0 para todo A ∈ F. . b] o´ [a.p. (caso contrario). Por otra parte. 1. Sea (Ω. Sea (Ω. basta verificar las condiciones 1. Algunas propiedades de . Asimismo. y a λ se llama la medida de Lebesgue sobre IR. Asimismo. (Vea la Proposicion 1. (d) Medida de Lebesgue. b). δω (A) := 0 en c. B(IR)) tal que λ(I) = `(I) ∀ intervalo I. porque de aqu´ı se deduce trivialmente ´ 1. µ(A) = n si #(A) = n < ∞. Si I es un intervalo en IR de la forma (a.8 Ejemplos de medidas.7(a). es decir P(φ) = 0. .c. b] o´ (a. (c) Para cada punto ω ∈ Ω definimos la medida de Dirac en ω ∈ Ω como 1 si ω ∈ A. F) un espacio medible. B(IR)).7(b).4 Probabilidad es un espacio de probabilidad.19) asegura que la longi´ tud ` se puede “extender” a una medida unica λ sobre (IR. F) = (IR. si I1 . b) o´ [a. . (o medida unitaria) concentrada en ω ∈ Ω. Es decir.7(c) y que P(Ω) = 1. B eventos en F. . También se define una propiedad análoga a (2) con v en lugar de `. entonces λ(B) > 0. b1 ) × · · · × (an . entonces λ(B) = 0. (d) P(A ∪ B) = P(A) + P(B) − P(A ∩ B).} es un conjunto numerable. bn ) es un rectángulo en IRn definimos su volumen como v(I) := (b1 − a1 ) · (b2 − a2 ) · · · (bn − an ). si λ(B) = 0 implica que B es a lo más numerable. • Si B es un conjunto acotado. x2 . es decir.1. . 1. (a) P(Ac ) = 1 − P(A) (b) P(B − A) = P(B) − P(B ∩ A). En´ una medida λ sobre tonces “se puede demostrar” que existe una y solo IRn tal que λ(I) = v(I) ∀ rectángulo I ⊂ IRn . • Si B es abierto. ´ (Propiedades de P) Sea (Ω. vea el Ejercicio 1. entonces λ(B) < ∞. La respuesta es no. F. b) = (a1 . En este caso decimos que λ es la medida de Lebesgue sobre IRn . (c) Propiedad de monoton´ıa: P(A) ≤ P(B) si A ⊂ B. P) un espacio de probabilidad. entonces λ(B) = 0. P(B − A) = P(B) − P(A) si A ⊂ B.) • Si B = {x1 . ´ Cabr´ıa preguntarse si se cumple el rec´ıproco de esta ultima propiedad. son las siguientes. ´ • Si B = {x} consiste de un unico punto x. (Compare con la medida de Dirac δx . o sea finito o infinito numerable.9 Proposicion. y A. para B ∈ B(IRn ). En particular.15. . . Espacios de medida 5 λ. La medida de Lebesgue sobre IRn (n ≥ 2) se define de manera similar. Si I = (a. entonces An ↑ A+ := [0. entonces lim P(An ) = P(A+ ). n] para n = 1.6 Probabilidad (e) Si A1 . (En forma abreviada: An ↓ A− . 1/n) ↓ φ. P( n [ i=1 Ai ) ≤ n X P(Ai ). 2. i=1 1. . 1/n]. . . de hecho. (b) Si An ↓ A− .) n=1 Ejemplo. Entonces An ↑ A+ := [0. Sean A y B dos eventos . n=1 n=1 1.11 Proposicion. entonces lim P(An ) = P(A− ). (Desigualdad de Boole) Si {An } es una sucesion tos. de hecho. . 2. entonces ∞ ∞ [ X P( An ) ≤ P(An ). . (En forma abreviada escribimos An ↑ A+ . Pero los intervalos abiertos An := (0. 2 1. entonces An ↓ {0}. . . (b) Si An := [0.10 Definicion.12 Corolario. ´ de even1. decimos que {An } es una ´ creciente (o no–decreciente) y que converge al l´ımite A+ := sucesion ∞ S An . . . . 1). . An están en F. (c) Si An := [0. P(An ) ↓ P(A− ). ´ (Sucesiones monotonas ´ de eventos) Sea {An } una suce´ de subconjuntos de Ω. ´ (Continuidad de P con respecto a sucesiones monoto´ nas) (a) Si An ↑ A+ . . 2. enunciados probabil´ısticos. P(An ) ↑ P(A+ ). (a) Sea An := [0. . decimos que {An } es una ´ decreciente (o no–creciente) y que converge al l´ımite A− := sucesion ∞ T An . .13 Observacion: ´ terminolog´ıa de conjuntos vs. ∞). . sion (a) Si An ⊂ An+1 para todo n = 1. . 1 − 1/n].) n=1 (b) Si An ⊃ An+1 para todo n = 1. ) es decreciente (o no-creObserve que la sucesion ciente) y. Considere tres eventos A.14 Ejemplo. ´ de numeros ´ 1. (b) Ocurren a lo más dos de los tres eventos. . definimos lim sup xn := inf sup xk . 2. entonces también B ocurre) A∆B = (A − B) ∪ (B − A) Ocurren A o´ B pero no ambos (A ∪ B)c = Ac ∩ B c No ocurren A ni B ´ 1. i. n→∞ k≥n . B y C.e. ´ Si {xn } es una sucesion reales. n≥1 k≥n ´ supk≥n xk (n = 1. su l´ımite existe y coincide con lim sup xn . ´ (f) Ocurre A unicamente. . por lo tanto. C. Espacios de medida 7 Conjuntos Enunciado probabil´ıstico A∩B A y B ocurren (≡ ambos ocurren) A∪B A o´ B ocurren (≡ al menos uno de los dos eventos ocurre) Ac A no ocurre A∩B =φ A y B son mutuamente excluyentes A − B = A ∩ Bc A ocurre y B no ocurre A⊂B A implica B (≡ si A ocurre. B. lim sup xn = lim sup xk . Encuentre una expresion y represente en un diagrama de Venn los eventos siguientes: (a) Ocurre exactamente uno de los tres eventos A. n≥1 k≥n lim inf xn := sup inf xk . . (c) Ocurren los tres eventos (simultáneamente). (e) Ocurren A o´ B pero no C. (d) Ocurren exactamente dos de los tres eventos.1.15 Observacion. es decir.1 vemos que la diferencia entre Comparando 1. ´ µ : A → IR tal que Una medida µ sobre A es una funcion (a) µ(φ) = 0.7 definimos una medida sobre una σ–álgebra.16 con la Definicion una a´ lgebra y una σ–álgebra es que la primera es cerrada bajo uniones finitas. Si se cumple la igualdad. n=1 n=1 . su complemento Ac también está en A.17 Definicion. . Por otra parte. . mientras que la segunda es cerrada bajo uniones numerables. ´ {xn } converge a x y escribimos lim xn = x o´ xn → se dice que la sucesion x. lim inf xn ≤ lim sup xn . Decimos que es A es una a´ lgebra si (a) Ω ∈ A.16 Definicion. y ´ de conjuntos ajenos en A y cuya union ´ está en (c) Si {An } es una sucesion A. continuacion 1. An está en A.8 Probabilidad Análogamente. ´ Sea A una a´ lgebra de subconjuntos de un conjunto Ω. i=1 Ai tambi´ ´ 1. 2 Construccion ´ de medidas 1. ´ Sea A una familia de subconjuntos de un conjunto Ω. inf k≥n xk es creciente (o no–decreciente) y lim inf xn = lim inf xk . entonces ∞ ∞ [ X µ( An ) = µ(An ). lim inf xn = lim sup xn =: x. . A ´ definiremos el concepto de medida sobre una a´ lgebra. en 1. . Sn ´ (c) si A1 . (b) µ(A) ≥ 0 para todo A ∈ A. n→∞ k≥n En general. entonces su union en está en A. (b) si A está en A. (3) Además. . n + 1]) < ∞ para todo entero n. .18 Ejemplo. The Elements of Integration and Lebesgue Measure.1. Sea µ una medida definida sobre todos los subconjuntos de IR tal que µ((n.3 del mostracion. Espacios de medida 9 1. y la extension de la longitud ` es la medida de Lebesgue λ. Volviendo al Ejemplo 1. (a. 1996.G.) 2 ´ En vista de este ejemplo. de acuerdo con el sigu´ iente resultado de S.19 Teorema de extension ´ de Carathéodory. Bartle. In son conjuntos ajenos de la forma (3). Ulam (en el cual se supone la validez de la “hipotesis del continuo”). (Una de´ de este hecho se puede ver. en el Lema 9. +∞). . si A es la a´ lgebra en el Ejemplo 1. La respuesta es no.18. . Una pregunta obvia es si la medida de “longitud” se puede extender a todos los subconjuntos de IR. b]. (−∞. Esto es consecuencia del siguiente resultado. por ejemplo. libro: R. sea A la familia de todas las uniones finitas de intervalos de la forma (a. y µ({x}) = 0 para todo x ∈ IR. +∞). 1. Entonces µ(A) = 0 para todo A ⊂ IR. es decir longitud de su union [ [ `(I1 · · · In ) := `(I1 ) + · · · + `(In ). (−∞.8(d). si I1 . Entonces A es una a´ lgebra y la longitud ` es una medida sobre A. definimos la ´ como en (2). la pregunta es como extender la longitud ` a la medida de Lebesgue λ sobre B(IR). la σ–álgebra σ{A} ´ generada por A es precisamente la σ–álgebra de Borel B(IR). Una medida sobre una a´ l´ gebra A se puede extender de manera unica a una medida sobre la σ– a´ lgebra generada por A. . En particular.20 Teorema de Ulam. b]. Wiley. 1. 1. Ejercicios § 1 ´ 1.1 Demuestre las leyes (o formulas) de De Morgan: si {Ai .K. Demuestre que si A y B están en F.20 se puede ver en la seccion ´ 3. An Introduction to Measure and Integration. A µ ˆ se le llama la completación de µ. F) un espacio medible.21 Observacion. ´ (a) Se dice que un espacio de medida (Ω. F) un espacio medible y B ⊂ Ω un conjunto F–medible. entonces la diferencia A − B := A ∩ B c y la diferencia simétrica A∆B := (A ∪ B) − (A ∩ B) también están en F. La . 2002.4 del libro: I. B(IR). µ) es completo (o que la σ–álgebra F es completa con respecto a µ) si F contiene a todos los subconjuntos de conjuntos de medida cero. F. 1. American Mathematical Society. Second Edition. es decir.3 Sea (Ω.10 Probabilidad ´ de 1. i i T S (b) ( Ai )c = Aci i i 1. Una demostracion Rana. la tiene µ–medida cero y N ⊂ A entonces N ∈ F. si A ∈ F es tal que µ(A) = 0 y N ⊂ A. Su completacion llamada σ–álgebra de Lebesgue. la medida µ se extiende de manera unica a una medida µ ˆ ˆ sobre F definida como µ ˆ(A ∪ N ) := µ(A). (b) La completación de una σ–álgebra F con respecto a una medida µ se ˆ que contiene a F y tal que si A ∈ F define como la m´ınima σ–álgebra F ˆ Equivalentemente. no es completa. entonces N está en F. ´ de F es completacion ˆ := {A ∪ N | A ∈ F F y N ⊂B ´ para algun B ∈ F con µ(B) = 0}. ´ es la (c) La σ–álgebra de Borel. i ∈ I} es ´ arbitraria de subconjuntos de Ω. entonces una coleccion S T (a) ( Ai )c = Aci . ´ En este caso.2 Sea (Ω. con B([a. (Notese que un conjunto C está en F(B) ´ si existe A ∈ F tal que C = A ∩ B. F(B)) es un espacio medible. b]. b]. Espacios de medida 11 σ–álgebra F restringida a B se define como la familia F(B) := {A ∩ B|A ∈ F}. (c) Si {Bi . entonces f −1 (C − B) = f −1 (C) − f −1 (B). b]) = B(IR) ∩ [a. Si C es una familia de subconjuntos de Ω0 . F) = (IR. ´ 1. i ∈ I} es una familia arbitraria de subconjuntos de Ω0 . entonces la familia f −1 (F0 ) := {f −1 (B)|B ∈ F0 } es una σ–álgebra de Ω. Como ejemplo. Entonces la pareja ([a. definimos la imagen inversa de C con respecto a f como la familia de subconjuntos de Ω dada por f −1 (C) := {f −1 (B)|B ∈ C}. Demuestre: (a) f −1 (Ω0 ) = Ω (b) Si B y C son subconjuntos de Ω0 . i . Demuestre que. por lo tanto.1. sea (Ω.4 Sean Ω y Ω0 dos conjuntos arbitrarios y f : Ω → Ω0 una funcion 0 dada. F(B) es una σ–álgebra y. En particular. efectivamente. B([a. definimos la imagen inversa de B con respecto a f como f −1 (B) := {ω ∈ Ω|f (ω) ∈ B}. f −1 (B c ) = [f −1 (B)]c y f −1 (φ) = φ. b])). ´ (B. es un espacio medible. b]. Si B es un subconjunto de Ω .) Algunas veces F(B) se escribe si y solo como F ∩ B. B(IR)) y sea B el intervalo [a. entonces [ \ \ [ f −1 ( Bi ) = f −1 (Bi ) y f −1 ( Bi ) = f −1 (Bi ) i i i (d) Si F0 es una σ–álgebra de Ω0 . 6 Sea (Ω. .) Si {An } es una sucesion ´ de 1. ´ en F.15. en donde A+ := ∪An y A− := ∩An . n=1 k=n Si lim inf An = lim sup An =: A. F) es un espacio medible. después use la que la sucesion k=n ´ de lim inf An y la Proposicion ´ 1. escribimos lim An = A o´ An → A. es creciente. La demostracion ´ de la definicion ´ tercera desigualdad en (*) es similar. .12 Probabilidad ´ 1. F. entonces P(An ) → P(A). Por ultimo. 2. decimos que {An } converge a A y. Además. definimos lim sup An := ∞ [ ∞ \ Ak n=1 k=n y lim inf An := ∞ \ ∞ [ Ak . respectivamente. para n = 1. P(lim inf An ) ≤ lim inf P(An ) ≤ lim sup P(An ) ≤ P(lim sup An ). (∗) (Sugerencia: para demostrar la primera desigualdad en (*) primero note ∞ T ´ Ak . Para cada A ∈ F definimos µB (A) := µ(A ∩ B).15. Dé un ejemplo en el que lim inf An 6= lim sup An .10). observe que la segunda desigualdad se sigue de 1.) (d) Continuidad de P: Deduzca de (*) que si An → A. ´ 1. Demuestre: (a) lim inf An ⊂ lim sup An . en este caso. entonces (b) Si {An } es creciente o decreciente (vea la Definicion + − An → A o´ An → A . . Demuestre: .5 (Compare con la Observacion subconjuntos de Ω. entonces lim inf An y lim sup An están en (c) Si {An } es una sucesion F. En los incisos siguientes suponga que (Ω.11(a). 1. . µ) un espacio de medida y B un conjunto F–medible. µn ≤ µn+1 para todo n.9 Demuestre que |P(A) − P(B)| ≤ P(A∆B) para cualesquiera dos eventos A y B. de hecho #(Ω) ≤ 1/p. µ2 sobre un espacio medible (Ω.p. Pn m.11 Sea {µn } una sucesión creciente de medidas sobre F. y α1 . ´ Dadas dos medidas µ1 . αn numeros no nega´ convexa” tivos con α1 + · · · + αn = 1. Defina. µ(A) := lim µn (A) n→∞ Demuestre que µ es una medida sobre F y que µ(A) = supn≥1 µn (A) para todo A ∈ F.p. Demuestre que la “combinacion n P P := αi Pi es una m. . i=1 1. .8 Sean P1 .7 Sea p > 0 una constante y (Ω. . ∩ An ) ≥ P(A1 ) + · · · + P(An ) − n + 1. y P(A) = p para cada conjunto A = {ω} con un solo punto ω ∈ Ω. P2 son dos medidas de probabilidad sobre (Ω. La igualdad µ1 = µ2 se define análogamente. ´ 1. . (A∆B es la diferencia simétrica definida en el Ejercicio 2. F. 1. 1. F) y P1 ≤ P2 . . . Demuestre: ´ un numero ´ (a) Ω tiene solo finito de puntos. . sobre F. F). con n ≥ 2. . 1. An . . F). se dice que µ1 ≤ µ2 si µ1 (A) ≤ µ2 (A) para todo A ∈ F. para cada A ∈ F.12 Demuestre que para cualquiera n eventos A1 .) Observacion. 1. . . (b) Si #(Ω) = n.10 Demuestre que si P1 . P(A1 ∩ .p. .’s sobre (Ω.1. es decir. Espacios de medida 13 (a) µB es una medida sobre F. . . . entonces PB (A) := µB (A)/µ(B) = µ(A ∩ B)/µ(B) ∀ A ∈ F es una m. P) un espacio de probabilidad en el que F es el conjunto potencia 2Ω . entonces P1 = P2 . llamada la restriccion ´ de µ a B. entonces p = 1/n. (b) si 0 < µ(B) < ∞. 1/n] para n = 1.8/27). o sea. entonces P( n=1 1.1] y elimine el intervalo abierto que consiste del “tercio medio” (1/3. (19/27. 2.2/9) y (7/9. Considere la sucesion P∞ An := [0. Tomese el intervalo [0. y n=1 P(An ). F. ´ 1. 2/3). F = B[0. . Calcule lim sup An ..2/27). El conjunto de Cantor es lo que resulta del procedimiento anterior cuando n → ∞. n ≥ 1} es una sucesion n=1 P(An ) < ∞. cada uno de longitud 1/3n .1/3] y [2/3.26/27). entonces P(lim sup An ) = 0. Diga si se cumple el rec´ıproco del Lema de Borel–Cantelli. Demuestre que C es un conjunto no–numerable que tiene medida de Lebesgue cero. 1] y P = λ ´ de eventos la medida de Lebesgue. (b) Sea (Ω.8/9). para todo n. y (25/27. . 1].13 Demuestre: si {An } es una sucesion ∞ T An ) = 1.15 Sea C ⊂ [0.14 (a) Demuestre el Lema de Borel–Cantelli queP dice lo siguiente: ´ de eventos tales que ∞ si {An . P(lim sup An ).20/27).1] el conjunto de Cantor que se define como sigue.1] se elimina el tercio medio abierto. . . (7/27. P) el espacio “unitario” Ω = [0.14 Probabilidad ´ de eventos tales que P(An ) = 1 1. de los subintervalos que quedan en la n–ésima etapa se eliminan los 2n−1 tercios medios abiertos. Procediendo de manera inductiva. De cada una de las dos partes restantes [0. De cada una de las cuatro partes restantes se eliminan los tercios medios abiertos (1/27. (1/9. ´ Decimos que un espacio medible (Ω. podemos expresar (2) como X Pf (A) = f (x)δx (A). vemos que (2) resulta Pf (A) = X x∈Ω f (x)IA (x).2. que son de uso muy comun probabilidad. IA (x) := (3) 0 si x 6∈ A. 2. asociada a f como X f (x) ∀ A ⊂ Ω. permutaciones. Por ejemplo.p. y (ii) x∈Ω En este caso decimos que f es una funcion ´ de densidad discreta y definimos la m. (2) Pf (A) := x∈A Podemos escribir (2) en varias formas equivalentes. Espacios discretos y continuos 2 15 Espacios discretos y continuos ´ de densidad discreta. F) es discreto si Ω es un conjunto finito o infinito numerable. funcion ´ como ejemplos de espacios de probabilidad introduciEn esta seccion. F = 2Ω . combinaContenido: Funcion ´ de densidad continua. F) un espacio medible discreto y f : Ω → IR una funcion X f (x) = 1. ´ tal que Sea (Ω. x∈Ω Asimismo. ciones. es decir. en cuyo caso la σ–álgebra F es el conjunto potencia de Ω. . usando las medidas de Dirac δx introducidas en el Ejemplo 1. que se define como 1 si x ∈ A. ´ en mos los espacios discretos y continuos.8(c). (1) (i) f (x) ≥ 0 ∀ x ∈ Ω. si IA := Ω → IR es la funcion ´ indicadora del evento A.1 Definicion. . . . En este ´ ultimo caso. . ´ (b) La densidad binomial. Entonces f (k) := p · (1 − p)k para k = 0. . digamos Ω = {x1 .16 Probabilidad Algunas funciones de densidad discretas muy comunes son las siguientes. ´ 2. . . efectivamente. . . definimos la densidad binomial f : Ω → IR como n f (k) := pk (1 − p)n−k para k = 0. s} y f (x) = 1/2. 1) un numero dado. 1} y a f se le llama densidad ´ toma los valores f (1) = p y f (0) = 1 − f (1) = 1 − p.} y sea p ∈ ´ (0. . . . . . en el lanzamiento de una moneda. Ω = {1. entonces Ω = {0. . 1. En el lanzamiento de un dado. 3. . n. Si k es un entero no negativo. Por ejemplo. 1. . n. y sea f (xi ) := 1/n para todo i = 1. Caso especial: si n = 1. 1. que solo ´ (c) La densidad geométrica. . . xn }. dado un numero 0 < p < 1. . . el factorial de k es k! := 1 · 2 · · · k (con 0! := 1) y el coeficiente binomial n! n := para k = 0. n}. Supongase que Ω es un conjunto finito. (4) k Usando el Teorema del Binomio n X n (a + b) = ak bn−k k n (5) k=0 ´ de densidad disse puede verificar que. Bernoulli. 1. . Entonces (2) resulta Pf (A) = #(A)/n ∀ A ⊂ Ω. . Supongase que Ω = {0. n. 5. f es una funcion creta. Ω = {a. Supongase que Ω = {0. 2. . k k!(n − k)! ´ Entonces. . 6} y f (x) = 1/6. Pf (A) = 1/2 si A es cualquier subconjunto con tres elementos. . . 4.2 Ejemplo. (a) La densidad uniforme. k=0 ´ Los siguientes conceptos son utiles para calcular probabilidades sobre conjuntos finitos. digamos A1 . . 1. Ai . ´ Considérense k tareas.3 Definicion. . 2. para i ≥ 2. c} y k = 2. c}. (b. 2. y por c(n. de k elementos de Ω. a). Para verificar que f satisface (1) use la serie geométrica ∞ X k=0 rk = 1 1−r si |r| < 1. Entonces las permutaciones de orden 2 son (a. k) el numero de permutaciones de orden k de un ´ conjunto con n elementos. b}. . . La funcion f (k) := e−λ λk /k! para k = 0.4 Principio de la multiplicacion. (c. 1. Sea Ω = {0. b). c). tales que A1 se puede realizar en n1 formas y. (a. Para calcular p(n. ´ Denotaremos por p(n.2. b). . Por ejemplo. sea Ω = {a. ´ (d) La densidad de Poisson. k) usaremos el siguiente “principio”. . se llama la densidad de Poisson con parámetro λ. . b. . . (b. Ak . c). (b) Una combinacion ´ de orden k (de los elementos de Ω) es un subconjunto de Ω con k elementos. Espacios discretos y continuos 17 es la funcion ´ de densidad geométrica. . sin repeticiones. mientras que las combinaciones de orden 2 son {a. k) el numero de combinaciones. a) y (c. Para verificar (1) use la serie exponencial ∞ X r e = rk /k! ∀ r ∈ IR. {a.} y λ > 0 un numero ´ dado. . ´ Sea Ω un conjunto que consiste de n elementos y sea k un entero entre 0 y n. c} y {b. ´ (a) Una permutacion ´ de orden k (de los elementos de Ω) es una seleccion ordenada. k) · k! ´ Por lo tanto.4 vemos que el numero de permutaciones de orden k es p(n. ¿cuál la probabilidad 3 de ellos de exactamente 6 94 100 sean defectuosos? Respuesta: / . . 16 (a) ¿Cuántos comités se pueden formar en total? Respuesta: . ´ se puede realizar en Entonces la tarea total (A1 . . . En un lote de 100 art´ıculos hay 6 defectuosos. (6) ´ de orden k tenemos k! permutaPor otra parte. . k) = p(n. 3 2 5 2. . .18 Probabilidad se puede realizar en ni formas una vez que A1 . . Ai−1 se han realizado. .5 Ejemplo. el numero de combinaciones de orden k es c(n. ¿Cuántas “palabras” se pueden codificar usando exactamente n s´ımbolos? . . n. . k) = n k [por (6)]. . k) = c(n. 4 4 ´ 2. Si se toman del lote 5 art´ıculos al azar. Se desea formar un comité de 4 profesores de un grupo que consiste de 10 profesores adjuntos y 6 titulares. 4 (b) ¿Cuál es la probabilidad de que todos los miembros del comité sean 10 16 profesores adjuntos? Respuesta: / . Ak ) en sucesion n1 · n2 · · · nk formas. . (7) 2. c(n.6 Ejemplo. A2 . . k) n! = k! k!(n − k)! es decir. k) = n · (n − 1) · · · (n − k + 1) = n! (n − k)! para k = 1. Considérese un codigo binario de sucesiones de 00 s y 10 s. o sea p(n.7 Ejemplo. ´ Usando 2. para cada combinacion ciones de orden k. −∞ En este caso.10(a) o´ (b). Pf sobre B(IR) definida por Z Pf (A) := f (x)dx ∀ A ∈ B(IR). vea el Ejemplo 2. F) = (IR. Se dice que f : IR → IR es una funcion ´ de densidad continua si f (x) ≥ 0 para todo x ∈ IR y Z ∞ f (x)dx = 1.p.p. 2 k=0 2. la m. Demuestre que si un conjunto A consiste de n elementos. Pf en (8) es “continua” en un sentido que especificaremos ´ de densidad f no necesariamente es conposteriormente. 2. ´ Sea (Ω. (8) se puede expresar como Z ∞ Pf (A) = f (x) IA (x)dx. ´ Solución. Pf (A) = Pf (An ) = n n An . (8) A Nota.9 Definicion. Espacios discretos y continuos 19 Respuesta: 2n .2. entonces A tiene 2n subconjuntos. entonces X XZ f (x)dx. (9) −∞ ´ indicadora de A definida en (3). La condicion ´ de en donde IA es la funcion ´ 1. El numero de subconjuntos de A = n X ´ (numero de subconjuntos con k elementos) k=0 n X n = k (por (7)) = (1 + 1)n = 2n (por (5)). asociada a f es la m. B(IR)).8 Ejemplo. 2 Equivalentemente.7(c) significa que si {An } es una sucesion ´ σ–aditividad en la Definicion de conjuntos ajenos en B(IR) y A = ∪An . La m. pero la funcion tinua.p. 10. := 0 en c. ´ Notese que f (·) ≥ 0 y Z ∞ Z f (x)dx = −∞ ∞ f (x)dx Z y lim λe−λx dx 0 = = y→∞ 0 lim (1 − e−λy ) = 1.20 Probabilidad ´ indicadora de Esta igualdad se puede demostrar escribiendo la funcion A = ∪An como X IA = IAn (pues los An son ajenos) n y (9) resulta Z " ∞ Pf (A) = f (x) # X −∞ Z ∞ " −∞ XZ n = X # X = = IAn (x) dx n f (x)IAn (x) dx n ∞ f (x)IAn (x)(dx) (explique) −∞ Pf (An ). (a) La densidad uniforme sobre un intervalo [a. Es fácil ver que f satisface la Definicion (b) La densidad exponencial con parámetro λ (λ > 0) se define como f (x) := λe−λx si x ≥ 0. b].10 Ejemplo. := 0 en c. b] es la ´ funcion f (x) := 1/(b − a) si x ∈ [a.c. n 2. ´ 2. y→∞ .c. θ) Z ∞ Z ∞ 2 2 −x2 /2 α = e dx e−y /2 dy −∞ Z−∞ ∞ Z ∞ 2 2 = e−(x +y )/2 dx dy −∞ Z−∞ ∞Z π 2 e−r /2 r dθ dr = 0 Z ∞−π 2 = 2π e−r /2 r dr 0 . si m = 0 y σ 2 = 1 se obtiene la densidad normal estándar ϕ(x) := (2π)−1/2 e−x Sea Z ∞ α := e−x 2 /2 2 /2 . dx. π 2 2 (d) La densidad normal (o gaussiana) con parámetros m ∈ IR y σ 2 > 0 ´ es la funcion f (x) := (2πσ 2 )−1/2 e−(x−m) 2 /2σ 2 ∀ x ∈ IR. usando coordenadas polares (r. π(1 + x2 ) ∞ Z 1 ∞ dx f (x)dx = π −∞ 1 + x2 −∞ 1 = · arc tan x|x=+∞ x=−∞ π 1 π π = · [ − (− )] = 1. (10) En particular. −∞ Entonces. Espacios discretos y continuos 21 (c) La densidad de Cauchy se define para todo x ∈ IR como f (x) := Entonces f (·) ≥ 0 y Z 1 .2. r=∞ −r2 /2 . = −2π e . r=0 = 2π. . 11 Nota. Si 2. (a) Calcule el valor medio de las densidades en el Ejemplo 2. Hay medidas de probabilidad que no necesariamente están definidas por una densidad discreta o continua como en (2) o´ (9). El resultado ´ f en (10) se obtiene usando el hecho de que análogo para la funcion f (x) = σ −1 ϕ((x − m)/σ). observe que α = 2π se puede escribir expl´ıcitamente como Z ∞ √ 2 e−x /2 dx = 2π. y sea f la densidad normal estándar. Si no se cumple la condicion P |x|f (x) = ∞). (12) x entonces el valor medio (o “centro de gravedad”) f de f se define como f := X x f (x). se dice que el x valor medio de f no existe. Posteriormente veremos que una medida de probabilidad es una mezcla de varios tipos de distribuciones. (c) y (d). . sea δ0 la medida de Dirac concentrada en x = 0. √ Para concluir. x ´ (12) (es decir.1 Sea f (·) una funcion X |x|f (x) < ∞. (11) −∞ 2. Entonces Z 1 µ(A) := δ0 (A) + f (x)dx 2 A es una “mezcla” de una densidad discreta y una continua. Por ejemplo. 2 Ejercicios § 2 ´ de densidad discreta.2(b).22 Probabilidad √ R∞ Luego α = 2π y de aqu´ı se sigue que −∞ ϕ(x)dx = 1. en donde c > 0 es una P∞ constante tal que n=1 f (n) = 1. 2. la condicion 2. 2. .) ´ de densidad continua tal que 2. Espacios discretos y continuos 23 (b) Sea r > 1.4 De un conjunto que consiste de n > 1 numeros positivos y m > 1 ´ negativos se selecciona al azar un subconjunto de dos numeros y se multiplican.5 Sea f la densidad normal con parámetros m y σ 2 . ´ 2. (Nota. con sustitucion. . (b) Demuestre que el valor medio de la densidad de Cauchy en el Ejemplo ´ (13) no se satisface. . y sea g(x) := 0 si x ≤ 0. definida en (10). (b) y (d). DemuestreP que la densidad de f −k tiene valor medio ssi r > 2.2 Si f (·) es una funcion Z ∞ |x|f (x)dx < ∞. La serie ∞ converge ssi n=1 n k > 1. y f (n) := c/nr para n = 1.2. ¿Cuál es la probabilidad de que el producto sea positivo? 2. es decir. uno tras otro. 1 := f (log x) si x > 0.10(a).10(c) no existe. .3 Suponga que de un conjunto de n objetos se eligen k al azar (k < ´ Calcule la probabilidad de que ningun ´ n). (13) −∞ entonces el valor medio (o “centro de gravedad”) f de f se define como Z ∞ f := x f (x)dx. objeto sea elegido más de una vez. x . −∞ (a) Calcule el valor medio de las densidades en el Ejemplo 2. y f (x) := 0 para x ≤ 0. ´ (b) Sean p y λ numeros positivos y defina λp p−1 −λx f (x) := x e Γ(p) para x > 0. definida como Z ∞ Γ(p) := xp−1 e−x dx para p > 0.) 2.10(b).24 Probabilidad Demuestre que g es una densidad de probabilidad — se le llama la densidad lognormal con parámetros m y σ 2 . 0 satisface que Γ(p + 1) = p · Γ(p). (Vea el Ejercicio 6. . En particular. si p = 1 la funcion f es la densidad exponencial con parámetro λ en el Ejemplo 2. ´ de densidad de probabilidad.15.6 (a) Demuestre que la función gama. A f se le Demuestre que f es una funcion ´ llama la densidad gama con parámetros p y λ. asa. ´ En el Ejercicio 1 se pide demostrar la siguiente proposicion. P) un espacio de probabilidad y sean A y B dos eventos en F. De (1) tenemos P(A ∩ B) = P(B)P(A|B) si P(B) > 0. aas. formula de Bayes. sas.1 Proposicion. en el lanzamiento de tres monedas “honestas” el espacio muestral es Ω = {aaa. . regla de la multiplicacion.p. sas. el lema de Borel–Cantelli. sss}. .2 Proposicion. saa. ´ la probabilidad total. ass. En expresiones como (1) siempre supondremos que el evento condicionante tiene probabilidad positiva. A2 . P(B) (1) En este caso se dice que B es el evento condicionante. ´ A 7→ P(A|B) definida 3. Definimos la probabilidad condicional de A dado B como P(A|B) := P(A ∩ B) . Este es un caso ´ particular (para dos eventos) de la siguiente “regla de la multiplicacion”. independencia de eventos y de σ–álgebras. 3. . con P(B) > 0. Por ejemplo. Sea (Ω. La funcion como en (1).3. ´ (Regla de la multiplicacion) ´ Sean A1 . ssa. ´ Sea B tal que P(B) > 0. para todo A ∈ F. ass}. An eventos . es una m. . aas. Entonces P(A|B) = 1/4. la ley 0–1 de Kolmogorov. B = {aaa. ssa}. asa. F. Tomamos A = {sss. Probabilidad condicional e independencia 3 25 Probabilidad condicional e independencia ´ ley de Contenido: Probabilidad condicional. Calcule la probabilidad de que “a lo más una moneda cae a´ guila” dado que “en la primera moneda cae a´ guila”. ass. . .5 Teorema. Ai ∩ Aj = φ para i 6= j). . . Sea {A1 . una tras otra. ´ Obsérvese que las probabilidades condicionales en esta ultima expre´ están bien definidas porque sion P(A1 ) ≥ P(A1 ∩ A2 ) ≥ · · · ≥ P(A1 ∩ . ∩ An−1 ) > 0 (por (2)). ´ es {A. (2) Entonces P(A1 ∩A2 ∩. y (b) ∪i Ai = Ω. Se seleccionan tres computadoras al azar. . ´ hay 14 computadoras de 3. . An } una particion i = 1. .4 Definicion.26 Probabilidad tales que P(A1 ∩ .3 Ejemplo. . .∩An−1 ). . ¿Cuál es la probabilidad de que las tres sean de la marca x? Solucion. . 2 14 13 12 3. 3) el evento “la i–ésima computadora seleccionada es de la marca x”.∩An ) = P(A1 )·P(A2 |A1 )·P(A3 |A1 ∩A2 ) · · · P(An |A1 ∩. 2. ´ Una familia {Ai . En este caso es El ejemplo más simple de una particion evidente que para cualquier evento B se tiene P(B) = P(A)P(B|A) + P(Ac )P(B|Ac ) (explique). i ∈ I} de eventos es una particion ´ de Ω si (a) los eventos son ajenos (es decir. Este es un caso particular de la “ley de la probabilidad total” en el siguiente teorema. En un laboratorio de computacion las cuales 8 son de la marca x. ∩ An−1 ) > 0. . . Entonces P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) = 8 7 6 · · . Ac }. n. ´ Sea Ai (i = 1. . . Entonces . . ´ de Ω tal que P(Ai ) > 0 para 3. 3. Probabilidad condicional e independencia 27 (a) ley de la probabilidad total: para cualquier evento B P(B) = n X P(Ai )P(B|Ai ). (3) i=1 (b) Formula ´ de Bayes: si P(B) > 0, entonces P(Ai |B) = P(Ai )P(B|Ai ) P(Ai ∩ B) =P P(B) P(Aj )P(B|Aj ) (4) j para i = 1, . . . , n. En el teorema anterior las probabilidades P(Ai ) y P(Ai |B) se llaman probabilidades a priori y a posteriori, respectivamente. 3.6 Ejemplo. En una fábrica, tres máquinas M1 , M2 y M3 elaboran, respec´ total. Los porcentajes tivamente, el 30%, el 50% y el 20% de la produccion de art´ıculos defectuosos producidos por estas máquinas son 1%, 3% y 2%, respectivamente. Si se selecciona un art´ıculo al azar, calcule la probabilidad de que el art´ıculo (a) sea defectuoso, (b) no sea defectuoso, (c) haya sido producido en la máquina Mi (i = 1, 2, 3) dado que resulto´ ser defectuoso. 3.7 Definicion. ´ (Independencia) (a) Dos eventos A y B son independientes si P(A ∩ B) = P(A) · P(B). Dos σ–álgebras F1 y F2 de Ω son independientes si cualquiera dos eventos A1 ∈ F1 y A2 ∈ F2 son independientes. 28 Probabilidad ´ {Ai , i ∈ I} de eventos es independiente si para cada (b) Una coleccion ´ de ´ındices distintos i1 , . . . , ik en I entero positivo k y cada seleccion se cumple que P(Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P(Ai1 ) · P(Ai2 ) . . . P(Aik ). (5) ´ {Ai , i ∈ I} de familias de eventos — en particular, Una coleccion σ–álgebras — es independiente (o las familias Ai , i ∈ I, son inde´ de ´ındices pendientes) si para cada entero positivo k, cada seleccion distintos i1 , . . . , ik en I, y todo A1 ∈ Ai1 , . . . , Ak ∈ Aik , se cumple la ´ (5). condicion ´ Notese que si P(B) > 0, entonces A y B son independientes ssi P(A|B) = P(A). 3.8 Observacion. ´ Para n ≥ 3 eventos, independencia “por parejas” no implica independencia. Por ejemplo, sea Ω = {a, b, c, d} un espacio muestral equiprobable, y sean A1 = {a, b}, A2 = {b, c} y A3 = {a, c}. Entonces A1 , A2 , A3 son independientes “por parejas” porque P(Ai ∩ Aj ) = P(Ai ) · P(Aj ) para i 6= j. Sin embargo, los eventos no son independientes (en el sentido de la Defini´ 3.7(b)) porque cion 1 0 = P(A1 ∩ A2 ∩ A3 ) 6= P(A1 )P(A2 )P(A3 ) = . 8 También puede haber eventos A1 , . . . , An que no son independientes pero P(A1 ∩ . . . ∩ An ) = P(A1 ) · · · P(An ); vea el Ejercicio 2. 2 3.9 Ejemplo. Considérese un “experimento de Bernoulli”, es decir, un ex´ dos resultados posibles, e´ xito (1) o´ fracaso (0), perimento que tiene solo con probabilidades p y q := 1−p, respectivamente, con 0 < p < 1. Suponga que se realizan n repeticiones independientes del experimento y calcule la probabilidad de que ocurran exáctamente k e´ xitos (0 ≤ k ≤ n). Solucion. ´ El espacio muestral Ω consiste de todos los vectores (x1 , x2 , . . . , xn ) con xi = 1 o´ xi = 0 para i = 1, . . . , n. 3. Probabilidad condicional e independencia 29 ´ del experimento tiene e´ xito”. Por Sea Ai el evento “la i–ésima repeticion ejemplo, el evento “en las primeras k repeticiones ocurren e´ xitos y en las restantes n − k fracasos” es A1 ∩ . . . ∩ Ak ∩ Ack+1 ∩ . . . ∩ Acn y consiste del vector (1, . . . , 1 (k veces), 0 . . . , 0 (n − k veces)). Por independencia, la probabilidad de dicho evento es igual a P(A1 ) · · · P(Ak ) · P(Ack+1 ) · · · P(Acn ) = pk q n−k . ´ ´ Por otra parte, notese que el numero total de vectores (x1 , . . . , xn ) en los ´ que exáctamente k componentes toman el valor 1 es el numero de combinaciones n c(n, k) = . k Por lo tanto, P(ocurren exáctamente k e´ xitos) = n k pk q n−k (6) para cualquier k = 0, 1, . . . , n, que coincide con la densidad binomial del Ejemplo 2.2(b). 2 3.10 Ejemplo. (Caso especial del Ejemplo 3.9) Por experiencia, la admin´ de un restaurante sabe que el 20% de las personas que hacen istracion ´ no se presentan. Si el restaurante tiene 50 mesas y toma 52 reservacion reservaciones, ¿cuál es la probabilidad de que haya lugar para todos los clientes que se presentan? Solucion. ´ El ejemplo se puede expresar como n = 52 repeticiones independientes de un experimento de Bernoulli con probabilidad de “éxito” (no se presenta un cliente) p = 0.20. Por lo tanto, usando (6) la probabilidad que se desea calcular resulta 52 X n P(No. de e´ xitos ≥ 2) = pk q n−k k k=2 (Ley cero–uno de Kolmogorov) Sea C la σ–álgebra cola ´ {An }.12 Teorema. La ´ completa de dicho lema es como sigue. para cada n = 1. entonces P(A) = 0 o´ 1.30 Probabilidad con q = 1 − p = 0. es más fácil calcular P(No. . De hecho.14(a) vimos el Lema de Borel–Cantelli. 3. . . 2 En el 1. 3. A continuacion veremos el resultado más prominente dentro de esta clase. . la ley cero–uno de Kolmogorov.80. sea Dada una sucesion σ{An . ´ de evenEl Lema de Borel–Cantelli afirma que si {An } es una sucesion tos independientes. . . lim sup An y lim inf An son eventos cola. . Sea {An } una sucesion P (a) Si ∞ n=1 P(An ) < ∞. . entonces P(lim sup An ) = 0. Si los eventos An son independientes y asociada a una sucesion A ∈ C. entonces P(lim sup An ) es cero o uno. de e´ xitos ≤ 1) = 1 − q 52 − 52 p · q 51 . An+1 . An+1 . Los conjuntos en C se llaman eventos cola. . version ´ de eventos. ´ de eventos {An }. .}. La σ–álgebra C := ∞ \ σ{An . Este es un caso es´ pecial de una clase de resultados llamados leyes cero–uno. . En la parte (b) del mismo ejercicio se ve que el rec´ıproco de este resultado no se cumple. Esto requiere introducir el siguiente concepto. P∞ (b) Si n=1 P(An ) = ∞ y los eventos An son independientes. Por ejemplo. de acuerdo con PEjercicio ∞ el cual n=1 P(An ) < ∞ implica que P(lim sup An ) = 0. .} n=1 se llama la σ–álgebra cola asociada a {An }. entonces P(lim sup An ) = 1. . 2. de e´ xitos ≥ 2) = 1 − P(No. .} la σ–álgebra generada por {An . An+1 .11 Lema de Borel–Cantelli. En particular. 3. . . A2 . B2 . Demuestre que P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 )P(A3 ). .3. Probabilidad condicional e independencia 31 Idea de la demostracion. . A2 . A2 = {(i. entonces las σ–álgebras σ{A1 . B1 . por (*). 2.1 Demuestre la Proposicion 3. .} y σ{B1 . An+1 . j) | 1 ≤ i. . supondremos conocido el siguiente hecho: (*) si A1 .}. as´ı que P(A) = 0 o´ 1. j)|j = 4. Considere los eventos A1 = {(i. .e. B2 .1. . son eventos independientes. A2 . . 3. Por otra parte.} son independientes. . A2 . 2 La ley 0-1 de Kolmogorov se usa mucho para variables aleatorias independientes. . Como esto se cumple para todo n ≥ 1. . . Ejercicios § 3 ´ 3.. pero los eventos no son independientes porque P(Ai ∩ Aj ) 6= P(Ai )P(Aj ) para i 6= j. . . . . (c) P(A ∪ B) = P(A) + P(B) · P(Ac ). .}. (b) Ac y B son independientes. . j)|j = 1. se sigue que A es independiente de {A1 . P(A) = P(A)2 . A ∈ C ⊂ σ{A1 . . 2 o´ 5}. A está en la σ–álgebra σ{An . j ≤ 6}. ´ Para simplificar. . j)|i + j = 9}. . An−1 }. sea A ∈ C un evento cola. para cada n = 1. . A es independiente de σ{A1 . . . . . 5 o´ 6} y A3 = {(i. i.} y por lo tanto. que veremos más adelante. entonces (a) Ac y B c son independientes. A es independiente de s´ı mismo. Ahora. . . . Esto implica que P(A ∩ A) = P(A)P(A).3 Demuestre que si A y B son eventos independientes.2 En el lanzamiento de dos dados honestos el espacio muestral es Ω = {(i. Luego. . .5 Demuestre: (a) Si A es un evento independiente de s´ı mismo. en caso contrario selecciona al azar una de las 5 respuestas posibles. i=1 Si además P(Ai ) = pi para i = 1. entonces P(A|B ∩ C) = P(A|B). .32 Probabilidad 3.6 Un estudiante toma un examen de opcion en el que cada pregunta tiene 5 respuestas posibles. ¿cuál es la probabilidad de que efectivamente conozca la respuesta? 3. An son eventos independientes. ´ multiple ´ 3. i=1 3. n. . . B y C tres eventos dados. . entonces P(C|A ∩ B) = P(C). entonces A y cualquier otro evento son independientes. entonces P(A) = 0 o´ P(A) = 1.4 Demuestre: si A1 . . . (b) Si P(A) = 0 o´ P(A) = 1. (a) ¿Cuál es la probabilidad de que de una pregunta dada el estudiante dé la respuesta correcta? (b) Si el estudiante obtiene la respuesta correcta a una pregunta. . Demuestre: (a) Si los eventos son independientes y P(A ∩ B) > 0. la selecciona. Suponga que el estudiante conoce la respuesta del 70% de las preguntas. . entonces P( n [ Ai ) = 1 − i=1 n Y P(Aci ). entonces la probabilidad de que n Q ninguno de tales eventos ocurra es (1 − pi ). (b) Si P(A ∩ B ∩ C) > 0 y P(C|A ∩ B) = P(C|B).7 Sean A. Si el estudiante conoce la respuesta correcta. 11(b). 3. n. . Probabilidad condicional e independencia 33 ´ 3.7(b).9 Demuestre que si A y B son ajenos. . .8 Por la Definicion ´ (5) se cumple para k = 2.10 Suponga que hay una prueba para detectar cáncer con la propiedad de que 90% de los individuos con cáncer reaccionan positivamente. Demuestre que el numero ´ la condicion total de condiciones de la forma (5) que se deben verificar para que A1 . . An sean independientes es 2n − n − 1. . 3. . Suponga que el 1% de los individuos en una cierta poblacion cáncer. An son independientes si 3.3. . 3. . mientras que 5% de aquellos que no tienen cáncer reaccionan positiva´ tiene mente. n eventos A1 . . . . .11 Demuestre el Lema 3. . entonces A y B no pueden ser independientes a menos que P(A) = 0 o´ P(B) = 0. Calcule la probabilidad de que en verdad tenga cáncer un paciente ´ y que reacciona positivamente a seleccionado al azar de dicha poblacion la prueba. 3. x]) está “bien definida”. x] por cualquier otro intervalo en IR. decimos que X es una variable aleatoria (abreviado: v. y].1 Definicion. entonces su medida µ(X−1 (−∞. . µ) un espacio de medida. x] = {ω ∈ Ω | X(ω) ≤ x} ∈ F ∀ x ∈ IR. en (2) podemos sustituir (−∞. B(IR)) y X = IR → IR es B(IR)–medible.a. v. escribimos (1) como f −1 (−∞. Se dice que X : Ω → IR ´ F–medible (o medible con respecto a F) si es una funcion X−1 (−∞.p. 4.a. decimos que X es una funcion ´ de Borel o Borel–medible. bucion. v. ´ usaremos con mucha frecuencia los conceptos A partir de esta seccion ´ Por tal motivo.a. recomienda que el lector repase dicho ejercicio.34 4 Probabilidad Variables aleatorias ´ medible.). x]. F. Es importante notar lo siguiente: para verificar que X es F–medible. x] está en F. y) o´ [x. ∞) o´ [x. discreta. continua.a. ∞) o´ [x. x] = {ω ∈ Ω | f (ω) ≤ x} ≡ {f ≤ x}.) Casos especiales: (a) Si µ = P es una m.. (1) Si Ω0 = IR y B es el intervalo (−∞. funcion ´ de distriContenido: Funcion ´ medida de Lebesgue–Stieltjes.4 sobre la imagen inversa de una funcion. y) o´ (x. ´ Sea (Ω. de la forma (−∞. recuérdese ´ de Ω en Ω0 . que si Ω y Ω0 son conjuntos arbitrarios y f es una funcion 0 entonces para cualquier conjunto B ⊂ Ω definimos f −1 (B) := {ω ∈ Ω | f (ω) ∈ B}. y] o´ (x. F) = (IR. (2) ´ (Notese que si X−1 (−∞. En particular. x) o´ (x.) (b) Si (Ω. variable aleatoria (v. es decir. se en el Ejercicio 1. Variables aleatorias 35 Asimismo. x] está en F. y) y que. (a) ⇒ (b). Como (−∞. y) = (x. ∞) ∈ F ∀ x ∈ IR. ∞) está en F. x])c = X−1 ((−∞. si X−1 (−∞. y) en IR. (d) X−1 (B) ∈ F para cualquier conjunto abierto B ⊂ IR. Primero observe que (x. y) ∈ F para cualquier intervalo abierto (x.2 Ejemplo. x]c ) = X−1 (x. y) = X−1 ((x. para demostrar (c) basta ver que X−1 (−∞. y)) = X−1 (x. (3) 4. ∞) está en F. ∞). Por lo tanto. En particular. ∞) ∩ X−1 (−∞. en vista de (4). (c) X−1 (x. ∞). (b) X−1 (x. (4) Por el párrafo anterior. ´ (a) ⇔ (b). x]c = (x. (a) ⇒ (c).4(b) tenemos que (X−1 (−∞. (a) implica que X−1 (x. Por lo tanto. Es decir. entonces también X−1 (x. Demuestre que las siguientes proposiciones son equivalentes: (a) X es F–medible (en el sentido de (2)). ∞) ∩ (−∞. lo cual se obtiene notando que (−∞. X−1 (x. y) = ∞ [ n=1 (−∞. ∞) ∩ (−∞. x] por cualquier conjunto abierto B ⊂ ´ IR o cualquier cerrado B ⊂ IR. por razones teoricas es conveniente enfatizar que X es F–medible ssi X−1 (B) ∈ F ∀ abierto B ⊂ IR. podemos sustituir (−∞. (b) ⇒ (a). por el Ejercicio 1. En forma análoga se obtiene el rec´ıproco. para cualquier x ∈ IR. y − 1/n] .4(c).4. por el Ejercicio 1. y). Demostracion. y) está en F. Para probar el rec´ıproco. F) es un espacio discreto.36 Probabilidad y que.aa. Y (i. se llama la función de distribución de la v.a. j) de ´ numeros enteros i.4(c). Z(i. x] en (2). y) es un conjunto abierto. j) := i = resultado del primer dado. 2 n 4. son: X(i. si (c) se cumple vemos que X−1 (B) = n S −1 X (In ) está en F. Algunos ejemplos de vv. para todo x ∈ IR.a. Para introducir formalmente este concepto usaremos la siguiente notacion: ´ {X ≤ x} := X−1 (−∞. x] = {ω ∈ Ω | X(ω) ≤ x} para x ∈ IR. 2 La probabilidad del evento X−1 (−∞. entonces S existe una coleccion tales que B = In . Asimismo. Si (Ω. j) := min(i. X−1 (−∞. por (a) y el Ejercicio 1. luego (2) se cumple trivialmente. y) = ∞ [ X−1 (−∞. j entre 1 y 6. porque el conjunto potencia F = 2Ω consiste de todos los posibles subconjuntos de Ω. Para ser más espec´ıficos. (c) ⇒ (d). para cualquier conjunto B ⊂ IR escribimos {X ∈ B} := X−1 (B) = {ω ∈ Ω | X(ω) ∈ B}. j) = m´ınimo de los resultados de ambos dados. recuérde que si B ⊂ IR es un conjunto ´ numerable de intervalos abiertos In abierto.3 Ejemplo. entonces cualquier función X : Ω → IR es una v. Es evidente que (d) ⇒ (c) porque (x. Por lo tanto. En tal caso el espacio muestral Ω consiste de todas las parejas ω = (i. considérese el lanzamiento de dos dados. y − 1/n] ∈ F. X. La demostracion (c) ⇔ (d). j) := i + j = suma de los resultados de ambos dados. n=1 ´ de (c) ⇒ (a) es similar. (5) . a. Además. digamos 0 y 1. Variables aleatorias 37 4. porque {X ≤ x} = φ si x < c.a.4. que toma unicamente dos valores. La funcion ´ de distribucion ´ (abreviado: f.d. de X y la m.p. entonces P{X = 0} = ´ escalonada 1 − P{X = 1} = 1 − p y la f.p. (6) La m.p. (7) ´ Notese que PX (B) = P[X−1 (B)]. = 1 si x ≥ 1.5 Ejemplo. ´ escalonada De aqu´ı se sigue que la f. de X = c es la funcion FX (x) = 0 si x < c. inducida por X están relacionadas como FX (x) = PX (−∞.) ´ FX : IR → [0. . sobre (IR. Si P{X = 1} = p.d.a. = Ω si x ≥ c. = 1 − p si 0 ≤ x < 1. ´ (b) Si X es una v. constante si existe ´ es una c ∈ IR tal que X(ω) = c para todo ω ∈ Ω. 1] dada por de X es la funcion FX (x) := P{X ≤ x} ∀ x ∈ IR. de X es la funcion FX (x) = 0 si x < 0. la f.d. x]. Es claro que tal funcion v. ´ Sea X una v. (8) 4. inducida por X es la m.a. se dice que X es una v. B(IR)) definida como PX (B) := P{X ∈ B} ∀ B ∈ B(IR).d.a.4 Definicion. = 1 si x ≥ c. Bernoulli. (a) Se dice que X := Ω → IR es una v. 9(c). (b) FX (+∞) := lim FX (x) = 1 y FX (−∞) := lim FX (x) = 0. 2 ´ F : IR → [0. Demostracion. definida en (2. = Ω si x ≥ 1. entonces {X ≤ x} ⊂ {X ≤ y}.e. FX satisface que (a) FX es no–decreciente. IA (ω) := 1 si ω ∈ A. Análogamente.. FX (−n) = P{X ≤ −n} → 0 pues {X ≤ −n} ↓ φ.a. Por lo tanto (a) se sigue de la propiedad de monoton´ıa 1. x→∞ x→−∞ (c) FX es continua por la derecha. 2 4. su f. 1] que satisface las propie4. ´ Notese que {IA ≤ x} = φ si x < 0. := 0 si ω ∈ 6 A.3).38 Probabilidad Un caso particular de v. (c) Como {x < X ≤ x + y} ↓ φ cuando y ↓ 0. entonces FX (x+) = FX (x) para todo x ∈ X.6 se dice que es una funcion dades (a).8 Definicion. si FX (x+) := limy↓x FX (y) es el l´ımite de FX en el punto x por la derecha. es decir. (b) Puesto que {X ≤ n} ↑ Ω cuando n → ∞.11(b). es decir si x < y entonces FX (x) ≤ FX (y). (b) y (c) de la Proposicion ´ de . por 1. P{IA = 1} = P(A) y P{IA = 0} = 1 − P{IA = 1} = P(Ac ). ´ (Propiedades de FX ) Si X es una v. FX (x + y) − FX (x) = P{x < X ≤ x + y} ↓ 0.11(a) da que FX (n) = P{X ≤ n} → 1.6 Proposicion. la propiedad de continuidad 1. ´ Cualquier funcion ´ 4.a.d. Bernoulli es la funcion ´ indicadora IA de un evento A ∈ F. i. ´ (a) Si x < y. Además. = Ac si 0 ≤ x < 1. P) y ´ una v.. de una v. i.p.e.9 Observaciones. En particular.p. entonces existe una unica ´ medida de LS µF .18 con la formula (10) en lugar de la `(a.a. X. el rec´ıproco es falso.. la m. (Vea la Proposicion 4. Decimos que µ es una medida de Lebesgue–Stieltjes (abreviado: medida de LS) si µ(I) < ∞ para cualquier intervalo I ⊂ IR acotado. (Explique. (a) Por la Proposicion f.a. basándose en el Teorema de extension ´ dory 1.a.d. 1] es una f.d.d..p. X es de LS (ver (7)). X sobre Ω cuya f. x] ∀ x ∈ IR (9) es una f. sobre IR. µ sobre IR son medidas de LS. de hecho una m.p. FX = F .d. Variables aleatorias 39 distribucion ´ de probabilidad (abreviado: f. puede ocurrir que FX = FY aunque las vv. si F es una f. ´ Sea µ una medida sobre (IR. Y ni siquiera estén definidas en el mismo espacio de probabilidad. PX inducida por una v. ´ F : IR → IR definida como Si µ es una m. es F . es decir. FX = FY 6⇒ X = Y.p. B(IR)).19 y en el Ejemplo 1. Por ejemplo.4. b] = F (b) − F (a) ∀ intervalo (a. El rec´ıproco también es cierto.10 Definicion.aa.d. b] ⊂ IR.p.aa.p.d.) Rec´ıprocamente. (10) ´ de este resultado es muy parecida a la construccion ´ de la (La demostracion ´ de Carathéomedida de Lebesgue. la medida de Lebesgue λ y una m.d. y X = Y .6 la f. entonces la funcion F (x) := µ(−∞. b] := .) ´ 4.p. (Compare (9) con (8). X es una 4. caracterizada por el hecho de que µF (a.) 2 4. De hecho. entonces es claro que FX = FY . entonces existe un espacio de probabilidad (Ω.) (b) Si X y Y son vv. en el siguiente sentido: Si F : IR → [0. F.11. Sin embargo.p. 1. ´ Sea (Ω. . .p. ´ del Ejemplo 3. .13 Ejemplo.4. Las vv.11 Proposicion. Demostracion. .40 Probabilidad b − a. Entonces X es una v. por ejemplo.a. ´ Si F es una f. En particular. Entonces FX (x) := P{X ≤ x} = F (x) para todo x ∈ IR. F. 1.5 son discretas. P) y una v. inducida por F . . n P{X = k} = pk q n−k ∀ k = 0.4. Sea X := numero de e´ xitos. el libro de Ash (1972). suponga que se rea4. . P{Y = k} = q k · p ∀ k = 0. . .} y.) Supongase que el experimento en el inciso (a) se repite hasta que ocurre el primer ´ e´ xito. por independencia. . Y = 0 ssi ocurre e´ xito en la primera ´ del experimento.a. entonces existe un espacio de probabilidad (Ω.. como en (10). En general.d. Teorema 1.d.9. .a. B(IR)) y sea P la medida de LS definida (o inducida) por F sobre B(IR). sea X la v. . Y toma valores en el conjunto realizacion S = {0. Sea Y la v. . es decir. además. . Para más detalles vea.a. FX (x) = F (x) para todo x ∈ X. Finalmente. sobre Ω = IR definida como X(ω) := ω para todo ω ∈ IR. . en el Ejemplo 4. 4. 1. X es discreta si existe un conjunto ´ finito o infinito numerable S ⊂ IR tal que X toma valores en S unicamente. y en s´ımbolos escribimos X ∼ Bin(n. p).aa. ´ (b) (Recuérdese la densidad geométrica en el Ejemplo 2.12 Definicion. n.2(c). ´ Se dice que una v.) A µF se le llama la m. 2 4. FX coincide con F . k En este caso se dice que X tiene distribucion ´ binomial con parámetros n y p. . discreta con valores en el conjunto S = {0.p. X sobre Ω cuya f. F) := (IR. es decir.a. (a) Como continuacion lizan n repeticiones independientes de un experimento que tiene proba´ bilidad p (0 < p < 1) de “éxito” y q := 1 − p de “fracaso”. . que cuenta el numero de repeticiones que ocurren antes del primer e´ xito. 1. n} y. 4.15 Observacion. y (b) P se cumple para todo x 6∈ A. X ∼ N (0. ´ Sea (Ω. µ) = (IR. b]. En particular. En el Ejemplo 2. Variables aleatorias 41 En este caso se dice que Y tiene distribucion ´ geométrica con parámetro p. si X tiene la densidad uniforme en [a. σ 2 ).4. b]. y escribimos Y ∼ Geo(p). En otras palabras. ´ Se dice que una v. λ) y supongase que FX satisface (11).d. para el caso de la densidad exponencial con parámetro λ escribimos X ∼ Exp(λ). 1) significa que X tiene densidad normal estándar.q. Decimos que una cierta propiedad P se cumple µ–casi donde quiera (abreviado: µ–c. por ejemplo.) si P se cumple en todo Ω excepto en un conjunto de medida µ igual a cero. F. sea (Ω. Asimismo. no–negativa. En algunos de tales casos se utiliza una nomenclatura especial. que X ∼ Uni[a.11 vimos algunos ejemplos de densidades continuas. 4. Por ejem´ plo. B(IR). ´ Por ejemplo. X es absolutamente continua si ´ de Borel f : IR → IR. calculando la integral en (11) vemos . Entonces. Para ser más concretos. supongase.14 Definicion. F. y tal que existe una funcion Z x FX (x) = f (y)dy ∀ x ∈ IR. y para la densidad normal con parámetros m y σ 2 escribimos X ∼ N (m. b] y f (x) := 0 para x 6∈ [a. b].a. (11) −∞ En este caso se dice que f es la densidad de probabilidad (o simplemente la densidad) de X.q.d. existe un conjunto A ∈ F tal que (a) µ(A) = 0. simbolicamente escribimos X ∼ Uni[a. µ) un espacio de medida. Entonces se puede demostrar que la derivada FX0 existe y coincide con ´ la densidad f λ–c. b] de modo que X tiene la densidad f (x) := 1 b−a si x ∈ [a. Es decir.. FX (x) = −∞ = x−a b−a si a ≤ x < b. 1/3] ∪ [2/3.42 Probabilidad que Z x f (y)dy = 0 si x < a. = 0 si x < 0.) Sea C1 := [0.. Entonces se tiene que FX0 (x) = f (x) para todo x ∈ IR excepto en el conjunto A = {a. . ´ (b) dice que µF está concentrada en un En otras palabras.) Otro ejemplo: si X ∼ Exp(λ).c. excepto en x = 0. b}. la condicion conjunto nulo con respecto a λ. es decir.8(d). recuerde que λ(B) = 0 si B es un conjunto numerable.d. el cual tiene medida de Lebesgue λ(A) = 0. (Del Ejemplo 1. (La distribucion ´ de Cantor. pero µF (S) = 1.d. Definion. 0 en c. la funcion f1 (x) = c1 si x ∈ C1 .p. y µF la medida de LS inducida por F .d. entonces FX (x) = 1 − e−λx si x ≥ 0. ´ Sea F una f. Se dice que F es continua singular si (a) F es continua y (b) existe un conjunto de Borel S ⊂ IR que tiene medida de Lebesgue λ(S) = 0. Ejemplo.q. FX0 = f λ–c. 1]. Sea f1 ´ de densidad uniforme sobre C1 y F1 su f. (12) = 1 si x ≥ b. de modo que la derivada FX0 (x) = f (x) = la densidad exponencial para todo x ∈ IR. Fn son continuas y convergen uniformemente porque.4. y a ∈ IR. X2 . 7/9] ∪ [8/9. X + Y. 4. 2/3 ≤ x < 1. si m < n. tal que Fn (x) → F (x) para todo x ∈ IR.. Vea Concluimos esta seccion también el Ejercicio 4.aa.17 Observacion. 0 ≤ x < 1/3. sean C2 := [0. Y ) y |X| son vv. Entonces de 4. de modo que µF (C) = 1. F es continua singular porque λ(C) = 0. 1/9] ∪ [2/9. Variables aleatorias 43 con c1 = 3/2. 1/3] ∪ [2/3.d. f1 la densidad uniforme sobre C2 .d. Análogamente.16 vemos que V es un .p.8. y  0     Z x  (3/2)x 1/2 F1 (x) := f1 (y)dy =  −∞  (3/2)x − 1/2    1 si si si si si x < 0. es claro que la medida µF del complemento de C es cero. entonces aX. min(X. 1]. XY. y Z x Fn (x) := fn (y)dy.p. ´ de los 2n intervalos ajenos de En general. definidas sobre un espacio de probabilidad dado. max(X. m 1 |Fm (x) − Fn (x)| ≤ ∀x 2 Por lo tanto. 0 en c. −∞ Las f. ´ Sea V la familia de todas las vv. si C := ∞ n=1 Cn es el conjunto Cantor. 2 ´ con varias proposiciones elementales.d.p. x ≥ 1. con cn = (3/2)n . Además. para n ≥ 2. sea Cn la union longitud (1/3)n que se obtienen al eliminar los “tercios medios” de los 2n−1 intervalos ajenos de longitud (1/3)n−1 en Cn−1 . ´ Si X y Y son vv.aa.aa.16 Proposicion. T F continua. Por lo tanto. 4. y F2 su correspondiente f.c. Y ). existe una f. 1/3 ≤ x < 2/3. Sea fn (x) := cn si x ∈ Cn . Teorema 1. k ´ En particular.} 4. ´ En Análisis Real. ´ Si X es una v. una funcion ´ un numero finito de valores (como la v. Funciones medibles: caso general ´ Sean (Ω.a. 4. .a. ´ {Xn } en 4.21 Proposicion.4.20 Proposicion.5. entonces existe una suce´ {Xn } de vv.a.44 Probabilidad espacio vectorial.18 Proposicion. ´ da un criterio muy util ´ para verificar medibiliLa siguiente proposicion dad. es decir aX y X + Y están en V para todo a ∈ IR y X. Y en V . .18) se dice que es una funcion 4. discreta en la segunda parte de ´ simple. Se dice que una funcion X : Ω → Ω0 es medible con respecto a F y F0 si X−1 (B) ∈ F ∀ B ∈ F0 .5. la Equivalentemente.} de eventos que forman una particion ´ de en IR y una sucesion Ω tales que X (13) X= xk IAk . Véase. por La sucesion ejemplo. usando la notacion ´ X es medible ssi funcion X−1 (F0 ) ⊂ F.aa. x2 . F0 ) dos espacios medibles.11. . . ´ medible que toma solo ´ 4. ´ Sea C una familia de subconjuntos de Ω0 que genera a . discreta con un numero finito de valores ssi ´ lineal (finita) de funciones X se puede expresar como una combinacion indicadoras de conjuntos ajenos. discretas con un numero ´ sion finito de valores tales que Xn ↑ X. A2 .20 se puede construir expl´ıcitamente. discreta ssi existe una sucesion ´ {A1 . .G. Bartle (1995). . 4.19 Observacion. (14) ´ introducida en el Ejercicio 1. Lema 2. ´ {x1 . el libro de Ash (1972). ´ X es una v.a. F) y (Ω0 . o el libro de R. The Elements of Integration and Lebesgue Measure. no negativa. X es una v. y] ∈ F para cualquier intervalo cerrado [x. podemos escribir (7) como PX (B) := P[X−1 (B)] ∀ B ∈ B(IR). Entonces C ⊂ D y como D es una σ–álgebra σ{C} ⊂ D ⊂ F0 .3 Sea FX la f. Demuestre que la funcion ´ en (7) es efectivamente una m. x]. i.2. Finalmente. es decir. F0 ) = (IR. (15) Deseamos demostrar (14). Para demostrar la suficiencia. µ) un espacio de medida ´ dada. y] en IR. FX (x−) := lim FX (y) y↑x .a. con x ∈ IR.p. su´ pongase que X−1 (C) ∈ F ∀ C ∈ C. vemos que la condicion Ejercicios § 4 4. sobre (Ω. de una v.e.1 (Compare con el Ejemplo 4. Notese que. X y sea FX (x−) el l´ımite de FX en el punto x por la izquierda.a.d. Demuestre que las siguientes proposiy X := Ω → IR una funcion ciones son equivalentes: (a) X es F–medible. B(IR)) y recordando que la familia C de todos los intervalos (−∞. genera la σ–álgebra de Borel B(IR). sobre IR. (c) X−1 (C) ∈ F para cualquier conjunto cerrado C en IR. 4. ´ PX definida 4. P). Variables aleatorias 45 F0 . ´ La necesidad es obvia. F. más expl´ıcitamente. (b) X−1 [x.) Sea (Ω. Demostracion.4. concluimos que F0 = D y por lo tanto X−1 (F0 ) ⊂ σ{X−1 (C)} ⊂ F. F. 2 Tomando (Ω0 . ´ (2) es un caso especial de (15). como σ{C} = F0 .2 Sea X una v. Entonces X : Ω → Ω0 es medible con respecto a F y F0 ssi X−1 (C} ⊂ F. Con este fin considere D := {B ∈ F0 |X−1 (B) ∈ F}. σ{C} = F0 . Es fácil ver que. En este curso solo estudiaremos funciones h(X) que son vv. F. y h : IR → IR una funcion Demuestre que la composicion ´ h ◦ X : Ω → IR es una v.a. (g) P{X = x} = FX (x) − FX (x−). FX es continua en x ssi P{X = x} = 0. Y := aX + b. con B ≡ B(IR). Observe que si FX es continua en x. por lo tanto.4(d) deduzca que. si FX es continua en x. b numeros reales con a > 0. 4.5 Sea X : Ω → IR una v. las funciones ´ que se estudian en cursos de cálculo) son de Borel.46 Probabilidad Demuestre que FX satisface: (a) P{X > x} = 1 − FX (x). en (b) se tiene P{X < x} = FX (x).g. una funcion De hecho. si FX es continua en x y y. Calcule FY a cuando a < 0. Demuestre que FY (x) = FX ( x−b ) para todo x ∈ X.a.6(c). prácticamente todas las funciones “usuales” (e. Del Ejercicio 1.aa. entonces FX (x−) = FX (x+) = FX (x) con FX (x+) como en 4. por ejemplo. (Recuerde que h ◦ X(ω) := h(X(ω)). (b) P{X < x} = FX (x−). Considere la v. y sean a. (a) Frecuentemente la composicion ´ continua h : IR → IR es de Borel. (e) P{y < X < x} = FX (x−) − FX (y).) ´ h ◦ X se escribe como h(X).a. X−1 (B) := {X−1 (B) | B ∈ B} . ´ de Borel. P). entonces las probabilidades en (d)–(f) son iguales a la probabilidad en (c).4 Sea X una v. (d) P{y ≤ X ≤ x} = FX (x) − FX (y−).a. Asimismo. (f) P{y ≤ X < x} = FX (x−) − FX (y−). 4. (c) P{y < X ≤ x} = FX (x) − FX (y). ´ 4. Por lo tanto.6 Sea X una v. sobre un espacio de probabilidad (Ω.a. Nota. (b) Nota. entonces X es F–medible. 4.’s es una f. 4. Nota. y considere la v.1).d.e. X−1 (B) ∈ G para todo B ∈ B(IR)). ´ de Borel.p. Además. 4. En probabilidad.) Sea G una f. (b) Si Xn converge puntualmente a X. de Y es FY = G.p. . .d. Por tal motivo también se dice que σ{X} es la m´ınima σ–álgebra de Ω con respecto a la cual X es medible.d. entonces G contiene a X−1 (B) ≡ σ{X}. Variables aleatorias 47 es una σ–álgebra de Ω. . ´ 4. demuestre que X−1 (B) es una sub–σ– a´ lgebra de F. Es claro que si G es cualquier σ–álgebra de Ω con respecto a la cual X es medible (i. es decir. de X está dada por (12) con a = 0 y b = 1. entonces σ{Y } ⊂ σ{X}.7 Sean X y Y vv. (La f.’s y α1 .d. . a X−1 (B) usualmente se le denota por σ{X} y se le llama la σ–álgebra generada (o inducida) por X. entonces α1 F1 + · · · + αn Fn es una f. si F1 .p. Fn son f. X−1 (B) ⊂ F. ´ Es decir. . inf Xn . . que es continua y estrictamente creciente.12 Supongase que X ∼Exp(λ) y sea c > 0 una constante dada. 1].d.aa. ´ de funciones F–medibles (Definicion ´ 4. Demuestre que la f.8 Sea {Xn } una sucesion Demuestre: (a) sup Xn . .d. Demuestre 4.9 Demuestre que una combinacion ´ convexa de f.11 Sea X una v. continua con densidad f (x) := 1 −|x| e 2 ∀ x ∈ IR. lim sup Xn y lim inf Xn son funciones F–medibles. Calcule P(X ≥ 0) y P(|X| ≤ 2). y h : IR → IR una funcion que si Y = h(X).p.4.a. αn son numeros no negativos tales que α1 + · · · + αn = 1. 4. . Calcule .a.p.10 Sea X ∼Uni[0. Y := G−1 (X).d. ) . después use la expresion (b) Γ(p + 1) = p · Γ(p) ∀ p > 0.a. 1√ 3√ Γ(3/2) = π. . del inciso (a).6) Z ∞ Γ(p) := xp−1 e−x dx para p > 0. FX (x) = = = = 0 x/3 x/2 1 si si si si x < 0.14(a) y 2.11). (Observe que si α = 1 se obtiene una densidad exponencial. α α−1 −(βx)α si x ≥ 0 := αβ x e ´ de densidad de probabilidad.) 4. Calcule P(1/2 ≤ X ≤ 3/2). 1 ≤ x < 2. β.16 Sean α y β numeros positivos. 4. Γ(5/2) = π. x ≥ 2.13 Sea X una v. P(X > 1).d. (∗) 0 √ Demuestre que: (a) Γ(1/2) = π. 2 4 ´ normal estándar N (0. (d) Γ(n/2) = (n/2 − 1) · Γ(n/2 − 1) para cualquier entero n ≥ 3.) ´ 4. En particular. P(X ≥ 1) y P(1 ≤ X ≤ 3/2). 0 ≤ x < 1.15 Demuestre que si X tiene distribucion 2 entonces X tiene densidad gama con parámetros p = λ = 1/2.48 Probabilidad la densidad de Y := cX. con f. (Sugerencia: en (*) haga el cambio de ´ (2.6(b). (c) Γ(n + 1) = n! si n es un entero positivo. (Sugerencia: Use los Ejercicios 4. A f se le llama la densies una funcion dad Weibull con parámetros α.) variable x = y 2 /2. 4. 1). (Sugerencia: use el Ejercicio 3. . Demuestre que f (x) := 0 si x < 0.14 Considere la funcion ´ gama (definida en el Ejercicio 2. . P(1/2 ≤ X ≤ 1). 6(c) tenemos. si Fi ≡ FXi es la f. para cada vector x = (x1 . ´ conjunta en (1) tiene esencialmente las mismas propieLa distribucion ´ 4. . . . • FX (x1 . distribucion Si X1 . Contenido: Vector aleatorio. . A la funcion X1 . . . P) decimos que X = (X1 . xn ) → 1 si xi ↑ ∞ para todo i = 1. . xn ) en IR . . . . . . . . respectivamente. . y FX (x1 . . Vectores aleatorios 5 49 Vectores aleatorios ´ conjunta. n. n). distribucion ´ marginal. . la condicion ´ en el caso n = 2. densidad conjunta. Xn ≤ xn } := n \ (1) {Xi ≤ xi }. . . . . como FX (x) := P(X ≤ x) = P{X1 ≤ x1 .aa. ´ de que FX sea “no decreciente” (ver 4.) es un vector aleatorio (de dimension n de X se define. xn ) → 0 si xi ↓ −∞ para alguna i. . .6. marginal del vector X. unidimensional. . densidad marginal. .5. x2 ) ∈ IR2 | ai < xi ≤ bi . . xn ) es continua por arriba en cada argumento xi (i = 1. . . a2 ) y b = (b1 . se dice que Fi es la i–ésima f. .6(a)) es Sin embargo. La funcion ´ de distribucion ´ (f. .d. . . F. . sobre (Ω. de Xi (i = 1. i=1 ´ FX también se le llama la distribucion ´ conjunta de las vv. .aa. un poco más elaborada y la explicaremos solo Si a = (a1 . Xn ≤ xn }.d. Xn ) : Ω → IRn ´ n). . . b] := {x = (x1 . . . En particular.aa. vea la Proposicion en lugar de 4. • FX (x1 . Xn . dades que una f. . . . .d. . n). independencia de vv. .d. en donde {X1 ≤ x1 . .6(b) y 4. Xn son vv. Por otra parte. b2 ) son dos vectores en IR2 con a < b (es decir ai < bi ) definimos el “intervalo” (a. . . . . xj →∞ Por ejemplo. . Si x2 ↑ ∞. . (2) lim FX (x1 . En este caso la funcion f (x1 . se sabe que µF se puede “extender” a una unica medida 2 2 de LS sobre (IR .) ´ conjunta FX . o también se dice que f es la densidad conjunta de las vv. x2 ) = P{X1 ≤ x1 .aa. a2 ). . Xn = xn } (4) se llama la funcion ´ de densidad del vector X. y se sigue que {X1 ≤ x1 .10). µF es una m. Por lo tanto. ´ Por otra parte. Xn son discretas.aa. . es decir Fi (xi ) = lim FX (x) ∀ 1 ≤ j ≤ n. X1 . x2 ). .50 Probabilidad para i = 1. Algunas veces escribimos . b2 ) − F (b1 . ´ 1. . X2 ≤ x2 }. x2 ) = P{X2 ≤ x2 } = F2 (x2 ). por la continuidad de P (vea la Proposicion lim FX (x1 . b] := F (b1 . escribiendo F (x1 .) Entonces F es “no decreciente” en el (Compare esta expresion sentido de que • µF (a. a2 ) + F (a1 . . b] ≥ 0 ∀ a < b. xn ) := P{X1 = x1 . . para calcular la i–ésima f.p. x2 ) = P{X1 ≤ x1 } = F1 (x1 ). . . . ´ X1 . (3) x2 →∞ Análogamente. µF (a. . 2} y. entonces {X2 ≤ x2 } ↑ Ω. . (De hecho.11(a)). . con j 6= i. . B(IR )). de modo que X = (X1 . . consideremos el caso n = 2. b2 ) − F (a1 . X2 ≤ x2 } ↑ {X1 ≤ x1 } ∩ Ω = {X1 ≤ x1 }. marginal Dada la distribucion Fi en un punto arbitrario xi se toma el l´ımite en (1) cuando xj → ∞ para todo j 6= i. Xn ) es discreto si las vv. . x2 ) := FX (x1 . . X2 ) y (1) se reduce a FX (x1 . es decir una medida µF tal que µF (I) < ∞ para cualquier “intervalo” acotado I ⊂ IR2 . x1 →∞ Se dice que el vector aleatorio X = (X1 . Xn . ´ con (4. .d. . yn )dy1 . . . podemos escribir (4) como f (x. . Por obtiene sumando la funcion ejemplo. . Al igual que en el caso discreto. n) se llama la i–ésima densidad marginal de X y se calcula como en (5) y (6) cambiando las sumas por integrales. (8) Z −∞ ∞ f2 (y) = f (x. . La densidad fi de la v. y) ∀ x ∈ X. y)dx ∀ y ∈ IR. . si n = 2.p.aa. a f se le llama la funcion ´ de densidad de X o la densidad conjunta de las vv. para n = 2. . F) un espacio medible e I un conjunto arbitrario de ´ındices. . Por otra parte. (5) y f2 (y) = X f (x. Decimos que las σ–álgebras . Vectores aleatorios 51 fX en lugar de f . .d. X2 = y} y entonces X f1 (x) = f (x. (6) x ´ 4. . . . . Para cada i ∈ I.. Xn ) es absolutamente continuo si exis´ de Borel f : IRn → IR no negativa y tal que te una funcion Z xn Z x1 FX (x1 . xn ) = . X1 .. . además. . a la densidad fi (x) := P{Xi = x} de Xi se le llama la i–ésima densidad marginal. En particular. . La densidad marginal fi se ´ en (4) sobre todos los valores xj con j 6= i.5. . . pero λ(S) = 0. . . . . Sea (Ω. dyn (7) −∞ −∞ n para todo vector (x1 . f (y1 . xn ) en IR . Xi (i = 1. y)dy ∀ x ∈ IR. y) = P{X1 = x. . X2 ) están dadas por Z ∞ f1 (x) = f (x. Xn . existe un conjunto de Borel S ⊂ IRn tal que µF (S) = 1. F : IR → IR se dice que es continua singular si es continua y. donde λ es la medida de Lebesgue.7 definimos el concepto de independencia de eventos y de σ–álgebras. y) ∀ y ∈ Y. podemos recordar lo siguiente. . las densidades marginales de X = (X1 . (9) −∞ n ´ Por ultimo.14 se extiende en forma natural a vectores aleatorios: La Definicion decimos que el vector X = (X1 . Independencia En 3. una f. Es decir. . .a. . sea Fi una sub–σ–álgebra de F. Bn ∈ B(IR). (b) P{X1 ∈ B1 .aa. . Xn ∈ Bn } = P{X1 ∈ B1 } · · · P{Xn ∈ Bn } ∀ B1 . vea el Ejercicio 2. . ´ 5.. {Xi .a.aa. . . n. . . (c) F (x1 . Fi ). . . . . ´ con5. . . ´ Para cada i ∈ I. . Sea σ{Xi } ≡ Xi (Fi ) la sub–σ–álgebra de F generada por Xi (vea el Ejercicio 4. (d) Las vv. Fi ) −1 una v. . (a) Las vv. de la Esta definicion siguiente manera. B(IR)) y. xn ) y. En el caso especial en el que (Ωi . obtenemos trivialmente el siguiente hecho.6). . xn ) ∈ IRn . I es un conjunto finito. . Con respecto a la parte (d) en el teorema anterior. . Se dice que las vv. . para cada i = 1. Fi ) un espacio medible y Xi : (Ω. . . ´ de independencia de σ–álgebras se extiende a vv. i ∈ I} son independientes si la σ–álgebras {X−1 i (Fi ). sea Fi la distribucion de Xi . Xi pueden tomar En la Definicion valores en conjuntos distintos (Ωi .aa. i ∈ I} son independientes si para cualquier subconjunto finito J de I. . i = 1. . . h1 (X1 ).52 Probabilidad en la familia {Fi . . . sea (Ωi . y cualesquiera conjuntos Ai ∈ Fi . . i ∈ I} son independientes. n. . .1 Definicion. .aa. además. Sea X= (X1 . . Entonces las siguientes proposiciones son equivalentes.2 Teorema. . . hn (Xn ) son independientes para cualquier conjunto de funciones de Borel hi : IR → IR. Fi ) ≡ (IR. Xn son independientes. . .aa. 5.1 es importante notar que las vv. . X1 . . . se cumple que P (∩i∈J Ai ) = Πi∈J P(Ai ). . . xn ) = F1 (x1 ) · · · Fn (xn ) ∀ (x1 . Xn ) un vector aleatorio con distribucion ´ marginal junta F (x1 . . es decir X−1 i (B) ∈ F para cada B ∈ Fi . F) → (Ωi . . 3. . . .4 Ejemplo. y) de Y se obtiene sumando cada columna: f2 (1) = f2 (3) = 5/16. Entonces X1 . Sean X y Y vv. xn ) = f1 (x1 ) · · · fn (xn ) ∀ (x1 . la densidad marginal f1 (x) = cada fila de la tabla lo cual da 3 4 1/16 1/16 1/4 P y 1/8 f (x. . Xn son independientes ssi f (x1 . De aqu´ı se sigue que X y Y no son independientes porque no se satisface (10). . por ejemplo. Vectores aleatorios 53 Para vv. f2 (2) = f2 (4) = 3/16. 1). . xn ) ∈ IRn . respectivamente. demostracion 5. 2. .5.5 Ejemplo. (10) 5. . . Xn vv.3 Teorema. P Análogamente. .) Sea |ρ| < 1 un numero 2 1/2 dado y r := (1 − ρ ) . .aa. la marginal f2 (y) = x f (x. . . discretas o continuas el concepto de independencia se puede expresar usando densidades. Y ) tiene distribución normal bivariada estándar si su densidad conjunta f := IR2 → IR .aa. . El resultado preciso es el siguiente. Suponga que la densidad conjunta está dada como en la siguiente tabla. . f (1. . cuya ´ se puede ver. Por ejemplo. . discretas o continuas con densidad conjunta f (x1 . 1) = 1/4 pero f1 (1) · f2 (1) = (1/2)(5/16) 6= f (1. . sea fi la densidad marginal de Xi . . . . 2} y {1. y) de X se obtiene sumando f1 (1) = f1 (2) = 1/2. Sean X1 . xn ) y. discretas con valores en {1.4). en el libro de Ash (Teorema 5. 2 ´ 5. . n. Se dice que el vector aleatorio (X.8. para cada i = 1. . 4}. (Distribucion ´ normal bivariada. 1 2 1 1/4 1/8 2 1/16 1/16 Por (5). .aa. y)dx = (2π)−1/2 e−y /2 ∀ y ∈ IR.54 Probabilidad está dada por f (x. 1) y Y ∼ N (0. ´ (a) Primero observe que “completando cuadrados” el numerador del exponente en (11) se puede escribir como x2 − 2ρxy + y 2 = (x − ρy)2 + y 2 (1 − ρ2 ) = (x − ρy)2 + y 2 r2 . como −∞ g(x)dx = 1. podemos expresar (11) en la forma f (x. y) = 1 −(x−ρy)2 /2r2 −y2 /2 e ·e . i.e. Análogamente. Z ∞ 2 f1 (x) = f (x. X ∼ N (0. −∞ Luego. (12) Por lo tanto. 1). −∞ . i. (11) (a) Demuestre que las densidades marginales de X y de Y son ambas la densidad normal estándar. y) = 1 −(x2 −2ρxy+y2 )/2r2 e 2πr ∀ (x. f2 (y) = ∞ es decir. Y ∼ N (0. y) ∈ IR2 . y)dy = (2π)−1/2 e−x /2 ∀ x ∈ IR. (b) X y Y son independientes ssi ρ = 0. Solucion. tenemos Z ∞ e−(x−ρy) 2 /2r 2 dx = (2πr2 )1/2 . y en las ecuaciones (12)–(14) se obtiene que X ∼ N (0. 2πr (13) ´ Notese también que por el Ejemplo 2. intercambiando el papel de x. la densidad normal N (ρy.10(c).e. integrando ambos lados de (13) con respecto a x obtenemos la densidad marginal de Y : Z ∞ 2 f (x. 1). 1). por (9). r2 ) tiene densidad 2 2 g(x) = (2πr2 )−1/2 e−(x−ρy) /2r (14) R∞ de modo que. Vectores aleatorios 55 (b) Por el inciso (a). si cualquier combinacion ´ normal (posiblemente degenelineal a1 X1 + · · · + an Xn tiene distribucion rada. ´ Hasta ahora. ´ o que tiene distribucion ´ normal multivariada. . 0) si todos los coeficientes a1 .) 5. Es decir. σ ) hemos supuesto que σ es un numero positivo. Considérese la densidad normal bivariada en (11) con ρ = 0. Xn ) es De la Definicion un vector gaussiano. 0) es una distribucion ´ N (m. 2 ´ normal o gaus5. 5. por razones técnicas es conveniente considerar también σ 2 = 0.8 Ejemplo. por ejemplo N (0. . ´ Un vector aleatorio (X1 . y) = Comparando esta expresion f1 (x) · f2 (y) ssi ρ = 0.7 se sigue de manera obvia que si (X1 . y) ∈ IR2 . . constante m y este caso. . . En ´ de la v. entonces las distribuciones marginales también son gaussianas. al hablar de la distribucion 2 2 ´ siana N (m. σ 2 ) tiene la densidad Por supuesto. 0) se interpreta como la distribucion ´ normal degenerada. vea el caso bivariado en que consideramos a continuacion. existen vectores aleatorios que no son gaussianos pero cuyas marginales s´ı son gaussianas. el rec´ıproco es falso. f (x. como en el siguiente ejemplo.5. .7 Definicion. ´ 10 veremos una caracterizacion ´ de la distribucion ´ normal En la Seccion multivariada usando “funciones caracter´ısticas”. Xn ) se dice que es gaussiano.a. . . A esta distribucion ´ normal multivariada siana) univariada para distinguirla de la distribucion ´ (En particular. la distribucion f (x) = (2πσ 2 )−1/2 e−(x−m) 2 /2σ 2 ´ se le llama distribucion ´ normal (o gausssi σ 2 > 0. Sin embargo. N (m. . Sin embargo. el ejemplo anterior. an son cero). es decir. f1 (x) · f2 (y) = 1 −(x2 +y2 )/2 e 2π ∀ (x. ´ con (11) se obtiene (b). . . . . ´ 5.6 Convencion. algunas veces decimos que N (m. si el vector (X1 . .1 Demuestre que si X1 . independientes. .a. . .aa. f (x. la densidad bivariada g no es gaussiana porque su soporte no es todo el plano ni tampoco es un sub´ 1.) quier subcoleccion 5. 1).aa. cada una de las vv. y) ∈ IR2 . Xn ) no es gaussiano). y) ∈ D. . y) := 0 en c. (a) Encuentre las densidades marginales de X y Y . . y f (x. . X1 . y) 6∈ D. pero el vector (X1 . (b) Demuestre que X y Y no son independientes. Xk para k < n. . 2π Ahora sea (X1 . . Xn ) es gaussiano. gaussianas no necesiana.c. . Xn es gaussiana. Sin embargo. g(x. . . .56 Probabilidad i. . . Ejercicios § 5 5. Xn son independientes. 5. Vea el Ejercicio 5. independientes. y) = 1/π si (x. . 2 espacio de dimension ´ 5. es decir.8. se puede ver que cual´ Xi1 .aa.aa. . . Sin embargo. . . . . la densidad conjunta de X y Y es f (x. y) ∈ IR2 |x2 + y 2 ≤ 1}.aa. . . . 1 −(x2 +y2 )/2 e ∀ (x. . .2 Sean h1 . h1 (X1 ). X2 ) el vector con densidad conjunta 2f (x. . . Volviendo a la Definicion ´ lineal a1 X1 + · · · + an Xn es una v. Xik de X1 . entonces también lo son X1 .e. . gausentonces cualquier combinacion ´ lineal de vv. . . . Demuestre que si X1 . una combinacion ´ normal sariamente es gaussiana si las variables no tienen una distribucion multivariada (es decir. (De hecho. . . .7. hn : IR → IR funciones de Borel. . hn (Xn ). . Xn son vv. y) = Entonces se puede demostrar (Ejercicio 5. y) si xy ≥ 0. y) = 0 si (x. entonces también lo son las vv. .7) que las densidades marginales de X1 y X2 son ambas N (0.3 Sea (X. Xn son vv. . Y ) un vector aleatorio que tiene densidad “uniforme” sobre el disco unitario D := {(x. . (b) M y W son funciones de distribucion 5.6 Sean X1 . . A las funciones ´ M y W se les llama las cotas de Fréchet–Hoeffding de la distribucion conjunta H. .a. Sea Y := B ´ N (0. y) para todo (x. . y) ≤ M (x.) . 5. y) ≤ H(x. 1). Demuestre que. .5. distribucion mientras que X + Y = 2X cuando B = 0. Sean Y := max{X1 .aa. Y ≤ y} la f. y) := min(F (x). pero X + Y no tiene (−1) X. respecti5. . . 1). P{Z ≤ x} = 1 − F˜1 (x) · · · Fñ (x).7 Sea g(x. Xn }. conjunta. 1. respectivamente. y B una v. Xn vv. y) = 0 en c.8. f es una funcion densidad. 0). . Supongase que X y B son independientes. efectivamente. Demuestre que Y y Z tienen distribucion P{Y ≤ x} = F1 (x) · · · Fn (x). . con funciones de distribucion vamente. y sea H(x. n. Demuestre que las densidades marginales de g son ambas N (0. . .5 Sean X y Y vv. . 5.8 Sea X una v. y) := P{X ≤ x.aa. independientes con funciones de distribu´ F1 . sean M (x. y) := max(F (x) + G(y) − 1. |y| < 1 4 ´ de y f (x. (Observe que P(X + Y = 0) = P(B = 1) = 1/2. . Fn . . Bernoulli con P(B = i) = ´ 1/2 para i = 0. Xn } y Z := min cion ´ {X1 . . Y ) un vector aleatorio con densidad conjunta 1 f (x. y) ∈ IR2 . . Demuestre que: (a) W (x. y) la densidad conjunta en el Ejemplo 5. y) = [1 + xy(x2 − y 2 )] para |x| < 1. ´ conjunta.d. ´ F y G. Para cada (x. . . N (0. para todo x ∈ IR. Calcule las densidades marginales de X y Y . .c. . y) ∈ IR2 .a. Demuestre que Y tiene distribucion ´ normal. Vectores aleatorios 57 5. . G(y)) y W (x. donde F˜k (x) := 1 − Fk (x) para k = 1.4 Sea (X. 1). } y funcion de densidad fX (xi ) := P(X = xi ). vv. Si se cumple que X |xi | fX (xi ) < ∞. discreta con valores en el conjunto {x1 . P) la familia de vv. (2) i En forma análoga. ´ Sea X una v. desigualdad de Chebyshev. absolutamente continua con densidad fX : IR → IR. X que satisfacen (1) en el caso discreto. .aa.a. continua con densidad de Cauchy fX (x) = 1 π(1 + x2 ) ∀ x ∈ IR.a. o´ (3) en el caso absolutamente continuo). F. ´ Denotaremos por L1 ≡ L1 (Ω. (3) entonces la esperanza de X se define como Z ∞ EX := x fX (x) dx. Sea X una v. por ejemplo. 6.aa. sea X una v. 6. (4) −∞ −∞ A la esperanza de X se le conoce con varios nombres. discretas y continuas Contenido: Momentos de una v. valor esperado o valor medio o media de X.. (1) i definimos la esperanza de X como X EX := xi fX (xi ).a.1 Definicion. F. x2 . . Si Z ∞ |x| fX (x) dx < ∞.2 Ejemplo. P) que tienen esperanza finita (es decir.aa.58 6 Probabilidad Esperanza de vv. . varianza.a. . sobre (Ω. haciendo el cambio de variable u := 1 + x2 vemos que . Por lo tanto. Esperanza de vv.6.aa. discretas y continuas En este caso la integral en (3) resulta Z ∞ Z 1 ∞ 2xdx |x| fX (x) dx = π 0 1 + x2 −∞ 59 (explique). u=∞ Z Z ∞ . 1 1 ∞ du = ∞. = ln u. . y h : IR → IR una funcion L1 . a la esperanza 6. X no está en L1 .e.3 Casos especiales. el momento de orden 1 de X coincide con la esperanza de X. (b) Sea mX := EX y sea h(x) := (x − mX )k . F.a. (a) Si h(x) = xk para algun k Eh(X) = E(X ) se le llama el momento de orden k de X. |x| fX (x)dx = π 1 u π −∞ u=1 Es decir. X Eh(X) := h(xi )fX (xi ) si X es discreta i Z ∞ Eh(X) := h(x)fX (x)dx si X es continua. para k = 2 el momento central de orden 2 se llama la varianza de X y se denota por Var(X) o´ σX2 . i. en lugar de decir que Xk está en L1 frecuentemente diremos que X está en Lk ≡ Lk (Ω. es decir Var(X) ≡ σX2 = E(X − mX )2 . suponiendo que (5) se cumple. X. Eh(X) := E(X − mX )k se llama el momento central de orden k de la v. P). (6) . −∞ ´ k > 0.a.a. respectivamente. 2 ´ de Borel tal que h(X) está en Sea X una v. Para k = 1. Entonces. Además. En particular. es decir Z ∞ X |h(xi )| fX (xi ) < ∞ o´ |h(x)| fX (x)dx < ∞ (5) −∞ i si X es discreta o continua. En tal caso la esperanza de h(X) se define como en (2) o´ (4) sustituyendo x por h(x). (3) no se cumple de modo que la v. 2. . Entonces EX es el centro de gravedad o punto de equilibrio del sistema de “masas”fX (xi ) en los puntos con coordenadas xi (i = 1. entonces 1 EX = (n + 1) 2 y Var(X) = 1 2 (n − 1).) La ra´ız cuadrada positiva de la varianza se llama la desviacion ´ estándar y se denota por σX . (Explique.). Sea X una v. Entonces de acuerdo con la ´ posterior) Ley de los Grandes Numeros ´ (que veremos en una seccion Pn → EX “casi seguramente”. i. n. X2 . 2 6. . .60 Probabilidad ´ Notese que (X − mX )2 = X2 + m2X − 2mX X de modo que Var(X) ≡ σX2 = E(X2 ) − m2X (7) porque para cualquier constante c y cualquier v. .a. Demuestre: (a) Si fX (k) = 1/n ∀ k = 1. . Sea X una v. . . y Var(X) es el momento de inercia de dicho sistema con respecto a su centro de gravedad EX. x2 . 12 . . . y sean X1 . . . Y ∈ L1 se cumple que E(c) = c y E(cY ) = c EY. . Para una v. con la misma dis´ que X y que. . (discreta o continua) en L1 . . tribucion sea 1 Pn := (X1 + · · · + Xn ) n el promedio (o “frecuencia”) de X1 . . . discreta. Para cada n = 1. . Interpretacion ´ f´ısica de EX y Var(X). .a. Xn .a.a. vv. . . 2 Interpretacion ´ probabil´ıstica (o “frecuencial”) de EX. .4 Ejemplo. fX (x2 ). . discreta con valores x1 . Sea X una v. y densidad fX (x1 ). 2. . .e. son independientes. además. p 2 σX := + Var(X).aa.a. continua ´ f´ısica similar para la “densidad de EX y Var(X) tienen una interpretacion masa” fX (x). En cada uno de los siguientes casos verifique que se cumple el valor dado de EX y Var(X). p). n X n 1X 2 1 k fX (k) = k = (n + 1)(2n + 1). .5 Problema. Para calcular E(X2 ) recuérdese que n X 1 k 2 = n(n + 1)(2n + 1). 1 1 1 Var(X) = (n + 1)(2n + 1) − (n + 1)2 = (n2 − 1). f (k) := n k pk q n−k para . 6 k=1 Por lo tanto. (a) Distribucion ´ binomial: X ∼ Bin(n.e. X 6∈ L1 ). entonces EX no existe (i. La serie 2 ∞ X k=1 ∞ P ∞ X1 1 = k + 1 k=2 k 1/k p converge si p > 1 y diverge si p ≤ 1. primero calcularemos el segundo momento E(X2 ) de X y después usaremos (7) con mX := EX. E(X ) = n k=1 6 k=1 2 2 As´ı pues.) k=1 6. Esperanza de vv. ´ Solucion. . (Nota. 2.aa..6. . 6 4 12 (b) Esto se sigue del hecho de que la serie EX = ∞ X kfX (k) = k=1 no converge. ´ (a) Usando la formula n X 1 k = n(n + 1) 2 k=1 vemos que (2) resulta n n X 1 1X k = (n + 1). de (7). discretas y continuas (b) Si fX (k) = 1 k(k+1) 61 ∀ k = 1. EX = kfX (k) = n k=1 2 k=1 Para calcular la varianza de X. . λ). . EX = a+b 2 y Var(X) = (b − a)2 . . . (a) Distribucion ´ uniforme: X ∼ Uni[a.7 Teorema. f (k) := pq k para k = 0. . EX = m y Var(X) = σ 2 . . 12 (b) Distribucion ´ exponencial: X ∼ Exp(λ). Y ∈ Lk entonces aX y X + Y están en Lk . f (k) := e−λ λk /k! para k = 0. 6. si a ∈ IR y X. con q := 1 − p. . . an son ´ numeros reales y X1 . f (x) := 1/(b−a) para a ≤ x ≤ b. f (x) := λe−λx para x ≥ 0. . vea el Ejercicio 2. (b) Distribucion ´ geométrica: X ∼ Geo(p). f (x) := (2πσ 2 )−1/2 e−(x−m) para todo x ∈ IR. . . . Repita el problema anterior para cada una de las siguientes distribuciones continuas. . . P) de las vv. (c) Distribucion ´ de Poisson: X ∼ Poi(λ). σ 2 ). b]. con momento de orden k finito (k ≥ 1) es un espacio vectorial. . EX = q/p y Var(X) = q/p2 .. 1. 2 /2σ 2 (d) Distribucion ´ gama: X ∼ Γ(p. EX = Var(X) = λ. . entonces a1 X1 + · · · + an Xn ∈ Lk . . Más generalmente. Xn están en Lk .62 Probabilidad k = 0. . . si a1 . 6.aa. F. 1.6). EX = np y Var(X) = npq. 1. EX = p/λ y Var(X) = p/λ2 . f (x) := λp xp−1 e−λx /Γ(p) para x > 0 y f (x) := 0 para x ≤ 0 (p y λ son parámetros positivos. (c) Distribucion ´ normal: X ∼ N (m. con q := 1 − p. EX = 1/λ y Var(X) = 1/λ2 . La familia Lk ≡ Lk (Ω.6 Problema. . n. es decir. aa.a. Entonces P{|X − mX | ≥ ε} ≤ E(X − mX )2 /ε2 . P{|X − mX | ≥ ε} ≤ σX2 /ε2 (10) . k > 0. y tal que g(X) ∈ L1 . no ne´ no decreciente. aX está en Lk porque E|aX|k = |a|k E|X|k < ∞. Entonces para cada ε > 0 P{X ≥ ε} ≤ Eg(X)/g(ε). ´ Para ver que X + Y está en Lk notese primero que |x + y|k ≤ 2k (|x|k + |y|k ) ∀ x. (9) Casos especiales: (a) Con X ∈ Lk y g(x) = xk (k ≥ 1) P{|X| ≥ ε} ≤ E|X|k /εk . como |x + y| ≤ |x| + |y| ≤ 2 · max{|x|. ´ La v.) Sea X ∈ L1 una v.8 Teorema. ∞) una funcion x > 0.a. E(aX) = ak E(Xk ). Esperanza de vv. ∞) → [0. y g : [0.6. k Además. usando el hecho de que E(X1 + X2 ) = EX1 + EX2 si X1 . X2 ∈ L1 (explique). se sigue que |x + y|k ≤ 2k · (max{|x|. (Desigualdad de Chebyshev. discretas y continuas 63 Demostracion. X ∈ L2 . (8) En efecto.e. |y|}. Por lo tanto. y ∈ IR. i. además tomese X − mX en lugar de X. g(x) = x2 . |y|})k ≤ 2k · (|x|k + |y|k ). ´ ´ (b) En (a) tomese k = 2. vemos de (8) que E|X + Y |k ≤ 2k (E|X|k + E|Y |k ) < ∞. 2 6. con g(x) > 0 si gativa. de (10). en general. := 16/18 si x = 2. la desigualdad de Chebyshev no se puede mejorar. si ε = 1 se tiene igualdad en (12).64 Probabilidad o equivalentemente P{|X − mX | < ε} ≥ 1 − σX2 /ε2 . := g(ε) si X ≥ ε. por 6. de modo que. Luego. 2 6. en algunos casos la es(b) A pesar de la conclusion ´ que se obtiene de la desigualdad de Chebyshev (10) puede ser timacion ´ muy “pobre”.25. ´ exponencial FX (x) = 1 − e−λx (para Sin embargo. 3. Entonces (como X ≥ ε ⇒ g(X) ≥ g(ε)) Eg(X) ≥ EY = g(ε) · P{Y = g(ε)} = g(ε)P{X ≥ ε}. Entonces mX = 2 y σX2 = 1/9. la desigualdad (10) da P{|X − mX | ≥ 4} ≤ σX2 /16 = 0. con λ = 1/2. supongase que X ∼ Exp(λ). Por ejemplo. P{|X − 2| ≥ ε} ≤ 1/9ε2 ∀ ε > 0. ´ Considere la v. porque P{|X − 2| ≥ 1} = P{X = 1 o´ X = 3} = 1/9. (12) En particular. . mX = 1/λ = 2 y σX = 1/λ2 = 4 de modo que con ε = 4.0494 << 0.25. discreta con densidad f (x) := 1/18 si x = 1. si usamos la distribucion x ≥ 0) vemos que P{|X − mX | ≥ 4} = = = = P{X ≥ mX + 4 o´ X ≤ mX − 4} P{X ≥ 6} 1 − FX (6) e−3 = 0.a. (11) Demostracion. discreta Y := 0 si X < ε.9 Ejemplo. (a) Sea X una v. ´ en el inciso (a).a. En2 tonces.6(b). Esperanza de vv. y f (k) := 0 en caso contrario. Calcule la media y la varianza de |X|. . entonces la funcion alcanza su m´ınimo en a = EX.2 Sea M un entero positivo y X ∼ Geo(p). Demuestre que f es una densidad discreta y calcule su media. . usando la distribucion babilidad mucho menor que la que se obtiene usando (10) como una apro´ ximacion. Y ∈ L1 y X ≥ Y . en donde X ∼ Poi(λ). 2 Ejercicios § 6 ´ f (a) := E(X − a)2 6. y sea f (k) := 2k/N (N + 1) para k = 1. es decir min E(X − a)2 = f (EX) = Var(X).3 Calcule la esperanza de Y := 1/(1 + X). Demuestre que (a) |x|k ≤ |x|r + 1 ∀ x ∈ IR. 1). a∈IR 6. Calcule la media de Y := min{X.7 Sea X una v. (b) Si X ∈ L1 y X ≥ 0. discretas y continuas 65 ´ exacta de X se obtiene una proEn otras palabras. . 6. entonces EX ≥ 0. M }. X2 .) (c) Si X ∈ Lr entonces X ∈ Lk . Demuestre que |EX| ≤ E|X| ≤ M.6.5 Sea X ∼ N (0.4 Sea N un entero positivo.) 6.1 Demuestre que si X ∈ L2 . si 1 ≤ k ≤ r entonces Lr ⊂ Lk . . 6. en otras palabras.6 Sean k ≤ r dos enteros positivos. y M una constante tal que P{|X| ≤ M } = 1.a. N. si X. 6. entonces EX ≥ EY . y etX para t ∈ IR fijo. . (Sugerencia: use (a) y (b). (Por lo tanto.aa. 6. 12 Demuestre que si X ∼ N (m. ´ de densidad f es simétrica si f es “par” (o Por otra parte. (b) Si X es una v. . no negativa. 6.a.aa. σ 2 ) y b 6= 0.9 Sea X ∼ Geo(p). entonces EX = ∞ P P{X ≥ n}. . . f (−x) = f (x) para todo x ∈ IR. X es simétrica si X y −X tienen la misma f. (a) Demuestre que P(X > x) = eλx para todo x > 0.) 6. Demuestre: (a) Si X es discreta con valores en {0.11 Se dice que una v. (b) Use el Ejercicio 8(a) para demostrar que EX = q/p. y sea q := 1 − p. . 6. continua con densidad fX . (a) Demuestre que P(X ≥ n) = q n para todo n = 0.e.8 Sea X una v. b2 σ 2 ).66 Probabilidad (Sugerencia: para obtener la primera desigualdad use el Ejercicio 6(b). . 1.. i. una funcion simétrica con respecto al origen). demuestre que X es simétrica ssi fX es simétrica. entonces EX = R∞ 0 P{X > x}dx.10 Sea X ∼ Exp(λ). . 1. 6. 6. .d.a. (b) Use el Ejercicio 8(b) para demostrar que EX = 1/λ.a. simétricas.}. (a) Demuestre que X es simétrica ssi P{X ≤ x} = P{X ≥ −x} para todo x ∈ IR. (c) Dé al menos dos ejemplos de vv. n=1 (b) Si X es absolutamente continua. entonces a + bX ∼ N (a + bm. 14 Demuestre que si X ∼ N (0. discretas y continuas 67 6. entonces X2 tiene distribucion gama con parámetros p = 1/2 y λ = 1/2σ 2 . (Vea el Ejercicio 2.15 Si X ∼ N (m. Esperanza de vv. σ 2 ).6. σ 2 ).13 Demuestre que X ∼ N (m. 1).) 6.aa. (Vea 6. σ 2 ) ssi (X − m)/σ ∼ N (0. ´ 6.5) . La densidad de Y se conoce como densidad lognormal con parámetros m y σ 2 . calcule la densidad de Y := eX .6(d). . F. X toma unicamen´ Supongase ahora que X es una funcion ´ te un numero finito de valores (distintos) x1 . xn en IR. Stieltjes (LS) y vemos su relacion ´ F– Sea (Ω. n. (1) Ω ´ ´ simple. la esperanza de una v. Ω (3) . (2) i=1 Si X es no negativa definimos su integral con respecto a µ como Z Ω Z X dµ := sup{ h dµ | h es simple y 0 ≤ h ≤ X}. µ) un espacio de medida y X : Ω → IR una funcion ´ indicadora de un conjunto A ∈ F definimedible. .a. . Si X = IA es la funcion mos la integral de Lebesgue (o simplemente la integral) de X con respecto a µ como Z X dµ := µ(A). . es decir. Sea Ai := {ω ∈ Ω | X(ω) = xi } ∀ i = 1. de modo que podemos escribir X en la forma X= n X xi IAi . i=1 Entonces definimos la integral de X con respecto a µ como Z X dµ := Ω n X xi µ(Ai ). . . la integral de Lebesgue–Stieltjes (LS).a. . ´ definimos las integrales de Lebesgue y de Lebesgue– En esta seccion ´ con la esperanza de una v.68 7 Probabilidad La integral de Lebesgue Contenido: La integral de Lebesgue. . o simplemente L1 (µ) o´ L1 . . sus integrales Z Z + X dµ y X− dµ Ω Ω están bien definidas. . X ≥ 0 implica que X dµ ≥ 0). Notese que X ∈ L1 ssi |X| ∈ L1 . . ´ Notese que X = X+ − X− y |X| = X+ + X− . 0} = max{−X(ω). xn y funcion densidad fX (xi ) = P{X = xi } para i = 1. ´ 7. disEsta definicion cretas y continuas que vimos en la § 6. Por lo tanto.1 Definicion. (5) Ω ´ coincide con la definicion ´ de esperanza para vv. . n.aa. . la familia de fun´ ciones integrables con respecto a µ. (4) Ω Ω Ω Denotaremos por L1 (Ω.a. por (3). ´ de 7. y la integral es R un operador lineal y “positivo” sobre L1 (es decir.7). Si.p. y que ambas funciones X+ y X− son no negativas. Entonces X es una v. ´ medible arbitraria y considérese su parte posAhora sea X una funcion itiva X+ (ω) := max{X(ω). Z Z Z + |X|dµ = X dµ + X− dµ < ∞. Ω Ω Ω El espacio L1 es un espacio vectorial (vea el Teorema 6. entonces decimos que X es integrable con respecto a µ y su integral es Z Z Z + X dµ := X dµ − X− dµ. F. La integral de Lebesgue 69 ´ Notese que este supremo siempre existe pero puede ser +∞. . . µ). ´ Supongase que µ ≡ P es una m. 0} ∀ ω ∈ Ω y su parte negativa X− (ω) := − min{X(ω).a. ambas integrales son finitas.2 Ejemplo. . Sea X una v.7. además. es decir. 0} ∀ ω ∈ Ω. discreta con valores x1 . y su integral con respecto a P se llama la esperanza de X y escribimos Z EX := X dP. . 1) asegura que ambas esperanzas EX = X dP y EX = X dP son finitas. Eh(X) = −∞ . i=1 ´ de EX en (6. R condici + − − (6.a. por ejemplo. IR en cuyo caso Z Eh(X) := Z h(X)dP = Ω h(x) dFX (x). Entonces. porque (6. (7) IR De aqu´ı se puede ver que. i.2) coinciden para cualquier v. si X es (absolutamente) continua ´ con densidad fX . Si h : IR → IR es una funcion Borel integrable con respecto a µF .1) es equivalente a Z Z + E|X| = X dP + X− dP < ∞. vea (4. . si F ≡ FX es la f. escribimos Z Z h(x) dF (x) := h dµF (6) IR IR y decimos que (6) es la integral de LS de h con respecto a µF (o con respecto a F ).a.d. entonces la esperanza de h(X) coincide con la definicion ´ 6. Z n X xi P(Ai ) EX := X dP = Ω n X = i=1 xi P{X = xi } i=1 n X = xi fX (xi ). aunque tenga un numero infinito numerable La on R +de valores.p.10).e.d. . . . De hecho.) y sea µF la Sea F una funcion ´ de correspondiente medida de LS. en la Seccion Z ∞ h(x)fX (x)dx. de una v.70 Probabilidad Sea Ai := {ω ∈ Ω|X(ω) = xi } para i = 1. n. un arguque coincide con nuestra definicion mento similar muestra que (5) y (6. X. de (5) y (2). discreta ´ ´ X.2). se puede demostrar que la esperanza de h(X) existe ssi Z |h(x)|dFX (x) < ∞. 2 Ω Ω ´ de distribucion ´ de probabilidad (f. En particular. el lado izquierdo de (8) resulta Z Z −1 IB (X(ω))P(dω) = P(X (B)) = PX (B) = IB (x)PX (dx). ´ también se cumple para funciones simples. P) ssi h ∈ L1 (IR. tenemos el siguiente resultado. de X. F. Luego. . (8) se cumple para funciones indicadoras. la m. por linealidad. Además. para B ∈ B(IR). La integral de Lebesgue 71 Más precisamente.a. y PX (B) := P[X (B)]. B(IR). Ahora supongase que h es una ´ de Borel arbitraria pero no negativa. Eh(X) = E[lim hn (X)] n = lim Ehn (X) n Z = lim hn (x)PX (dx) n Z = h(x)PX (dx).d. inducida por X sobre (IR. ´ Supongase primero que h = IB .3 Teorema. F. sobre (Ω. (9) IR Ω Es decir.7. Ω (8) IR (Recuerde que el lado izquierdo de (8) coincide con Eh(X). entonces Z Z h(X(ω))P(dω) = h(x)PX (dx). Sea FX la f.) ´ ´ indicadora de Demostracion.8).p. Entonces existe una sucesion ´ funcion no–decreciente de funciones simples hn tal que hn ↑ h. ´ de 7. P) y h : IR → IR una funcion −1 Borel. Entonces (a) h(X) ∈ L1 (Ω. vea (7). la funcion un conjunto de Borel B. PX ). como IB (X(ω)) = 1 ssi ω ∈ X−1 (B). Sea X una v. B(IR)). Por lo tanto. por el ´ teorema de convergencia monotona (Ejercicio 7. Entonces. (b) Si se satisface una de las dos condiciones en (a). De aqu´ı se sigue. la familia de funciones F–medibles X : Ω → IR tales que Z |X|k dµ < ∞ IR se denota por Lk (Ω. µ) ≡ L1 y a. absolutamente continua con densidad fX . Ejercicios § 7 7. Para h arbitraria. y sea h una ´ de Borel. entonces aX + bY está en L1 y Z Z Z (aX + bY )dµ = a X dµ + b Y dµ. a En general. b] = P{a < X ≤ b} = FX (b) − FX (a) = fX (x)dx. aplicamos el argumento anterior a h+ y h− . Si E|h(X)| < ∞. F. que si X. F.72 Probabilidad De aqu´ı se siguen (a) y (b) para h ≥ 0. Y ∈ L1 (Ω. se puede demostrar que dicha familia es un espacio vectorial. µ) un espacio de probabilidad en donde µ ≡ δx es la medida de Dirac concentrada en el punto x ∈ Ω. µ) es un espacio de medida arbitraria y k ≥ 1. µ). Sea X una v. continua con densidad fX . demostracion 7. 2 Si X es una v.a. Demuestre que si X : Ω → IR . −∞ 7. F. b ∈ IR. B Comparando esta igualdad con (9) vemos que el mismo argumento de la ´ anterior da lo siguiente. ´ Si (Ω. entonces funcion Z ∞ Eh(X) = h(x)fX (x)dx.1 Sea (Ω.4 Corolario. en particular. Como en el Teorema 6. F.7. para cualquier conjunto de Borel B ⊂ IR tenemos Z Z PX (B) = fX (x)dx = fX (x)IB (x)dx.a. entonces para cualquier intervalo (a. b] tenemos Z b PX (a.5 Observacion. si X y Y son ambas funciones integrables y X ≥ Y . Demuestre que Ω X dµ = ∞ n=1 X(n).6 Demuestre: si X es integrable. 2. . B ∈ F son tales que A ⊂ B. Ω Por lo tanto.q. En los ejercicios siguientes (Ω.2 Sea Ω = {1.d. µ) es un espacio de medida arbitraria ´ F–medible. La integral de Lebesgue 73 R es una v. F.a. y X es una funcion 7. y X : Ω → ´ no negativa. F. entonces R Ω X dµ = 0.. R 7. es decir.}.8) sobre F. .3 Demuestre: (a) Si X = 0 µ–c. Ω vemos que si X ≥ 0 y A. tales que X = Y c. entonces Ω X dµ = X(x). Sea µ laR medida de IR una funcion P conteo (definida en el Ejemplo 1. entonces Z Z X dµ ≤ X dµ. entonces X es finita µ–c. entonces Z Z X dµ ≥ Y dµ.d. definiendo Z Ω Z X dµ := A X · IA dµ ∀ A ∈ F.aa.4 Si Ω |X|dµ < ∞. 7. . 7. (b) Si X y Y son vv.5 Si X está en L1 (Ω. no negativa.q. A B 7.d. F = 2Ω el conjunto potencia de Ω..7. . entonces EX = EY .s. R (c) Si X ≥ 0 y Ω X dµ = 0.. entonces | R X dµ| ≤ Ω R Ω |X|dµ. el conjunto A := {ω ∈ Ω | |X(ω)| = ∞} tiene medida µ(A) = 0. µ) y X ≥ 0. Ω Además. demuestre que entonces Z X dµ ≥ 0.q. entonces X = 0 µ–c. Ω Ω ´ más general de este resultado. satisface que EQ (Y ) = EP (Y X). entonces la esperanza con respecto a Q. P) con EX = 1. entonces también existe la otra y. Q(A) = 0 no implica P(A) = 0.e. R definida como R(A) := EQ (IA /X) para A ∈ F coincide con P. tales que Xn ↑ X. sobre (Ω. sucesion Entonces Z Z Xn dµ ↑ X dµ. Defina Q(A) := E(XIA ) ∀ A ∈ F. Ω en el sentido de que si una de las dos integrales existe.p.p. Z Z Y dQ = Y X dP.a.74 Probabilidad 7. la m. además. 7. sus valores coinciden. i. Dé un ejemplo mostrando que el rec´ıproco es falso en general. (b) Si P(A) = 0 entonces Q(A) = 0. (c) Si P(X > 0) = 1. ´ de (Sugerencia: Use el mismo argumento que se uso´ en la demostracion (8). que denotamos por EQ (·). R(·) = P(·). Además. B (En este caso se dice que f es la densidad (o derivada de Radon–Nikodym) ´ de Borel de µ con respecto a λ. y sea f : ´ de Borel.) . tal que Ω → IR una funcion Z µ(B) = f (ω)λ(dω) ∀ B ∈ F. no–negativa.8 Demuestre el Teorema de Convergencia Monotona: ´ Sea {Xn } una ´ creciente de funciones de Borel.9 Sean µ y λ dos medidas sobre un espacio medible (Ω.7 Sea X ≥ 0 una v. F).) (En el Teorema 9. i. es decir. F.) Demuestre que para cualquier funcion g : Ω → IR Z Z g(ω)µ(dω) = Ω g(ω)f (ω)λ(dω). F). no–negativas.2 se da una version 7.e. Demuestre: (a) Q es una m. sobre (Ω. h2 (X2 ) ≡ g(Y ).aa. . Por lo tanto. . leyes débiles de grandes ´ numeros. simplicar la notacion ´ se obtiene (b) si f y g son funciones indicadoras y Con esta convencion. X1 . . Xn vv. Xn están en L1 . 8.1 Proposicion. . En la Seccion ´ se muestra que la esperanza del producto de En la siguiente proposicion vv. basta demostrar (por ejemplo) (b) en el caso n = 2 ´ para el caso general. En efecto.8. ´ Sean X1 . ´ Es claro que (a) y (b) son equivalentes. (1) (b) Asimismo. .aa. Supongamos ahora que f y g son funciones medibles no negativas. Esperanza e independencia 8 75 Esperanza e independencia Contenido: Covarianza. entonces el producto una funcion h1 (X1 ) · · · hk (Xn ) está en L1 y E[h1 (X1 ) · · · hn (Xn )] = Eh1 (X1 ) · · · Ehn (Xn ). para funciones simples. . n. Entonces existen funciones simples fn ≥ 0 y gn ≥ 0 tales que fn ↑ f y gn ↑ g. Por lo tanto. (a) es un caso especial de (b) y. rec´ıprocamente. independientes tiene una forma particularmente simple. (a) Si además las vv. . también. (Explique.aa. (b) se sigue de (a) y del Teorema 5. . fn (X)gn (Y ) ↑ .2 (d). Demostracion. se tiene que hk : IR → IR es ´ de Borel tal que hk (Xk ) está en L1 . . entonces su producto X1 · · · Xn también está en L1 y E(X1 · · · Xn ) = (EX1 ) · · · (EXn ). .) Además. por linealidad. . varianza de una suma. . independientes. si para cada k = 1.aa. para y después usar induccion ´ escribiremos h1 (X1 ) ≡ f (X). ´ 5 estudiamos el concepto de independencia de vv. ) Entonces X = Y está en L1 porque EX = ∞ X kf (k) = c k=1 ∞ X k −2 < ∞. definimos la covarianza de X y Y como Cov(X. . por convergencia monotona. .. 2. 2 ´ en 8. (Recuerde la Nota al final del Ejemplo 6. (2) ´ en donde mX := EX y mY := EY . si X y Y están en L1 . X) = Var(X) y. .1(a) no es válida si las vv. ´ La conclusion no son independientes. en L2 . Por ejemplo. en donde c es una constante para la cual f (k) = 1. Cov(X. entonces XY ∈ L1 porque |XY | ≤ 12 (X2 + Y 2 ). .a.76 Probabilidad ´ f (X)g(Y ) y se sigue que. . en el caso general tomamos f = f + − f − y g = g + − g − y (b) se obtiene por linealidad. sea X = Y una 3 v. En otras palabras. pues E(X2 ) = ∞ X k=1 k 2 f (k) = c ∞ X k −1 6< ∞. Y ) := E[(X − mX )(Y − mY )].aa. en general no se cumple que el producto XY está en L1 . . (3) .Xn 8. 2 k=1 Si X y Y son vv. por otra parte. Finalmente.4(b). k=1 pero el producto XY = X2 no está en L1 .aa. discreta con densidad P f (k) := c/k para k = 1. Notese que Cov(X. En este caso. E[f (X)g(Y )] = E[lim fn (X)gn (Y )] n = lim E[fn (X)gn (Y )] n = lim E[fn (X)]E[gn (Yn )] n = E[f (X)]E[g(Y )]. . Y ) = E(XY ) − mX mY .2 Observacion. X1 . es decir. significa que son independientes e identicamente distribuidas. diremos que las vv. Y ) = 0 se dice que X y Y no están correlacionadas. Xn no están correlacionadas si . ´ diSi {Xn } es una coleccion remos que las vv. 2 ´ de vv. Sin embargo. y) := 1/π si (x. En tal caso se puede ver que la covariancia de X y Y es el parámetro ρ que aparece en (5.aa. y) ∈ D. Por lo tanto. y) uniforme sobre el disco unitario D := {(x. hay vv. y) := 0 para (x. la Proposicion 8.3 Proposicion. (a) El rec´ıproco de 8. De (3) y de ´ 8.i. En particular.5. que tienen la misma distribucion. . y) 6= fX (x) · fY (y) de modo que X y Y no son independientes. EX = 0 y similarmente para Y . no son independientes. Esperanza e independencia 77 Si Cov(X. sin embargo. ρ = 0). son identicamente distribuidas. que tienen densidad conjunta f (x. es decir Cov(X.8.4 Observaciones.3 es falso. y) ∈ IR2 |x2 + y 2 ≤ 1}. 8. ´ conjunta de (b) Una excepcion ´ al inciso (a) es cuando la distribucion X y Y es la distribucion ´ normal bivariada del Ejemplo 5. Y ) = ρ. Otro ejemplo es el siguiente: sean X y Y vv. la abre´ i. X1 . Asimismo. Entonces la densidad marginal de X y su esperanza son fX (x) = 2√ 1 − x2 π si − 1 ≤ x ≤ 1.11). f (x. es decir f (x. . entonces no están correlacionadas.1(a) se deduce lo siguiente. ´ Si X. . que no están correlacionadas y que.aa. Como ejemplo de lo anterior vea el Ejercicio 1. Y ∈ L2 son independientes. un cálculo directo demuestra que X y Y no están correlacionadas porque E(XY ) = 0 = EX · EY . viacion Además.aa. del inciso (b) de dicho ejercicio concluimos que X y Y son independientes ssi no están correlacionadas (i.aa. y) ∈ / D. y f (x.e.d.aa. . con varianza ´ σ2.aa. (6) ´ Notese que (6) se cumple. ´ Sean X1 . (4) k<j Por lo tanto. . ´ Sea S := X1 + · · · + Xn y mk := EXk la media de Xk (k = 1.aa. . Entonces ES = m1 + · · · + mn (7) y n X Var(S) = E(S − ES) = E[ (Xk − mk )]2 . . . Xj ). . . digamos Var(Xk ) = σ 2 .i. . si X1 . Xn son i. . X1 . . . Xj ) = 0 para i 6= j. tienen la misma varianza. .78 Probabilidad Cov(Xi . . en particular. xn . 8. .6 Definicion. .aa. (5) k=1 Si además las vv. no están correlacionadas (en particular. comun Demostracion. entonces Var(X1 + · · · + Xn ) = nσ 2 .5 Proposicion. si son independientes) Var(X1 + · · · + Xn ) = n X Var(Xk ). k<j 2 ´ En el Ejercicio 2 se pide calcular una formula un poco más general que (4). .d. 2 k=1 ´ De aqu´ı se sigue que (4) es consecuencia de la formula general 2 (x1 + · · · + xn ) = n X k=1 ´ para numeros reales x1 . . . Xn son i. . x2k + 2 X xk xj . decimos que forman una .d.aa. . Entonces Var(X1 + · · · + Xn ) = n X Var(Xk ) + 2 k=1 X Cov(Xk . Xn vv. . n).i. 8. ´ Si las vv. en L2 . si las vv. por (10). 2 n n ´ ´ implica (8). En este caso se dice que Sn := X1 +· · ·+Xn muestra aleatoria de tamano es una suma muestral. n S n := Demuestre que cuando n → ∞ Var(S n ) → 0 (8) y. la . . además. . respectivamente. Xn una muestra aleatoria de vv. (9) Demostracion. de lo cual se sigue (9).7 Ejemplo.e. 8. . Notese que. para cualquier ε > 0 P{|S n − µ| ≥ ε} → 0.8. en una seccion Sn → µ “en probabilidad”. i. Sea S n := Sn /n el promedio muestral. (12) Los resultados en (11) y (12) se conocen como leyes débiles de los grandes ´ numeros ´ en probabilidad y en L2 . . de la desigualdad de Esta ultima relacion Chebyshev (6. en L2 cada una con media µ y varianza σ 2 .aa. ESn = nµ y Var(Sn ) = nσ 2 . ES n = 1 ESn = µ n y Var(S n ) = 1 1 Var(Sn ) = σ 2 . Sea X1 . como Var(S n ) = E(S n − µ)2 → 0. cuando n → ∞. Debido a (9).10) vemos que P{|S n − µ| ≥ ε} ≤ Var(S n )/ε2 = σ 2 /nε2 . 1 (X1 + · · · + Xn ). Por lo tanto. diremos que Sn → µ ”en L2 ” (o “en la media de orden 2”). Por otra parte. Esperanza e independencia 79 ˜ n. (10) 2 ´ posterior diremos que. ´ Por (7) y (6). por (8). (11) Asimismo. respectivamente. y sean b.80 Probabilidad convergencia en (12) implica (11). . (∗) (c) Sustituyendo X y Y en (*) por X − EX y Y − EY . Ejercicios § 8 8. .2 Sean X1 . 3. . 3} un espacio equiprobable. Y ) := Cov(X. Sean X y Y las vv. . k<j 8.3 Sean X y Y vv. concluya que −1 ≤ ρ(X. = 1 si ω = 2. respectivamente. . Demuestre que Var(a1 X1 + · · · + an Xn + b) = n X a2k Var(Xk ) + 2 k=1 X ak aj Cov(Xk . . X(ω) = 1 = 0 = −1 Y (ω) = 0 si ω = 1 o´ 3. 2. si ω = 1. en L2 . a1 . . Demuestre que X y Y no están correlacionadas y que no son independientes. (d) Demuestre que en (*) se cumple la igualdad ssi se satisface alguna de las siguientes dos condiciones: .e. .aa. an numeros reales. 2. i. si ω = 2. ´ 8. en L2 con desviaciones estándar σX y σY . P(ω) = 1/3 para ω = 1. (b) Tomando a := −E(XY )/E(Y 2 ) deduzca la desigualdad de Cauchy– Schwarz: p p |E(XY )| ≤ E(X2 ) E(Y 2 ). Definimos el coeficiente de correlacion ´ de X y Y como ρ(X. σX · σY ´ (a) Sea a un numero real y verifique que 0 ≤ E(X + aY )2 = E(X2 ) + a2 E(Y 2 ) + 2aE(XY ). si ω = 3.aa.1 Sea Ω = {1. Xj ). Y ) ≤ 1. Xn vv.aa. Y ) . 4 Calcule Var(X2 Y ). . .6 Sea X1 . j ∈ {1.8 Sea X = (X1 .7 Sean X y Y i. E(X2 ) = 1. Xn i.) ´ P(X = i) = P(Y = i) = 1/2 para 8. independientes con E(X4 ) = 2.aa.d.5 Sean X1 . . pero s´ı son independientes de dos en dos. (Sugerencia: use (10). σ 2 ). 8. . 8.i. Sea Z := XY .i. Xn ) ∈ IRn un vector aleatorio.aa. . . Bernoulli con dis´ tribucion P{X1 = 1} = 1 − P{X1 = 0} = 1/2. entonces P{|S n − 0. Demuestre que si n = 100. .1} ≤ 0. en el sentido de que P{X = cY } = 1 para alguna constante c. −1. (d) X1 ∼ N (m. Xn una muestra aleatoria de vv.d.25. .5| ≥ 0. 8. (c) X1 ∼ Exp(λ). Demuestre que X. Calcule la media y la varianza de Sn := X1 + · · · + Xn en cada uno de los siguientes casos. . (a) X1 ∼ Geo(p). . La matriz de covarianza de X es la matriz CX n × n que tiene componentes cij := Cov(Xi . 8. . Y y Z no son independientes. . . . con distribucion i = 1. (d2 ) X y Y son “linealmente dependientes” con probabilidad 1. .8. . y sea S n el correspondiente promedio muestral. n}. Esperanza e independencia 81 (d1 ) P{X = 0} = 1 o´ P{Y = 0} = 1. en donde X y Y son vv. Xj ) ∀ i. E(Y 2 ) = 1 y E(Y ) = 0. (b) X1 ∼ Poi(λ). . ij ai aj cij ≥ 0 para todo (a1 . 8. an ) ∈ IRn . . y sea A una matriz m × n.9 Sea X ∈ IRn un vector aleatorio con matriz de covarianza C. . j) y. .82 Probabilidad Demuestre que CX es semidefinida positiva. Demuestre que Y := AX ∈ IRm tiene matriz de covarianza ACA∗ . . es simétrica (cij = cji P para todo i. en donde A∗ es la transpuesta de A. . es decir. además. (b) converge µ–casi donde quiera (c. en particular. es decir. Convergencia de vv. Contenido: Convergencia puntual. (1) entonces µ(A) = 0. Por lo tanto. 1) o casi seguramente (c. con la siguiente pregunta: R R ¿Cuándo se cumple que lim Xn dµ = (lim Xn )dµ? Un resultado de este ´ tipo es el Teorema de Convergencia Monotona que aparece en el Ejercicio 7. (2) . Sea (Ω.) funciones F–medibles. ´ {Xn } 9. . Es evidente que en 9.q. en medida. en lugar de Xn → X µ–c.9. ´ Si Xn ≥ 0 para todo n y Xn ↑ X.d. si A := {ω ∈ Ω | Xn (ω) 6→ X(ω)}.aa.1 están relacionados. . si µ ≡ P entonces el conjunto en donde Xn s´ı converge a X tiene probabilidad 1.8 y que repetimos aqu´ı: 9. convergencia dominada.2 Proposicion.q. 2.1 Definicion. 9. .. Xn : Ω → IR (para n = 1. se dice que Xn → X con probabilidad 1 (c. en distribu´ ´ cion. c.1. los tipos de convergencia en 9.3 Teorema de convergencia monotona ´ “extendido”.d.q. 9 83 Convergencia de vv. porque P(Ac ) = 1 − P(A) = 1. entonces Z Z Xn dµ ↑ X dµ. teoremas de convergencia monotona.s. (a) ⇒ (b).aa. µ) un espacio de medida y X. En particular.d. ´ leyes de grandes numeros. en Lk .) si Xn → X excepto en un conjunto de medida cero. F. Por otra parte. convergencia débil de medidas. ´ Decimos que la sucesion (a) converge puntualmente a X si Xn (ω) → X(ω) para todo ω ∈ Ω.).p. entonces Z Z Xn dµ ↓ X dµ. ´ (a) Si Y dµ = +∞. Entonces 0 ≤ Xn − Y ↑ X − Y R R ´ 9. y se sigue del Ejercicio 7.8 (=Proposicion lo cual implica (2).4 Ejemplo. si µ ≡ P es una m. . en donde Y dµ < ∞.3 tenemos lo siguiente. Demuestre que si Xn ≥ 0 para todo n.) 2 n=1 ´ no–negativa y def´ınase 9. ! X X E Xn = EXn n (3) n si Xn ≥ 0 ∀ n. ´ Para cada k = 1. n Solucion. como las fun- n=1 ´ {Yk } es no–decreciente y Yk ↑ Y := ciones Xn son no–negativas. en donde cumple (2). . A Ω (4) . 2.d. y Xn ↑ X. Luego. entonces se R (b) Si Xn ≤ Y para todo n. Por lo tanto (3) se sigue de (2). Sea X ∈ L1 (Ω.q.2 y 9.2) que (Xn − Y ) ↑ (X − Y ).p. Supongamos ahora que Y dµ < ∞. y Xn ↓ X. ´ −Xn ≥ −Y. entonces Z X ! XZ Xn dµ. 9.84 Probabilidad (a) Si Xn ≥ Y para todo n.5 Ejemplo. sea Yk := k P Xn . µ) una funcion Z Z ν(A) := X dµ = X · IA dµ ∀ A ∈ F. Redefinimos Y como Y (ω) := 0 si Y (ω) = ±∞. entonces Xn dµ = +∞ para Rtodo n y por lo tanto (2) se cumple trivialmente. F. (Explique. la sucesion ∞ P Xn . 2 El inciso (b) se demuestra aplicando (a) a la sucesion Como aplicaciones de 9. Xn dµ = n En particular. R Y dµ > −∞. . en cuyo caso |Y | < ∞ µ−c. R R Demostracion.. . Si |Xn | ≤ Y para todo n. Deseamos probar que n=1 ν(A) = ∞ X (5) ν(An ).q. . Entonces la (Supongase que X ∈ L1 .) y notese ´ Para probar (5). R9.d.) funcion Solucion. Para demostrar la nicion ´ de σ–aditividad en 1. .. n=1 R Ω X dµ < ∞.7.6 Teorema de convergencia dominada. . ν(φ) = 0 y ν(A) ≥ 0 para todo A ∈ F.9. y 0 < EX < ∞. Convergencia de vv. n=1 Por lo tanto X · IA = ∞ X X · IAn n=1 y de (4) y (3) se sigue que Z ν(A) = X · IA dµ = ∞ Z X X · IAn dµ = n=1 ´ ´ Por ultimo. y sea A := An . notese que ν es finita porque ν(Ω) = ∞ X ν(An ). En particular. si µ ≡ P es una m. entonces ν(A) := E(X · IA )/EX define una m. i. 2. 85 Demuestre que ν es una medida finita. 2 ´ del siguiente resultado usa el Lema de Fatou (EjerciLa demostracion cio 9. pero no satisface la condicion ´ ν(·) en (4) es una medida con signo. sea IAn la funcion que ∞ X IA = IAn (explique). con |Y |dµ < ∞. n=1 ´ indicadora de An (n = 1. ´ Es evidente que ν satisface las condiciones (a) y (b) de la Defi´ 1.p.7(c).e.9 ). considere una sucesion ´ {An } ⊂ F de condicion ∞ S conjuntos ajenos.p. (6) . ´ ´ X ≥ 0.aa. y además Xn → X µ–c. entonces Z Z Z |X|dµ < ∞ y Xn dµ → X dµ. i. . 2. pero R R ´ al Teorema 9.p. ∞). i. Decimos que la sucesion (a) converge en medida a X si lim µ{|Xn − X| ≥ ε} = 0 ∀ ε > 0. µ) = (IR. (9) . y X ≡ 0. y (b) 0 ≤ Xn ≤ 1 para todo n. .p. n→∞ (b) converge en Lk a X (1 ≤ k < ∞) si X.s. . .3 o´ al 9. .86 Probabilidad Demostracion. lim inf Xn = lim sup Xn = X. Para cada n = 1.6? (c) Xn dλ 6→ X dλ.8 Definicion.7 Ejemplo. λ) en donde λ es la medida de ´ indicadora del intervalo Lebesgue. Supongase que µ ≡ P es una m. sea Xn la funcion [n. . es decir. Si además Xn → X c. Xn : Ω → ´ {Xn } IR (n = 1. y se cumple (7). ¿Es e´ sto una contradiccion 9.. 2. P{|Xn − X| ≥ ε} → 0 ∀ ε > 0. B(IR). Demuestre: (a) Xn ↓ X. entonces se cumple (6). 9. E|X| < ∞ y EXn → EX. Z Z Z Z (lim inf Xn ) ≤ lim inf Xn ≤ lim sup Xn ≤ (lim sup Xn ). Xn están en Lk (Ω. µ) y Z lim |Xn − X|k dµ = 0. y que existe una constante M tal que |Xn | ≤ M para todo n. n→∞ (7) (8) Si µ ≡ P es una m.) funciones F–medibles.e. 2 ´ Caso especial: Teorema de convergencia acotada. µ) un espacio de medida y sean X. Esto implica (6) porque Xn → X. F. ´ Sea (Ω. F.e. F. ´ Por el Lema de Fatou. Sea (Ω. lo cual da P{|Xn − X| ≥ ε} ≤ E|Xn − X|k /εk .9) sustituyendo X y g(x) por |Xn − X| y g(x) = xk . si se cumple (8). ⇒ ´ Distribucion ⇑ Lk ´ de las implicaciones c.aa. en general. B[0. ´ de vv.10 Proposicion. F.s.aa. (10) se dice que Xn converge a X en Lk o en la media de orden k. Un hecho importante es que.18. λ). ´ Sea {Xn } una sucesion distribucion ´ (o que Xn → X débilmente) si FXn (x) → FX (x) ∀ x ∈ C(FX ).e.17 y la Proposicion “Lk ⇒ Prob. Los distintos tipos de convergencia de vv.aa. Asimismo. ´ Para vv. 87 se dice que Xn converge a X en probabilidad. 9. ⇒ Prob.9. Se dice que Xn → X en 9.: c. P) = ([0. los rec´ıprocos de las implicaciones en 9. Sea (Ω. ⇒ Distribucion ´ se La demostracion ´ 9. La demostracion ´ de puede ver en el Corolario 9.11 Ejemplo.aa. ⇒ Prob.” se sigue de la desigualdad de Chebyshev (6. están relacionados como sigue 9.s. i.aa. tenemos un tipo más de convergencia. Para vv. E|Xn − X|k → 0. De esta desigualdad se ve que (10) ⇒ (9). como se muestra en el siguiente ejemplo.10 no se cumplen. en donde C(FX ) := {x ∈ IR|FX es continua en x}. con λ restringida al inter- . 1].9 Definicion. Convergencia de vv. 1]. . 2/n] = 1/n → 0. .1] . pero Xn → X en probabilidad porque P{|Xn | ≥ ε} → 0 para cualquier 0 < ε < 1.2/n] para n = 1. etc.88 Probabilidad valo [0. Sin embargo. 1/4]. 1/2]. 1]. (11) En efecto. 1]. Entonces Xn → X en probabilidad porque. 2 . Es decir.. 2. A4 := (1/4. que Xn → X c. convergencia en probabilidad no implica convergencia en Lk . . además. as´ı que convergencia c.1/2] y Y := I(1/2. X y Y que no coinciden en ningun ´ punto pero que tienen la misma distribución. (c) Primero definiremos dos vv.aa. . ´ Notese. A6 := (3/4. Entonces Xn (ω) 6→ X(ω) ∀ ω. P{|Xn | ≥ ε} = λ[1/n. Yn no converge a Y en probabilidad porque. Sin embargo. A5 := (1/2. tomando (por ejemplo) X := I[0. 3/4].s. y X ≡ 0. para cualquier 0 < ε < 1. P{|Yn − Y | ≥ ε} = P{|X − Y | ≥ ε} = 1 6→ 0. por lo tanto. Luego. X(ω) 6= Y (ω) ∀ ω ∈ Ω. ´ {Yn } con Yn ≡ X para todo n. pero FX (x) = FY (x) ∀ x ∈ IR. es evidente que se cumplen las condiciones en (11). convergencia en probabilidad no implica convergencia c. Yn → Y ´ en distribucion. 1/2] y A2 := (1/2. E|Xn |k = nk λ[1/n. no implica convergencia en Lk . (a) Sea Xn := n I[1/n.s. A3 := [0.e. (b) Sea X ≡ 0 y sea Xn = IAn en donde A1 := [0. Entonces se Ahora considere la sucesion tiene FYn = FX = FY para todo n y. i. 1]. 2/n] = nk−1 6→ 0 ∀ k ≥ 1 de modo que Xn no converge en Lk .s. digamos para 0 < ε ≤ 1. i. sean Sn y Sea {Xn } una sucesion S n la suma muestral y el promedio muestral.12 Ley fuerte de los grandes numeros.e. 1 si ω ∈ S. i. y que la estimacion En efecto. 2. Seleccionense al azar n puntos ´ en C y sea n0 el numero de puntos que están en S. ´ S contenida 9.s. y se enuncia como sigue. Se desea calcular o estimar el a´ rea de una region ´ en el cuadrado unitario C := [0.d.i.c. ´ donde µ := E(X1 ). vv. i. Sean X1 .11) y (7. . entonces lim S n = µ c. son vv. Sn := X1 + · · · + Xn y S n := 1 Sn . sea (Ω. la medida de Lebesgue.12) vimos dos leyes débiles de grandes numeros para el caso en el que las Xn están en L2 .13 Ejemplo. P) el espacio de probabilidad con Ω := C. . respectivamente. i.d.d.9. . Afirmamos que n0 /n ≈ α := a´ rea de S (12) ´ es mejor cuando n crece. . . con media µ finita. Adelante en la seccion Los dos ejemplos siguientes ilustran el método Monte Carlo. La ley fuerte de los grandes numeros se refiere a convergencia c. ´ se da una demostracion ´ de 9. X2 .i. 9. F := B(C) y P := λ. a saber Sn → µ en L2 y (por lo tanto) en probabilidad. .aa. . entonces lim sup |Sn /n| = ∞ c. definidas como Xk := IS .aa. Convergencia de vv. i. 89 ´ de vv.12. .aa. 1] × [0.e. Para cada n = 1. Xk (ω) := 0 en c. que en esen´ de la ley fuerte de los grandes numeros ´ cia es una aplicacion 9.i. . n ´ En (7. F. n→∞ Si E|X1 | = ∞. X2 . . 1]. .aa.s. ´ Si X1 .12.s. aa. además. EXk = α y σ 2 :=Var(Xk ) = α(1 − α).s. Además. Luego.12: 1 (X1 + · · · + Xn ) → α n c.90 Probabilidad ´ Notese que las Xk son vv. de 9. pues P{Xk = 1} = P{ω|ω ∈ S} = λ(S) = α. Bernoulli con parámetro α. el error de la estimacion puede precisar usando la desigualdad de Chebyshev: . ´ se que es el enunciado preciso de (12).. ) (n 1 X σ2 P . Xk − α. ≥ ε ≤ 2 ∀ ε > 0. . 2. 2 . . . n = 1. n . 1.i. con den´ fX . Sea g : [a. Yk := g(Xk )/fX (Xk ) son i. n 1X Yk → I n k=1 c. b] → IR una funcion integral Z b I= g(x)dx. de modo que las vv. fX (x) a Por lo tanto. por 9. Luego. a Para tal fin.aa. X1 . X2 . nε k=1 ´ medible.i. (13) ´ ´ en (13). Se desea calcular la 9. . Luego. considérese una v.aa.a. b] y sea Y := g(X)/fX (X).d. . usando la desigualdad de que el error de la estimacion Notese Chebyshev. con sidad comun media finita EY = I.d. i. Z b EY = a Z b g(x) · fX (x)dx = g(x)dx = I. X arbitraria pero con densidad fX (·) > 0 sobre [a. . .14 Ejemplo. para calcular I consideremos vv.12.p. (. n ) . 1 X . . . P . Yk − I . ≥ ε ≤ σ 2 /nε2 . n . k=1 . En efecto. con C := que Z b 2 Z b 2 g (x) dx = |g(x)|dx a fX (x) a Rb a |g(x)|dx. n→∞ n n (18) . Z b y por lo tanto 2 Z σ ≥ 2 b |g(x)|dx − I 2. (16) a Finalmente. Entonces (15) resulta Z 2 b |g(x)|dx a Z b g 2 (x) ≤ dx · fX (x)dx a fX (x) a = σ 2 + I 2 [por (14)]. b Z 2 σ = a g 2 (x) dx − I 2 .aa. vemos y se sigue de (14) que σ 2 =Var(Y ) coincide con el lado derecho de (16). Convergencia de vv.e. (17) lim 1 + n→∞ n En algunos textos de cálculo el l´ımite (17) aparece en la forma n 1 x lim 1 + + o = ex . considérese la desigualdad de Cauchy–Shwartz 2 b Z |u(x)v(x)|dx Z ≤ a b 2 Z u (x)dx · a b v 2 (x)dx (15) a p p con u(x) := g(x)/ fX (x) y v(x) := fX (x). 91 depende de la variancia σ 2 =Var(Y ) = E(Y 2 ) − I 2 . fX (x) (14) la cual es m´ınima si fX (·) es proporcional a |g(·)|.9. 2 ´ El siguiente resultado se demuestra usando el hecho de que la funcion exponencial ex satisface que x n n = ex si xn → x. si tomamos fX (x) := |g(x)|/C. i. 1. . . i. . p) = A(n) · B(n) · C(n). 1. p) ≈ e−np (np)k /k! (22) . n. n b(k. . tomando λ ≈ np. n. podemos expresar (19) como b(k. n. p) := pk (1 − p)n−k ∀ k = 0. (19) k ´ ´ de n y que p(n) → 0 en forma tal Supongase que p = p(n) es una funcion que n p(n) → λ cuando n → ∞. Por lo tanto. .92 Probabilidad ´ tal que n · o(1/n) → 0 cuando en donde o(1/n) es cualquier sucesion n → ∞. . p(n)) → e−λ λk /k! ∀ k = 0.e. b(k. . . ´ Primero observe que n = n · (n − 1) · · · (n − k + 1)/k!. (1 − p)n−k = (1 − p)n /(1 − p)k . n. cion i. p) la densidad binomial con parámetros n y p. n. cuando n → ∞. n. (Aproximacion ´ binomial) Sea b(k. 2 El l´ımite en (21) se usa para aproximar b(k. n.e. (20) donde λ > 0.15 Teorema l´ımite de Poisson. en donde A(n) := n · (n − 1) · · · (n − k + 1)/nk → 1 B(n) := (np)k /k! → λk /k! (por (20)) n k −λ C(n) := (1 − p) /(1 − p) → e porque (1 − p)n = (1 − np/n)n → e−λ (por (20) y (17)) y (1 − p)k → 1 (pues p = p(n) → 0). p) cuando n es “grande” ˜ y el parámetro p es “pequeno”. Demostracion. k (21) pk = nk pk /nk . b(k. Combinando estos resultados se obtiene (21). Entonces. ´ de Poisson a la distribu9. 1 (0.0045 ´ para verificar convergencia c.1)k /k! ∀ k = 0. suponga que la v. p). ´ representa el numero de accidentes automovil´ısticos en una cierta inter´ de calles. p = 10−4 y q = 1 − p = 0. Usando directamente la distribucion P{X ≥ 2} = 1 − P{X < 2} = 1 − [P{X = 0} + P{X = 1}] = 1 − (q n + npq n−1 ) con n = 103 . 1. ssi para cada ε > 0 "∞ # [ P(lim sup{|Xn − X| ≥ ε}) = lim P {|Xk − X| ≥ ε} = 0. en donde Bn (ε) := {|Xn − X| ≥ ε} ≡ {ω| |Xn (ω) − X(ω)| ≥ ε}. con n = 103 y p = 10−4 .1) = 0. P{X ≥ 2} = 1 − [P{X = 0} + P{X = 1}] ≈ 1 − e−0. vea. Convergencia de vv. durante algun ´ per´ıodo dado de tiempo (e. ´ Notese que {ω|Xn (ω) 6→ X(ω)} = = [ B(ε) ε>0 ∞ [ m=1 B(1/m) . Luego.a. 9.aa.16 Proposicion. si usamos (22) con λ = np = 103 · 10−4 = 0.s. ´ Xn → X c. 93 Por ejemplo..9999. n→∞ k=n Demostracion.m.1 tenemos P{X = k} ≈ e−λ λk /k! = e−0. .) Se desea calcular la probabilidad de que ocurran dos o más acci´ binomial obtenemos dentes. El siguiente resultado es muy util por ejemplo el Ejercicio 5.s. . Por otra parte.g.1 (1 + 0. . ´ Sea B(ε) := lim sup Bn (ε). .9. entre 4 y seccion 6 p. X ∼ Bin(n. Entonces. |Xn − X| < ε) P(Xn ≤ x. Tomese ε > 0 arbitrario. Xn → X c. respectivamente. ´ Convergencia en probabilidad implica convergencia en ´ distribucion. ´ usaremos el Ejercicio 1. Sea An := {Xn ≤ x} y B := {X ≤ x}. Convergencia c. (23) ´ Supongase que x está en C(F ).17 Corolario. X > x. ´ Demostracion. es decir. Entonces P(An ∩ B c ) = + ≤ = → P(Xn ≤ x.s. Deseamos demostrar que cada término en ´ (23) converge a cero. denotar la distribucion |Fn (x) − F (x)| = |P(An ) − P(B)| ≤ P(An ∆B) = P(An ∩ B c ) + P(B ∩ Acn ). P(|Xn − X| ≥ ε) → 0. |Xn − X| ≥ ε) P(x < X ≤ x + ε) + P(|Xn − X| ≥ ε) F (x + ε) − F (x) + P(|Xn − X| ≥ ε) F (x + ε) − F (x) cuando n → ∞.9: En la siguiente demostracion |P(A) − P(B)| ≤ P(A∆B). ´ Supongase que Xn → X en probabilidad.16 trivialmente se obtiene lo siguiente. B. usando F y Fn para ´ de X y de Xn . De la Proposicion 9.s. 2 ´ 9. para cualquiera dos eventos A. Por lo tanto. ssi P(B(ε)) = 0 ∀ ε > 0.18 Proposicion. para cada ε > 0. X > x.94 Probabilidad porque B(ε) ⊂ B(ε0 ) para ε > ε0 . 9. implica convergencia en probabilidad. . y sea Cb (IR) ≡ Cb el conjunto de las funciones continuas y acotadas de IR en s´ı mismo.12 bajo la hipotesis ´ adicional: existe una constante c < ∞ tal que E(Xi − µ)4 ≤ c. ´ Sea Sn := n S n = X1 + · · · Xn . simplemente sustituimos Xi por Xi − µ.9. ´ La sucesion Z Z h dµn → IR h dµ IR ∀ h ∈ Cb .aa. tomando ε ↓ 0 se obtiene que el primer término en (23) tiende a 0.s. y por la desigualdad de Chebyshev. y los 2 2 la forma E(X2i X2j ) = E(X2i )E(X2j ) = (σ 2 )2 = σ 4 . Esta desigualdad y la Proposicion 2 Convergencia débil Sean µ y µn (n = 1.19 Definicion. 2 Demostracion ´ de 9. sin pérdida de generalidad podemos suponer que µ = 0.) medidas de probabilidad sobre (IR. 95 Finalmente. Luego. (24) Para demostrar 9. . P{|S n | ≥ ε} ≤ ε−4 n−4 E(Sn4 ) ≤ (c + 3σ 4 )ε−4 n−2 . . para cualquier ε > 0. . 2. todos los términos de la esperanza E(S n ) se anulan. ´ 9. Convergencia de vv. Por la hipotesis de independencia junto 4 con µ = 0. .12. Analogamente se demuestra que también el segundo término tiende a 0. excepto los n 4 = 3n(n − 1) términos de n términos de la forma E(X4i ). por (24). B(IR)). E(Sn4 ) ≤ nc + 3n(n − 1)σ 4 ≤ (c + 3σ 4 )n2 ∀ n. en caso contrario.16 dan que S n → 0 c. ´ {µn } converge débilmente a µ si 9. respectivamente. 1] y 9.’s µn sobre B(IR): sion . 2 Denotaremos por ∂A la frontera de un conjunto A ⊂ IR.e. inducida por X y Xn . Entonces F es def´ınase la funcion la f.20 Teorema.. (Compare el siguiente lema con la Proposicion ´ Uni[0. ∂A := {x ∈ IR|∀ ε > 0.p. i.p. ´ Puesto que F es continua por la derecha. el ´ınfimo se alcanza en algun ´ si ϕ(y) ≤ x. ´ h ∈ Cb . como 0 ≤ F (x) ≤ 1 y Y ∼ Uni[0. la equivalencia de (a) y (b) se obtendrá de los siguientes ´ 4.11. en particular. se tiene que inf{x|F (x) ≥ y} = min{x|F (x) ≥ y}. Las siguientes proposiciones son equivalentes para una suce´ de m. es decir.a. con distribucion ´ ϕ(y) := inf{x|F (x) ≥ y} para 0 < y < 1. ´ (b) Xn → X en distribucion. Por lo tanto. A ∩ (x − ε.21 Lema. 1]. x + ε) 6= φ y Ac ∩ (x − ε. Eh(Xn ) = Ω (25) IR Por otra parte. Las siguientes condiciones son equivalentes: (a) µn → µ débilmente.22. . . Luego. Sea Y una v.p. 2. F (x) ≥ y si y es decir.) dos resultados. .96 Probabilidad ´ Supongase que µ y µn es la m. Lema 9. Sea F una f. x + ε) 6= φ}. lo siguiente: n = 1.d. A continuacion 9. ´ punto.p. ´ demostraremos.. de ϕ(Y ). solo P{ϕ(Y ) ≤ x} = P{Y ≤ F (x)} = F (x). P{ϕ(Y ) ≤ x} = F (x) ∀ x ∈ IR. (c) Eh(Xn ) → Eh(X) para toda funcion La equivalencia de (a) y (c) se obtiene observando que Z Z h(Xn )dP = h(x)µn (dx). Demostracion.d. x]) para todo x ∈ IR tal que µ({x}) = 0.x−ε] ≤ g ≤ I(−∞. y tales que Yn → Y c. x]) ≥ lim inf Z g dµn = g dµ ≥ µ((−∞. Entonces. ´ definida como Análogamente. Entonces. (c) µn ((−∞.  1 0 si t > x + ε.9. ´ (b) ⇒ (c): Esto es obvio porque la frontera de (−∞. . Convergencia de vv. x]) ≤ lim sup Z f dµn = f dµ ≤ µ((−∞. se sigue que Z lim inf µn ((−∞. x] es {x}.x] . definidas sobre algun dad. Y1 .x+ε] . . ´ in Cb (a) ⇒ (c): F´ıjese x ∈ IR y ε > 0 arbitrarios. x]) porque ε > 0 era arbitrario.  1 0 si t > x. y sea f la funcion definida como  si t < x.s. . x]) → µ((−∞. lim sup µn ((−∞. 97 (a) µn → µ débilmente. Y. x + ε]). La equivalencia de los incisos (a) y (d) se conoce como Teorema de Skorokhod. . x − ε]). f (t) :=  1 − (t − x)/ε si x ≤ t ≤ x + ε. Demostracion. sea g ∈ Cb la funcion  si t < x − ε. como I(−∞. g(t) :=  1 − (t − x + ε)/ε si x − ε ≤ t ≤ x. Y2 . Z lim sup µn ((−∞. como I(−∞. con Y ∼ µ y Yn ∼ µn para todo n.aa. es decir.x] ≤ f ≤ I(−∞. x]) ≤ µ((−∞. ´ espacio de probabili(d) Existen vv.aa. (b) µn (A) → µ(A) para todo conjunto de Borel A ⊂ IR con µ(∂A) = 0. 2.s.. el conjunto en donde Y es discontinua es a lo más numerable. De aqu´ı se sigue que Yn → Y c. Además. se obtiene (b). Yn (ω) → Y (ω) en cada punto ω ∈ (0. Entonces c. 2 Demostracion ´ del Teorema 9.aa. . ´ asoci(c) ⇒ (d): Sean F y Fn (n = 1. ´ en Cb . de modo que lim inf µn ((−∞. Luego. de nuevo. x]) ≥ µ((−∞. ´ ´ medible con µ(Dh ) Para demostrar (b). x]) y Fn (x) := µn ((−∞. x)). es decir. Fn (x) → F (x) en cada punto x en el que F es continua. h(Yn ) → h(Y ) c. ´ Notese que las gráficas de las funciones Yn y Y son las inversas de ´ las gráficas de Fn y F .98 Probabilidad es decir. F (x) := µ((−∞. En particular. supongase que h es una funcion = 0. con λ = medida de Lebesgue.20: Este teorema se obtiene de (25) y de la .s.1 y. P) el espacio de probabilidad unitario ([0. y (d) ⇒ (a). definidas como en el Lema 9. como Dh = ∂A. es decir. Finalmente. 1) correspondiente a un punto en el que F es estrictamente creciente. . x]) para todo x ∈ IR. x]) = lim sup((−∞.s. donde Dh := { puntos de discontinuidad de h}. F. x]) = µ((−∞. para cada ω en donde Y es continua. como se deseaba demostrar. Luego. .21. Sea (Ω. por convergencia acotada se obtiene que Eh(Yn ) → Eh(Y ). y sean Y (ω) := inf{x|F (x) ≥ ω}. Por lo tanto. lim inf µn ((−∞. Y ∼ µ y Yn ∼ µn para todo n. Yn (ω) := inf{x|Fn (x) ≥ ω} vv. entonces µ((−∞. por hipotesis. 1]. respectivamente. λ). si µ({x}) = 0. Finalmente.1 Y ∈ / Dh y lo tanto. (b): Sea h una funcion como Yn → Y c. h es continua. 1]. x)). para obtener (b).p. se sigue que h(Yn ) → h(Y ) c.) funciones de distribucion adas a µ y µn . B[0. porque.p. como Y es no–decreciente. sea A un ´ conjunto de Borel con µ(∂A) = 0 y tomese h = IA . x]). h es acotada as´ı que Eh(Yn ) → Eh(Y ) y se obtiene (a). x]) = µ((−∞. Además. 6? (c) Xn dλ 6→ Xdλ. con E(Xj ) = mj y ´ Var(Xj ) = σj2 . B(IR).6 o´ al (c) Xn dλ 6→ X dλ. Convergencia de vv. convergencia en probabilidad implica convergencia en distribucion.22. Además. para cada n = 1. ¿Es e´ sto una contradiccion Ejercicio 1? 9. . . es Ejercicios 9. . Sea n X Yn := (Xj − mj ).n] y X ≡ 0. y (b) 0 ≤ Xn ≤ 1 para todo n.aa. pero R R ´ a los Teoremas 9.(c). 99 equivalencia de (a) y (c) en el Lema 9. da una nueva demostracion ´ decir. .1 Sea {Xn } una sucesion i. Demuestre que EXn → EX. vv. independientes en L2 .aa. 2. j=1 Demuestre que . .20(b). . X2 . 9. combinado con los ´ de la Proposicion ´ 9.4 Sean X1 .∞) y X ≡ 0.9. ¿Es e´ sto una contradiccion 9.13. 2 Para concluir. F. µ) como en el Ejercicio 2. F.18.12 y 9. que converge uniformemente de X. 9. Supongase que existe una constante M tal que σj2 ≤ M para todo j. Demuestre que (a) Xn → X uniformemente y (b) 0 ≤ Xn ≤ 1 para todo n. y sean Xn := I[n. Ejercicios § 9 ´ de vv. Demuestre: (a) Xn ↓ X. . supω |Xn (ω) − X(ω)| → 0 cuando n → ∞. µ) = (IR. sea Xn := n1 I[0. λ) en donde λ es la medida de Lebesgue.2 o´ 9. observe que el Teorema 9.aa.e.3 Sea (Ω.2 Sea (Ω. pero R R ´ al Teorema 9. donde E(X) > −∞. (Al resultado en (b) se le conoce como ley débil de los grandes numeros ´ de Chebyshev. en probabilidad. y que una compan´ tiene entre sus clientes 10. . 9.16. entonces Xn → 0 c.s.6 Demuestre: (a) Si X.5 Demuestre que si ∞ P P{|Xn −X| ≥ ε} < ∞ para cada ε > 0. . X2 . (b) 1 Y n n → 0 en L2 y.005% de la poblacion ˜ ıa de seguros a un cierto tipo de accidente de trabajo. . ..9 Demuestre el Lema de Fatou: sean X1 .16. n→∞ n→∞ .7 Demuestre que si Xn → X c. por lo tanto. Xn (n = 1. ˜ ıa deba pagar más de 3 poli´ (a) Calcule la probabilidad de que la compan´ ˜ dado. .) son vv. n=1 entonces Xn → X c. (a) Si Xn ≥ X para todo n. zas en un ano ´ de Poisson (22).aa. 2. .aa. 2.s.100 Probabilidad (a) Var(Yn ) ≤ nM .) ´ de vv. . .s.) Xn → X c. . . entonces n=1 ´ 9. .) (Sugerencia: use la Proposicion ´ ´ muere anualmente debido 9. entonces lim inf E(Xn ) ≥ E(lim inf Xn ).) 9. discretas con (b) Si {Xn } es una sucesion P{Xn = 1/n} = P{Xn = −1/n} = 1/2 ∀ n = 1.s.000 que están asegurados contra ese tipo de accidente. (b) Repita (a) usando la aproximacion 9. (Sugerencia: use la Proposicion 9. (Sugerencia: use el Ejercicio 5. en L2 tales que ∞ P E(Xn − X)2 < ∞.aa. X vv. entonces Xn → X en probabilidad.8 Supongase que el 0. ´ 9. Ahora. Además. 9. ´ ´ donde Xn ≥ 0. Supongase que Xn → X en distribucion. Demuestre que Xn → X en probabilidad ssi x 1+x para lim E[f (|Xn − X|)] = 0. De9. o´ en probabilidad. entonces lim sup E(Xn ) ≤ E(lim sup Xn ).17. 1.s.15. Sea µn la distribucion débilmente. muestre que EX ≤ lim inf EXn . . 9. para demostrar (a) use el Teorema de convergen´ cia monotona 9.11 Si Xn → X en Lp o´ en probabilidad. . n→∞ 9.) ´ definida como f (x) := 9. n→∞ n→∞ (Sugerencia: Sea Yn := inf k≥n Xk y Y := lim inf Xn = lim Yn .14 Sea µ la medida de Lebesgue sobre el intervalo unitario. y sea µn la medida uniforme sobre {0. Sea X ≡ 0 y Xn tal que P{Xn = n} = 1/n y P{Xn = 0} = 1 − 1/n. En caso afirmativo. Xn → X en probabilidad.10 Sea f : [0. 1/n). cuando k → ∞. donde E(X) < ∞. diga a qué medida converge {µn }. Demuestre que X y Xn satisfacen las condiciones en el Ejercicio 9. entonces existe una sub´ nk tal que Xnk → X c. n}.16. es decir µ({i/n}) = 1/(n + 1) para n ∈ {0. . sucesion ´ 9. 101 (b) Si Xn ≤ X para todo n.15. . respectivamente. Si Xn → X c. ´ continua. n}. 1] la funcion x ≥ 0.13 Sea f una funcion entonces f (Xn ) → f (X) c. ∞) → [0.s.s. Para demostrar (b) use el hecho de que lim sup Xn = − lim inf(−Xn ) y aplique el inciso (a). Entonces X está en Lp y Xn → X en Lp .2. . y obsérvese que Yn ↑ Y .12 Extension ´ del Teorema de Convergencia Dominada. . 9. .aa. . Diga si {µn } converge 9. Convergencia de vv. o´ en probabilidad. Supongase que Xn → X en probabilidad y que existe Y ∈ Lp tal que |Xn | ≤ Y para todo n.9. . Demuestre que µn converge débilmente a µ. 1. ´ normal N (0. g. de X también se llama la transformada de Laplace de FX .c. por (8. funcion probabilidad.a. Contenido.102 10 Probabilidad Funciones caracter´ısticas y el TLC ´ generadora de momentos. (3) MX (t) = k Si X es (absolutamente) continua con densidad fX . La f. teorema l´ımite central. (4) −∞ √ Por otra parte. entonces X etxk fX (xk ). funcion ´ caracter´ıstica. Para tales valores de t. Si X es una v.5) y (8. de X. entonces Z ∞ MX (t) = etx fX (x)dx. sobre un espacio de probabilidad (Ω. La funcion ´ generadora de momentos (f.a.7) podemos escribir Z Z tX MX (t) = e dP = etx dFX (x).m. (5) .) de X se define como MX (t) := E(etX ) (1) para todo t ∈ IR para el cual la esperanza en (1) es finita.m. P). si i = −1 es la “unidad imaginaria”. Funcion ´ generadora de teorema de continuidad.d. (2) Ω IR donde FX es la f.g. ´ de Casos especiales. definimos la funcion ´ caracter´ıstica (f. Sea X una v. discreta con valores {xk } y funcion densidad fX .) de X como CX (t) := MX (it) = E(eitX ) para todo t ∈ IR. F. si k = n = 1. MX (t) es finita para todo t en una vecindad del origen t = 0. Esto ultimo se obtiene de la formula de Taylor.c. entonces su f. se puede obtener como en (3) y (4). observe que (6) equivale a demostrar que el l´ımite Z −1 itX lim t E(e − 1 − itX) = lim t−1 (eitx − 1 − itx)PX (dx) t→0 t→0 IR ´ ´ es cero. IR Esto significa que la f. . n.c. y usando el teorema de convergencia dominada. CX (t) está definida y es uniformemente acotada para todo t ∈ IR. la f. es n veces diferenciable y satisface que (k) CX (0) = ik E(Xk ) ∀ k = 0.1 Observacion. x ∈ IR. que da |t−1 (eitx − 1 − itx)| ≤ 1 + |x| ∀ |t| < 1. . Análogamente. Para tal fin. MX (t) puede no estar definida para algunos valores de t. si X está en Ln y su f. entonces en lugar de (6) tenemos (k) MX (0) = E(Xk ) ∀ k = 0. de X es la transformada de Fourier de FX . Aqu´ı lo haremos solo ´ para n = 1. en lugar de (2) tenemos Z Z itX CX (t) = e dP = eitx dFX (x) Ω IR y también se dice que la f. notese que (6) es trivial para k = 0.m. sustituyendo t por it.) ´ entero positivo n (i. por lo tanto. (6) ´ ´ ´ Esta formula se puede demostrar por induccion. .g.4 (a).10. . (7) . n. De aqu´ı se sigue que Z |CX (t)| ≤ |eitx |dFX (x) = 1 para todo t ∈ IR.c.c. Además. . si X es discreta o continua. (b) Sea X una v. sin embargo. 10. en Ln para algun Entonces su f. 1. . respectivamente.2 (b) y 10. 1.g. .e.m. ´ (a) Para cualquier x ∈ IR se tiene que eix = cos x + i sen x y. (Vea 10. E|X|n < ∞). |eix | = (cos2 x+sen2 x)1/2 = 1. . Funciones caracter´ısticas 103 En este caso. Ahora.a. al igual que la demostracion ´ de La demostracion X ∼ Y ⇒ CX (·) = CY (·) (11) . Dos vv.2 Problema. Xn son vv.d. ´ (a) Si Y = aX + b.d. Xn son i. 10. .3 Proposicion. (8) (b) Si X1 . it −1) CX (t) = eλ(e . Debido a (7) es que a MX se le llama “funcion aunque de hecho la f. (a) X ∼ Bin(n.c.c.c. . y la f. (10) (c) Propiedad de unicidad de la f.m. p). (b) X ∼ Geo(p). ssi tienen la misma f. (c) X ∼ Poi(λ). entonces CY (t) = eibt CX (at). q := 1 − p. En cada uno de los casos siguientes verifique que la f. . Para todo t ∈ IR: t MX (t) = eλ(e −1) . .. también “genera momentos”. entonces CS (t) = CX1 (t) · · · CXn (t) ∀ t ∈ IR. 10. ´ de (8)–(9) es trivial.aa. CX (t) = p/(1 − qeit ) ∀ t ∈ IR. (9) En particular.g. si X1 . entonces CS (t) = [CX1 (t)]n . MX (t) = p/(1 − qet ) si qet < 1. . tienen la misma f. . Para todo t ∈ IR: MX (t) = (pet + q)n . de X tienen el valor que se indica. . X ∼ Y ssi CX (t) = CY (t) para todo t ∈ IR. En otras palabras.c.i.104 Probabilidad ´ generadora de momentos”. CX (t) = (peit + q)n . independientes y S := X1 + · · · + Xn . . en el sentido de (6).aa. q := 1 − p. 3 (c). el resultado se sigue de la propiedad de unicidad 10. Demuestre: (a) Si Xk ∼ Poi(λk ) para k = 1. . . Es decir.3 (b) y 10. 1) entonces 2 /2 MX (t) = et 2 /2 y CX (t) = e−t ∀ t ∈ IR. . usando (12).2 para los casos siguientes: (a) X ∼ Exp(λ). Recuerde que segun ´ el concepto de convergencia en distribucion . σ 2 ).10. . (b) X ∼ N (µ. . CS (t) = r Y k=1 CXk (t) = r Y it −1) eλk (e k=1 de modo que it −1) CS (t) = e(λ1 +···+λr )(e . (12) En particular.3(c). entonces S ∼ Poi(λ1 + · · · + λr ).13. . CS es como en 10. MX (t) = λ/(λ − t) si t < λ. . . Funciones caracter´ısticas 105 ´ ´ en el en 10. El rec´ıproco de (11) se sigue de la formula de inversion Lema 10. CX (t) = λ/(λ − it) ∀ t ∈ IR. CX (t) = exp(iµt − σ 2 t2 /2). (b) Si Xk ∼ N (µk . ´ de (b) es similar.5 Ejemplo.2 (c) pero con parámetro λ = λ1 + · · · + λr . ´ (a) Por 10. (13) 10. Para todo t ∈ IR: MX (t) = exp(µt + σ 2 t2 /2).2 (c). 10. σk2 ) para k = 1. . σ12 + · · · + σr2 ). independientes y sea S := X1 +· · ·+Xr .4 Problema. r.aa.c. entonces S ∼ N (µ1 + · · · + µr . . . la f. Por lo tanto.aa. Xr vv. Solucion. Repita el problema 10. . Sean X1 . si X ∼ N (0. r. La demostracion 2 ´ veremos varios resultados relacionados con En el resto de esta seccion ´ de vv. aa. ´ (a) Por definicion cuando n → ∞. ´ ssi Eh(Xn ) → Eh(X) para toda 10. .d. Sean X y Xn (n = 1. . Esto implica que EXn → EX porque (EXn − EX)2 = [E(Xn − X)]2 ≤ E(Xn − X)2 → 0.7 Teorema de continuidad. ´ N (µ.) vv.6 Proposicion. ´ 10.8 Ejemplo. (El Teorema 10. Ahora observe que E[X · (Xn − X)] → 0 porque la desigualdad de Cauchy– Schwarz (Ejercicio 7. Demuestre que: (a) EXn → EX. ´ entonces X tiene distribucion ´ de convergencia en L2 . aqu´ı usaremos el siguiente criterio de convergencia en dis´ basado en funciones caracter´ısticas.19. σ 2 ) y Xn → X en distribucion. se sigue E(X2n ) → E(X2 ). 2. Xn → X en distribucion ´ si FXn (x) → FX (x) para todo la Definicion x ∈ IR en el que la f.9. Var(Xn ) = E(X2n ) − (EXn )2 → E(X2 ) − (EX)2 = Var(X). Un criterio relativamente sencillo de usar para este tipo de convergencia es el siguiente. respectivamente. con µn → µ y σn2 → σ 2 > 0.3) da que (E[X · (Xn − X)])2 ≤ E(X2 ) · E(Xn − X)2 → 0. . E(X2n ) → E(X2 ) y Var(Xn ) → Var(X). como X2n − X2 = (Xn − X)2 + 2X · (Xn − X).c.7 se demuestribucion tra más adelante. .106 Probabilidad ´ 9. Finalmente. σn2 ) para cada n. FX es continua.’s ´ ssi Cn (t) → CX y Cn . que ya vimos en 9. Entonces Xn → X en distribucion CX (t) para todo t en IR. Supongase que Xn → X en L2 . con f. E(Xn − X)2 → 0 Solucion.) 10. Por lo tanto. (b) Si además Xn ∼ N (µn . ´ Xn → X en distribucion ´ h : IR → IR continua y acotada. funcion De hecho. 1. µn = EXn → EX = µ y. para n = 2 tenemos CX (t) = 1 + (it)EX − t2 E(X2 )/2 + o(t2 ). (16) . . ´ de vv. . la f. .7 concluimos que Xn → X ´ ´ ´ también se podr´ıa en distribucion. n Sn − ESn Sn − nµ √ . sea y S n := 1 Sn . σ/ n Entonces Yn → Z ´ en distribucion. . Yn := p = σ n Var(Sn ) (15) ´ notese que Yn = Sn − µ √ .10. 2. de (12).i. Luego. i.aa. de X pues CXn (t) = exp(iµn t − σn2 t2 /2) → exp(iµt − σ 2 t2 /2) = CX (t) para todo t ∈ IR. Funciones caracter´ısticas 107 (b) Por el inciso (a). . análogamente σn2 → σ 2 =Var(X). Sea {Xn } una sucesion 2 con media µ y variancia σ > 0 finita.) haber obtenido de la Proposicion 2 En 10. Sn := X1 + · · · + Xn Asimismo.10. de Xn converge a la f.9 Teorema L´ımite Central (TLC). sean Sn y S n la suma y el promedio muestral.1(b) vimos que si E|X|n < ∞. ´ aplicando la formula de Taylor a CX (t) se puede ver que CX (t) = n X (it)k E(Xk )/k! + o(tn ). σ 2 ) y de 10. (Observe que esta ultima conclusion ´ 9. (14) ´ para demostrar el siguiente importante resulUsaremos esta expresion tado. 10.d.e. Es decir. n. respectivamente. Para cada n = 1.c. Además.c. X ∼ N (µ. i. . entonces las derivadas de CX (t) (k) en t = 0 satisfacen que CX (0) = ik E(Xk ) para k = 0. . . k=0 En particular. 2 10. por (14). Si las vv.c. .d. entonces √ |P{Yn ≤ x} − FZ (x)| ≤ 3ρ/σ 3 n ∀ x ∈ IR. Equivalentemente. .108 Probabilidad en donde Z ∼ N (0. notese primero que Yn = n X √ Xk / n. . X2 .d. varianza σ 2 > 0 y tercer momento ρ := E|Xk |3 < ∞. Por lo tanto.18) obtenemos (18). tomando el l´ımite cuando n → ∞ y usando (9.c. . ´ Sea Cn (t) la f. (18) ´ Con este fin. 2.. Finalmente. de Yn . . (19) k=1 en donde Xk := (Xk − µ)/σ es una v. X1 . la f. 1).i. se tiene que P{Yn ≤ x} → FZ (x) ∀ x ∈ IR. . de Xk satisface que CXk (t) = 1 − t2 /2 + o(t2 ) =: h(t) ∀ k = 1. (a) La desigualdad de Berry–Essen da una esti´ de la rapidez de convergencia en (17) bajo las siguientes condimacion ciones. con media 0 y varianza 1. Por el Teorema de Continuidad 10. como las Xk son i.10 Observaciones. se sigue de (10) que √ Cn (t) = [h(t/ n)]n = [1 − t2 /2n + o(t2 /n)]n . para demostrar (16) basta verificar que 2 /2 Cn (t) → CZ (t) = e−t ∀ t ∈ IR. además. con media cero.7.a.i. (17) Demostracion. . son i. como Z x 1 2 FZ (x) := P{Z ≤ x} = √ e−y /2 dy 2π −∞ es continua en todo x ∈ IR.aa. es decir Yn := Sn /σ n.10. i. En este caso se dice que las vv. y.k son “asintoticamente despreciables”. . la suma muestral Sn ∼ Bin(n. por el TLC. es una v. (20) (d) Una pregunta natural es si en el TLC se puede tener convergencia ´ La respuesta en un sentido más fuerte que convergencia en distribucion. para k = 1. (∗) ´ y. S2n Y2n := √ → X σ 2n en probabilidad. es no. 2 2 Un := . y supongase que Yn → X en probabilidad. En efecto.a. (c) Se llama Teorema de De Moivre–Laplace al caso especial del TLC en el que las vv. . . S2n Sn Xn+1 + · · · + X2n √ = √ − √ σ 2n σ 2n σ 2n 1 1 = Y2n − √ Yn → 1 − √ X en probabilidad.k k=1 √ en donde Zn. 1). p) de modo que (15) resulta √ Yn = (Sn − np)/ npq.aa. con media cero y varianza 1/n → 0 cuando n → ∞. X = Z ∼ N (0. por lo tanto.aa. de nuevo por (∗). En tal caso. sea Yn como√en (15) pero con µ = 0 (para simplificar la ´ ´ notacion). P{Xk = 1} = p.e. P{Xk = 0} = 1 − p =: q. n. Esto implica que Yn → X en distribucion Ahora. ´ Zn. Funciones caracter´ısticas 109 (b) Reescr´ıbase (19) como Yn = n X Zn. Xk son Bernoulli con parámetro p. .k := (Xk − µ)/σ n. .d. 1) en distribucion. ´ de Sn ∼ Bin(n. con n = 400. de Bernoulli con parámetro p = 0. lo cual es una contradiccion.56. . .42) [por (17)] = 0.9922 [de la “tabla normal”].i. vemos que √ P{Sn ≤ 200} = P{Yn ≤ (200 − 176)/ 98. (∗) no puede ocurrir. usando el TLC con Yn como en (20). (+) ´ Para concluir. 10. . . Xn . . en donde E(Sn ) = np = (400)(0. k k=0 con q = 1 − p = 0. por el TLC. de modo que. n. Xk = 1 (“éxito”) si la k–ésima persona está a favor del candidato.aa.44. Se pide calcular la probabilidad de que Sn := X1 + · · · + Xn > 200. Para cada k = 1. por (+). p).56. En una encuesta preelectoral se encuentra que el 44% de ´ está a favor de un cierto candidato. .44) = 176 y Var(Sn ) = npq = 98. ´ Vn → N (0. Solucion. Calcule la probabilidad la poblacion de que en una muestra de 400 personas escogidas al azar más de la mitad estén a favor de dicho candidato.11 Ejemplo. ´ Sean X1 . notese que Vn ∼ Yn para todo n. que obviamente es un cálculo complicado.110 Probabilidad ´ De aqu´ı se sigue que la sucesion Vn := √ Xn+1 + · · · + X2n √ √ = 2Un → ( 2 − 1)X σ n en probabilidad. Por otra parte. . √ ´ Vn → ( 2 − 1)N (0. i.56} ≈ FZ (2. . Sin embargo. vv. 1) en distribucion. ´ Luego. debemos calcuSi usamos directamente la distribucion lar 200 X n P{Sn > 200} = 1 − P{Sn ≤ 200} = 1 − pk q n−k . . Luego.d.5/ 1. ´ Notese que Sn ∼ Poi(nλ) de modo que E(Sn ) = Var(Sn ) = nλ = (50)(0. P{Sn ≥ 3} ≈ 0.5)/ 1.03.5 [1 + 1. b] = lim T →∞ 2π Z T −T e−ita − e−itb · h(t)dt it (21) para todo a y b que sean puntos de continuidad de F .aa. F (x) = −∞ .i. Por lo tanto.9922 = 0. . Xn .5 + (1.78%.12 Ejemplo. h(t) := −∞ eitx dF (x). i. con n = 50. .5)2 /2].5) = 0.0078 = 0.6591. entonces 1 F (a. Si además h es inte´ grable sobre IR con respecto a la medida de Lebesgue. k=0 √ Por otra parte. Funciones caracter´ısticas 111 Por lo tanto P{Sn > 200} ≈ 1 − 0. f es no–negativa y Z x f (u)du ∀ x ∈ IR. b] := F (b) − F (a) para a < b. entonces la funcion Z ∞ 1 e−itx h(t)dt f (x) := 2π −∞ es una densidad para F . usando el TLC con Yn = (Sn − nλ)/ nλ obtenemos √ P{Sn ≤ 2} = P{Yn ≤ (2 − 1. Calcule P{Sn ≥ 3}. Si h es la funcion R∞ F .5.p. 2 10.d.10.3409. .5} √ ≈ FZ (0. de Poisson con parámetro λ = 0. ´ Solucion. Sean X1 .13 Lema. es decir.03) = 1. el cálculo exacto ser´ıa P{Sn ≥ 3} = 1 − P{Sn ≤ 2} con P{Sn ≤ 2} = 2 X P{Sn = k} = e−1. es decir. 2 10. vv. y ´ caracter´ıstica de F (a. (Formula ´ de inversion ´ de Fourier) Sea F una f. . ´ Como |h(t)| ≤ 1.112 Probabilidad Demostracion. −ita . . −ita . −itb −itb . . e . . e − e − e . . · h(t). . ≤ . . . . it it . . Z b . . −itx e dx. . = . . de modo que Z T −T . a ≤ b − a. −ita . −itb . e . − e . . · h(t) . dt ≤ 2T (b − a) < ∞. . 1 JT := 2π Z T −T e−ita − e−itb · h(t)dt. definida como   1 si r > 0. 0 si r = 0. sgn(r) :=  −1 si r < 0. .e. it Por lo tanto. T ] es porque la funcion cero. Sea sgn (r) la función signo. i. si JT es la integral en (21). it usando el Teorema de Fubini vemos que JT Z T −ita Z ∞ 1 e − e−itb = · eitx dF (x)dt 2π −T it −∞ Z ∞ Z T it(x−a) e − eit(x−b) 1 dt dF (x) = 2π −∞ −T it Z ∞Z T 1 sen t(x − a) − sen t(x − b) = dt dF (x) 2π −∞ −T t (22) ´ t−1 cos(ct) es impar as´ı que su integral sobre [−T. Además. Z T sen (rt) dt = π sgn(r). Funciones caracter´ısticas 113 ´ Entonces. Z b Z b Z ∞ 1 −itx h(t) e dx dt f (x)dx = 2π −∞ a a Z T 1 e−ita − e−itb = lim h(t) · dt. Esto completa la demostracion ´ Supongase ahora que h es integrable y sea Z ∞ 1 e−itx h(t)dt ∀ x ∈ IR. usando la formula Z ∞ Z t Z t sen x −rx dx = sen x e dr dx x 0 0 0 ´ se obtiene que e intercambiando el orden de integracion. T →∞ 2π −T it . f (x) := 2π −∞ ´ f está bien definida. de (22). por el teorema de Fubini. si F es continua en a y b. J(x) =  1/2 si x = a o´ x = b. es continua (por el Como h es integrable. usando el Teorema de Convergencia Acotada tenemos: Z Z ∞ 1 ∞ [sgn(x − a) − sgn(x − b)]dF (x) = J(x)dF (x). Luego 1 lim JT = F (b−) − F (a) + [F (a) − F (a−) + F (b) − F (b−)] T →∞ 2 = F (b) − F (a) ´ de (21). lim T →∞ −T t Por lo tanto. lim JT = T →∞ 2 −∞ −∞ donde   0 si x < a o´ x > b 1 si a < x < b.10. la funcion teorema de convergencia dominada) y acotada. . . cada punto en IR es l´ımite por arriba de puntos de continuidad. Xk ) para j. Es decir. Luego (de ´ de producto de matrices) el producto escalar de acuerdo con la definicion dos n–vectores u = (u1 . . Si X = (X1 . . n) y Cov(X) es la matriz n × n con componentes. . . . . la f. as´ı que h determina F en todo punto. . . EX es el n–vector con coordenadas EXj (j = 1. .3(c): unicidad de la f. . 2 La distribucion ´ normal multivariada 10. j=1 donde u0 es la transpuesta de u. aunque ocasionalmente en el texto lo escribiremos como fila. . . . Z b f (x)dx = F (a. Ahora tenemos la siguiente caracterizacion . y por lo tanto para todo a. Por la formula ´ (21). b] = F (b) − F (a) a por (21). respectivamente. de inversion Pero. . . . un ) y v = (v1 . k = 1. .aa. 2 ´ Demostracion ´ de la Proposicion ´ 10. ´ 5. . . Xn son conjuntamente gaussianas) si a0 X = a1 X1 + · · · + an Xn (23) ´ normal (univariada) para todo vector a = (a1 . .114 Probabilidad i. si F es continua en a y b. . . además. y cualquier punto en IR es el l´ımite por la derecha de puntos de continuidad de F ). an ) en tiene distribucion n ´ de la distribucion ´ normal IR .. . se dice que un n-vector aleatorio X = De acuerdo con la Definicion (X1 . n. vn ) es u0 v = n X uj v j = u1 v 1 + · · · + un v n . X1 .c.14 Notacion. .e. h determina F en todos los puntos de continuidad. . .7. Cov(X)jk = Cov(Xj . . . ´ Un vector siempre se interpretará como matriz columna. b en IR (porque F tiene a lo más un conjunto numerable de discontinuidades. Xn ) es un n–vector aleatorio denotamos por EX y Cov(X) := E[(X − EX)(X − EX)0 ] su vector medio y su matriz de covarianza. . .c. Xn ) es gaussiano (o que tiene distribución normal multivariada o que las vv. 10.a. Sea a ∈ IRn un n–vector arbitrario y sea Y := a0 X = a1 X1 + · · · + an Xn . ´ caracter´ıstica respectivamente. (por (25)). la v.e. Y := a0 X es una v. 2 0 Esto significa de Y = a X es una v. tomese u ∈ IR y observe que 0 CY (u) := E(eiuY ) = E(ei(ua) X ) = CX (ua). normal Definicion con media y varianza EY = a0 EX = a0 µ y Var(Y ) = a0 Qa.15 Teorema. De aqu´ı se sigue que (por (12)) la funcion de Y es 1 CY (u) = exp[iu(a0 µ) − u2 (a0 Qa)] ∀ u ∈ IR. (24) ´ carac10. Para demostrar que X ´ caracter´ıstica de Y es como en es gaussiano basta verificar que la funcion ´ (12). Un n–vector aleatorio X es gaussiano ssi su funcion ter´ıstica es de la forma 1 CX (t) = exp(it0 µ − t0 Qt) ∀ t ∈ IRn . . Luego (por la ´ 5. supongase que X es un vector gaussiano con vector medio µ := EX y matriz de covariancia Q := Cov(X). ´ Supongase que se tiene (25). tomando u = 1 vemos que 0 CY (1) = Ca0 X (1) = E(eia X ) = CX (a) . En este caso µ = EX es el vector medio de X y Q =Cov(X) es la matriz de covarianza. .7). Para este fin. ´ Rec´ıprocamente. 1 CY (u) = exp[iu(a0 µ) − u2 (a0 Qa)]. 2 En particular. para cada n–vector a. . i.a. tn ) ∈ IRn . ´ Demostracion. a0 Qa). Funciones caracter´ısticas 115 ´ de funcion multivariada en base a la definicion ´ caracter´ıstica de un n– vector X: 0 CX (t) := E(eit X ) ∀ t = (t1 . .a. normal N (a0 µ. 2 (25) donde µ es un n–vector y Q es una matriz n × n simétrica y no–negativa definida. si X es un vector gaussiano cuya matriz de covarianza es diagonal. son independientes.3 Sean X1 . además.aa. . La funcion ´ ´ generadora de probabilidad (f.15 se obtiene lo siguiente (que se pide demostrar en el Ejercicio 8. µn ) y matriz de covarianza Cov(X) = diag(σ12 . . σn2 ).p. . . Rec´ıprocamente. .aa. . (b) X ∼ Geo(p). . discretas como el Ejercicio 1. Ejercicios § 10 10.aa. Demuestre que ´ ssi GX (·) = GY (·). Observacion. .p.g. .a. discretas como en el Ejercicio 1 y. discreta con valores en un subconjunto de los enteros no negativos. .2 Sean X y Y dos vv. . . Demuestre: . . .) 10. y densidad f (k) := P(X = k). Si X1 . entonces el vector X = (X1 . Xr vv. 2 Como consecuencia inmediata del Teorema 10.16 Corolario. GX (t) = p/(1 − tq) con q := 1 − p (c) X ∼ Poi(λ).g.116 Probabilidad y se tiene (25) con t = a. X y Y tienen la misma distribucion 10. . . . entonces las componentes de X son variables normales independientes. .1 Sea X una v. . . ´ MX (t) = GX (et ) y CX (t) = MX (it) = GX (eit ). N (µj . {0. . . GX (t) = (pt + q)n con q := 1 − p. Xn ) es gaussiano con vector medio µ = (µ1 .) de X es la funcion GX (t) := E(tX ) = X tk f (k) para |t| ≤ 1. . . Xn son vv. p). . tiene el valor indicado: (a) X ∼ Bin(n.}. . 1. . 10. n) independientes. k En cada uno de los casos siguientes demuestre que la f. σj2 )(j = 1. GX (t) = eλ(t−1) . Sea S := X1 + · · · Xn . .7 Se sabe que el 5% de las computadoras fabricadas por una cierta empresa son defectuosas. continua con densidad f (x) = x ∈ IR. .a. .c.6 Para cada n = 1. con f. p) para k = 1. . 10. Funciones caracter´ısticas 117 (a) GS (t) = GX1 (t) · · · GXr (t).a. σ 2 ). Cn (t). r entonces S ∼ Bin(n1 + · · · + nr .m.5 Sea X una v. 2. p). 1 −|x| e 2 para todo (a) Demuestre que la f. calcule la probabilidad de que a lo más una sea defectuosa usando: ´ binomial. (b) Si Xk ∼ Bin(nk . y (b) la aproximacion (c) el TLC.10. de X es M (t) = 1/(1 − t2 ) para −1 < t < 1.13). (Sugerencia: use el inciso (a) y los Ejercicios 1(b) y 2.g. . (a) la distribucion ´ de Poisson a la distribucion ´ binomial (ver 9. Use (12) y (6) [o´ (7)] para verificar que E(Xk ) = 0 si k es impar. Demuestre que los siguientes tres enunciados son equivalentes: (a) Xn → 0 en probabilidad. (c) Cn (t) → 1 para todo t ∈ IR. (b) Use M (t) para demostrar que E(Xn ) = 0 si n es un entero positivo ´ de E(Xn ) cuando n es par. . impar. 10. ´ (b) Xn → 0 en distribucion. Si se seleccionan al azar 100 computadoras de dicha empresa. sea Xn una v. . y para encontrar una expresion 10. = k!σ k /2k/2 (k/2)! si k es par.) ´ 10.4 Supongase que X ∼ N (0. . . ) Sea X una v. Y ) es un (n + m)– vector gaussiano. cada v.8. Y ) no es gaussiano.a. para algun como Y := X · I{|X|≤a} − X · I{|X|>a} . ´ bivariada que no es gaussiana bi10. pero el vector (X.16. . plo 5.a.9 Sea X un n–vector gaussiano y Y un m–vector gaussiano. Por lo tanto.118 Probabilidad 10. definida. X y Y es gaussiana. entonces (X. Demuestre que si X y Y son independientes.a.10 (Ejemplo de una distribucion variada pero cuyas marginales s´ı son gaussianas — vea también el Ejem´ a > 0.8 Demuestre el Corolario 10. Demuestre que Y ∼ N (0. 1). N (0. pero X + Y no es normal. 1) y sea Y la v. 10. := 0 si fX (x) = 0.aa. y sean fX (x) := P(X = x) = X f (x. Y = y}.11. y)/fX (x) si fX (x) > 0. y) y sea Z ∞ fX (x) := f (x. i.e.aa. Densidad y distribucion dada una σ–álgebra. sean X y Y vv. y). y) := P{X = x. estimador en la media cuadrática. f (x. continuas con densidad conjunta f (x. y) y fY (y) := P(Y = y) = y X f (x. estimador lineal. (3) y Para vv. esperanza condicional Contenido. respectivamente. y) x las densidades marginales de X y Y .. y)dy −∞ .aa. (1) Asimismo. Sean X y Y vv. definimos la esperanza condicional de Y dado que X = x como X E(Y |X = x) := y f (y|x). continuas tenemos definiciones análogas. (2) y 0 ≤y Si además Y está en L1 . Es decir. la distribucion ´ condicional de Y dado que X = x es F (y|x) := P(Y ≤ y|X = x) = X f (y 0 |x). Esperanza condicional 11 119 Esperanza condicional ´ condicional. Definimos la densidad condicional de Y dado que X = x como f (y|x) := f (x. discretas con densidad conjunta f (x. 5(a). X f (y|x) = y 1 X 1 fX (x) = 1. la esperanza condicional Z ∞ E(Y |X = x) := y f (y|x)dy. Además. (9) . Entonces definimos la densidad condicional de Y dado que X = x como f (y|x) := f (x.aa. además. y (b2 ) E(Y |X = x) = EY (para Y ∈ L1 ).1 Proposicion. ´ (a) Si X y Y son vv. y)/fX (x) si fX (x) > 0 (4) y f (y|x) := 0 si fX (x) = 0. entonces Z ∞ fY (y) = −∞ (b) Si X y Y son independientes. tenemos la distribucion ´ condicional Z y f (y 0 |x)dy 0 (5) F (y|x) := P(Y ≤ y|X = x) = −∞ y. (7) f (y|x) fX (x)dx. y) = fX (x) y fX (x) También tenemos el siguiente resultado cuyo inciso (a) se puede interpre´ de la ley de la probabilidad total en el Teorema tar como una version 3. Por ejemplo. se puede ver que la densidad condicional f (·|x) es una densidad de probabilidad si fX (x) > 0. entonces (b1 ) f (y|x) = fY (y). en el caso discreto (1) tenemos f (·|x) ≥ 0 y. para Y en L1 . entonces fY (y) = X f (y|x)fX (x). (8) x y si son continuas. discreto o continuo. (6) −∞ En cualquier caso. discretas. f (x.120 Probabilidad la densidad marginal de X. 11. d. i. por la condicion P{SN = x|N = n} = P{Sn = x|N = n} = P{Sn = x}. . (b) Por el Teorema 5. (8) se obtiene (4). ´ (b1 ) en (9). 1. con valores en {0. y) = fY (y).i. entonces ESN = µ · EN . y) = fX (x)fY (y). . Sean X1 . 1.2. con valores en {0. . y En forma similar. Demuestre que: (a) P{SN = x} = ∞ P P{N = n} P{Sn = x}. si X y Y son independientes. de (1) y (4) se obtiene la condicion ´ de esperanza condicional. En efecto. .}. entonces f (x. ´ (a) Notese que. Esperanza condicional 121 Demostracion. (10) . respectivamente. . Sea So := 0 y Sn := X1 + · · · + Xn para n ≥ 1. x Análogamente. Sea N una v. Asimismo (b2 ) Por lo tanto. en el caso continuo (b2 ) se obtiene de (b1 ) y (6). X2 . ´ ´ (b1 ) en (9) Solucion. .11. . . ´ (a) Por (1).a. el lado derecho de (7) resulta X f (y|x)fX (x) = x X f (x. . en se sigue de (b1 ) y de la definicion el caso discreto (3) obtenemos E(Y |X = x) := X y f (y|x) = y X y fY (y) = EY.} e independiente de {Xj }. Considere la suma aleatoria SN := X1 + · · · + XN . n=0 (b) Si además las Xj y N tienen medias finitas µ y EN . 2 11.2 Ejemplo. a. E(Y |X) : Ω → IR con valores E(Y |X)(ω) := E(Y |X = x) si X(ω) = x. ∞ X P{SN = x} = n=0 ∞ X = n=0 ∞ X = P{SN = x. y EN = X x n P{N = n}. P{N = n}P{Sn = x} n=0 ´ de (a). por definicion X ESN := x P{SN = x} x X X = x P{N = n}P{Sn = x} x = n X P{N = n} n = µ· [por (a)] X x P{Sn = x} x X n P{N = n} [por (11)] n [por (11)]. 2 = µ · EN 11.3 Definicion. F. Definimos la esperanza condicional de Y dada la v. P).122 Probabilidad Además. N = n} P{N = n}P{SN = x|N = n} [por (10)]. Además.a. sobre (Ω. . (11) n ´ de esperanza. por (7). ´ Sean X y Y vv.aa. Esto completa la demostracion (b) Primero observe que X E(Sn ) = x P{Sn = x} = nµ. X como la v. con Y en L1 . 11. X y Y tiene densidad normal estándar. Por el inciso (a) de dicho ejemplo. la densidad condicional de Y dado que X = x es f (y|x) := f (x. el vector (X. entonces ´ de (a) E(Y |X) es medible con respecto a σ{X} (es decir.6).4 Ejemplo. en el Ejemplo 5. (12) ´ 11. y)/fX (x) = (2πr2 )−1/2 e−(y−ρx) 2 /2r 2 (13) la cual es una densidad normal N (ρx. si σ{X} es la σ–álgebra generada por X (vea el Ejercicio 4. Por lo tanto. Notese que.) Este teorema también asegura que.10(b). por (4). Esperanza condicional 123 ´ ´ (b2 ) en (9). y (b) E[E(Y |X) · IA ] = E(Y · IA ) para todo A ∈ σ{X}.a.5. 1). y) ∈ IR2 . existe una funcion Borel h : IR → IR tal que E(Y |X) = h(X)). en consecuencia. r2 ).8 y 11. En particular. (15) . E(Y |X) = ρX. (Vea 11. De aqu´ı se sigue que E(Y |X = x) = ρx ∀x ∈ IR (14) y. y) = 1 −(x2 −2ρxy+y2 )/2r2 e 2πr ∀ (x. es decir. E(Y |X) en la Definicion por el Teorema de Radon–Nikodym.aa. la esperanza condicional E(Y |X) es la v. 11. cada una de las vv. por la condicion E(Y |X) = EY si X y Y son independientes. En otras palabras la densidad marginal fY (y) es N (0. pero la densidad condicional de Y dado X = x es N (ρx. r2 ). Sean X y Y las vv.aa. la densidad marginal de X es fX (x) = (2π)−1/2 e−x 2 /2 ∀ x ∈ IR. Y ) tiene densidad conjunta (normal bivariada estándar) f (x. con |ρ| < 1 y r := (1 − ρ2 )1/2 .a.3 está asegurada La existencia de la v. además. EY = E[E(Y |X)]. En particular. si Y = 1 se sigue de (19) y (20) que E[g(X)|X = x] = g(x) y E[g(X)|X] = g(X) (21) . tal ´ 11. (17) x Z ∞ E(Y |X = x)fX (x)dx EY = si X es continua. entonces (a) para cualquier v. X. Entonces E[Y g(X)|X = x] = g(x)E(Y |X = x) (19) E[Y g(X)|X] = g(X)E(Y |X). mientras que [como en (12) o´ (9) como se indica en la Proposicion (b2 )] (14) y (15) se reducen a E(Y |X = x) = E(Y |X) = EY = 0 ∀x ∈ IR.5 Teorema.5(a). (20) y.a. cuando X y Y son independientes (13) se reduce a la densidad normal estándar N (0. del inciso (b) del Ejemplo 5. Por lo tanto. (8) y con la ley de la probabilidad total en el Teo´ (16) en el siguiente teorema se le conoce como rema 3. y g : IR → IR una funcion Borel tales que Y y Y · g(X) están en L1 . EY = X E(Y |X = x)fX (x) si X es discreta. (18) −∞ ´ ´ de (b) Supongase que. 1). 11.124 Probabilidad Finalmente. (16) En particular.a.1(b). X es una v. en cuyo caso r = 1. por lo tanto. a la expresion ley de la esperanza total — en algunos textos se le llama la propiedad de la esperanza iterada.5 recuérdese que X y Y son independientes ssi ρ = 0. 2 Por analog´ıa con (7). Si Y está en L1 . por lo tanto. usando ahora (8). ´ (a) Supongase que X es una v. calcule EX. (16) si X es discreta. Una máquina produce un numero aleatorio N de art´ıculos. intercambiando las sumatorias (lo cual es válido porque Y está en L1 ). . discreta. Cada art´ıculo puede ser defectuoso con probabilidad p (0 < p < 1) independientemente de los otros art´ıculos.6 Ejemplo. en donde N ∼ Poi(λ). Solucion.a. El caso continuo se demuestra en forma similar. Esperanza condicional 125 ´ Demostracion. 2 ´ 11. XX X EY = [ y f (y|x)]fX (x) = E(Y |X = x)fX (x). x y x Esto da (17) y. usando (3) el lado derecho de (19) resulta g(x)E(Y |X = x) = g(x) X y f (y|x) y = X y g(x)f (y|x) y = E[Y g(x)|X = x] = E[Y g(X)|X = x]. EX = E[E(X|N )] = ∞ X n=0 E(X|N = n)P(N = n). Cuando X es continua. demostracion (b) En el caso discreto.11. Si X es el ´ numero total de art´ıculos defectuosos. usando ´ de esperanza obtenemos que (7) y la definicion EY := X y fY (y) = X y y X y f (y|x)fX (x). la ´ de (18) es similar. x Luego. Luego. [por (3)] lo cual demuestra (19). ´ Por (16) o´ (17). a.aa. independientes que tienen distribucion Geo(p1 ) y Geo(p2 ). n. (22) ´ indicadora de A. vemos de (16) que P(A) = E[P(A|X)] (24) para cualquier v. como P(X = k|N = n) = n k pk q n−k ∀ k = 0. P(A|X) := E(IA |X).126 Probabilidad en donde P(N = n) = e−λ λn /n! para n = 0. . la probabilidad en donde IA es la funcion condicional de A dada la v. . Solucion. . Sean X y Y vv. Por ejemplo. .7 Ejemplo. definimos la probabilidad condicional de A dado que X = x como P(A|X = x) := E(IA |X = x). Calcule P{X ≥ Y }. 1. en donde q := 1 − p. vemos que E(X|N = n) = n X k P(X = k|N = n) = n p (explique). los resultados para esperanzas condicionales también son válidos para probabilidades condicionales.a. respectivamente. También podemos definir E(X|A) := E(X|IA ). Asimismo.a.. X es la v. E(X|N ) = N p de manera que EX = p · EN = p · λ. . X. (23) Por supuesto. 1. k=0 Por lo tanto. ´ Tomando A := {X ≥ Y } en (24) y (22) vemos que P{X ≥ Y } = ∞ X n=0 P{X ≥ Y |Y = n}P{Y = n}. X. como P(A) = EIA . .a. 2 Dado un evento A ∈ F y una v. Por otra parte. . ´ 11. . entonces existe una v. Además.a. . b tal que en L1 . Por lo tanto P{X ≥ Y } = ∞ X q1n p2 q2n = p2 /(1 − q1 q2 ). B ∈ G. es decir. que satisface (a) b b = Z} = 1. y (a) X b B ) = E(XIB ) ∀B ∈ G. en el sentido de que si Z es otra v.8 se obtiene directamente del Teorema de Radon–Nikodym ´ aplicado a la funcion Z ν(B) := E(XIB ) = B X dP. (b) E(XI b se le llama la esperanza condicional de X dada la σ–álgebra G A la v. .a. con q2 := 1 − p2 .11.s. entonces X = Z c. . Esperanza condicional 127 en donde P{Y = n} = p2 q2n para todo n = 0.. X ´ Esta v.a. X y se le denota por b := E(X|G). . P{X El resultado 11. X b es medible con respecto a G.. Sea (Ω.a. y (b). P{X ≥ Y |Y = n} = P{X ≥ n|Y = n} = P{X ≥ n} (por independencia) ∞ X = P{X = k} k=n = q1n con q1 := 1 − p1 . P) un espacio de probabilidad y G ⊂ F una sub–σ–álgebra de F.a.8 Esperanza condicional dada una σ–álgebra. F. Si X : Ω → IR es una v. 2 n=0 11. 1.s. es unica c.. . (25) (c) La σ–álgebra generada (o inducida) por una familia {Yi . entonces escribiremos simplemente X = Y . El siguiente teorema establece.10 Casos particulares. i ∈ i}) ≡ E(X|Yi . Entonces.11 Teorema.e. (b) Sea σ{Y } ≡ Y −1 (B) := {Y −1 (B)|B ∈ B} la σ–álgebra generada por la v. Sean X y Y vv. Ω} es la σ–álgebra trivial. si σ{X} ⊂ σ{Y }. i ∈ I} := σ{ σ{Yi }}. . [ σ{Yi . i ∈ I).9 Convencion. . se define como la m´ınima σ–álgebra que contiene a ∪i∈I σ{Yi }. Yn }) ≡ E(X|Y1 . entonces E(X|G) = EX. . ´ de Borel (b) Rec´ıprocamente. entonces (a) Si h : IR → IR es una funcion σ{X} ⊂ σ{Y }.128 Probabilidad 11. si X = Y c. En otras palabras. i ∈ I} entonces [como en (25)] escribimos E(X|σ{Yi . i. .aa. Por ejemplo. en lugar de escribir E(X|G) escribimos E(X|Y ). Yn ). si G = σ{Y }. ´ Identificaremos vv.s. ´ de Borel tal que X = h(Y ).aa. vea el Ejercicio 4. . en donde B ≡ B(IR). . cion 11. que son iguales c. (a) Si G = {φ.6. es decir. i∈I Si G = σ{Xi . Y . en particular. entonces existe una funcion h tal que X = h(Y ). . que E(X|Y ) es una fun´ de Y . . i ∈ I} de vv. (d) La probabilidad condicional de un evento A ∈ F dada la sub–σ– a´ lgebra G de F es P(A|G) := E(IA |G). 11. E(X|σ{Y }) ≡ E(X|Y ).aa.s.a. E(X|σ{Y1 . Sea h := lim hn donde este l´ımite existe y h := 0 en caso contrario. (Compare con (21).) (c) Si X es G–medible. sean X1 . . por 11. tome Y ≡ 1 en (c). si X = nk=1 xk ICK ´ simple es una funcion y tomamos ICK = hk ◦ Y como antes.) (e) Si X es independiente de G. σ{X} 2 11.aa. (Compare con (20). . Sea h := IA . entonces E(X|G) = EX. ´ ´ indicadora.7. X2 . Entonces h ◦ Y = I{Y ∈A} = IC = X. Análogamente. . (26) . (b) Propiedad de la esperanza iterada: E[E(X|G)] = EX. entonces E(XY |G) = X · E(Y |G). funciones simples ´ tales que Xn → X. con (b) Supongase que X es una funcion −1 ´ conjunto de BorelP C en σ{Y }.12 Teorema. (Compare con (16). en L1 y G una sub–σ–álgebra de F. digamos X = IC . entonces existe una funcion h(Y ).11. y tomese Xn = hn ◦ Y . entonces X = P h ◦ Y con h = nk=1 xk hk . Entonces: (a) E(aX + bY |G) = aE(X|G) + bE(Y |G) ∀ a. ´ El inciso (a) se vio´ en el Ejercicio 4. σ{Y }. b ∈ IR. luego. Demostracion.) (d) Si X es G–medible. entonces E(X|G) = X.)) (f) Si G1 ⊂ G2 ⊂ F. Sean X y Y vv. En general. entonces E(X|G1 ) = E[E(X|G1 )|G2 ] = E[E(X|G2 )|G1 ]. Esperanza condicional 129 ´ de Borel h tal que E(X|Y ) = (c) Si X ∈ L1 . Entonces X(ω) = lim Xn (ω) = lim hn (Y (ω)) = h(Y (ω)). (Compare con (12. Entonces C = Y (A) para algun A.8(a). La parte (c) del teorema se sigue de (b) y del hecho de que. b = E(X|Y ) es medible con respecto a G := la esperanza condicional X b ⊂ σ{Y }. ) Sea Lo un subespacio de L2 y X ∈ L2 .12 se sigue direcLa demostracion ´ de esperanza condicional. entras que por la desigualdad de Jensen 11. usando el Teorema 11. es decir.a. entonces existen sucesiones de si h : IR → IR es una funcion ´ numeros reales an .12 es fácil dar una interpretacion de E(X|G) como el “mejor estimador” de X en el siguiente sentido. F. ´ Por otra parte. ´ de E(X|G)] Sea G una sub–σ–álgebra de 11. ´ [Interpretacion F y sea Lo ⊂ L2 el subespacio que consiste de las vv.aa. o que Z es el estimador en la media cuadrática de X. Decimos que una v. En particular. Tomando el sup sobre n se obtiene (g).8(a). miDemostracion. ´ Por 11.14 Proposicion.s. Si X está en L2 . 11. ´ de los incisos (a)–(f) del Teorema 11. y (b) k X − Z k= min{k X − Y k |Y ∈ Lo }. La demostracion ´ de tamente de la definicion 11.12(g). de modo que E[h(X)|G] ≥ an E(X|G) + bn c. ´ Considérese el espacio vectorial L2 := L2 (Ω. en L2 que son G– b := E(X|G) medible. (Vea el Ejercicio 6. P) con la ´ de distancia funcion k X − Y k:= [E(X − Y )2 ]1/2 ∀ X. Z ∈ Lo es la proyeccion ´ de X sobre Lo si (a) Z ∈ Lo .9. P). y recuerde la convención 11. Si h : IR → IR es convexa y h(X) ∈ L1 . entonces h[E(X|G)] ≤ E[h(X)|G].12(g) se obtiene del Teorema de la l´ınea de soporte que dice lo siguiente: ´ convexa. En este caso también se dice que Z es el mejor estimador (o predictor) de X en Lo . Lo := L2 (Ω.130 Probabilidad (g) Desigualdad de Jensen. la esperanza condicional X b está en L2 (explique). es la proyeccion b es G–medible. X . Esto significa que h(X) ≥ an X + bn para todo n. Y ∈ L2 . [E(X|G)]2 ≤ E(X2 |G) si X ∈ L2 . entonces X o ´ de X sobre L . G. bn tales que h(x) = supn (an x + bn ) para todo x ∈ IR.13 Definicion. Sea L∗ ⊂ L2 . para cualquier Y ∈ Lo . . X. Sean X. Supongase que Y1 . Yn vv. Y1 .12(d)] Esto significa que b 2 E(X − Y )2 ≥ E(X − X) ∀ Y ∈ Lo . . Yn 2 son independientes.11. . ´ 11. Para cualquier v.s. . . ≥ E(X − X) b X b − Y )] = 0 porque Pero E[(X − X)( b X b − Y )] = E{E[(X − X)( b X b − Y )|G]} E[(X − X)( b − Y )E(X − X|G)} b = E{(X b − Y )(X b − X)} b = E{(X = 0.15 Corolario. Ahora demostraremos que b k= min{k X − Y k |Y ∈ Lo }. Esperanza condicional 131 b satisface la condicion b está en Lo = ´ 11. P). 11. k X − Y k ≥ k X − X 2 Tomando Y = EX en (28) se obtiene lo siguiente. en L2 . kX−X (27) En efecto. lo cual demuestra (27).a. .13(a). es decir. X ∈ L2 Var(X) ≥ Var[E(X|G)].16 Ejemplo. X Por lo tanto. .a. con media cero y varianzas positivas σj .aa. es decir.13.12(c)] [por 11.12(b)] [por 11. G. [por 11. b k para todo Y ∈ Lo . . X L2 (Ω. podemos considerar el mejor estimador lineal de X como Definicion en el siguiente ejemplo. con igualdad ssi X = E(X|G) c. En lugar del “mejor estimador” de una v. b + (X b − Y )]2 E(X − Y )2 = E[(X − X) b 2 + 2 E[(X − X)( b X b − Y )] + E(X b − Y )2 = E(X − X) (28) b 2 + 2 E[(X − X)( b X b − Y )]. en el sentido de la ´ 11. Demuestre que si X y Y son independientes. Yn . . en L∗ . Entonces X X X E(X − Y )2 = E(X − aj Yj )2 = E[X2 + ( aj Yj )2 − 2 aj XYj ] Solucion. ´ 11. . Z en (29) se le llama también el mejor estimador lineal de X en términos de las vv. discretas o continuas. . .aa. Ejercicios § 11 ´ 11. Yn . . y sea F (y|x) la distribucion condicional de Y dado X = x. . 2 A la v. . es decir. Y1 . con a1 .) entonces F (y|x) = FY (y). . ´ de X sobre L∗ es la v. Pn aj Yj una v.a. . n. n) vemos que ∂ E(X − Y )2 = 2aj E(Yj2 ) − 2E(XYj ) ∀ j = 1. ´ Sea Y = j=1 j = E(X2 ) + X j j a2j E(Yj2 ) − 2 X j aj E(XYj ). j ´ anterior con respecto a Calculando las derivadas parciales de la expresion aj (j = 1. . obtenemos (29). . . . (Compare con la Proposicion 11.aa. ∂aj Como estas derivadas son cero si aj = E(XYj )/E(Yj2 ). . . .a. .2 Si Y está en L2 .1(b). Demuestre que la proyeccion Z= n X (29) a ˆ j Yj j=1 con coeficientes a ˆj = E(XYj )/σj2 para j = 1. n. an ∈ IR. . . . . Y = a1 Y1 + · · · + an Yn . definimos la varianza condicional de Y dado que X = x como Var(Y |X = x) := E[(Y − E(Y |X = x))2 |X = x] .a. .132 Probabilidad el subespacio vectorial que consiste de todas las combinaciones lineales de Y1 . . .1 Sean X y Y vv. (b) E(SN ) = µ · EN . Sn y N como en el Ejemplo 11. Dado un entero positivo n. y) := 1/x si 0 ≤ y < x ≤ 1. Var(Y |X) := E[(Y − E(Y |X))2 |X]. entonces (c) Var[E(SN |N )] = µ2 Var(N ). . 11. . . Esperanza condicional 133 y la varianza condicional de Y dada la v. Expanda el lado derecho de esta expresion propiedad de la esperanza iterada (16). (∗) Demuestre que Var(Y ) = E[Var(Y |X)] + Var[E(Y |X)]. en donde σ 2 := Var(X1 ). X como la v.aa. Demuestre que (a) E(SN |N ) = µ · N .a. p) con p := λ2 /(λ1 + λ2 ). Si además X1 y N están en L2 . X2 .a.11.) 11.5 Sean X y Y vv. (e) E[Var(SN |N )] = σ 2 EN . . . Suponga que µ := EX1 y EN son finitas. := 0 en c.2. (∗∗) Sugerencia: Escriba Var(Y ) := E(Y − EY )2 = E[(Y − E(Y |X)) + (E(Y |X) − ´ y después use (*) y la EY )]2 .4 Sea X ∼ Poi(λ1 ) y Y ∼ Poi(λ2 ) vv. 1.aa. n ´ Bin(n. . y (f) Var(SN ) = σ 2 EN + µ2 Var(N ). es una distribucion 11. demuestre que P(Y = k|X + Y = n) ∀ k = 0. (Sugerencia: use (**) en el Ejercicio 11. independientes [de modo que X + Y ∼ Poi(λ1 + λ2 )].2.3 Sean X1 . continuas con densidad conjunta f (x. . . (d) Var(SN |N = n) = nσ 2 . .c. Demuestre que .aa. y) := λ2 e−λy para 0 ≤ x ≤ y. y f (y|x) la densidad condicional de Y dado que X = x.) 11. respectiva´ fX ∗ fY definida como mente. (a) k X k≥ 0. la v. y) := xe−x(y+1) para x.9 Sean X y Y vv. .aa. 11. con densidad comun f (k) := p(1 − p)k−1 ∀ k = 1. (c) ´ de “k X k= 0 ⇒ X = 0” k X + Y k≤k X k + k Y k. entonces la densidad de ´ de las densidades de X y Y . respectiva´ fX ∗ fY dada mente. Definimos la convolucion ´ de fX y fY como la funcion por X (fX ∗ fY )(y) := fX (x)fY (y − x).134 Probabilidad Demuestre que dado el evento {X = x}. 11.9. ´ (b) Suponga que X y Y son i. (Nota: la demostracion requiere la Convención 11..a.e. Demuestre que fX+Y (y) = (y − 1)p2 (1 − p)y−2 para y = 2.7 Sean X y Y vv. discretas con densidades fX y fY . y (b) la densidad condicional y la esperanza condicional de Y dada X.i. y ≥ 0. i. −∞ Sea f (x. La convolucion ´ de fX y fY es la funcion Z ∞ (fX ∗ fY )(z) := fX (x)fY (z − x)dx. (b) k aX k= |a| k X k ∀ a ∈ IR. . es decir. . con x > 0. x]. con densidad conjunta (a) f (x. . p 11.aa. X + Y es la convolucion fX+Y (y) := P(X + Y = y) = (fX ∗ fY )(y). 3 . .6 Demuestre que k X k:= E(X2 ) define una norma sobre L2 . Y tiene densidad uniforme sobre el intervalo [0. (b) f (x.d. x (a) Demuestre que si X y Y son independientes. . y) la densidad conjunta de X y Y . continuas con densidades fX y fY . En cada caso calcule (a) las densidades marginales de X y Y .8 Sean X y Y vv. 2. y k X k= 0 ssi X = 0. d.) 11.12 Sean X y Y vv. Calcule la probabilidad de que el primer estudiante tome al menos el doble del tiempo que requiere el segundo estudiante para resolver el problema. . (b) X ∼ N (0. y −∞ −∞ (c) La densidad de X + Y es fX+Y (z) = R∞ f (x. continuas con densidad conjunta de la forma f (x. (b) Calcule las densidades marginales de X y Y .11 Suponga que los tiempos que requieren dos estudiantes para re´ exposolver un mismo problema son independientes y tienen distribucion nencial con parámetro λ.aa. entonces fX+Y = fX ∗ fY . 1).i. (c) Calcule E(Y |X) y E(X|Y ). −∞ R R∞ z−x (b) FX+Y (z) := P{X + Y ≤ z} = f (y|x)dy fX (x)dx. z − x)dx −∞ (d) Si además X y Y son independientes.aa. i. (Sugerencia: use los Ejercicios 8 y 9. Esperanza condicional (a) P(X + Y ≤ z|X = x) = 135 z−x R f (y|x)dy. (a) Calcule el valor de c para el que f es efectivamente una densidad de probabilidad. Calcule la densidad de X + Y en cada uno de los siguientes casos: (a) X ∼ Exp(λ).11. y ∈ IR. y) = c e−(x 2 −xy+4y 2 )/2 ∀ x. 11.10 Sean X y Y vv. 11. . 1. en donde Xn representa el capital de una sucesion un jugador después de n jugadas. . 1. 1. Finalmente. .aa. tiempos de paro. . Xn ) = Xn ∀n = 0. . . En este caso. . . .. la propiedad de la esperanza iterada da que EXn+1 = EXn para todo n = 0. teorema de muestreo opcional. . . . ´ {Xn } de vv. . . . . . Martingalas. y la ganancia esperada es no decreciente porque EXn+1 ≥ EXn ∀ n = 0. . Xn ) ≤ Xn ∀ n = 0. . (3) . en cuyo caso la ganacia esperada es no creciente pues EXn+1 ≤ EXn . . . .136 12 Probabilidad Martingalas Contenido. 1. . . . Sea X0 el capital inicial del jugador. submartingalas y supermartingalas. . si E(Xn+1 |X0 . (1) se dice que el juego es “honesto” o que {Xn } es una martingala. . 1. (2) se dice que el juego “está a favor” del jugador o que {Xn } es una submartingala. Por otra parte. . . . . . de modo que la ganancia esperada del jugador permanece constante: EXn = EX0 ∀ n = 0. . Si E(Xn+1 |X0 . ´ considérese Para motivar los conceptos introducidos en esta seccion. 1. . en L1 . . Xn ) ≥ Xn ∀ n = 0. teoremas de convergencia. se dice que el juego “está en contra” del jugador o que {Xn } es una supermartingala si E(Xn+1 |X0 . t ∈ T } (o que {Xt . t ∈ T }.. . t ∈ T } una familia de sub–σ–álgebras de F.}. . . t ∈ T } si Xt es (b) la familia {Xt . como sigue. para todo s ≤ t E(Xt |Fs ) ≥ Xs o´ E(Xt |Fs ) ≤ Xs . es decir. Ft . en el sentido de que Fs ⊂ Ft ∀ s. . Xn } ∀ n = 0. conjunto de numeros enteros. respectivamente. (2). ´ consideraremos unicamente ´ En esta seccion el caso en el que T es un ´ ´ de vv. (c3 ) Xt está en L1 ∀ t ∈ T . .aa.1 Definicion. (3) se pueden extender a colecciones más generales de vv. ∞)). t ∈ T } es una martingala) si ´ de F. ´ {Ft .aa. . . . t ∈ T . t ∈ T } una familia de vv. (c) {Xt .12. . t ∈ T } es una filtracion (c2 ) {Xt . 1. T = {0. T = [a. (c1 ) {Ft . F. Ft . . ´ Sea (Ω. t ∈ T } es una martingala con respecto a {Ft . t ∈ T. Si la igualdad en (c4 ) se sustituye por ≥ o´ ≤. Sea {Xt .aa. t ∈ T } es una filtracion ´ de F si la familia es no decreciente. t ∈ T } está adaptada a la filtracion Ft –medible para todo t ∈ T . con s ≤ t. con s < t. (4) . t ∈ T } está adaptada a {Ft . sobre Ω y {Ft . 12. b] o´ T = (−∞. 2. se dice entonces que {Xt . P) un espacio de probabilidad y T un subconjunto de IR (por ejemplo. Martingalas 137 Los conceptos en (1). t ∈ T } es una submartingala o una supermartingala. Decimos que: (a) {Ft . 1. y (c4 ) E(Xt |Fs ) = Xs ∀ s. Si X• := {Xn } es una sucesion X X entonces la familia F• := {Fn } con FX n := σ{X0 . es una submartingala o una supermartingala dependi´ sea creciente o decreciente. Por lo tanto. X1 . . se dice simplemente que X• es una martingala. . . . entonces {Xn } es una martingala. ´ {Fn }. Fn . en L1 . X2 . Sea X• = {X1 . (c) Sean X0 . . (b) {Xn } es una submartingala (con respecto a {Fn } . Demuestre que: ´ S• := {Sn }. .3 Ejemplo. . con Sn := (a) Si EXn = 0 para todo n. entonces la sucesion . entonces {Xn } es una submartingala ´ o una supermartingala. ´ también se cumple para sub o supermartingalas reemplaEsta condicion zando la igualdad por ≥ o´ ≤. respectivamente. ´ naCuando X• = {Xn } es una martingala con respecto a su filtracion tural.2 Observacion. una sucesion monótona de vv. (5) y similarmente para (2) y (3).aa. . Si Xn+1 = Xn para todo n (en particular si Xn ≡ c. enSi {Xn } es una martingala con respecto a cualquier filtracion ´ natural {FX tonces {Xn } es una martingala con respecto a su filtracion n }. la condicion ´ 12.138 Probabilidad ´ se llama la filtracion ´ natural de X• . 1. endo de que la sucesion ´ de vv. k ≥ 1. Notese que. digamos) ssi {−Xn } es una supermartingala.} una sucesion entes en L1 .aa. Este hecho también se cumple para sub o supermartingalas. respectivamente. 1. Si Xn+1 ≥ Xn o´ Xn+1 ≤ Xn para todo n. una constante. ´ (a) {Xn . En otras palabras. respectivamente. {FX n } es X X ´ (porque Fn ⊂ Fn+1 para todo n) y que X• está adaptada a una filtracion ´ (1) FX (porque Xn es FX • n –medible para todo n). Para sub o supermartingalas se usa una terminolog´ıa similar. . . efectivamente. vv. . 12. .} es una martingala ssi E(Xn+k |Fn ) = Xn ∀ n ≥ 0. independi12. para todo n).1(c) pues coincide con la Definicion E(Xn+1 |FX n ) = Xn ∀ n = 0.aa. . n = 0. Sn ) = E(Sn + Xn+1 |X1 .. . . . aun (b) Si EXn = 1 para todo n. Sn := n P (Xk − k=1 ´ si EXn 6= 0. evidente que S• satisface las condiciones (c1 ) a (c3 ) de la Definicion por otra parte. . . 2. . ´ Solucion. Yn } la filtracion Y está adaptada a {Fn }. es una martingala. . . . entonces Y• := {Yn } es una martingala. . . . . . es una martingala. . E(Yn+1 |Fn ) = E(Yn Xn+1 |Fn ) = Yn E(Xn+1 ) (explique) = Yn . . Martingalas 139 X1 + · · · + Xn . Finalmente. ´ Sea FX n := σ{X1 . X E[h(Xn+1 )|FX n ] ≥ h[E(Xn+1 |Fn )] = h(Xn ). Demostracion. Y• es una martingala. Xn }.1 y. . entonces también {h(Xn )} es una submartingala. Por la desigualdad de Jensen 11. ´ (a) Sea {Xn } una martingala y h : IR → IR una funcion convexa tal que h(Xn ) está en L1 para todo n.) Es ´ 12.4 Proposicion. . Además. . (Más generalmente. . no– (b) Si {Xn } es una submartingala y h es una funcion decreciente y tal que h(Xn ) está en L1 para todo n. y Yn := X1 · · · Xn . Entonces {h(Xn )} es una submartingala. ´ (a) Notese que σ{X1 .) EXk ) para n = 1. . (Explique. como Sn+1 = Sn + Xn+1 . . . . . 2 Por lo tanto. Xn } = σ{S1 . . Xn ) = Sn + EXn+1 (explique) = Sn .12. ´ convexa. ´ 12. Sn }. . . obtenemos (c4 ) pues E(Sn+1 |S1 . de modo que Y• (b) Sea FYn := σ{Y1 . ´ natural de Y• .12(g). Yn está en L1 para todo n porque E|Yn | = E|X1 | · · · E|Xn | < ∞. Demostracion. n k=1 n 2 . . pues E(Yn2 ) = = n X k=1 n X E(X2k )/k 2 + X E(Xj Xk )/jk j6=k E(X2k )/k 2 (explique) k=1 ≤ ∞ X E(X2k )/k 2 < ∞. Luego. entonces también lo son {X+ n} y αXn {e } para α ≥ 0.s. 12. Sea {Xn } una sucesion X ) = 0 para todo n. . Yn−1 ) = Yn−1 . Esto demuestra (a). Entonces {Yn } es una martingala E(Yn |Y1 . n 1X 1 k(Xk /k) = Sn → 0 c. Y tal que. Asimismo.s. . Sea {Yn } una martingala con E(Yn2 ) ≤ c < ∞ para todo n. . en particular.10). y en L2 . {Xn } y {e + son submartingalas para cualquier α ∈ IR. as´ı que existe una v.s. . La demostracion 2 αXn 12. ´ de vv. Entonces existe una v. Yn → Y c. ´ Sea Yn := porque Pn k=1 Xk /k. . Además.s. Y tal que Yn → Y c. . k=1 ´ Por lo tanto {Yn } satisface las hipotesis del Teorema 12. .a.5 Ejemplo.6. Si {Xn } es una martingala. . existe una constante c tal que E(Yn2 ) ≤ c para todo n. 12. en donde Xn := max{Xn . . entonces {X+ } n }. . Demuestre que si n Pn−1 ∞ 2 2 −1 k=1 E(Xk )/k < ∞.140 Probabilidad 2 ´ de (b) es similar.7 Ejemplo. Yn−1 ) = E(Yn−1 + Xn /n|Y1 . tales que E(Xn |X1 . 0}.aa.) Además. y sea S := X1 + · · · + Xn .a. por el Lema de Kronecker (Ejercicio 12. entonces n Sn → 0 c.6 Teorema de convergencia de martingalas. (explique. . EYn = EY para todo n. si {Xn } es una submartingala. 1.10 Definicion.8 Teorema de convergencia de submartingalas. de modo que + E|Xn | ≥ EX+ n . un tiempo de paro T es finito si P(T < ∞) = 1.a. además. entonces + E|Xn | = 2EX+ n − EXn ≤ 2EXn − EX1 . En particular. Asimismo. entonces existe una v. . independientes con media 0 y k=1 E(X2k )/k 2 < ∞. y acotado si existe una constante c tal que P(T ≤ c) = 1. (b) Para supermartingalas. ´ (a) Notese que |Xn | = X+ n + Xn ≥ Xn . n De aqu´ı se sigue que cualquier submartingala negativa converge c. E|X| ≤ supn E|Xn |. vemos que si {Xn } es una submartingala. . Entonces existe una v. ´ supn E|Xn | < ∞ en el Teorema 12.s.s.s. cualquier supermartingala no– negativa converge c. como |Xn | = 2Xn − Xn (explique). Martingalas 141 Como caso especial del ejemplo anterior. T : Ω → IN ∪ {+∞} (con IN := filtracion {0. Por otra parte.s. XT como XT (ω) := XT (ω) (ω). .9 Observacion.}) es un tiempo de paro con respecto a {Fn } si el evento {T ≤ n} está en Fn para todo n ∈ IN. Es decir. XT (ω) = ∞ X n=0 Xn (ω)I{T (ω)=n} . (6) . − + ´ 12. Fn } es una supermartingala y supn E(X− n ) < ∞. Sea {Xn .8 es el siguiente. si T es un tiempo de paro finito definimos la v. 12.8 es equivaPor lo tanto. F. Fn } una submartingala tal que supn E|Xn | < ∞. Decimos que una v.a.12.a. el resultado análogo a 12. ´ Sea (Ω. sucesion entonces n−1 Sn → 0 c.a.s. Además. observe que si {Xn } es una P∞ ´ de vv. Si {Xn . X tal que Xn → X c. y. X tal que Xn → X c. P) un espacio de probabilidad y {Fn } una ´ de F. 12.aa. la condicion lente a sup EX+ n < ∞. vv. 12.s. X2 . 2. . Entonces E(XT | FS ) = XS c. . Sea {Xn } una martingala y sean S y T tiempos de paro acotados y con S ≤ T c. . Xn }. . . Xn ) = aXn + bXn−1 ∀ n ≥ 1.142 Probabilidad Dado un tiempo de paro T . en L1 y tales que E(Xn+1 |X0 .aa. para n ≥ 1. (Teorema de muestreo opcional.aa. Ejercicios § 12 12.s. . (Ejercicio 12.} una sucesion ´ EXn = mn 6= 0 para todo n ≥ 1. en donde 0 < a. . . Demuestre que E(Xi Xj ) = 0 si i 6= j. b < 1 y a + b = 1. . X2 . . .aa.aa. . . . .11 Teorema. X2 . .4 Sean X1 . . definimos FT := {A ∈ F | A ∩ {T ≤ n} ∈ Fn ∀ n}. X1 . . independientes tales que 12. k=1 es una martingala con respecto a Fn := σ{X1 . ´ de vv. .) 12.2 Sean X0 . . tales que las sumas Sn := X1 + · · · + Xn forman una martingala. 12. X1 . . Encuentre un valor de α para el cual la ´ de vv. . Sn := αXn + Xn−1 .3 Sea {X1 . . (7) Se puede demostrar que FT es una σ–álgebra y que XT es FT –medible.aa. . vv. . . 2. es una martingala con sucesion respecto a Fn := σ{X0 . Demuestre que la sucesion Yn := n Y (Xk /mk ) para n = 1.1 Sean X1 . . . Xn }. . vv. . Doob). . . independientes tales que P{Xn = 1} = p y P{Xn = −1} = 1 − p =: q ∀ n = 1. i. . vv. en L1 ≡ L1 (Ω. con Y1 := X1 . a)} para cualquier a ∈ IR. y (c) Xn = Yn + Zn . Entonces n k=1 k ak → 0 cuando n → ∞. .a. P) y {Fn } una filtracion Demuestre que las vv.aa. Además. . 12. Xn }. Martingalas 143 donde 0 < p < 1. . .) martingala. ´ de numeros ´ 12. entonces n k=1 ak → a cuando n → ∞. . forman una ´ 11. ´ de numeros ´ 12. . ´ de F.5 Sean X1 . con EX1 = 0 y E(X21 ) = σ 2 < ∞. . . .6 Sea X una v. F.d.12. . 2. . y sea ´ Sn := X1 + · · · + Xn . Sean Sn := X1 + · · · + Xn y Yn := (q/p)Sn . .12(f). Demuestre que {Yn } es una martingala con respecto a Fn := σ{X1 . . Fn } es una martingala. sea Yn := X1 + n−1 X [Xk+1 − E(Xk+1 |Fk )] para n ≥ 2. Fn . X2 . 2. Xn := E(X|Fn ).8 Demuestre que si {Xn } es una submartingala. con Z1 := 0 k=1 Demuestre que: (a) {Yn .7 (Descomposicion ´ de submartingalas) Sea {Xn . para n = 1. es una martingala con respecto a Fn := σ{X1 .aa. . no–negativas y tales (b) {Zn } es una sucesion que Zn es Fn−1 –medible para n ≥ 2. (Sugerencia: use la Proposicion 12.10 (Lema sucesion reales tal P∞de Kronecker) Sea {an } una P n 1 que la serie n=1 an converge. i. . n ≥ 1} una submartingala.aa. . 12. Xn }. .9 (Lema de Toeplitz) Si {an } es una on reales tales Psucesi n 1 que an → a cuando n → ∞. Demuestre que la sucesion Yn := Sn2 − nσ 2 para n = 1. . 12. ´ no–decreciente de vv. y k=1 Zn := n−1 X [E(Xk+1 |Fk ) − Xk ] para n ≥ 2. entonces también lo es {max(Xn . y s0 := 0. (c) min(S.12 Demuestre que FT (definida en (7)) es una σ–álgebra y que XT es FT –medible.10) ssi el 12.11 Demuestre que T es un tiempo de paro (Definicion evento {T = n} está en Fn para todo n.144 Probabilidad (Sugerencia: sea sn la suma parcial sn := a1 + · · · + an para n ≥ 1. T ) y max(S. 12. entonces FS ⊂ FT . T ) son tiempos de paro. 12.13 Sean S y T tiempos de paro con respecto a una filtracion Demuestre: (a) Si S ≤ T . entonces FT = Fn . ) ´ 12. . (b) Si T ≡ n. Verifique que n n−1 1X 1X k a k = sn − sk n k=1 n k=1 y después use el Ejercicio 9. ´ {Fn }.

Onésimo - Probabilidad y Procesos Estocásticos I

Comments

Description