Distribuciones de probabilidadLa inferencia estadística consiste en extraer una manera de una población y analizar sus datos con el propósito de aprender acerca de ello. Muchas veces se tiene un conocimiento superficial de la función de masa de probabilidad o de la función de densidad de probabilidad de la población. En estos casos la función de masa o de densidad de probabilidad se aproxima mediante una de muchas familias comunes de curvas o funciones. En este capitulo se describen algunas de estas funciones comunes y las condiciones en que es apropiado utiliza cada una. Distribución Bernoulli. En teoría de probabilidad y estadística, la distribución de Bernoulli (o distribución dicotómica), nombrada así por el matemático y científico suizo Jakob Bernoulli, es una distribución de probabilidad discreta, que toma valor 1 para la probabilidad de éxito ( ) y valor 0 para la probabilidad de fracaso ( ). Si es una variable aleatoria que mide "número de éxitos", y se realiza un único experimento con dos posibles resultados (éxito o fracaso), se dice que la variable aleatoria se distribuye como una Bernoulli de parámetro . La fórmula será: Su función de probabilidad viene definida por: Ejemplos: 1. Cuando se lanza un dado hay una probabilidad de 1/6 de que salga 6 x=1 si el dado cae seis y X =0 en cualquier otro caso (cual es la distribución de X? Solución: La probabilidad de éxito es P(X=1) 0 1/6 por lo que X Bernoulli (6) 2. 10% de los componentes fabricados mediante determinado proceso esta defectuoso se selecciona un componente. Sea X=1 si el componente esta defectuoso y X=0 en cualquier otro caso (cual es la distribución de x?. Solución: La probabilidad de éxito es p= P(X=1) 0.1 por lo que X Bernoulli _(0.1) 3. Cuando se aplica cierto Barniz a una superficie de cerámica 5% es la probabilidad de que se decolore. 20% de que se agriete, y el 23% de que se decolore o no se agriete. O ambas . Sea X =1 si se produce una decoloración y X =0 en cualquier otro caso. Y =1 si hay alguna grieta y Y =0 en cualquier otro caso. Z=1 si hay decoloración o grieta, o ambas y Z =0 en cualquier otro caso a) Sea P x la probabilidad de éxito de X. determine PX. b) Sea Py la probabilidad de éxito de Y. determine PY. c) Sea Pz la probabilidad de éxito de Z determine Pz d) Es posible que X y Y sea igual a Z. Solución. 1. 0.05 2. 0.20 3. 0.23 4. Si 4. Cuando se lanza al aire una moneda hay una probabilidad de 0.5 de que caiga en “cara”. Sea X=1 si la moneda cae en “cara” y X =0 si cae en “Cruz”. ¿Cuál es la distribución X? Solución: Puesto que X=1 cuando cae “cara”. Esta es resultado de éxito. La probabilidad de éxito p(X=1). Es igual a 0.5. Por tanto X Bernoulli (0.5) X=1 5. Un jugador de Básquetbol esta a punto de tirar hacia la parte superios del tablero. La probabilidad de anote el tiro es de 0.55 a). sea X=1. S anota el tiro si no lo hace X=0 determine la media ya la varianza de X Solución: a) M= 0.55 V= 0.2475 Distribución Binomial La distribución binomial es una distribución de probabilidad discreta que mide el número de éxitos en una secuencia de n ensayos de Bernoulli independientes entre sí, con una probabilidad fija p de ocurrencia del éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, sólo son posibles dos resultados. A uno de estos se denomina éxito y tiene una probabilidad de ocurrencia p y al otro, fracaso, con una probabilidad q = 1 - p. En la distribución binomial el anterior experimento se repite n veces, de forma independiente, y se trata de calcular la probabilidad de un determinado número de éxitos. Para n = 1, la binomial se convierte, de hecho, en una distribución de Bernoulli. Características analíticas Su función de probabilidad es Donde Siendo las combinaciones de en ( elementos tomados de en ) Ejemplo Supongamos que se lanza un dado 50 veces y queremos la probabilidad de que el número 3 salga 20 veces. En este caso tenemos una X ~ B(50, 1/6) y la probabilidad sería P(X=20): Ejemplos: 1. Sea x~Bin(8,0.4) Determine: X P 0 0.01679616 a) 0.20901888 1 0.08957952 b) 0.23224320 2 0.20901888 c) 0.08957952 3 0.27869184 d) 0.00786532 4 0.23224320 e) 3.2 5 0.12386304 f) 1.92 6 0.04128768 7 0.00786432 8 0.00065536 1 2. Si se toma una muestra de cinco elementos de una población grande en la cual 10% de los elementos esta defectuoso. X P 0 0.59049 a) 0.00001 1 0.32805 b) 0.07290 2 0.07290 c) 0.59049 3 0.00810 d) 0.00045 4 0.00045 5 0.00001 1 3. Se lanza una moneda 10 veces. X P 0 0.000976562 a) 0.117187500 1 0.009765625 b) 5 2 0.043945312 c) 2.5 3 0.117187500 d) 1.57 4 0.205078125 5 0.246093750 6 0.205078125 7 0.117187500 8 0.043945312 9 0.009765625 10 0.000976562 0.999999997 4. En un cargamento grande de llantas de automóvil, 5% tiene cierta imperfección. Se elige aleatoriamente cuatro llantas para instalarlas en el automóvil X P 0 0.773780937 a)0.000005937 1 0.162901250 b) 0.162901250 2 0.012860625 c) 0.773780937 3 0.000451250 4 0.000005937 0.999999997 5. En un patrón aleatorio de ocho bits utilizado para probar un microcircuito, cada bit tiene la misma probabilidad de ser 0 o 1. Supongamos que los valores de los bits son independientes. a). ¿Cual es la probabilidad de que todos los bits sean 1? B). ¿Cual es la probabilidad de que exactamente tres de los bits sean 1? Solución: 1. 0.0039 2. 0.02188 Distribución de Poisson La función de masa de la distribución de Poisson es Donde: k es el número de ocurrencias del evento o fenómeno (la función nos da la probabilidad de que el evento suceda precisamente k veces). λ es un parámetro positivo que representa el número de veces que se espera que ocurra el fenómeno durante un intervalo dado. Por ejemplo, si el suceso estudiado tiene lugar en promedio 4 veces por minuto y estamos interesados en la probabilidad de que ocurra k veces dentro de un intervalo de 10 minutos, usaremos un modelo de distribución de Poisson con λ = 10×4 = 40. e es la base de los logaritmos naturales (e = 2,71828 ...) Tanto el valor esperado como la varianza de una variable aleatoria con distribución de Poisson son iguales a λ. Los momentos de orden superior son polinomios de Touchard en λ cuyos coeficientes tienen una interpretación combinatoria. De hecho, cuando el valor esperado de la distribución de Poisson es 1, entonces según la fórmula de Dobinski, el n-ésimo momento iguala al número de particiones de tamaño n. La moda de una variable aleatoria de distribución de Poisson con un λ no entero es igual a , el mayor de los enteros menores que λ (los símbolos representan la función parte entera). Cuando λ es un entero positivo, las modas son λ y λ − 1. Ejemplos: 1. si X Poisson (3), calcule P(X=2), P(X=10), P(X=0), P(X=-1) y P(X=0.5) SOLUCION: Cuando se usa la funision de masa de probailiodad (4.9), con =3, se obtiene: P=(X=2)= 0.2240 P=(X=10)=0.0008 P=(X=0)= 0.0498 P=(X=1)= O P(X=O.5)=O 2. Si X Poisson (4), calcuyle P(X< 2) y P(X>1). SOLUCION: P(X< 2)= 0.2381 P(X>1)= 0.9084 3. Sea X Poisson(4). Determine: 1. P(X=1) 2. P(X=0) 3. P(X<2) 4. P(X>1) SOLUCION-. 1. 0.0733 2. 0.0183 3. 000916 4. 0.9084 4.Suponga que 0.03% de los contenedores plasticos producidos en cierto procesos tiene pequeños agujeros que lso dejan inservibles. X representa el numero de contenedores en una muestra aleatoria de 10000 que tienen este defecto. Determine: 1. P(X=3) 2. P(X<3) 3. P(1<X<4) SOLUCION: 1. 0.2240 2. 0.4232 3. 0.5974 5.Una ariable aletoria X tiene una distribucion binomial y una variable aleatoria Y tiene una distribucion de Poisson. Tanto X como Y tiene medias iguales a 3. ¿es posible determinar que variable aleatoria tiene la varianza mas grande? Elija una de las siguientes respuestas: a) Si, X tiene la varaianza mas grande. b) Si, Y tiene ka varianza mas grande c) No, se necesita cono cer el numerop de ensayos, n, para X d) No, se necesita conocer la probailidad de éxito, p, para X e) No, se necesita conocel el valor de para Y SOLUCION: b) SI, Y tiene la varianza mas grande Distribución normal La distribución normal es, sin duda, la distribución de probabilidad más importante del Cálculo de probabilidades y de la Estadística. Fue descubierta por De Moivre (1773), como aproximación de la distribución binomial. De todas formas, la importancia de la distribución normal queda totalmente consolidada por ser la distribución límite de numerosas variables aleatorias, discretas y continuas, como se demuestra a través de los teoremas centrales del límite. Las consecuencias de estos teoremas implican la casi universal presencia de la distribución normal en todos los campos de las ciencias empíricas: biología, medicina, psicología, física, economía, etc. En particular, muchas medidas de datos continuos en medicina y en biología (talla, presión arterial, etc.) se aproximan a la distribución normal. Junto a lo anterior, no es menos importante el interés que supone la simplicidad de sus características y de que de ella derivan, entre otras, tres distribuciones (Ji-cuadrado, t y F) que se mencionarán más adelante, de importancia clave en el campo de la contrastación de hipótesis estadísticas. La distribución normal queda totalmente definida mediante dos parámetros: la media (Mu) y la desviación estándar (Sigma). Campo de variación: -¥ < x < ¥ Parámetros: Mu: media de la distribución, -¥ < Mu < ¥ Sigma: desviación estándar de la distribución, Sigma > 0 1. Ejercicio Se supone que el nivel de colesterol de los enfermos de un hospital sigue una distribución normal con una media de 179,1 mg/dL y una desviación estándar de 28,2 mg/dL. 1. Calcule el porcentaje de enfermos con un nivel de colesterol inferior a 169 mg/dL. 2. ¿Cuál será el valor del nivel de colesterol a partir del cual se encuentra el 10% de los enfermos del hospital con los niveles más altos? 3. Represente la función de densidad. En este caso, se tendrá que ejecutar Epidat 3.1 dos veces: en el primer caso para calcular una probabilidad, en el segundo caso el dato de entrada es una probabilidad, concretamente la cola de la derecha, lo que permitirá obtener el punto. En ambas ejecuciones se ofrece, de manera opcional, la función de densidad del nivel de colesterol. solucion 1. Resultados con Epidat 3.1 Cálculo de probabilidades. Distribuciones continuas Normal (Mu, Sigma) Mu: Media 179,1000 Sigma: Desviación estándar 28,2000 Punto X 169,0000 Cola Izquierda Pr[X<=k] 0,3601 Cola Derecha Pr[X>=k] 0,6399 Dos Colas 1-Pr[|X|<=k] 0,7202 El porcentaje de enfermos con un nivel de colesterol inferior a 169 mg/dL es 36%. 2. Resultados con Epidat 3.1 Cálculo de probabilidades. Distribuciones continuas Normal (Mu, Sigma) Mu: Media 179,1000 Sigma: Desviación estándar 28,2000 Cola Izquierda Pr[X<=k] 0,9000 Cola Derecha Pr[X>=k] 0,1000 Dos Colas 1-Pr[|X|<=k] 0,2000 Punto X 215,2398 A partir de 215,24 mg/dL se encuentran los valores de colesterol del 10% de los enfermos que tienen los valores más altos. 3.- Los CI de 600 aspirantes de cierta universidad se distribuyen aproximadamente de forma normal con una media de 115 y una desviación estándar de 12. Si la universidad requiere un CI de al menos 95, ¿cuántos de estos estudiantes serán rechazados sobre esta base sin importar sus otras calificaciones? Solución: P(X < 95) = Φ[(95 – 115)/12]= Φ[-1.67] = 0.0478 Número de estudiantes rechazados = 600*0.0478 = 28.68 o 29 4.-La vida promedio de cierto tipo de motor pequeño es 10 años con una desviación estándar de dos años. El fabricante reemplaza gratis todos los motores que fallen dentro del tiempo de garantía. Si está dispuesto a reemplazar sólo 3% de los motores que fallan, ¿de qué duración debe ser la garantía que ofrezca? Suponga que la duración de un motor sigue una distribución normal. Solución: µ = 10 y σ = 2 P3 Área = 0.03 Φ( Z ) = 0.03 Z = -1.88 x = Zσ + µ = (-1.88)(2) + 10 = 6.24 5.-Un abogado va todos los días de su casa en los suburbios a su oficina en el centro de la ciudad. El tiempo promedio para un viaje de ida es 24 minutos, con una desviación estándar de 3.8 minutos. Suponga que la distribución de los tiempos de viaje está distribuida normalmente. µ = 24 y σ = 3.8 Solución: ¿cuál es la probabilidad de que un viaje tome al menos ½ hora? P(X > 30) = 1 - Φ[(30 – 24)/3.8 ] = 1 - Φ[1.58 ] = 1 – 0.9428 = 0.0572 Distribución Gamma La distribución gamma se puede caracterizar del modo siguiente: si se está interesado en la ocurrencia de un evento generado por un proceso de Poisson de media lambda, la variable que mide el tiempo transcurrido hasta obtener n ocurrencias del evento sigue una distribución gamma con parámetros a= n´ lambda (escala) y p=n (forma). Se denota Gamma. Por ejemplo, la distribución gamma aparece cuando se realiza el estudio de la duración de elementos físicos (tiempo de vida). Esta distribución presenta como propiedad interesante la “falta de memoria”. Por esta razón, es muy utilizada en las teorías de la fiabilidad, mantenimiento y fenómenos de espera (por ejemplo en una consulta médica “tiempo que transcurre hasta la llegada del segundo paciente”). Campo de variación: 0<x<¥ Parámetros: a: parámetro de escala, a > 0 p: parámetro de forma, p > 0 Ejercicio 1 El número de pacientes que llegan a la consulta de un médico sigue una distribución de Poisson de media 3 pacientes por hora. Calcular la probabilidad de que transcurra menos de una hora hasta la llegada del segundo paciente. Debe tenerse en cuenta que la variable aleatoria “tiempo que transcurre hasta la llegada del segundo paciente” sigue una distribución Gamma (6, 2). Solución: Cálculo de probabilidades. Distribuciones continuas Gamma. a : Escala 6,0000 p : Forma 2,0000 Punto X 1,0000 Cola Izquierda Pr[X<=k] 0,9826 Cola Derecha Pr[X>=k] 0,0174 Media 0,3333 Varianza 0,0556 Moda 0,1667 La probabilidad de que transcurra menos de una hora hasta que llegue el segundo paciente es 0,98. Ejercicio 2 Suponiendo que el tiempo de supervivencia, en años, de pacientes que son sometidos a una cierta intervención quirúrgica en un hospital sigue una distribución Gamma con parámetros a=0,81 y p=7,81, calcúlese: 1. El tiempo medio de supervivencia. 2. Los años a partir de los cuales la probabilidad de supervivencia es menor que 0,1. Solución: Cálculo de probabilidades. Distribuciones continuas Gamma a : Escala 0,8100 p : Forma 7,8100 Cola Izquierda Pr[X<=k] 0,9000 Cola Derecha Pr[X>=k] 0,1000 Punto X 14,2429 Media 9,6420 Varianza 11,9037 Moda 8,4074 El tiempo medio de supervivencia es de, aproximadamente, 10 años. Ejercicio3 Si se sabe que el tiempo de sobrevivencia de ratas expuestas a un determinado tóxico es una variable aleatoria que sigue una distribución Gamma (5, 10), ¿cuál es la probabilidad de que una rata no supere las 60 semanas de vida? Solucion: Resolviendo en R, > pgamma(60, 5, scale = 10, lower.tail = T) [1] 0.7149435 Su representación gráfica en Excel Ejemplo 4 También en el ámbito de la siniestralidad viaria, en un estudio de la ciudad de Medellín, Colombia, se usa la distribución Gamma para obtener la distribución de probabilidad de la variable aleatoria “edad de fallecimiento en accidentes de tráfico”. En este caso explican que se asignaron los parámetros α y “a ojo”. El mejor resultado es el que parece minimizar los errores cuadráticos medios después de varias asignaciones. Finalmente obtienen α=2,94 y =13,94. Ejemplo5 En un estudio de la guardia urbana de Barcelona se toma una distribución gamma para modelizar el número de víctimas en accidentes de tráfico. Como es más habitual la proporción de 1 ocupante por vehículo siniestrado, y es más rara la probabilidad de 4 ó 5 ocupantes por vehículo siniestrado, se crea una distribución gamma para modelizar el número de víctimas por accidente de tráfico. El 38% de la distribución lo acumula la proporción 1 accidentado por accidente, el 36% 2:1, 16% la 3:1, 6% el 4:1 y finalmente un 3% para 5:1. La media del modelo es 1,5 víctimas por accidente, pero no indican el valor de los parámetros α y β tomados en cuenta. Distribución T student. Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muéstrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra. La distribución t de Student es la distribución de probabilidad del cociente Donde Z tiene una distribución normal de media nula y varianza 1 V tiene una distribución ji-cuadrado con grados de libertad Z y V son independientes Si μ es una constante no nula, el cociente es una variable aleatoria que sigue la distribución t de Student no central con parámetro de no- centralidad . 1. EJEMPLO: Cual es la probabilidad de que una variable t de Student de 6 grados de libertad deja a la izquierda de -1,45: Los valores negativos no vienen en la tabla, pero según lo anterior: En la tabla encontramos: Por tanto: Con lo que obtenemos: 2. EJEMPLO: Cual es la probabilidad acumulada a la derecha de 2,45, en una variable t de Student de 15 grados de libertad. Según lo anterior: Por la tabla tenemos que: Que sustituyéndolo en la expresión, resulta: Que da como resultado: 3. EJEMPLO: Cual es la probabilidad: Según lo anterior: Buscando el valor en la tabla, tenemos que: 4. EJEMPLO: Cual es la probabilidad acumulada de una variable t de Student de 25 grados de libertad, se encuentre entre: 0,75 y 1,25. Según lo anterior, tenemos: En la tabla las probabilidades, tenemos los valores: Sustituyendo tenemos: Realizando la operación: 5. EJEMPLO: Calcular la probabilidad acumulada a la izquierda de 0,87 de una variable t Student de 10 grados de libertad: el valor 0,87 no viene en la tabla, pero los valores 0,85 y 0,90 sí: Según la expresión: Sustituyendo los valores numéricos, tenemos: Operando: Esto es: Dando como resultado: Que es la solución al problema planteado: