APUNTES DE ESTADISTICA GONZALO GALVEZ COYT1 Unidad I Estadística Descriptiva PRESENTACIÓN DEL CURSO La ESTADISTICA es la parte de las matemáticas encargada de la presentación y análisis de los datos de un experimento. Normalmente la estadística se divide en: • Estadística Descriptiva • Estadística Inferencial ESTADÍSTICA DESCRIPTIVA: se encarga de la presentación adecuada de la información (tablas, gráficas, histogramas, etc.) ESTADÍSTICA INFERENCIAL: se especializa en la estimación e inferencia de parámetros (promedio, desviación estándar, etc.). Experimentos probabilísticos y determinísticos Un EXPERIMENTO es un procedimiento mediante el cual se puede obtener información acerca de un sistema físico ó Matemático. El objetivo principal de realizar experimentos el obtener información acerca de sistema bajo estudio, y a partir de ella obtener conclusiones. Los DATOS son en generalmente la forma en que se presenta la información obtenida de un experimento. Los datos pueden clasificarse primeramente como: DATOS NUMERICOS.- son aquellos que como su nombre indica pueden representarse mediante un número real el cual representa su magnitud y sus respectivas unidades de medición, por ejemplo los obtenidos de la medición de una cantidad física como longitud, masa, tiempo, energía, etc. DATOS DE ATRIBUTO. Son aquellos datos que no se pueden expresar como datos numéricos, por ejemplo, sabor, color, sexo, nombre, país, nacionalidad, etc. Se dice que un EXPERIMENTO ES DETERMINÍSTICO si al realizarse bajo las mismas condiciones se obtiene invariablemente en mismo resultado o dato, en el caso de que se obtenga resultados o datos diferentes se dirá que el es un EXPERIMENTO PROBABILISTICO ó ALEATORIO. Población muestra, eventos La POBLACION es el conjunto total de datos que se obtienen al realizar un experimento. La MUESTRA es una parte ó subconjunto de la población. Los EVENTOS están formados generalmente por muestras a las cuales se les pide que cumplan con alguna condición o condiciones. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 2 ORGANIZACIÓN DE DATOS Una vez que se ha realizado un experimento el resultado generalmente es un conjunto de datos u observaciones, sin embargo, tal como aparecen pueden no resultar adecuados para obtener información de ellos, por lo que es necesario realizar en la mayoría de los caso un trabajo mínimo que consiste en la organización y presentación de los datos de manera adecuada. Esto es precisamente el objetivo de la estadística descriptiva. Como primer paso los datos pueden ser acomodados en un ARREGLO, el cual tiene el objetivo de presentar los datos con un mínimo de orden. Es deseable que este orden sea descendente o ascendente, como se muestra a continuación. NUMERO DE PERSONAS VIVIENDO EN UN GRANJAS 12 10 9 8 8 12 10 9 8 7 11 10 9 8 7 11 9 9 8 7 10 9 8 8 7 7 6 6 5 4 7 6 5 5 3 7 6 5 4 3 7 6 5 4 2 6 6 5 4 2 TABLA DE DISTRIBUCIÓN DE FRECUENCIAS A partir de los datos ordenados en un arreglo se puede presentar los datos en una DISTRIBUCION DE FRECUENCIAS. Para realizar la distribución de frecuencias se puede seguir el siguiente procedimiento: a) Localice el valor máximo (Xmax) y mínimo (Xmin) del conjunto de datos, y a partir de ellos Obténgase el RANGO como: R = Xmax - Xmin b) Ahora proceda a dividir el rango en INTERVALOS DE CLASE, se sugiere que el número de intervalos de clase no sea menor a 6 ni mayor a 20. c) La LONGITUD DE EL INTERVALO de cada clase debe ser la misma en todas las clases y deberá ser de tal que el punto medio de cada intervalo tenga en mismo número de dígitos y precisión que los datos originales. d) Una vez definidos adecuadamente los intervalos proceda a contar los datos que se encuentren dentro de su límite inferior y su límite superior, el número de datos que caen dentro de dicho intervalo, constituye la FRECUENCIA DE CLASE. e) Tome en cuenta que cada dato solo pertenece solamente a una clase, por lo que no debe haber ambigüedad en su pertenencia a alguna clase. f) El punto medio de cada intervalo es llamado LA MARCA DE CLASE y representará a todos los puntos que caigan dentro del intervalo. g) LA TABLA DE DISTRIBUCIÓN DE FRECUENCIA se construye colocando en la primera columna (ó fila) los intervalos de clase y/o las marcas de clase y en la siguiente columna (ó fila) las frecuencias correspondientes. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 3 EJEMPLOS 1. Obtenga la tabla de la distribución de frecuencias para los datos siguientes. NÚMERO DE PERSONAS VIVIENDO EN UN GRANJAS 12 10 9 8 8 12 10 9 8 7 11 10 9 8 7 11 9 9 8 7 10 9 8 8 7 7 6 6 5 4 7 6 5 5 3 7 6 5 4 3 7 6 5 4 2 6 6 5 4 2 Por la naturaleza de los datos presentados en la tabla se puede optar por que cada uno de los valores: 2, 3, 4, 5, 6, 7, 8, 9, 10 11 y 12 sean los “intervalos”, entonces X 2 3 4 5 6 8 9 10 11 12 FR(X) 2 2 4 6 7 7 6 4 2 2 (2) Obtenga la tabla de la distribución de frecuencias para los datos siguientes. Divida en 7 clases. 2.3 3.7 4.3 4.7 5.4 2.3 3.8 4.4 4.8 5.5 2.4 3.8 4.4 4.8 5.6 2.6 3.9 4.4 4.9 5.7 2.8 3.9 4.5 4.9 5.8 3.0 4.0 4.5 5.0 5.9 3.4 4.0 4.6 5.0 6.0 3.5 4.1 4.6 5.1 6.4 3.5 4.1 4.6 5.1 6.5 3.6 4.3 4.6 5.3 7.1 El rango es R = 7.1-2.3=4.8. Dividiendo el rango en N = 7 intervalos ancho =4.8/7=0.6857 Como el ancho tiene muchos dígitos, el ancho se puede redefinir como ancho =0.7 Pero en este caso la longitud total de los intervalos es Longitud = (7) (0.7)=4.9 Esta longitud excede en 4.9 -4.8= 0.1 al rango, este excedente se puede repartir entre las clase extremas, por ejemplo, el límite inferior de la primera clase es 2.25 y el superior 2.25+0.7= 2.95. Para la segunda clase se considera como límite inferior el límite superior de la primera clase, su correspondiente límite superior es 2.95+0.7= 3.65, el proceso anterior se repite para cada una de las clases posteriores. Los resultados son colocados en la siguiente tabla APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 4 Clases Marca de Clase Frecuencia FR(X) 2.25 -2.95 2.6 5 2.95 -3.65 3.3 5 3.65 - 4. 35 4.0 11 4.35 -5.05 4.7 16 5.05 -5.75 5.4 6 5.75 -6.45 6.1 5 6.45 -7.15 6.8 2 Tabla 1. Distribución de frecuencias problema 2 PRESENTACIÓN GRÁFICA DE DATOS. HISTOGRAMA Y POLÍGONO DE FRECUENCIAS La tabla de distribución de frecuencias puede ser utilizada para obtener una gráfica en la cual se coloca en el eje X los puntos medios de las clases y en el eje Y las correspondientes frecuencias de la clase. La gráfica descrita se conoce como HISTOGRAMA. Un histograma se puede convertir en un POLÍGONO DE FRECUENCIAS simplemente conectando los puntos medios o marcas de clase con líneas rectas, pero es necesario agregar dos puntos medios extras, uno correspondiente a una previa a la primera clase y con frecuencia cero y otro posterior a la última clase con frecuencia cero. OJIVA Para algunas aplicaciones es requerido obtener la tabla de las FRECUENCIAS ACUMULADAS la cual se obtiene sumando las frecuencias precedentes a cada una de las clases. La gráfica de las clases vs las frecuencias acumulas es conocida como OJIVA EJEMPLOS 3. Utilice el resultado de problema (2) anterior para obtener el histograma, polígono de frecuencias y ojiva. SOLUCION: Primero se obtiene la frecuencia acumulada de los datos. Clases Marca de Clase Frecuencia FR(X) Frecuencia acumulada 2.25 -2.95 2.6 5 5 2.95 -3.65 3.3 5 10 3.65 - 4. 35 4.0 11 21 4.35 -5.05 4.7 16 37 5.05 -5.75 5.4 6 43 5.75 -6.45 6.1 5 48 6.45 -7.15 6.8 2 50 Tabla 1. Distribución de frecuencias y frecuencias acumuladas ejemplo1 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 5 A continuación se presentan cada una de las gráficas solicitadas a partir de los datos de la tabla anterior Histograma del ejemplo 1 2 3 4 5 6 7 0 2 4 6 8 10 12 14 16 18 20 f r e c u e n c i a Poligono de frecuencias Gráfica del polígono de frecuencias del ejemplo 1 Las gráficas anteriores representan a la distribución de frecuencias, por lo que pueden ser representadas juntas como se observa a continuación. 2 3 4 5 6 7 0 2 4 6 8 10 12 14 16 18 20 f r e c u e n c i a Histogtrama APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 6 Histograma y polígono de frecuencias del ejemplo 1 2 3 4 5 6 7 0 5 10 15 20 25 30 35 40 45 50 f r e c u e n c i a a c u m u l a d a Ojiva Ojiva o gráfica de las frecuencias acumuladas del problema 1 2 3 4 5 6 7 0 2 4 6 8 10 12 14 16 18 20 F r e c u e n c i a Histograma y Polígono de frecuencias APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 7 Histograma de frecuencias relativas Si se dividen las frecuencias obtenidas en la tabla de distribución de frecuencias entre el total de datos se obtiene la llamada LA TABLA DE DISTRIBUCIÓN DE FRECUENCIA RELATIVA, y su respectiva gráfica se llama HISTOGRAMA DE FRECUENCIAS RELATIVAS. Lo anterior se puede aplicar también a la tabla de frecuencias acumuladas obteniéndose LA TABLA DE FRECUENCIAS ACUMULADAS RELATIVAS y su respectiva gráfica se llama OJIVA DE FRECUENCIAS RELATIVAS. La ventaja del uso de las frecuencias relativas es su inmediata relación con la probabilidad, es decir, la frecuencia relativa de una clase es la probabilidad de que los datos considerados se encuentren en dicho intervalo. (2) A continuación se muestran algunas de las gráficas del problema 2 para el caso de frecuencias relativas. Histograma de frecuencias relativas del ejemplo 1 Ojiva de frecuencias relativas acumuladas del ejemplo 1 2 3 4 5 6 7 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 F r e c u e n c i a r e l a t i v a Histograma de frecuencia relativa 2 3 4 5 6 7 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 f r e c u e n c i a r e l a t i v a a c u m u l a d a Ojiva de frecuencia relativa APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 8 4. Se realiza una investigación a los vendedores de una cadena nacional de tiendas de departamentos para determinar el patrón de sus ingresos diarios. Se seleccionan una muestra aleatoria de 50 vendedores y se obtienen sus ingresos durante cierto día. 53 57 58 61 61 63 64 66 67 68 69 70 71 72 73 74 74 74 74 77 77 77 78 81 79 79 79 81 78 81 82 82 83 83 84 85 85 86 87 87 88 90 90 90 90 92 93 94 96 97 a) Organice los datos en una tabla. Las clases son 52.5 - 57.5, 57.5 - 62.5, 62.5 - 67.5,.., 92.5 - 97.5 b) Conviértase en frecuencias relativas y relativas acumuladas. Obténgase el Histograma de frecuencias relativas y la ojiva de frecuencias relativas. SOLUCION A partir de los datos y las clases propuestas se determina la siguiente tabla. Clases Marca de Clase Frecuencia FR(X) Frecuencia acumulada Frecuencia relativa FR(X) Frecuencia relativa acumulada 52.5 -57.5 55 2 2 0.0400 0.0400 57.5 - 62.5 60 3 5 0.0600 0.1000 62.5- 67.5 65 4 9 0.0800 0.1800 67.5 -72.5 70 5 14 0.1000 0.2800 72.5 - 77.5 75 8 22 0.1600 0.4400 77.5 - 82.5 80 10 32 0.2000 0.6400 82.5 - 87.5 85 8 40 0.1600 0.8000 87.5 - 92.5 90 6 46 0.1200 0.9200 92.5 - 97.5 95 4 50 0.0800 1.0000 Tabla 2. Distribución de frecuencias, frecuencias acumuladas y relativas de ejemplo 2 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 9 Histograma de frecuencias relativas del ejemplo 2 50 55 60 65 70 75 80 85 90 95 100 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 f r e c u e n c i a r e l a t i v a a c u m u l a d a Ojiva de frecuencia relativa Ojiva de frecuencias relativas acumuladas del ejemplo 1 50 55 60 65 70 75 80 85 90 95 100 0 0.05 0.1 0.15 0.2 0.25 F r e c u e n c i a r e l a t i v a Histograma de frecuencia relativa APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 10 MEDIDAS DE TENDENCIA CENTRAL Las MEDIDAS TENDENCIA CENTRAL ó DE CENTRALIZACION de tienen como objetivo es tratar de localizar (ó encontrar) el centro de la distribución. Las más conocidas son la MEDIA ARITMETICA MEDIANA y MODA. Es costumbre representar algunas propiedades y definiciones mediante la notación sigma: N N i i a a a a a + + + + = ∑ = ... 3 2 1 1 Como se puede observar es utilizada para representar la suma de de elementos también conocida como serie. A continuación se presentan algunas de las propiedades más importantes, las cuales se utilizarán posteriormente. Propiedades de la notación sigma Sean ∑ = N i a 1 1 y ∑ = N i b 1 1 dos sumatorias y c una constante, entonces: a) ∑ ∑ ∑ = = = + = + N i N i N i i i i i b a b a 1 1 1 ) ( b) ∑ ∑ = = = N i N i i i a c ca 1 1 MEDIA ARITMÉTICA, PROMEDIO X La media aritmética, promedio o simplemente media es denotada por: X , es simplemente la suma de todas las observaciones X 1 ,X 2 , X 3 ,…,X N , dividida entre el número N total de datos, esto es: N X X N i i ∑ = = 1 (1.1) Es posible dar una justificación matemática a la definición anterior. Para tal fin, supongamos que se define la función D(X) como a continuación se indica ∑ = − = N i i a X a S 1 ) ( ) ( Donde X i son los datos y a es una constante, el menor valor de la función es 0 ) ( = a S , entonces 0 ) ( ) ( 1 = − = ∑ = a X a S N i i Aplicando las propiedades de la notación sigma APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 11 0 1 1 = − ∑ ∑ = = N i N i i a X ∑ = = − N i i Na X 1 0 Despejando a a N X a N i i ∑ = = 1 La cual corresponde a la definición del promedio. Para datos agrupados se calcula la media mediante la ecuación. ∑ ∑ = = n i N x i i x f x x f X 1 1 ) ( ) ( (1.2) La suma de las frecuencias individuales es igual al número total de datos, esto es ∑ = = n i i i x f N 1 ) ( Entonces N x x f X n i i i ∑ = = 1 ) ( (1.3) MEDIANA X ~ Para el caso de datos no agrupados, la mediana X ~ , es el número que divide el conjunto de datos en dos partes iguales 2 N . En el caso de datos agrupados, la mediana se define como el valor X ~ que divide al histograma correspondiente en dos partes con áreas iguales. Para datos agrupados la mediana se pude obtener mediante w x F x CF N x L X m m m i ) ( ) ( 2 ) ( ~ 1 − − + = (1.4) Donde ) ( m i x L Límite inferior de la clase que contiene a la mediana- APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 12 2 N Mitad de los datos. ) ( 1 − m x CF Frecuencia acumulada hasta la clase anterior a la que contiene a la mediana. ) ( m x F Frecuencia de la clase que contiene a la mediana. w Ancho de la clase. MODA X ˆ La moda X ˆ es el valor que más veces aparece en un conjunto de datos. EJEMPLO 5. Determine media, mediana y moda para la distribución de frecuencias siguiente y localice sobre el histograma cada una de ellas sobre el histograma correspondiente. Clases X F(x) 52.5 -57.5 55 2 57.5 - 62.5 60 3 62.5- 67.5 65 4 67.5 -72.5 70 5 72.5 - 77.5 75 8 77.5 - 82.5 80 10 82.5 - 87.5 85 8 87.5 - 92.5 90 6 92.5 - 97.5 95 4 TOTAL 50 SOLUCION Es recomendable construir la tabla siguiente a partir de los datos dados: Clases X F(x) X F(X) 52.5 -57.5 55 2 110 57.5 - 62.5 60 3 180 62.5- 67.5 65 4 260 67.5 -72.5 70 5 350 72.5 - 77.5 75 8 600 77.5 - 82.5 80 10 800 82.5 - 87.5 85 8 680 87.5 - 92.5 90 6 540 92.5 - 97.5 95 4 380 TOTAL 50 3900 La media se obtiene a partir de la definición de datos agrupados 78 50 3900 ) ( 1 = = = ∑ = N x x f X n i i i APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 13 50 55 60 65 70 75 80 85 90 95 100 0 0.05 0.1 0.15 0.2 0.25 F r e c u e n c i a r e l a t i v a Histograma de frecuencia relativa La clase que contiene a la mediana se ha sombreado en la tabla anterior. La mediana se obtiene aplicando la ecuación para datos agrupados 79 5 10 22 2 50 5 . 77 ) ( ) ( 2 ) ( ~ 1 = | | | . | \ | − + = − + = − w x F x CF N x L X m m m i La moda es simplemente 80 ˆ = X La gráfica siguiente muestra que las tres medidas de centralización, las cuales son muy cercanas entre si y se localizan como debe ser en el centro del histograma. MEDIDA DE DISPERSIÓN DESVIACIÓN TÍPICA Ó ESTÁNDAR La desviación típica ó estándar: es la medida de dispersión más representativa de un conjunto de datos. .Se define utilizando como ( ) 2 1 1 2 − = ∑ = N x x S N i i N (1.5) La fórmula anterior es conocida como desviación típica ó estándar sesgada Para datos agrupados la fórmula anterior se escribe como X ˆ X X ~ APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 14 2 1 1 2 ) )( ( − == ∑ = N x x x f S N i i i N (1.6) VARIANZA El valor de la desviación estándar al cuadrado es conocido como la Varianza, esto es Varianza = 2 S Una forma alternativa par el cálculo de la varianza y/o de la desviación estándar sesgada se obtiene desarrollando la definición dada, esto es ( ) ∑ ∑ + − = − = 2 2 2 2 2 1 ) ( x x x x N N x x S i i i N ( ) ∑ ∑ ∑ + − = 2 2 2 1 x x x x N i i ( ) ∑ ∑ ∑ + − = 1 2 1 2 2 x x x x N i i ( ) ∑ − − = 2 2 2 1 x N x N x x N i ∑ − = 2 2 1 x x N i Entonces ∑ − = 2 2 2 1 x x N S i N (1.7) Notación Normalmente las letras latinas 2 , , S S x , etc., representan los estadísticos de una muestra y las letras griegas 2 , , σ σ u , etc., representan los estadísticos de una población. Existe una forma para la varianza muestral 2 S que proporciona una estimación más precisa de la varianza de la población, en particular, cuando la muestra es pequeña (N ≤36); es conocida como varianza insesgada de la población y se calcula mediante 1 ) ( 2 2 1 − − = ∑ − N x x S i N (1.8) APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 15 De aquí se calcula mediante la raíz cuadrada la desviación estándar insesgada 2 1 2 1 1 ) ( − − = ∑ − N x x S i N (1.9) Procediendo de manera similar al caso sesgado se puede obtener una fórmula directa para calcular la varianza y/o desviación estándar insesgada ( ) ∑ ∑ + − | . | \ | − = − − = − 2 2 2 2 1 2 1 1 1 ) ( x x x x N N x x S i i i N ( ) ∑ ∑ ∑ + − | . | \ | − = 2 2 2 1 1 x x x x N i i ( ) ∑ ∑ ∑ + − | . | \ | − = 1 2 1 1 2 2 x x x x N i i | | . | \ | | | . | \ | − − | . | \ | − = ∑ ∑ ∑ ∑ 2 2 2 1 1 N x N x N x x N i i i i ( ) | | . | \ | − | . | \ | − = ∑ ∑ N x x N i i 2 2 1 1 Por lo tanto ( ) | | . | \ | − | . | \ | − = ∑ ∑ − N x x N S i i N 2 2 2 1 1 1 (1.10) La desviación estándar como se ha indicado anteriormente es una medida de la dispersión de los datos, está dispersión se mide a partir de la media de la distribución de datos; por ejemplo, supóngase que se comparan dos conjuntos de datos obtenidos a partir de la misma población, los cuales tienen el mismo número de datos ( 2 1 N N = ),el mismo promedio ( 2 1 x x = ), entonces, si la desviación del primer conjunto es menor que la del segundo conjunto, ( 2 1 s s < ), es posible afirmar que los datos del primer conjunto se encuentran más concentrados que los de la segundo y la altura del primer conjunto de datos es mayor que la del segundo. La figura siguiente compara dos distribuciones continuas con las características descritas anteriormente. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 16 Comparación de dos distribuciones de frecuencia con diferentes desviaciones estándar 2 1 s s < La desviación estándar se puede emplear también para medir las variaciones con respecto a la media de los valores con respecto a la media. Un valor pequeño de la desviación típica ó estándar indica una mayor probabilidad de obtener un valor más cercano a la media. Esta idea se expresa en un teorema enunciado por el matemático ruso Tchebycheff. Teorema de Tchebycheff La proporción de cualquier conjunto de valores que caerá dentro k desviaciones típicas a partir de la media es al menos 1-1/k 2 , donde k es cualquier número mayor que 1. Por ejemplo, para el caso de k = 2, el teorema anterior garantiza que sin importar como es la distribución de frecuencias, existe 1-1/2 2 =0.75 de los datos se encuentran dentro del intervalo comprendido por | | s x s x 2 , 2 + − . En la figura 1, se muestra la idea del teorema de Tchebycheff para k = 2.. Regla de la normal En muchas ocasiones el histograma que representa la distribución de frecuencia tiene una forma de campana simétrica, este tipo de distribución puede ser comparada con una distribución teórica continua llamada curva normal. Es posible aplicar las características de la curva normal a este tipo de distribuciones muestrales para determinar la proporción de datos contenidos dentro de una, dos y tres desviaciones estándar. A continuación se enuncia la regla de la normal. Para distribuciones de frecuencia simétricas en forma de campana, aproximadamente el 68 % de los datos caerán en el intervalo | | S X S X + − , , el 95 % de los datos caerán en el intervalo | | S X S X 2 , 2 + − , y casi el 100 % de los datos caerán en el intervalo | | S X S X 3 , 3 + − . -6 -4 -2 0 2 4 6 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 F r e c u e n c i a s1=1 s2=2 x1=x2 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 17 Figura 1, Teorema de Tchebycheff proporción de datos 1-1/k 2 para el caso k = 2. Figura 2, Regla de Normal. 68 % de los datos en el intervalo | | S X S X + − , , el 95 % en | | S X S X 2 , 2 + − , y casi el 100 % en | | S X S X 3 , 3 + − . -200 -150 -100 -50 0 50 100 15 0 200 250 300 0 5 10 15 20 25 30 35 s x + s x − s x 2 + s x 2 − s x 3 − x s x 3 + Aproximadamente 68% Aproximadamente 95% casi 100% X s X 2 − s X 2 + 50 55 60 65 70 75 80 85 90 95 100 0 0.05 0.1 0.15 0.2 0.25 F r e c u e n c i a r e l a t i v a Histograma de frecuencia relativa Al menos 3/4 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 18 EJEMPLOS 6. Determine la desviación estándar sesgada e insesgada para el conjunto de datos siguientes. X F(x) 55 2 60 3 65 4 70 5 75 8 80 10 85 8 90 6 95 4 50 SOLUCION Es recomendable construir la tabla siguiente a partir de los datos dados: Utilizando los resultados de la tabla en las ecuaciones respectivas ( ) 111 50 3900 309750 50 1 ) ( 1 2 2 2 2 = | . | \ | − = − = ∑ x x x f N S i i N 54 . 10 111 = = N S ( ) ( ) 27 . 113 50 3900 309750 1 50 1 ) ( ) ( 1 1 2 2 2 2 1 = | | . | \ | − | . | \ | − = | | . | \ | − | . | \ | − = ∑ ∑ − N x x f x x f N S i i i i N 64 . 10 27 . 113 = = N S X F(x) X F(X) X 2 F(X) 55 2 110 6050 60 3 180 10800 65 4 260 16900 70 5 350 39200 75 8 600 45000 80 10 800 64000 85 8 680 57800 90 6 540 48600 95 4 380 36100 50 3900 309750 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 19 7. Obtenga la mediana para el conjunto de datos siguiente 53 57 58 61 61 63 64 66 67 68 69 70 71 72 73 74 74 74 74 77 77 77 78 81 79 79 79 81 78 81 82 82 83 83 84 85 85 86 87 87 88 90 90 90 90 92 93 94 96 97 SOLUCION La mediana debe dividir los datos en la mitad, esto es en 25 datos a la izquierda y 25 a la derecha. Puesto que los datos se encuentran acomodados en orden ascendente, se puede observar el dato X 25 = 79 y el dato X 26 = 79, por lo tanto 79 2 79 79 2 ~ 26 25 = + = + = X X X 8. Cierta tarde del sábado 30 estudiantes universitarios de primer semestre trabajaron.A continuación se muestra la distribución de frecuencias de sus ganancias. a) Obtenga la media, mediana y moda b) Obtenga la desviación estándar 1 , − n n S S Ganancia x Frecuencia f(x) 10 2 15 5 20 9 25 6 30 3 35 5 30 SOLUCION Primero se realiza la siguiente tabla a partir de la anterior x f(x) x i f(x i ) f(x i )x i 2 10 2 20 200 15 5 75 1125 20 9 180 3600 25 6 150 3750 30 3 90 2700 35 5 175 6125 Σ 30 690 17500 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 20 Promedio 23 30 690 ) ( = = = ∑ N x x f X i i Mediana De los datos de la tabla Límite inferior de la clase L i (x m ) =17.5 Frecuencia acumulada hasta antes de la clase m ) ( 1 − m x CF m=7 Frecuencia de la clase donde está la mediana = 9 ) ( m x F Ancho de la clase 5 = w w x F x CF N x L X m m m i ) ( ) ( 2 ) ( ~ 1 − − + = ( ) 22 . 22 5 9 7 2 30 5 . 17 = | | | | . | \ | − + = Moda El valor con mayor frecuencia es 20 ˆ = x Desviación estándar sesgada 33 . 54 ) 23 ( ) 17500 ( 30 1 ) ( 1 2 2 2 2 = − = − = ∑ x x x f N S i i N Entonces 37 . 7 33 . 54 = = S Desviación estándar insesgada ( ) ( ) 21 . 56 1 30 30 690 17500 ) ( ) ( 1 1 2 2 2 1 2 = − − = | | . | \ | − − = ∑ ∑ − N x x f x x f N S i i i n Por lo tanto 50 . 7 21 . 56 1 = = − N S 9. Las mediciones en la escala de Richter correspondientes a los 50 terremotos más recientes en el mundo son dadas en la tabla. a) Constrúyanse una distribución de frecuencias con límites de clase de 2.25 a 2.75, 2.75 a 3.25, etc. b) Trácense el histograma y polígono de frecuencias (c) Obtenga la media, mediana y moda (d) Obtenga la desviación estándar 1 , − n n S S APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 21 SOLUCION (a) Utilizando las clases sugeridas se determinan las respectivas marcas de clase, frecuencias y se evalúan de xf(x) y x 2 f(x), acomodando los resultados en la siguiente tabla (b) Histograma y polígono de frecuencias. 2 3 4 5 6 7 0 2 4 6 8 10 12 14 16 18 20 f r e c u e n c i a Histograma y Poligono de frecuencias 2.3 3.7 4.3 4.7 5.4 2.3 3.8 4.4 4.8 5.5 2.4 3.8 4.4 4.8 5.6 2.6 3.9 4.4 4.9 5.7 2.8 3.9 4.5 4.9 5.8 3.0 4.0 4.5 5.0 5.9 3.4 4.0 4.6 5.0 6.0 3.5 4.1 4.6 5.1 6.4 3.5 4.1 4.6 5.1 6.5 3.6 4.3 4.6 5.3 7.1 clase x f(x) x(f(x)) x 2 (f(x)) 2.25-2.95 2.6 5 13 33.8 2.95-3.65 3.3 5 16.5 54.45 3.65-4.35 4.0 11 44 17.6 4.35-5.05 4.7 16 75.2 353.44 5.05-5.75 5.4 7 37.8 204.12 5.75-6.45 6.1 4 24.4 148.84 6.45-7.15 6.8 2 13.6 92.48 Σ 50 224.5 1106.313 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 22 (b) A partir de los datos de la tabla de frecuencia se puede determinar los estadísticos solicitados Media 49 . 4 16 9 . 44 50 2245 ) )( ( = = = = ∑ N xi fi x Moda 7 . 4 ˆ = x Mediana Para los datos no agrupados 5 . 4 2 5 . 4 5 . 4 2 1 2 2 ~ = + = | . | \ | + + | . | \ | = N dato N dato x Para los datos agrupados w x F x CF N x L X m m m i ) ( ) ( 2 ) ( ~ 1 − − + = ( ) 54 . 4 7 . 0 16 21 2 50 35 . 4 = | | | | . | \ | − + = Desviación estándar sesgada 1025 . 1 ) 49 . 4 ( ) 13 . 1063 ( 50 1 ) ( 1 2 1 2 2 2 = − = − = ∑ = n i i i i N x x x f N S Entonces 05 . 1 1025 . 1 = = S Desviación estándar insesgada ( ) ( ) 125 . 1 50 5 . 224 13 . 1063 1 50 1 ) )( ( ) ( 1 1 2 2 2 2 1 = | | . | \ | − | . | \ | − = − | . | \ | − = ∑ ∑ − N x x f x x f N S i i i i N Por lo tanto 0606 . 1 125 . 1 1 = = − N S 10. Supóngase que cierto conjunto de observaciones tiene una 100 = x y una S 2 = 225 Conteste las siguientes preguntas, de acuerdo al teorema de Tchebycheff. a) ¿Al menos qué porcentaje de todas las observaciones caerá entre 70 y 130? b) ¿A menos que porcentaje de las observaciones caerá entre 25 y 175? SOLUCION a) De los datos se obtiene 15 100 = = S x APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 23 En general el valor de k correspondiente a un valor X cualquiera se puede determinar a partir de la ecuación S x X k − = Los valores de k correspondientes a 70 y a 130 son 2 15 100 70 1 − = − = k y 2 15 100 130 2 = − = k Es un intervalo simétrico a partir de la media con k =2. De acuerdo al teorema de Tchebycheff Proporción al menos = 100 2 1 1 100 1 1 2 2 | . | \ | − = | . | \ | − k = 75 % (b) Procediendo de manera similar al inciso anterior, los valores de k correspondientes a 25 y a 175 son 5 15 100 25 1 − = − = k y 5 15 100 175 2 = − = k Es un intervalo simétrico a partir de la media con k =5. De acuerdo al teorema de Tchebycheff Proporción al menos = 100 5 1 1 100 1 1 2 2 | . | \ | − = | . | \ | − k = 96 % 11. De acuerdo con la regla normal ¿Cuál es la proporción aproximada de un conjunto de observaciones que caerá por debajo de S x 2 − SOLUCION De acuerdo a la regla de la Normal dentro del intervalo | | S x S x 2 , 2 + − hay aproximadamente el 95 % de los datos, quedando fuera el 5 %, pero como solo se consideran los que están por debajo de S x 2 − esto corresponde a la mitad, o sea al 2.5% ó equivalentemente a 0.0250 de los datos. 12. Una muestra de 100 trabajadores tiene una producción promedio por hora de 60 unidades y una desviación típica de 10 unidades. De acuerdo con la regla de la normal, ¿aproximadamente cuántos trabajadores tienen una producción entre 40 y 80 unidades? SOLUCION El número de desviaciones estándar a partir de la media se puede determinar con S x X k − = Del problema 60 = x y 10 = S entonces, para los valores de 40 y 80 se tiene que 2 10 60 40 1 − = − = k y 2 10 60 80 2 = − = k Lo cual corresponde a dos desviaciones a la izquierda y a la derecha del promedio, que de acuerdo a la regla de la normal corresponde al 95 % de los datos ó al 0.95 del total de datos, por lo tanto Número de trabajadores = Total x Fracción N = 100 x 0.95 = 95 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 24 Unidad II Probabilidad CONJUNTOS Y ÁLGEBRA DE CONJUNTOS DEFINICIÓN DE CONJUNTO. Conceptos básicos de la teoría de conjuntos: CONJUNTO: es una colección de objetos, datos, que pueden cumplir una o varias condiciones. Notación de conjunto: comúnmente se representa a los conjuntos mediante letras mayúsculas A, B, C, U, Z W, Φ. Ω ELEMENTO: en un único objeto o dato que es parte de un conjunto Notación de elemento: los elementos se denotan con letras minúsculas a, b, c, α. φ, v, w, θ Los conjuntos pueden describirse de dos maneras, de forma explícita y /o implícita. La forma explícita corresponde cuando los elementos del conjunto son mostrados directamente EJEMPLO A = {a, e, i, o, u} B = {1, 2, 3, 4, 5,6,….} C = {…-4,-2,0, 2, 4,6,….} La forma implícita corresponde cuando los elementos del conjunto no son mostrados directamente y son definidos mediante una condición o condiciones. A = {x.| x es una vocal del abecedario} B = {x.| x es un número natural} C = {x.| x es un número par} El CONJUNTO UNIVERSO denotado generalmente por U es el conjunto más grande que es utilizado en un problema particular y contiene a todos los elementos. En el ámbito de la Estadística se relaciona directamente el conjunto universo con la población y el caso de la Probabilidad con el llamado espacio muestral. Se dice que un elemento x pertenece a un conjunto A si x es parte del conjunto A. Notación: x ∈ Α. En forma gráfica la condición se representa mediante el diagrama siguiente APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 25 Si x no pertenece a un conjunto A, entonces x no es parte del conjunto A. Notación: x ∉Α. Un conjunto es finito si se pueden contar sus elementos, esto es, existe un número total de elementos. # A = n Si el # A = ∞ entonces el conjunto es infinito. Se dice que un conjunto B está CONTENIDO en un conjunto A ó es SUBCONJUNTO de A si y solo sí todo elemento x ∈ B. x también x ∈ A. Notación: B ⊂ A. A x U U A x U A B APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 26 Para facilitar la escritura de algunas expresiones matemáticas a continuación se presentan algunos símbolos y su significado ∀ Para todo. ↔ Si y solo si. → Entonces. ∃ Existe. ∴ Por lo tanto. La definición de CONTENIDO o CONTENCION anterior se puede escribir como: A x B x A B ∈ ∈ ∀ ↔ ⊂ , Si algún x∈ B pero x ∉ A entonces se dirá que B NO ESTA CONTENIDO A ó que B no es SUBCONJUNTO de A. En forma compacta: A x B x ∉ ∈ ∃ → B ⊄ A. Notación: B ⊄ A. ÁLGEBRA DE CONJUNTOS (OPERACIONES BÁSICAS) Las operaciones entre conjuntos permiten obtener nuevos conjuntos a partir de conjuntos más simples ó representar conjuntos complejos mediante conjuntos más simples. Todas las operaciones que se define a continuación son de gran importancia para el desarrollo de la probabilidad, por lo que se recomienda aprenderlas y aplicarlas correctamente cada una de ellas. Cabe mencionar que estas operaciones no se deben comparar con las operaciones algebraicas entre números como son la suma, resta y multiplicación- UNIÓN DE CONJUNTOS = ∪B A { } B x ó A x x ∈ ∈ Notación: B A∪ U A B x U A B APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 27 EJEMPLO { } { } { } h g f d c b a B A C h g f d c b a B d c b a A , , , , , , , , , , , , , , , = ∪ = = = INTERSECCIÓN DE CONJUNTOS { } B x y A x x B A ∈ ∈ = ∩ Notación: B A∩ EJEMPLO { } { } { } d c B A h g f d c b a B d c b a A , , , , , , , , , , = ∩ = = COMPLEMENTO { } U x y A x x A c ∈ ∉ = Notación: c A U c A A U A B APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 28 Complemento relativo: { } A x y B x x A B ∈ ∉ = | / Notación: c A EJEMPLO Utilizando los conjuntos anteriores { } Φ = = A B/ { } h f g B A , , / = Siendo { } = Φ conjunto vacío A partir de las operaciones anteriores entre conjuntos se pueden definir y obtener nuevas propiedades entre conjuntos, las cuales serán utilizadas en secciones posteriores y en particular en el tema de probabilidad. Se dice que dos conjuntos A y B son AJENOS si solo si Φ = ∩B A , U B B A U A B APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 29 PROPIEDADES BÁSICASDE LOS CONJUNTOS Sean A, B dos conjuntos generales dentro de un conjunto universo U entonces se cumplen las siguientes condiciones a) A ∪ A = A b) A ∩ A = A c) A ∪ A c = U d) A ∩ A c = Φ e) U c = Φ f) Φ c = U g) A ∪ Φ = Φ h) A ∩ Φ = Φ i) A = ( A ∩ B) ∪ (A ∩ B c ) Si B ⊂ A. entonces: j) A ∪ B = A k) A ∩ B = B Leyes conmutativas l) A ∪ B = B ∪ A m) A ∩ B = B ∩ A Leyes distributivas n) A ∪ ( B ∩ C) = (A ∪B) ∩ (Α∪ C) o) A ∩ ( B ∪ C) = (A ∩B) ∪ (Α ∩ C) Leyes de Morgan p) (A ∪ B) c = A c ∩ B c q) (A ∩ B) c = A c ∪ B c APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 30 EXPERIMENTOS PROBABILÍSTICOS Y DETERMINÍSTICOS Como ya se ha mencionado en la unidad anterior: Un EXPERIMENTO ES DETERMINÍSTICO si al realizarse bajo las mismas condiciones se obtiene invariablemente en mismo resultado o dato, en el caso de que se obtenga resultados o datos diferentes se dirá que el es un EXPERIMENTO PROBABILISTICO ó ALEATORIO. POBLACIÓN MUESTRA, EVENTOS A continuación se dan nuevamente las definiciones de población, muestra y eventos. La POBLACION es el conjunto total de datos que se obtienen al realizar un experimento. La MUESTRA es una parte ó subconjunto de la población. Los EVENTOS están formados generalmente por muestras a las cuales se les pide que cumplan con alguna condición o condiciones. Teoría elemental del muestreo La toma de datos ó muestras de un experimento aleatorio en general se debe realizar de tal manera que todos los posibles resultados del experimento tenga la misma oportunidad ó probabilidad de se elegidos, lo anterior constituye el PRINCIPIO FUNDAMENTAL DEL MUESTREO. El principio anterior es conocido también como MUESTREO AL AZAR y tiene la finalidad de obtener una muestra lo más representativa del experimento. El muestreo al azar se puede realizar de dos maneras CON REEMPLAZO y SIN REEMPLAZO. En el caso de reemplazo una vez elegido un objeto este es regresado de nuevo al conjunto y por lo tanto puede ser nuevamente seleccionado, por otra parte si el muestreo se lleva a cabo sin reemplazo el objeto que es seleccionado no se regresa al conjunto y por lo tanto nunca más podrá se seleccionado. En aplicaciones prácticas aparecen ambos tipos de muestreo. Para efectuar un muestreo adecuado se debe evitar posibles tendencias al realizar un experimento, por ejemplo, para la elección de muestras de un lote se puede recurrir a tablas ó programas que generan números aleatorios para evitar tendencias y realizar una correcta selección de las muestras El muestreo de datos se puede realizar al azar con o sin reemplazo El estudio de la Probabilidad permite dar una respuesta a problema de la elección adecuada de cuando una muestra es representativa de un experimento aleatorio o población. ESPACIO MUESTRAL El ESPACIO MUESTRAL es el conjunto de todos los resultados posibles de un evento aleatorio ó probabilístico. Normalmente el espacio muestral se representa por la letra S y en términos de conjuntos es el equivalente al conjunto universo. Un EVENTO O SUCESO: es un subconjunto del espacio muestral. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 31 DEFINICIÓN DE PROBABILIDAD La PROBABILIDAD DE UN EVENTO se puede definir en el caso de conjuntos finitos como: ( ) ( ) S N E N E P . . ) ( = N (E):= número de elementos independientes de E. N (S). = número total de elementos independientes. En algunos casos sencillos es posible conocer fácilmente el número total de elementos que conforman cada uno de los conjuntos, sin embargo, esto no es posible para la mayoría de los demás caso, por lo que es conveniente recurrir en principio a las técnicas de conteo para determinar las probabilidad. TÉCNICAS DE CONTEO PRINCIPIO FUNDAMENTAL DEL CONTEO. Si un evento n 1 se puede realizar de N 1 formas y otro evento se puede realizar de N 2 formas, entonces el evento conjunto se puede realizar de N 1 .N 2 formas. N = N 1 .N 2 (2.1) El principio fundamental del conteo se puede representar gráficamente mediante el llamado diagrama de árbol. Cada trayectoria en el diagrama de árbol representa un posible resultado o forma de realizarse el experimento. En la figura 1 se muestra el diagrama de árbol para el caso de N1=4 y N2 = 2, con lo que se obtienen N1*N2=4*2= 8 trayectorias ó formas Por otra parte el principio fundamental del conteo se puede generalizar a k eventos, esto es, si el evento i puede ocurrir de Ni formas, entonces el evento total conjunto de los k eventos, se puede realizar de N 1 .N 2…. Ni……Nk formas. Figura 1. Diagrama de árbol que representa el principio fundamental del conteo N1*N2=4*2= 8 N1 N2 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 32 EJEMPLOS 1. Determine el número total de combinaciones de un candado formado por formado por 3 discos giratorios y cada uno de los cuales puede ser colocado en los números 0, 1, 2, 3, 4, 5, 6, 7, 8, 9. Combinación de un candado. SOLUCION De acuerdo a los indicado en el problema cada uno de los discos pude ser colocado en 10 formas, esto es N1=10; N2=10, y N3=10. Aplicando el principio fundamental del conteo se obtiene: 2. Una moneda es arrojada 2 veces consecutivas. Obtenga el espacio muestral del conjunto. SOLUCION Una moneda tiene dos resultados posibles, Águila (A) ó Sol (S), si la moneda es arrojada dos veces entonces N = N1*N2 = 2*2 = 4 eventos independientes Cada uno de los eventos individuales se muestran a continuación: S={ (A,A), (A,S), (S,A), (S,S)} 3. Un experimento consiste en arrojar una moneda 4 veces, lístense todas las posibilidades: SOLUCION El número total de posibles eventos independientes es N=(2, 2, 2, 2)= 2 4 =16 Puede utilizarse un diagrama de árbol para listar correctamente todas las posibilidades, estas son: 10 10 10 = 10 3 =1000 combinaciones A, A, A, A A, A, A, S A, A, S, A A, A, S, S A, S, A, A A, S, A, S A, S, S, A A S, S, S S, A, A, A S, A, A, S S, A, S, A S, A, S, S S, S, A, A S, S, A, S S, S, S, A S, S, S, S APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 33 4. Obtenga el número total de eventos independientes que se obtiene al arrojar una moneda 5 veces consecutivas. SOLUCION En cada uno de los 5 casos de arrojar una moneda está puede tener solamente dos resultados posibles, Águila (A). ó Sol (S), entonces: 5. Obtenga el espacio muestral que se genera al arrojar un dado 2 veces SOLUCION El dado tiene 6 caras y por lo tanto existen 6 posibilidades para cada vez que es arrojado, entonces como es arrojado 2 veces: Los eventos independientes pueden obtenerse fácilmente mediante un diagrama de árbol. S = { (1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6) } 6. Determine el número posible de combinación de placas válidas si la placa esta formada por 3 números consecutivos y 3 letras del abecedario. SOLUCION Existen 10 posibilidades para cada uno de los números y 26 posibilidades para cada una de las letras (no se incluyen letras dobles RR, CH, LL y la letra Ñ), entonces: METODO I Números Letras Placas En el cálculo anterior se han incluido placas que no existen para fines prácticos, por ejemplo: La placa 0 0 0 A A A No existe En general las placas no pueden tener un cero o ceros antes que un número diferente de cero. 2 2 2 2 2 =2 5 =32 posibles 6 6 = 6 2 =36 resultados 10 10 10 26 26 26 =(10 3 ) (26 3 ) APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 34 Por otra parte no existen las placas 0 num num letra letra letra No existen 1 9 10 26 26 26 = (90)(26 3 ) 0 0 num letra letra letra No existen 1 1 9 26 26 26 =(9)(26 3 ) 0 0 0 letra letra letra No existen 1 1 1 26 26 26 =26 3 Número de placas no validas = (90)(26 3 )+ (9)(26 3 )+ 26 3 =(10 2 )(26 3 )=(100) (26 3 ) Entonces Número de placas validad =Número total - Número de placas no validas. = (10 3 ) (26 3 )- (100) (26 3 ) = (900)( 26 3 )= 15 818 400 placas. METODO II La primer casilla de número no puede ser cero, por lo tanto se reduce sus posibles valores a N1=9 Manteniéndose los demás valores iguales al método I Números Letras Placas Número de placas no validas = (900) (26 3 ) = 15 818 400 placas. El principio fundamental del conteo permite obtener fórmulas matemáticas para algunos casos generales que ocurren comúnmente en aplicaciones prácticas, como son, las permutaciones y las combinaciones PERMUTACIONES La permutación aparece cuando se tienen N objetos DISTINGUIBLES SIN REEMPLAZO y estos pueden ocupar r lugares o posiciones. Lo anterior se representa gráficamente como Lugar 1 Lugar 2 Lugar 1 Lugar 1 … Lugar r 9 10 10 26 26 26 =(900) (26 3 ) APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 35 Aplicando el principio fundamental del conteo y recordando que en el primer lugar pude ser ocupado por los n objetos, el segundo lugar por los N-1 restantes y así sucesivamente hasta el lugar r donde solamente puede ser ocupado por n-r objetos n n-1 n-2 n-3 … n-r+1 Permutaciones = n(n-1)(n-2)(n-3)(n.-r+1) Existe un caso particular en el cual en número de objetos n es igual al número de posiciones que pueden ocupar, esto es, r = n. por lo tanto el producto anterior se convierte en el producto de los enteros consecutivos del 1 al n. n n-1 n-2 n-3 … 1 Permutaciones = n(n-1)(n-2)(n-3)(n.-r)…1 Este producto particular es conocido como el FACTORIAL n! = n(n-1)(n-2)(n-3)(n.-r)…..1 (2.2) Propiedades elementales del factorial (a) n! (n+1) =(n+1)! (b) 0!=1 Las permutaciones para n objetos ocupando r lugares ó casillas pueden definirse en términos del factorial y sus propiedades anteriores como; ( )! ! r n n r P n − = (2.3) EJEMPLOS 7. Mostrar que la definición de las permutaciones en términos de factoriales es correcta SOLUCION Partiendo de la definición dada ( ) 1 2 3 ) 1 )( ( 1 2 3 ) )( 1 ( ) 2 )( 1 ( ! ! ⋅ ⋅ − − − ⋅ ⋅ − + − − − = − = L L L r n r n r n r n n n n r n n r P n Simplificando términos ( ) ) 1 ( ) 2 )( 1 ( ! ! + − − − = − = r n n n n r n n r P n L para el caso particular de n = r APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 36 ( ) ! ! 0 ! ! ! n n n n n n nP = = − = 8. Determinar cuantas formas hay de acomodar las letra A,B,C sin reemplazo en tres lugares consecutivos. Muestre explícitamente cuales son estas posibilidades. Para el problema n =3 y r =3, 6 3 2 1 ! 3 3 3 = ⋅ ⋅ = = P Explícitamente las permutaciones se pueden obtener a partir del diagrama de árbol siguiente (A,B,C), (A,C,B), (B,A,C), (B,C,A), (C,A,B ) y (C,B,A) 9. Utilizando el problema anterior determine ¿en cuántos casos las letra A y B permanecen juntas en todo momento? SOLUCION MÉTODO I Directamente del problema anterior se pueden observar directamente que los casos que cumplen que A y B estén siempre juntas son: (A,B,C), (B,A,C), (C,A,B ) y (C,B,A), esto es, solo hay 4 casos MÉTODO II (formación de bloques) Si las letras A y B deben permanecer juntas, entonces ambas forman un bloque, con lo cual el bloque en conjunto se pude considerar como un “elemento”, en términos de permutaciones n =2 r =2 Bloque letra A B C 2 1 =2! A A C B A C C B B C C A C B B APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 37 Pero en el bloque formado por las letras A, B estas puede permutarse y mantenerse juntas entre si, por los que hay que tomar en cuenta está posibilidad donde también n =2 r =2 B A C 2 1 =2! Sumando las posibilidades anteriores se tiene TOTAL = 2! + 2! = 2+ 2 =4 permutaciones En términos de notación de permutaciones: TOTAL = 2P2* 2P2= 2! + 2! = 2+ 2 =4 permutaciones 10. ¿De cuántas formas se pueden acomodar 10 libros distintos en un estante SOLUCION Aplicando el principio fundamental del conteo 10 9 8 7 6 5 4 3 2 1 =10!=3 628 800 Mediante permutaciones n =10 y r =10, entonces 800 628 3 ! 10 10 10 = = P Formas 11. Se tienen 8 libros 3 de matemáticas, 3 de física y 2 de biología. ¿De cuántas maneras se pueden acomodar de tal manera que los libros de cada materia queden siempre juntos? SOLUCION Los tipos de libros para mantenerse juntos forman bloques de cada tipo, por lo que hay tres bloques, los cuales se pueden acomodar de las siguientes N1 = 3P3 =3! 3 2 1 =3! Bloque 1 bloque 2 bloque e Supóngase ahora que se tiene por ejemplo el siguiente acomodo particular de los bloques 3 2 1 3 2 1 2 1 =3! 3! 2! Matemáticas Física Biología Dentro de cada bloque se pueden permutar los libros de cada sección y tal como se observa se tendrían N2= (3P3)( 3P3)(2P1) =3! 3! 2! Permutaciones Aplicando el principio fundamental de conteo en número total es N2= 3P3+ 3P3+ =3! N= N1 N2= 3! (3! 3! 2!)=432 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 38 12. Diez personas se encuentran esperando ser atendidas en una oficina de gobierno, pero la secretaria les informa que solo se atenderán a seis personas, ¿cuál es la cantidad de posibles opciones para atender a las personas? SOLUCION Para este problema se tienen n = 10 personas y solo se cuenta con r = 6 lugares, entonces N= nPr = 10P6 = ! 4 ! 10 )! 6 10 ( ! 10 = − = 151 200 opciones COMBINACIONES Para entender las como se obtienen las combinaciones primero hay que observar lo que sucede cuando los objetos que son considerados distinguibles se transforman en indistinguibles. Como ejemplo considere las permutaciones de las letras A, B, C y posteriormente hagamos que A = B A, B, C diferentes A = B, C diferente reducción A, B, C A, C, B B, C, A B, A, C C, A, B C, B, A Las permutaciones se reducen a 3 casos únicamente. Si ahora se las tres letras son indistinguibles entre si ó equivalentemente A=B=C A, B, C diferentes A = B = C reducción A, B, C A, C, B B, C, A B, A, C C, A, B C, B, A Las permutaciones se reducen a 1 caso únicamente. Utilizando los ejemplos anteriores es posible deducir una fórmula simple. Sí se tienen n objetos que pueden ocupar r lugares y entre ellos hay l 1 objetos indistinguibles, l 2 objetos indistinguibles,…, l k , objetos indistinguibles, que cumplen l 1 + l 2 +….+ l k =n, entonces en numero total de permutaciones se reduce a: A, A, C A, C, A A, C, A A, A, C C, A, A C, A, A A, A, C A, C, A C, A, A A, A, A A, A, A A, A, A A, A, A A, A, A a, A, A , A, A A , , APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 39 ! ! ! 2 1 k l l l r nP N L = (2.4) Para el primer caso n = r, l 1 = 2 3 2 . 1 3 . 2 . 1 ! 2 ! 3 = = = N Para el segundo caso n = r, l 1 = 3 1 ! 3 ! 3 = = N EJEMPLO 13. Se tienen 8 libros, 3 de matemáticas, 3 de física y 2 de biología. Si los 3 libros de matemáticas son iguales y los 2 de biología son iguales ¿Cuántas formas posibles existen de acomodarlos en un librero? SOLUCION De acuerdo a los datos del problema, n=8 libros , l 1 = 3 libros de matemáticas iguales, l 2 = 2 libros de biología iguales, entonces 3360 2 . 1 . 3 . 2 . 1 8 . 7 . 6 . 5 . 4 . 3 . 2 . 1 ! 2 ! 3 ! 8 = = = N Las COMBINACIONES de n objetos en r lugares se obtiene cuando en una permutación de estos objetos la posición relativa no importa a pesar de ser diferentes entre ellos, por ejemplo todas las permutaciones (A,B,C), (A,C,B), (B,A,C), (B,C,A), (C,A,B ) y (C,B,A) son equivalentes a (A,B,C), en este caso se puede considerar que existe un conjunto con l = r objetos iguales por lo tanto utilizando la fórmula (2.4) ! )! ( ! ! r r n n r r nP nCr − = = (2.5) Las combinaciones pueden escribirse también como ! )! ( ! r r n n r n − = | | . | \ | EJEMPLOS 14. Un contratista de construcción ofrece casas con cinco distintos tipos de distribución, tres tipos de techo y dos tipos de alfombrado. ¿De cuántas formas diferentes puede un comprador elegir una casa? SOLUCION Hay N1= 5 distribuciones N2= 3 tipos de techos y N3= 2 tipos de alfombra, entonces, aplicando el principio fundamental del conteo N= N1 N2 N3 = 5 3 2 = 30 elecciones de casa diferentes APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 40 15. Se tiran seis dados. ¿De cuántas formas diferentes pueden quedar las caras hacia arriba? SOLUCION Hay 6 posibles resultados de cara para cada uno de los 6 dados, entonces, aplicando el principio fundamental del conteo N= 6 6 6 6 6 6 = 6 6 = 46656 formas diferentes 16. Las placas de matrícula de automóviles emitidas por cierto estado tienen dos letras seguidas por tres dígitos. ¿Cuántas placas diferentes pueden emitirse si no hay restricciones? SOLUCION Para las letras hay 26 posibles resultados y para los números hay 10 posibles valores, por lo tanto mediante el principio fundamental del conteo Letra letra Num Num Num N= 26 26 10 10 10 =26 2 .10 3 =676000 17. Una clase consiste en diez estudiantes. ¿De cuántas formas puede seleccionarse un comité de tres estudiantes SOLUCION Este problema corresponde a un caso clásico de combinaciones donde n =10 estudiantes, r = 3 estudiantes, entonces 120 ! 3 )! 3 10 ( ! 10 == − = N comités. 18. Un club consta de 30 miembros. 15 blancos, 10 negros y 5 de otras razas. Debe formarse un comité de 6 miembros. Si los 3 grupos deben estar representados, con proporciones iguales, ¿de cuántas formas puede hacerse esto? SOLUCION Los 30 miembros son divididos en 3 clases:15 blancos, 10 negros, 5 de otros Como las proporciones deben de ser iguales y el comité está formado por 6 miembros a cada clase le corresponden 2 miembros para el comité Se pueden elegir 105 ! 2 )! 2 15 ( ! 15 2 15 = − = | | . | \ | comités de blancos 45 ! 2 )! 2 10 ( ! 10 2 10 = − = | | . | \ | comités de blancos 10 ! 2 )! 2 3 ( ! 5 2 5 = − = | | . | \ | comités de otros Un posible caso de de comité es 2 blancos 2 negros 2 de otros N= 105 45 10 = 47 250 comités APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 41 19. En una clase de 30 estudiantes, hay 20 hombres y 10 mujeres. a. ¿De cuántas formas puede seleccionarse un comité de tres hombres y dos mujeres? b ¿De cuántas formas puede seleccionarse un comité de cinco estudiantes? c. ¿De cuántas formas puede seleccionarse un comité de cinco estudiantes si los cinco deben de ser del mismo sexo? SOLUCION a. Procediendo como en el problema anterior 3 hombres de 20 2 mujeres de 10 N= | | . | \ | 3 20 | | . | \ | 2 10 = (1140)(45)= 51 300 comités b. Hay n = 30 estudiantes para ocupar r = 5 lugares ! 5 )! 5 30 ( ! 30 5 30 − | | . | \ | = | | . | \ | r n = 142 506 comités. c. Puede haber un comité formado por 5 hombres ó un comité formado por 5 mujeres, entonces el resultado es la suma de cada uno de los casos 5 hombres de 20 5 mujeres de 10 N= | | . | \ | 3 20 + | | . | \ | 2 10 = 15 504+ 45= 15 549 comités 20. Una "mano de póker" consiste en 5 naipes sacados de una baraja ordinaria 52 naipes. ¿Cuántas manos diferentes pueden formarse a partir de la baraja completa? SOLUCION Se tiene n = 52 naipes para seleccionar una combinación r = 5, entonces ! 5 )! 5 52 ( ! 52 − == nCr = 2 598.960 manos La probabilidad de un evento se definió en párrafos anteriores como: ( ) ( ) S N E N E P . . ) ( = N. (E):= número de elementos independientes de E. N. (S) = número total de elementos independientes. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 42 Es de mencionar que la definición anterior está dada particularmente para conjuntos finitos y existen otras definiciones para conjuntos infinitos, por ejemplo par el caso de conjuntos representados mediante áreas, la probabilidad se puede definir como el cociente de el área que representa al evento E entre el área total que representa al espacio muestral. La probabilidad se puede interpretar como la medida de la ocurrencia de un evento que es parte de un evento E que es parte de un espacio muestral ó experimento aleatorio. EJEMPLOS 21. En una votación preliminar simulada para determinar la probabilidad de cierto candidato para la presidencia de los E.U.A., se encontró que 495 de 1000 votantes seleccionados aleatóriamente están a favor de dicho candidato. ¿Cuál es la probabilidad de que cualquiera de los votantes favorezca a este candidato? SOLUCION N (S)= 1000 y N (E)=495 entonces aplicando la definición directa de la probabilidad 495 . 0 1000 495 = = P 22. Supóngase que estadísticas recopiladas por la oficina meteorológica de Los Ángeles muestran que ha llovido durante el desfile de las Rosas en Pasadena 14 veces durante los últimos 80 años. a. ¿Cuál es la probabilidad de que llueva durante el desfile de las Rosas el próximo día de año nuevo? b. ¿Cuál es la probabilidad de que no llueva? SOLUCION Si E = { x | x es un año lluvioso el día del desfile de las Rosas}, entonces E c = { x | x es un año no lluvioso el día del desfile de las Rosas}, Como N (E)=14, entonces N (E c )= 80-14= 66 a) 40 7 80 14 ) ( ) ( ) ( = = = S N E N E P b) 40 33 80 66 ) ( ) ( ) ( = = = S N E N E P c c 23. Un club tiene 30 miembros: 25 hombres y 5 mujeres. Va a constituirse un comité de 5 miembros. ¿Cuál es la probabilidad de que las 5 mujeres se incluyan en el comité, si los miembros de éste se seleccionan aleatóriamente? SOLUCION El número total de comités con r = 5 miembros que se pueden formar con n = 30 miembros es N(S)= 30C5= 142 506 El número de comités con r =5 mujeres que se pueden formar con n = 5 mujeres es N(E)= 5C5= 1 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 43 Por lo tanto 142506 1 ) ( ) ( ) ( = = S N E N E P 24. Sea el espacio muestral S = {arrojan una moneda legal 8 veces} y sea el evento E = {Salen 5 águilas exactamente}. Determine la probabilidad P (E). SOLUCION El número de elementos que forman el espacio muestral es: Un esquema de un elemento del evento E es mostrado a continuación Para determinar el número total de elementos que forman el evento E se puede aplicar la ecuación 4, en la cual se considera que n = 8, r =8, l1=5 y l2=3. ! ! ) ( 2 1 l l r nP E N = 56 ! 3 ! 5 ! 8 = = Entonces ( ) ( ) 32 7 256 56 ) ( = = = S N E N E P 25. Una tienda de aparatos de sonido acaba de recibir un embarque de diez nuevos aparatos, siete de modelo X y tres de modelo Y. Si se venden aleatóriamente cuatro aparatos, ¿cuál es la probabilidad de que se vendan dos de cada modelo? SOLUCION Hay n x = 7 aparatos tipo X, n y = 3 aparatos tipo Y, se seleccionan r = 4 aparatos, n = n x + n y =7. Sea E el es evento de que se vendan dos de cada modelo ó equivalentemente dos aparatos del modelo X y dos aparatos del modelo Y, el evento puede representarse como: [X, X, Y, Y] Se deben de elegir r x = 2 aparatos tipo x de 7 existentes y r y = 2 aparatos tipo Y de 3 existentes, entonces, ( ) ( ) ! 2 ! 2 3 ! 3 ! 2 ! 2 7 ! 7 2 3 2 7 ) ( − − = | | . | \ | | | . | \ | = | | . | \ | | | . | \ | = y y x x r n r n E N = (21)(3 )= 63 y ( ) ! 4 ! 4 10 ! 10 4 10 ) ( − = | | . | \ | = | | . | \ | = r n S N = 210 N(S) = 2 2 2 2 2 2 2 2 = 2 8 = 256 A A A A A S S S APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 44 por lo tanto ( ) ( ) 10 3 210 63 ) ( = = = S N E N E P 26. Debe seleccionarse un comité de tres personas del consejo directivo de una compañía. El consejo consta de quince miembros, un tercio de los cuales son mujeres y dos tercios hombres. ¿Cuál es la probabilidad de que las tres personas del comité sean todas del mismo sexo? SOLUCION De acuerdo a los datos n =15 personas, n H = 10 hombres y n M = 5 mujeres, se debe selecciona un comité r = 3 personas Sean los conjuntos A = {comité de 3 mujeres} y B ={ comité de 3 hombres} entonces C ={ en comité de personas del mismo sexo}= {las tres personas sean mujeres o sean hombres } C = A ∪ B Puesto que A ∩ B =Φ se tiene que N(C) = N(A) + N(B) ( ) ( ) ! 3 ! 3 5 ! 5 ! 3 ! 3 10 ! 10 ) ( − + − = | | . | \ | + | | . | \ | = r n r n C N M H =120 + 10 =130 comités y ( ) ! 4 ! 3 10 ! 10 3 15 ) ( − = | | . | \ | = | | . | \ | = r n S N = 455 comités finalmente ( ) ( ) 7 2 455 130 ) ( = = = S N E N E P 27. Una "mano de póker consta de cinco naipes. ¿Cuál es la probabilidad de que los cinco naipes sean del mismo palo? SOLUCION En un problema previo se sabe que n = 52 cartas, r = 5 cartas y ( ) ! 5 ! 5 52 ! 52 5 52 ) ( − = | | . | \ | = | | . | \ | = r n S N = 2 598 960 manos El mazo de cartas es esta formado por 4 figuras diamantes♦, corazones♥, picas ♣ y tréboles♠ por lo que cada tipo de figuras está conformado por n P = 13 cartas. Sea el conjunto B = {5 cartas del mismo palo} y Ai = {5 cartas del mismo palo tipo i}, para i =1,2,3 y 4. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 45 Entonces resulta que B =A 1 ∪ A 2 ∪A 3 ∪A 4 , y además A 1 ∩ A 2 ∩A 3 ∩A 4 = Φ, por lo tanto se cumple que N(B ) = N(A 1 ) + N(A 2 ) + N(A 3 ) + N(A 4 ) Utilizando los datos se pede determinar el número de elementos para cada uno de los conjuntos Ai, i= 1,2,3 y 4 como las combinaciones de n P = 13 cartas tomadas de r = 5 cartas. ( ) ! 5 ! 5 13 ! 13 5 13 ) ( − = | | . | \ | = | | . | \ | = r n A N P i =1 287 por lo tanto ( ) 5148 1287 4 5 13 4 ) ( = = | | . | \ | = B N 16660 33 2598960 5148 ) ( = = B P 28. Se están formando grupos de cuatro letras empleando las letras A E I O U X Y. a. ¿Cuántos grupos pueden formarse si no deben repetirse las letras? b. ¿Cuántos grupos pueden formarse si cualquier letra puede repetirse tan veces como se desee? A E I O U X Y SOLUCION a) Este caso corresponde a una permutación puesto que todas las letras son diferentes con n =7, r =4, N = ( ) = − = ! 4 ! 4 7 ! 7 4 7 P 840 b) El caso corresponde a un caso de elección con reemplazo donde en cada elección se puede seleccionar cualquiera de las 7 letras para ocupar los 4 lugares, entonces N = (7) (7) (7) (7)= 7 4 = 2 401 29. Un vendedor de automóviles acaba de recibir un embarque de ocho automóvil nuevos, cinco de los cuales son compactos y tres modelos de lujo. Si se venden aleatóriamente cuatro automóviles, obténgase la probabilidad de que se hayan vendido dos de cada modelo SOLUCION n =8 automóviles 5 compactos, 3 de lujo, se venden r = 4 S={vender 4 modelos de 8 disponibles} E={2 de cada modelo}={ 2 modelos compactos y 2 modelos de lujo} 70 ! 4 ! 4 ! 8 4 8 ) ( = = | | . | \ | = S N Total de posibles ventas APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 46 ( ) ! 3 ! 1 ! 3 ! 2 ! 3 ! 5 2 3 2 5 ⋅ = | . | \ | | . | \ | = E N ( ) ( ) 128 . 0 7 3 70 30 ) ( = = = = S N E N A P 30. Si en una estación televisora se debe seleccionar cuatro de entre diez programas de media hora para emitirlos cada mañana de 8:30 a 10:30, ¿de cuántas formas posibles puede arreglarse la programación? SOLUCION De 8:30 a 10:30 solo se pueden acomodar r = 4 programas de media hora, de n = 10 disponibles, como en la programación hay orden, entonces el número de formas posibles de acomodar la programación es: N = ( ) = − = ! 4 ! 4 10 ! 10 4 10 P 5040 31. Supóngase que una compañía que fabrica relojes y una compañía que fabrica máquinas de escribir deben elegir para embarcar sus productos entre tren (T), camión (C) y avión (A). Ninguno de los fabricantes tiene preferencia en cuanto a la forma de envío, de manera que cada resultado es equiprobable. a. Muéstrese el espacio muestral en un plano bidimensional, señalando las selecciones del fabricante de relojes en el eje horizontal y las del fabricante de máquinas de escribir en el eje vertical. b. ¿Cuál es la probabilidad de que solamente uno de los fabricantes seleccione avión para el embarque de sus productos? SOLUCION (a) R= FABRICANTE DE RELOJES = { T, C, A} M= FABRICANTE DE MAQUINAS = { T, C, A} S = M x R ={ (x, y) | x ∈M y y ∈R |} = {(T, T), (T, C), (T, A), (C, T), (C, C), (C, A), (A, T), (A, C), (A, A),} (b) E = {solamente uno de los fabricantes seleccione avión} = { (T, A), (C, A), (A, T), (A, C)} 32. Un comprador de un automóvil nuevo puede elegir entre cinco estilos de carrocería, con o sin transmisión automática, con o sin aire acondicionado, con o sin asientos individuales y entre diez colores. ¿De cuántas formas puede realizar su elección el comprador? SOLUCION Aplicando directamente el principio fundamental del conteo N 1 =5 carrozas (carrocerías) N 2 =2 transmisión automática N 3 =2 aire acondicionado N 4 =2 asientos individuales N 5 =10 colores N = N 1 N 2 N 3 N 4 N 5 =(5).(2).(2).(2).(10)=400 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 47 33. ¿De cuántas formas puede elegirse un cuarteto (grupo de cuatro jugadores) de entre doce miembros de un club de golf? SOLUCION El problema corresponde directamente a el caso típico de combinaciones donde n =12 y r = 4, entonces 495 ! 4 )! 4 12 ( ! 12 4 12 = − = C 34. Si 20 estaciones de servicio constituyen una población, ¿cuál es la probabilidad de que se seleccione como muestra aleatoria una combinación de cuatro estaciones en particular? SOLUCION Para el problema n =20 y r = 4, entonces 4845 ) 24 ( 10 092278989 . 2 10 432902008 . 2 ! 4 )! 4 20 ( ! 20 3 18 4 20 = = − = x x C y por lo tanto la probabilidad de que se seleccione una estación de servicio es: S A A P x P # # ) ( 10 06 . 2 4845 1 4 = = = − AXIOMAS BÁSICOS DE LA PROBABILIDAD Aunque la definición dada anteriormente de la PROBABILIDAD permite calcularla a partir del conteo de los conjuntos, es necesario definir nuevas propiedades que permitan calcularla para los casos en que no sea posible aplicar dicha definición. Sean S el espacio muestral y E un evento cualquiera, entonces a) P (S)=1 evento seguro b) P (φ )=0 evento imposible c) 0 ≤ P (E) ≤ 1 Es importante resaltar la propiedad c) ya que señala que ningún evento puede de ninguna manera tener una probabilidad negativa ni nunca puede ser mayor que la unidad. Por lo tanto, si al resolver algún problema se obtiene una probabilidad que no cumpla la propiedad c) se pude afirmar que el problema está mal resuelto. REGLA DE LA ADICIÓN DE PROBABILIDAD PARA EVENTOS AJENOS (c) Si A∩B=Ф es decir A y B son conjuntos ajenos, entonces P(AUB)=P(A)+P(B) (2.6) (d) Si Ei∩Ej=Ф para i≠ j i, j =1,2,3,….,n, entonces P(E 1 U E 2 U…. U En)= P(E1)+P(E2)+…+P(En) (2.7) APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 48 (e) como S =A U A c y A∩Ac=Ф entonces P(S)=P(AU A c )=P(A) +P(A c ) Por otra parte P(S)=1 por lo tanto 1= P(A) +P(A c ) Despejando a P(A) P(A) = 1- P(A c ) (2.8) REGLA GENERAL DE LA ADICIÓN DE PROBABILIDAD. (f) Si A∩B ≠ Ф entonces P (AUB) =P(A)+P(B)-P(A∩B) (2.9) Nota: La regla (f) se reduce a la regla (c) en el caso de conjuntos ajenos. La regla es difícil de generalizar para un número grande de conjuntos. Por ejemplo, a continuación se muestra la regla de adición para el caso de tres conjuntos A, B, C cualquiera, no necesariamente ajenos P(AUBUC)= P(AU(BUC))=P(A)+P(BUC) - P(A∩(BUC) =P(A)+P(B)+P(C)-P(B∩C)-P((A∩B) U(A∩C)) =P(A)+P(B)+P(C)-P(B∩C)-(P(A∩B)-P(A∩C) +P(A∩B ∩A∩C)) =P(A)+P(B)+P(C) - P(A∩B) - P(A∩C)- P(B∩C) +P(A∩B ∩C)) P(AUBUC) = P(A)+P(B)+P(C) - P(A∩B) - P(A∩C)- P(B∩C) +P(A∩B ∩C)) (2.10) CALCULO DE PROBABILIDADES APLICANDO LAS REGLAS BÁSICAS. EJEMPLOS 35. En el experimento de arrojar tres monedas, se considera que los ocho posibles resultados son equiprobables. Si E 1 denota al evento de que ocurran dos soles y E 2 al evento de que ocurran tres soles, ¿cuál es la probabilidad de que ocurra ya sea E 1 ó E 2 ? Esto es, ¿cuál es P(E 1 U E 2 )? SOLUCION El espacio muestral del problema y cada uno de los eventos E 1 y E 2 son mostrados a continuación S ={ arrojar 3 monedas}={SSS, SSA, SAS, SAA, ASS, ASA, AAS, AAA} E 1 ={dos soles}=}={SSA, SAS, ASS} E 2 ={3 soles}=}={SSS } P(E1)=3/8, P(E2)=1/8, E 1 U E 2 = {dos soles ó tres soles}=}={SSA, SAS, ASS, SSS} E 1 ∩E 2 =Ф P(E 1 U E 2 )=P(E 1 ) +P (E 2 ) =3/8 + 1/8 = 4/8 =1/2 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 49 36. En el problema anterior, si A denota al evento de que ocurran dos o más soles y B denota al evento de que ocurran dos o menos soles, ¿cuál es la probabilidad de que ocurra ya sea A o B? Esto es ¿cuánto es, vale P(AUB)?. SOLUCION Del espacio muestral del problema anterior se tiene que A= {2 ó más soles} ={ASS, SAS, SSA, SSS} B= {2 ó menos soles} ={ASS, SAS, SSA, AAS, ASA, SAA, AAA} A∩B={ ASS, SAS, SSA } Debido a que los conjuntos no son ajenos, se debe aplicar la ecuación (8) P(AUB) = P(A)+P(B)-P(AUB) = 4/8+7/8-3/8=1 37. Supóngase que una bolsa contiene 10 esferas marcadas 1, 2, 3,. . ., 10. Sea E el evento de extraer una esfera marcada con un número par y F el evento de extraer una esfera marcada con un número 5 o mayor. ¿Son E y F mutuamente excluyentes? Obténgase P(E U F). SOLUCION El espacio muestral y cada uno de los eventos se describen a continuación S={extraer una esfera marcada del 1 al 10} = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} E={par}={2, 4, 6, 8, 10} F={5 ó mayor}={5, 6, 7, 8, 9, 10} Para que los eventos sena excluyente se debe tener que P(E∩F)=P(E) P(F) Como E∩F = {6, 8, 10} se tiene que P (E∩F)=3/10 Y puesto que P(E) P(F)=(5/10)(6/10)=3/10, entonces los conjuntos E y F son excluyentes. Entonces No son excluyentes Aplicando la regla general de la adición P(EUF)=P(E)+P(F)-P(E∩F)=5/10+6/10-3/10=8/10=4/3 38. Si se extrae aleatóriamente un naipe de una baraja ordinaria de 52 naipes bien barajados, (a)¿cuál es la probabilidad de extraer un trébol o un corazón o un diamante? (b)¿Cuál es la probabilidad de extraer un diamante o un as? SOLUCION Hay que recordar que la baraja está formada por 4 conjuntos de 13 cartas, y que cada uno de los conjuntos está corresponde a las figuras de tréboles, corazones, diamantes y picas. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 50 El conveniente definir los siguientes conjuntos: A={la carta elegida es un trébol} B={la carta elegida es un corazón} C={la carta elegida es un diamante} D={la carta elegida es una pica} E={la carta elegida es un as Los eventos A, B, C y D son mutuamente ajenos. Por lo tanto: (a) P(AUBUC)=P(A)+P(B)+P(C) =13/52 + 13/52+13/52 = ¾. (b) En este C∩E ={ as de diamantes}, o sea los eventos no son ajenos, por lo que: P(CUE) = P(C)+P(E)-P(C∩E)=13/52 + 4/52-1/52=4/13 39. Supóngase que el 80% de todos los estadounidenses que vacacionan en el lejano oriente visitan Tokio, 80% visitan Hong Kong y 70% visitan tanto Tokio como Hong Kong. ¿Cuál es la probabilidad de que un turista estadounidense vacacionando en el Lejano Oriente visite o Tokio o Hong Kong? ¿Cuál es la probabilidad de que el turista no visite ninguna de estas ciudades? SOLUCION Sean A= {visitan Tokio} P(A) =0.8 B= {visitan Hong Kong} P(B) =0.8 A∩B = {visitan Tokio y Hong Kong} P(A∩B) =0.7 La probabilidad de la unión se obtiene utilizando P(AUB)=P(A)+P(B)-P(A∩B) P(AUB)=0.8+0.8-0.7=0.9 P(AUB)=0.9 C=(AUB) c representa a el conjunto de los turistas que no visitan a Tokio ó Hong Kong La probabilidad P(C) puede ser calculada mediante P(C)=1-P(C) c P(C)=1-P(AUB) P(C)=1-0.9=0.10 40. Las probabilidades de que un vendedor de automóviles venda en una semana cero, uno, dos, tres, cuatro o cinco o más automóviles son 0.05, 0.10, 0.18, 0.25, 0.20 y 0.22, respectivamente. a. ¿Cuál es la probabilidad de que venda tres o más automóviles en una semana? b. ¿Cuál es la probabilidad de que venda tres o menos automóviles en una semana? SOLUCION Los datos para la probabilidad de venta en una semana son: Venda 0 1 2 3 4 5 Prob. 0.05 0.10 0.18 0.25 0.20 0.22 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 51 (a) Sean lo eventos E 1 = {venda 3 automóviles} 0.25 E 2 = {venda 4 automóviles} 0.20 E 3 = {venda 5 automóviles} 0.22 Los cuales cumplen E i ∩E j = Φ para i, j =1,2,3., entonces A = {venda 3 ó mas automóviles}= E 1 U E 2 U E 3, así se tiene que P (A)= P(E 1 U E 2 U E 3 )= P(E 1 ) +P(E 2 ) + P(E 3 )= 0.25+0.20+0.22 = 0.67 (b) Sean lo eventos F 1 = {no venda} 0.05 F 2 = {venda 1 auto} 0.10 F 3 = {venda 2 autos} 0.18 F 4 = {venda 3 autos} 0.25 Los cuales cumplen F i ∩F j = Φ para i, j =1,2,3, 4., entonces B = {venda 3 ó menos automóviles}= F 1 U F 2 U F 3 U F 4 así se tiene que P (B)= P(F 1 U F 2 U F 3 U F 4 )= P(F 1 ) +P(F 2 ) + P(F 3 )+ P(F 4 )+ = 0.05+0.10+0.18+0.25= 0.58 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 52 Unidad III Probabilidad condicional y variables aleatorias PROBABILIDAD CONDICIONAL Eventos independientes y dependientes Se dice que dos eventos A y B son EVENTOS INDEPENDIENTES si y solo si la ocurrencia de uno de ellos no afecta la ocurrencia del otro. Si A y B son EVENTOS INDEPENDIENTES entonces, la probabilidad de que ocurran tanto A como B es igual al producto de sus probabilidades respectivas, esto es: P(A∩B)=P(A).P(B) (3.1) En el caso de que la ocurrencia de un evento A afecte la ocurrencia del evento B entonces se tiene el caso de EVENTOS DEPENDIENTES ó de la PROBABILIDAD CONDICIONAL, la cual se denota por: P(B A) “ La probabilidad de B dado que ha ocurrido A” En general la probabilidad de la intersección de los eventos A∩B, cuando son dependientes se obtiene mediante la expresión: P(A∩B)= P(A)P(B A). (3.2) Despejando a P(B A). ( ) ( ) A P B A P A B P ∩ = ) | ( (3.3) EJEMPLOS 1. Determine si los eventos A = {sol en la primera tirada} B = {sol en la segunda tirada} son independientes en el experimento de arrojar una moneda dos veces. SOLUCION El espacio muestral del problema es S ={(S,S), (S,A), (A,S), (A,A)} Para la parte izquierda de la ecuación (10) E = {dos soles al arrojar una moneda dos veces} = A∩B = ={(S,S)} P(A∩B)=N(E)/N(S)= 1/4 Para la parte derecha de la ecuación (10) P{A}=1/2 P{B}= 1/2 P(A).P(B)=(1/2)(1/2)=1/4 Entonces se cumple que P(A∩B) = P(A).P(B), por lo que los eventos son independientes. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 53 2. Una caja contiene diez esferas. Cinco de ellas son blancas, tres rojas y dos negras. Se selecciona aleatóriamente una esfera .sin reemplazo. a. ¿Cuál es la probabilidad de extraer dos esferas blancas una después de otra? b. ¿Cuál es la probabilidad de extraer una esfera roja y después una negra? c. ¿Cuál es la probabilidad de extraer tres esferas rojas, una después de otra? d. ¿Cuál es la probabilidad de extraer una esfera negra, después un roja y finalmente un blanca? SOLUCION Los datos del problema son: total de esferas n =10 repartidas en 5 blancas, 3 rojas y 2 negras. El experimento se realiza sin reemplazo, por lo que los eventos son dependientes Definiendo los siguientes conjuntos B 1 = {Sacar bola blanca en la 1ª extracción} B 2 = {Sacar bola blanca en la 2ª extracción} B 3 = {Sacar bola blanca en la 3ª extracción} R 1 = {Sacar bola roja en la 1ª extracción} R 2 = {Sacar bola roja en la 2ª extracción} R 3 = {Sacar bola roja en la 3ª extracción} N 1 = {Sacar bola negra en la 1ª extracción} N 2 = {Sacar bola negra en la 2ª extracción} (a) P({2 blancas una después de la otra})= P(B 1 ∩ B 2 )= P(B 1 ) P(B 2 B 1 )= (5/10)(4/9) =2/9 (b) P({Una roja y una negra})= P(R 1 ∩ N 2 )= P(R 1 ) P(N 2 R 1 ) = (3/10)(2/9) =1/15 (c) P({Tres rojas después de otra}) = P(R 1 ).P(R 2 R 1 ).P(R 3 R 2 ∩R 1 )=(3/10)(2/9)(1/8)= 1/120 (d) P({ Negra, después roja, y finalmente blanca}) = P(R 1 ).P(R 2 R 1 ).P(R 3 R 2 ∩R1) = (3/10) (2/9)(5/8) = 1/24 3. El Sr. Huerta y su esposa tienen 55 y 50 años de edad, respectivamente. Si la probabilidad de que un hombre de 55 años de edad viva al menos otros 15 años es de 0.70, y la probabilidad de que una mujer de 50 años de edad viva al menos otros 15 años es de 0.85, ¿cuál es la probabilidad de que tanto el Sr. Huerta como su esposa continúen vivos dentro de 15 años? (Considérese que las longevidades del esposo y esposa son independientes.) SOLUCION Se definen los eventos: A={el señor viva más de 15 años }, entonces, P(A)=0.70 B={la señora viva más de 15 años }, entonces P(B)=0.85 Entonces C = A U B = {El señor y la señora vivan más 15 de años} Considerando los eventos independientes se tiene que P(A∩B)=P(A).P(B) = (0.70)(0.85)=0.595 P(C)= P(AUB)=P(A)+P(B)-P(A∩B) = 0.70+0.85 -0.595= 9.995 4. Se dispone de dos máquinas contra incendios para casos de emergencia. La probabilidad de que cualesquier de las dos máquinas esté lista cuando se necesite es de 90%. Se considera que la disponibilidad de una máquina es independiente de la otra. a. En el caso de una alarma por incendio, ¿cuál es la probabilidad de que ambas máquinas estén listas? b. ¿Cuáles la probabilidad de que ambas máquinas no estén listas? c. ¿Cuál es la probabilidad de que solamente una máquina esté lista? APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 54 SOLUCION Es conveniente definir los eventos A={la máquina 1 esté lista} P(A)=0.9 B={la máquina 2 esté lista } P(B)=0.9 Entonces, cada uno de los incisos se puede resolver como se indica a continuación a) P(A∩B)=P(A).P(B)=(0.9)(0.9==0.81 b) P(A c ∩B c )=P(A c ).P(B c )=(1-P(A)(1-P(B)=(0.1)(0.1)=0.01 c) El evento de que al menos una de las máquinas esté disponible es C = (A∩B c )U(A c ∩B) P(C) = P((A∩B c )U(A c ∩B))= P(A∩B c )+ P(A c ∩B)- P(A∩B) ∩(A c ∩B) =P(A).P(B c )+P(A c )P(B) = (0.9)(1-0.9)+(1-0.9)(0.9) = 0.09+0.09=0.18 5. A continuación se encuentra una tabla probabilística acerca del sexo y el estado civil de los empleados de una gran institución. a. ¿Son independientes el sexo y estado civil? ¿Por qué si o por qué no? b. Obténgase P(M I F), P(M I F’) y P(M). (La barra vertical "I " significa "dado que".) c. Obténgase P(F I M), P(F I M') y P(F). d .Obténgase P(M' I F’), P(M' I F), y P(M' ). e. Obténgase P(F’I M), P(F’I M' ), y P(F'). SOLUCION (a) Para contestar esta pregunta hay que aplicar la ecuación (12) para determinar la probabilidad condicional en cada una de las combinaciones señaladas en los incisos siguientes (b) P (M I F)=P(M∩F)/P(F)=0.42/0.70=0.6 P (M I F’)=P(M∩F’)/P(F’)=0.18/0.30=0.6 P (M)=0.6 Entonces P (M I F)= P (M I F’)= P (M) (c) P (F I M)=P(F∩M)/P(M)=0.42/0.60=0.7 P (F I M’)= P(F∩M’)/P(M’)=0.28/0.4=0.7 P (F)=0.7 Entonces P (F I M)= P(F I M’)= P(F) (d) P (M’ I F)=P(M’∩F)/P(F)=0.28/0.70=0.4 P(M’ I F’)= P(M’∩F’)/P(F’)=0.12/0.30=0.4 P(M’)=0.4 Entonces P (M’ I F) = P(M’ I F’) = P(M’)=0.4 (e) P (F’ I M)=P(F’∩M)/P(M)=0.18/0.60=0.3 P (F’ I M’) = P(F’∩M’)/P(M’)=0.12/0.4=0.3 P (F’)=0.3 Entonces P (F’ I M) = P (F’ I M) = P (F’)=0.3 Estado civil Mujeres F Hombres F’ Total Casados (M) 0.42 0.18 0.60 Solteros (M’) 0.28 0.12 0.40 Total 0.70 0.30 1.0 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 55 Como se observa de cada uno de los incisos anteriores, los eventos de sexo y estado civil son independientes uno del otro. 6. Se extraen naipes de una baraja ordinaria. Si los naipes que se han extraído no se reemplazan antes de extraer el siguiente, ¿cuál es la probabilidad de extraer a. Cuatro ases y después cualesquier de los otros naipes; b. Tres ases y después dos reyes; c. Cinco naipes del mismo palo? SOLUCION a) Un caso posible se muestra a continuación A A A A B Definiendo los eventos: A 1 ={As en la primera elección} A 2 ={As en la segunda elección } A 3 = {As en la tercera elección} A 4 ={As en la cuarta elección} B ={cualquiera en la quinta elección } Entonces: P(A 1 ∩A 2 ∩A 3 ∩A 4 ∩B)=P(A 1 ).P(A 2 I A 1 ).P(A 3 I A 1 ∩A 2 )P(A 4 I A 1 ∩A 2 ∩A 3 ).P(B I A 1 ∩A 2 ∩A 3 ∩A 4 ) =(4/52)(3/51)(2/50)(1/49)(48/48) = 1152/3118752000=1/270725 b) El caso es mostrado A A A K K Utilizando lo eventos anteriores y K 4 = {Rey en la cuarta elección} K 5 = {Rey en la quinta elección} P(A 1 ∩A 2 ∩A 3 ∩K 4 ∩ K 5 )=P(A 1 ).P(A 2 I A 1 ).P(A 3 I A 1 ∩A 2 )P(K 4 I A 1 ∩A 2 ∩A 3 ).P(K 5 I A 1 ∩A 2 ∩A 3 ∩K 4 ) =4/52(3/51)(2/50)(4/49)(3/48)=288/31879.220=1/10820900 c) Hay 4 palos y 13 figuras por palo, para cada uno de los palos, por ejemplo, corazones sean los eventos: C 1 ={Corazón en la primera elección} C 2 ={ Corazón en la segunda elección } C 3 = { Corazón en la tercera elección} C 4 ={ Corazón en la cuarta elección} C 5 ={ Corazón en la quinta elección } P(C 1 ∩C 2 ∩C 3 ∩C 4 ∩ C 5 )=P(C 1 ).P(C 2 I C 1 ).P(C 3 I C 1 ∩A 2 )P(C 4 I C 1 ∩C 2 ∩C 3 ).P(C 5 I C 1 ∩C 2 ∩C 3 ∩C 4 ) =(13/52)(12/51)(11/50)(10/49)(9/48)=15440/311873200=1/209.39 Finalmente multiplicando por 4 P({5 naipes del mismo palo}) = (4)(1/209.39) =4/209.39 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 56 7. Un cartón contiene 20 huevos, 5 de los cuales están descompuestos. Si se seleccionan aleatóriamente tres huevos sin reemplazo, ¿cuál es la probabilidad de que los tres estén descompuestos? SOLUCION De acuerdo a la información de n = 20 hay 5 descompuestos y hay que elegir 3 sin reemplazo, entonces, definiendo los eventos D i = {Huevo defectuoso en la elección i} para i =1, 2, 3. P({3 huevos descompuestos}) = P(D 1 ∩D 2 ∩D 3 )=P(D 1 )P(D 2 I D 1 )P(D 3 I D 1 ∩D 2 )=(5/20)(4/19)(3/18)=1/114 8. Supóngase que la política de cierta compañía de seguros es que sus vendedores realicen visitas de casa en casa. De acuerdo a la experiencia anterior, el 20 % de las visitas dan como resultado una venta (S), o P(S) = 0.20, y 80% de las visitas no (S') o P(S') = 0.80. De las familias que han adquirido pólizas de seguros el 30% viven en casas unifamiliares de dos pisos (T) o P( T | .S) = 0.30. Los restantes compradores (70%) viven en otros tipos de edificios (T’) o P(T’|,S) = 0.70. De aquellas familias que no adquirieron una póliza, el 60% vivían en casas unifamiliares de dos pisos o P(T| S') = 0.60 y el 40% vivían en otros tipos de casas o P(T' |S') = 0.40. a. ¿Cuál es la probabilidad de que la siguiente visita dé como resultado una venta si los posibles clientes viven en una casa unifamiliar de dos pisos? Es decir, ¿cuánto vale P(S|T)? b. ¿Cuál es la probabilidad de que la siguiente visita no dé como resultado una venta si la familia vive en cualquier otro tipo de edificio? Es decir, ¿cuánto vale P(S'| T’)? (Sugerencia: calcúlense las probabilidades conjuntas) SOLUCION La información se puede resumir como: P(S) = 0.20 P(T | S) = 0.30 P(T‘| S) = 0.70 P(S') = 0.80 P(T | S') = 0.60 P(T’| S') = 0.40 La cual puede ser utilizada para calcular las probabilidades conjuntas P(S∩T) = P(S) P(T | S)= (0.20)( 0.30) =0.06 P(S∩T’) = P(S) P(T’| S)= (0.20)( 0.70) =0.14 P(S’∩T) = P(S’) P(T | S’)= (0.80)( 0.60) =0.48 P(S’∩T’) = P(S’) P(T’| S’)= (0.80)( 0.40) =0.32 El resultado anterior puede ser representado gráficamente con un diagrama de árbol P(S)=0.2 P(S’)=0.8 P(T|S)=0.3 P(T’|S’)=0.4 P(T|S’)=0.6 P(T’|S)=0.7 P(S ∩T)=0.06 P(S ∩T’)=0.14 P(S’ ∩T)=0.48 P(S’ ∩T’)=0.32 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 57 Por otra parte T = (S∩T) U(S’∩T) T’ = (S∩T’) U(S’∩T’) Entonces P(T) = P(S∩T) + P(S’∩T) = 0.06+0.48=0.54 P(T’) = P(S∩T’) + P(S’∩T’) = 0.14 +0.32=0.46 Con la información anterior (a) ( ) ( ) 9 1 54 . 0 06 . 0 ) | ( = = ∩ = T P T S P T S P (b) ( ) ( ) 23 16 46 . 0 32 . 0 ' ' ' ) ' | ' ( = = ∩ = T P T S P T S P 9. En una encuesta aplicada a los estudiantes que se gradúan en el colegio de cierta comunidad, se determinó que el 40% de los estudiantes continuarán estudiando alguna especialización en otra universidad (T) y el 60% no lo harán (T'). Dadas estas dos categorías de estudiantes, la proporción de estudiantes que han obtenido calificaciones promedio de A, B y C o menos se muestran a continuación, Calificaciones promedio Estudiantes A B C o menos TOTAL T 0.10 0.30 0 60 1 T’ 0.05 0.40 0.55 1 a. Se selecciona aleatóriamente un estudiante y su calificación promedio es A. ¿Cuál es la probabilidad de que continúe estudiando? b. ¿Cuál es la probabilidad de que no continúe su educación si la calificación promedio es de B? SOLUCION Utilizando P(T)=0.4, P(T’)=0.6 y la tabla se puede calcular la probabilidad conjunta P(T∩A) = P(T) P(A | T)= (0.40)( 0.10) =0.04 P(T’∩A) = P(T’) P(T’| A)= (0.60)( 0.05) =0.03 P(T∩B) = P(T) P(A | T)= (0.40)( 0.30) =0.12 P(T’∩B) = P(T’) P(T’| A)= (0.60)( 0.40) =0.24 P(T∩C) = P(T) P(A | C)= (0.40)( 0.60) =0.24 P(T’∩C) = P(T’) P(T’| C)= (0.60)( 0.55) =0.33 Además P(A) = P(A∩T) + P(A∩T’) =0.04+0.03 =0.07 P(B) = P(B∩T) + P(B∩T’) =0.14 +0.24=0.38 Por lo tanto APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 58 (a) ( ) ( ) 7 4 07 . 0 04 . 0 ) | ( = = ∩ = A P A T P A T P (b) ( ) ( ) 19 12 38 . 0 24 . 0 ' ) | ' ( = = ∩ = B P B T P B T P Regla de Bayes o teorema de Bayes Algunos de los problemas resueltos en la sección anterior son problemas que pueden ser resueltos mediante el Teorema de Bayes, el cual se detalla a continuación. Sean los conjuntos A 1 , A 2 , A 3 ,…A n, conjuntos mutuamente excluyentes, esto es, A i ∩A j =Ф Y que además = = i n i l A U S Por lo tanto cualquier conjunto B puede ser representado por los A 1 , A 2 , A 3 ,…A n de la forma: ) ( ... ) ( ) ( ) ( 2 1 B A B A B A B A B n i n i l I U U I U U I U = = = Entonces P(B)= P(A 1 ∩B)+P(A 2 ∩B)+…+P(A n ∩B) Además como P(A i ∩B) = P(B).P(B | A i ), para i =1, 2,3,…, n Así se tiene que P(B) = = P(B).P(B | A 1 )+ P(B).P(B | A 2 )+……+P(A n ).P(B |A n ) Por otra parte adecuando la ecuación (12) al problema ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) n n i i i i i A B P A P A B P A P A B P A P A B P A P B P A B P B P B A P B A P | ) ( | ) ( | ) ( | ) ( ) | ( 2 2 1 1 + + + = ∩ = ∩ = K (3.4) La ecuación anterior establece un forma para invertir la probabilidad condicional, esto es se puede pasar de P(B | A 1 ) a P(A 1 | B). EJEMPLOS 10. Una gran caja contiene transistores fabricados en tres máquinas. La máquina A es el doble de rápida que la máquina B o C. La tasa de defectos para la máquina A es 0.02 para B es 0.04 y para C es 0. 02. Se selecciona al azar un transistor de la caja y resulta defectuoso. ¿Cuál es la probabilidad de que la haya producido la máquina C? APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 59 SOLUCION El uso de un diagrama de árbol es útil para representar los datos y calcular la probabilidad conjunta Utilizando la fórmula (3.4), tenemos que: ( ) ( ) ( ) ( ) C D P C P B D P B P A D P A P C D P C P D C P | ) ( | ) ( | ) ( | ) ( ) | ( + + = 20 . 0 5 1 ) 02 . 0 )( 25 . 0 ( ) 04 . 0 )( 25 . 0 ( ) 02 . 0 )( 50 . 0 ( ) 02 . 0 )( 25 . 0 ( ) | ( = = + + = D C P 11. Una vendedora realiza su trabajo haciendo visitas domiciliarias. Durante los años de experiencia ha acumulado los siguientes datos: de todas las visitas realizadas el 15% dieron como resultado lo que ella considera como grandes ventas (L), 30% ventas pequeñas (S) y 55% no fueron ventas (N). Además, de aquellos que hicieron grandes compras, el 75% viven en casas unifamiliares de dos pisos (T); de los que realizaron pequeñas compras, el 50% viven en casas de este tipo; entre quienes no realizaron compras el 30% viven en casas de este tipo. Si la siguiente casa que visita es una casa unifamiliar de dos pisos, ¿cuál es la probabilidad de que dé como resultado una gran venta? ¿Una venta pequeña? ¿Ninguna venta? SOLUCION Representando los resultados en un diagrama de árbol P(A)=0.50 P(C)=0.25 P(D|A)=0.02 P(D|C)=0.02 P(D|B)=0.04 P(A ∩D)=0.01 P(B ∩D)=0.01 P(C∩D)=0.005 P(B)=0.25 P(L)=0.15 P(N)=0.55 P(T|L)=0.75 P(T|N)=0.30 P(T|S)=0.50 P(L ∩T)=0.1125 P(S ∩T)=0.150 P(N∩T)=0.165 P(S)=0.30 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 60 Utilizando la fórmula (3.4) ( ) ( ) ( ) ( ) 19 5 4275 . 0 1125 . 0 165 . 0 150 . 0 1125 . 0 1125 . 0 | ) ( | ) ( | ) ( | ) ( ) | ( = = + + = + + = N T P N P S T P S P L T P L P L T P L P T L P ( ) ( ) ( ) ( ) 57 20 4275 . 0 150 . 0 165 . 0 150 . 0 1125 . 0 150 . 0 | ) ( | ) ( | ) ( | ) ( ) | ( = = + + = + + = N T P N P S T P S P L T P L P S T P S P T S P ( ) ( ) ( ) ( ) 57 22 4275 . 0 165 . 0 165 . 0 150 . 0 1125 . 0 165 . 0 | ) ( | ) ( | ) ( | ) ( ) | ( = = + + = + + = N T P N P S T P S P L T P L P N T P N P T N P 12. Como muchos saben la hepatitis se detecta comúnmente realizando pruebas sanguíneas. Supóngase que en un cierto grupo de personas, el 30% realmente tiene hepatitis (H) y el 97% no (H'). Supóngase además que si una persona tiene la enfermedad, el 95% de las pruebas sanguíneas la detectan (P), pero el 5% no la detectan (N). Para las personas que no tienen la enfermedad, el 6% de las pruebas muestran resultados positivos y el 94% muestran resultados negativos. Si la prueba sanguínea de una persona es negativa, ¿cuál es la probabilidad de que en realidad tenga la enfermedad? SOLUCION Representando los resultados en un diagrama de árbol Entonces ( ) ( ) ( ) 3 10 6451 . 1 9133 . 0 0015 . 0 9118 . 0 0015 . 0 0015 . 0 ' | ) ' ( | ) ( | ) ( ) | ( − × = = + = + = H N P H P H N P H P H N P H P N H P P(H)=0.03 P(H’)=0.97 P(P|H)=0.95 P(N’|H’)=0.94 P(P|H’)=0.06 P(N|H)=0.05 P(H ∩P)=0.0285 P(H ∩N)=0.0015 P(H’ ∩P)=0.0582 P(H’ ∩N)=0.9118 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 61 VARIABLES ALEATORIAS Una función es una asociación tal que a cada elemento X de un conjunto llamado dominio le asocia un único elemento Y de otro conjunto llamado rango. La variable X se les conoce como variable independiente y la variable Y como variable dependiente. La variable aleatoria es una función que asigna valores numéricos a los resultados de un experimento aleatorio. La variable aleatoria se denota normalmente con letras mayúsculas X, Y, Z,…, etc. TIPOS VARIABLES ALEATORIAS Una variable aleatoria que toma que toma un número finito o infinito contable de valores se denomina variable aleatoria discreta, mientras que la que toma un número infinito ó continuo de valores se llama variable aleatoria continua DISTRIBUCIONES DE PROBABILIDAD DE LAS VARIABLES DISCRETAS Y CONTINUAS Si X es una variable aleatoria discreta ó continua la cual tiene un conjunto de valores x 1 , x 2 , x 3 ,…., ordenados de forma creciente y además la probabilidad de la variable aleatoria tome cada uno de los valores x k es ) ( k x X P = , , 3 , 2 , 1 K = k Es posible entonces definir una función de probabilidad para la variable aleatoria discreta como: ) ( ) ( k k x X P x f = = , , 3 , 2 , 1 K = k (3.5) y para el caso continuo en una variable ) ( ) ( x X P x f = = | | b a x , ∈ (3.6) En general se dice que una función ) (x f es una distribución de probabilidad si satisface las siguientes propiedades Para el caso discreto (a) 1 ) ( 0 ≤ ≤ k x f para , , 3 , 2 , 1 K = k (b) 1 ) ( = ∑ k k x f para , , 3 , 2 , 1 K = k Para el caso continuo (a) 1 ) ( 0 ≤ ≤ x f para | | b a x , ∈ (b) 1 ) ( = ∫ dx x f b a para | | b a x , ∈ APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 62 La función de distribución acumulada para una variable aleatoria X se define como ( ) x X P x F ≤ = ) ( Lo cual se traduce para el caso discreto en ∑ ≤ = k j j x f x F ) ( ) ( Y para el caso continuo ( ) dx x f x F x a ∫ = ) ( Las ideas anteriores pueden generalizarse para el caso de más variables aleatorias, por ejemplo, para el caso de dos variables aleatorias X y Y, se define la función de probabilidad conjunta como ) , ( ) , ( y Y x X P y x f = = = (3.7) Donde la función ) , ( y x f satisface para el caso discreto (a) 1 ) , ( 0 ≤ ≤ k j y x f para , , 3 , 2 , 1 K = j y , , 3 , 2 , 1 K = k (b) 1 ) ( = ∑∑ j k k x f para , , 3 , 2 , 1 K = j y , , 3 , 2 , 1 K = k Para el caso continuo (a) 1 ) , ( 0 ≤ ≤ y x f para | | b a x , ∈ y | | d c y , ∈ (b) ∫ ∫ = d c b a dy dx y x f 1 ) , ( para | | b a x , ∈ y | | d c y , ∈ Se dice que dos variables aleatorias Y y Y discretas son variables aleatorias independientes si y solo si los eventos X=x y Y=y son independientes para todo x ,y. Para este caso se dice que la distribución conjunta de probabilidad satisface ) ( ) ( ) , ( y Y P x X P y Y x X P = = = = = o de igual forma ) ( ) ( ) , ( y f x f y x f = VALOR ESPERADO DE LA DISTRIBUCIÓN DE PROBABILIDAD Un concepto importante para las distribuciones de probabilidad es el valor esperado ó esperanza matemática la cual se define como: Para el caso discreto ∑ = = n i i i x x f X E 1 ) ( ) ( (3.8) APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 63 Y para el caso continuo ∫ = b a dx x f x X E ) ( ) ( (3.9) La esperanza matemática ) ( X E se pude considerar como el promedio de la distribución de probabilidad, la cual se denota por la letra griega u . Propiedades de la esperanza matemática (a) Si c es una constante, entonces ) ( ) ( X cE cX E = (b) Si X, Y son variables aleatorias, entonces ) ( ) ( ) ( Y E X E Y X E + = + (c) Si X, Y son dos variables aleatorias independiente, entonces ) ( ) ( ) ( Y E X E XY E = VARIANZA Y DESVIACIÓN TÍPICA DE UNA DISTRIBUCIÓN DE PROBABILIDAD Otra estadístico importante en la probabilidad y la estadística es la Varianza la cual se denota por 2 σ y se define para el caso de distribuciones de probabilidad como ( ) ( ) 2 ) ( u − = X E X Var (3.10) La varianza ( ) X Var se relaciona con la desviación típica de una variable aleatoria X σ mediante ( ) X Var X = 2 σ . Por lo que la varianza puede ser representada mediante cualquiera de las notaciones anteriores. Por su definición la varianza nunca puede tomar valores negativos, y su interpretación es idéntica a la que se dio para la distribuciones de frecuencia en la sección de la estadística descriptiva. Desarrollando la definición anterior y aplicando las propiedades de la esperanza matemática | | | | ( ) ( ) ( ) 1 2 2 ) ( 2 2 2 2 2 2 E X E X E X X E X E X u u u u u σ + − = + − = − = ( ) ( ) 2 2 2 2 2 2 u u u − = + − = X E X E esto es ( ) 2 2 2 u σ − = X E (3.11) Para una distribución discreta la varianza se calcula mediante ∑ = − = n k i k k X x f x 2 2 2 ) ( u σ (3.12) y para el continuo ( ) 2 2 2 u σ − = ∫ dx x f x b a X (3.13) APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 64 Propiedades de la Varianza (a) Si c es una constante, entonces ) ( ) ( X cVar cX Var = (b) La cantidad ( ) | | 2 a X E + es mínima cuando u = a (c) Si X, Y son dos variables aleatorias independiente, entonces ) ( ) ( ) ( Y Var X Var Y X Var + = ± ó Y Y Y X 2 2 2 σ σ σ + = ± EJEMPLOS 13. Se dice que un juego es “legal” si al jugar el juego el valor esperado de ganar ó perder es cero. Diga usted si el juego de los “volados” con una moneda balanceada es un juego “legal”. SOLUCION El juego consiste en lo siguiente: - Se tira la moneda, la persona pide sol y cae sol, gana 1 peso. - Se tira la moneda, la persona pide águila y cae águila, gana 1 peso. - Se tira la moneda, la persona pide sol y cae águila, pierde 1 peso. - Se tira la moneda, la persona pide águila y cae sol, pierde 1 peso. La variable aleatoria del experimento se puede definir como X = {-1, 1} Definiendo los eventos S 1 ={la persona pide sol}, S 2 =={cae sol} A 1 ={la persona pide águila}, A 2 =={cae águila} Entonces las respectivas probabilidades de cada valor de la variable aleatoria son: f(1)= P(X=1)=P(S 1 ∩S 2 )+P(A 1 ∩A 2 )=P(S 1 ).P(S 2 )+P(A 1 ).P(A 2 )=(1/2) (1/2) +(1/2) (1/2)= (1/2) f(-1)= P(X=-1)=P(S 1 ∩A 2 )+P(A 1 ∩S 2 )=P(S 1 ).P(A 2 )+P(A 1 ).P(S 2 )=(1/2) (1/2) +(1/2) (1/2)= (1/2) Los resultados generalmente se pueden acomodar para las variables discretas en una tabla De la tabla anterior se puede calcular la esperanza matemática del experimento ∑ = = n i i i x f x X E 1 ) ( ) ( = (-1) (1/2)+(1) (1/2)=-1/2+1/2=0 El resultado indica que el juego es legal. 14. Denótese mediante X al número de caras obtenidas en la tirada de dos monedas ¿Cuál es la media y la varianza de X? SOLUCION La tabla de la distribución de probabilidad se da a continuación x -1 1 f(x) ½ ½ APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 65 x 0 1 2 f(x) 1/4 1/2 1/4 Entonces = = = ∑ = n i i i x f x x E 1 ) ( ) ( u 0(1/4)+1(1/2+2(1/4)=1 = = ∑ = n i i i x f x x E 1 2 2 ) ( ) ( 0 2 (1/4)+1 2 (1/2)+2 2 (1/4)=1/2+1=3/2 | | 2 2 2 ) ( ) ( x E x E X − = σ =(3/2) 2 - 1 2 = 3/4 15. En un estudio acerca de las actitudes de los consumidores hacia cierto producto nuevo, se pregunta lo siguiente: "¿Le agrada el nuevo producto?" Para esta pregunta hay solamente dos posibles respuestas, "sí" y "no", a las cuales se les asignan los valores de 1 y 0, respectivamente. Sea p la probabilidad de que ocurra el evento de una respuesta "sí". (a) ¿Cuál es la distribución probabilística de W, variable aleatoria de este experimento?, (b) su Valor esperado y (c) su desviación típica. SOLUCION (a) De acuerdo a los datos del problema, la variable aleatoria W toma los valores W = {0, 1} y f(1)=P(X = 1) = p Como la distribución de probabilidad de la variable aleatoria W debe cumplir la propiedad 1 ) ( = ∑ k k x f , entonces f(0)+f(1) = 1 f(0)=1 - f(1)=1-p Entonces la tabal de distribución de probabilidad de W es (b) ∑ = = n i i i x f x X E 1 ) ( ) ( = (0) (1-p) + (1) (p)= p (c) ∑ = − = n k i k k X x f x 2 2 2 ) ( u σ = (0) 2 (1-p) + (1) 2 (p) – p 2 = p - p 2 =p (1-p) entonces ) 1 ( p p X − = σ 16. Sea X la variable aleatoria correspondiente al número de soles obtenidas en la tirada de cuatro monedas balanceadas. Obténgase la distribución probabilística de X. y su valor esperado. SOLUCION De la definición de la variable aleatoria se tiene que X = {0, 1, 2, 3, 4} W 0 1 f(W) 1-p p APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 66 En general para un evento cualquiera de arrojar una moneda balanceada n veces la probabilidad de cada evento simple es: n E P 2 1 ) ( = Por otra parte, si en el evento se lanzar n monedas y aparecen r soles, entonces aparecerán n-r águilas y el número de eventos simples que contienen r soles se determina utilizando las técnicas de conteo: )! ( ! ! r n r n − Entonces la probabilidad de que ocurran en n tiradas r soles es n r n r n soles r P 2 1 )! ( ! ! ) ( − = Aplicando el resultado anterior para cada uno de los valores de la variable aleaoria 16 1 2 1 )! 0 4 ( ! 0 ! 4 ) 0 ( ) 0 ( 4 = − = = = X P f 4 1 16 4 2 1 )! 1 4 ( ! 1 ! 4 ) 1 ( ) 1 ( 4 = = − = = = X P f 8 3 16 6 2 1 )! 2 4 ( ! 2 ! 4 ) 2 ( ) 2 ( 4 = = − = = = X P f 4 1 16 4 2 1 )! 3 4 ( ! 3 ! 4 ) 3 ( ) 3 ( 4 = = − = = = X P f 16 1 2 1 )! 4 4 ( ! 4 ! 4 ) 4 ( ) 4 ( 4 = − = = = X P f Acomodando los resultados en la tabla siguiente Utilizando la tabla anterior ∑ = = n i i i x f x X E 1 ) ( ) ( = (0) (1/16) + (1) (1/4) +(2) (3/8) + (3) (1/4)= (4) (1/16) = 2. 17. Sea X la variable aleatoria correspondiente al número de caras obtenidas en la tirada de cuatro monedas balanceadas. a. Obténgase la distribución probabilística de X. b. La media de la distribución. c. La desviación típica. SOLUCION (a) El espacio muestral del experimento es S = { (1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6) } x 0 1 2 3 4 f(x) 1/16 1/4 3/8 1/4 1/16 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 67 Entonces los valores posibles de la variable aleatoria son X = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} y sus respectivas probabilidades se pueden calcular directamente del espacio muestral 36 1 ) 2 ( ) 2 ( = = = X P f 18 1 36 2 ) 3 ( ) 3 ( = = = = X P f 12 1 36 3 ) 4 ( ) 4 ( = = = = X P f 9 1 36 4 ) 5 ( ) 5 ( = = = = X P f 36 5 ) 6 ( ) 6 ( = = = X P f 6 1 36 6 ) 7 ( ) 7 ( = = = = X P f 36 5 ) 6 ( ) 8 ( = = = X P f 9 1 36 4 ) 9 ( ) 9 ( = = = = X P f 12 1 36 3 ) 10 ( ) 10 ( = = = = X P f 18 1 36 2 ) 11 ( ) 11 ( = = = = X P f 36 1 ) 12 ( ) 12 ( = = = X P f Colocando los resultados en una tabla. x 2 3 4 5 6 7 8 9 10 11 12 f(x) 1/36 1/18 1/12 1/9 5/56 1/6 5/56 1/9 1/12 1/18 1/36 (b) ∑ = = n i i i x f x 1 ) ( u = (2) (1/36) + (3) (1/18)+ (4) (1/12) + (5) (1/9)+ (6) (5/36) + (7) (1/6)+ + (8) (5/36) + (9) (1/9)+ (10) (1/12) + (11) (1/18)+ (12) (1/36) = 7. (c) ∑ = − = n k i k k X x f x 2 2 2 ) ( u σ = (2) 2 (1/36) + (3) 2 (1/18)+ (4) 2 (1/12) + (5) 2 (1/9)+ (6) 2 (5/36) + (7) 2 (1/6)+ (8) 2 (5/36) + (9) 2 (1/9)+ (10) 2 (1/12) + (11) 2 (1/18)+ (12) 2 (1/36) -7 2 = .35/6 = 5.83333 entonces X σ =2.4152 18. Un juego llamado CHICOS Y GRANDES consiste primero en arrojar dos dados y se suman los puntos de sus caras. Los resultados de la suma son divididos en CHICOS si su valor es menor que siete, CASA si cae siete y GRANDES si valor es mayor que siete, tal como se muestra en la higiene figura 2, 3, 4, 5, 6 chicos 7 Casa 8, 9, 10, 11, 12 grande Las condiciones de juego son las siguientes: a. Si apuesta 1 peso a chicos y sale chicos, gana 1 peso. b. Si apuesta 1 peso a grandes y sale grandes, gana 1 peso. c. Si apuesta 1 peso a chicos y sale grandes ó casa, pierde 1 peso d. Si apuesta 1 peso a grandes y sale chico ó casa, pierde 1 peso e. Si apuesta 1 peso a la casa y sale casa gana 2 pesos. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 68 f. Si apuesta 1 peso a la casa y sale chicos ó grandes, pierde 1 peso. Diga usted si el juego es legal o no. SOLUCION La variable aleatoria adecuada al juego es X = {-1, 1, 2} La distribución de probabilidad para la suma de los puntos de las caras de un dado son y 2 3 4 5 6 7 8 9 10 11 12 f(y) 1/36 1/18 1/12 1/9 5/56 1/6 5/56 1/9 1/12 1/18 1/36 Definiendo los siguientes eventos C H = {CHICOS} C A = {CASA} y G = {GRANDES}, utilizando las condiciones de juego y tabla anterior f(-1)=P(x =-1)=P(C H ∩C H ’)+P(G∩G’)+P(C A ∩C A ’) =P(CH)P(CH’)+P(G)P(G’)+P(C)+P(C A )P(C H UG)= = (15/36)+(21/36)+(15/36)+(21/36)+(6/36)+(30/36)=35/144+35/144+5/36=5/8 f(1)=P(x = 1)=P(C H ∩C H )+P(G∩G)=P(C H )P(C H )+P(G)P(G)= = (15/36)(15/36)+(15/36)+(15/36)=25/72 f(2)=P(x = 2)=P(C A ∩C A )=P(C A )P(C A )=(6/36)(6/36)=1/36 Por lo tanto se tiene la tabla x -1 1 2 f(x) 5/8 25/72 1/36 Entonces = = ∑ = n i i i x f x 1 ) ( u -1(5/8)+1(25/72)+2(1/36)=-5/18+1/8=-2/9= -0.222 Como el resultado es negativo el juego no solamente no es legal sino que es desfavorable al jugador. 19. Un vendedor ofrece dos modelos distintos de receptores de estéreo, H y T. Considérese que los dos modelos son igualmente populares: el 50% de todos los posibles compradores prefieren el Modelo H y el 50% prefieren el Modelo T. Además, considérese que el vendedor tiene en existencia tres receptores de cada modelo y que en un solo día se venden tres receptores. a. Defínase la variable aleatoria de este experimento. b. ¿Cuál es la distribución probabilística de la variable aleatoria? SOLUCION En total hay n = 6 receptores, 3 modelo H y 3 modelo T y la venta o selección consiste en r =3 aparatos (a) La variable aleatoria X del experimento es el número de aparatos tipo H vendidos, entonces si la venta consiste solamente de 3 aparatos X puede tomar los siguientes valores: X = {0, 1, 2, 3}, (b) Las probabidades de la variable aleatoria X se determinan mediante las técnicas de conteo 20 1 ) 0 ( 3 6 3 3 = = C C f ( )( ) 20 9 20 3 3 ) 0 ( 3 6 1 3 2 3 = = = C C C f APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 69 ( )( ) 20 9 20 3 3 ) 2 ( 3 6 2 3 1 3 = = = C C C f 20 1 ) 3 ( 3 6 3 3 = = C C f La respectiva distribución de probabilidad se resume en la tabla siguiente x 0 1 2 3 f(x) 1/20 9/20 9/20 1/20 20. La inversión realizada por el Sr. Aranda podrían dar como resulta siguientes beneficios, con las probabilidades indicadas: Beneficio Probabilidad $1 millón 0.2 2 millones 0.3 3 millones 0.2 4 millones 0.2 5 millones 0.1 Total 1.0 Sea X el beneficio de su inversión. Obténganse la varianza y desviación típica de X. SOLUCION ∑ = = n i i i x f x 1 ) ( u = (1) (0.2) + (2) (0.3)+ (3) (0.2) + (4) (0.2)+ (5) (0.1) = 2.7 millones = = ∑ = n i i i x f X x E 1 2 2 ) ( ) ( 1 2 (0.2)+2 2 (0.3)+3 2 (0.4)+4 2 (0.2)+5 2 (0.1)=8.9 millones = − = 2 2 2 ) ( u σ x E x 8.9-2.7 2 = 1.61. 61 . 1 = x σ = 1.27 millones 21. Supóngase que un aparato de televisión tiene ocho bulbos, dos de los cuales dos son defectuosos. Se seleccionan sucesivamente dos bulbos y se quitan del aparato para inspeccionarlos. Sea X el número de bulbos defectuosos en la muestra de dos bulbos. ¿Cuál es el valor esperado de X y su respectiva desviación típica? SOLUCION El número total de bulbos es n = 8 tubos, 2 defectuosos 6 sin defecto. La muestra a considerar es r =2. La variable aleatoria es X = {No. de defectuosos en la muestra}={0, 1, 2} f(0) = P(X = 0)= 28 15 2 8 2 6 = C C APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 70 f(1)=P(X =1)= 28 12 ) ( 2 8 1 6 1 2 = C C C f(2) = P(X = 2)= 28 1 2 8 2 2 = = C C Entonces la tabla de la distribución de frecuencia es x 0 1 2 f(x) 15/28 12/28 1/28 por lo tanto ∑ = = ) ( ) ( i i x f x x E u =0(15/28)+1(12/28)+2(1/28)=1/2 ∑ = ) ( ) ( 2 2 i i x f x x E =0 2 (15/28)+1 2 (12/28)+2 2 (1/28)=4/7 = − = 2 2 2 ) ( u σ x E x 4/7- (1/2) 2 = 9/28 5666 . 0 28 3 28 / 9 = = = x σ 22. Un jugador arroja tres monedas ideales. Gana $3 si ocurren tres caras, $2~ ocurren dos caras y $1 si ocurre una cara. Si el juego es justo, ¿cuánto debería pagar si no aparece ninguna cara? SOLUCION La distribución de probabilidad del experimento de arrojar tres monedas legales es x 0 1 2 3 f(x) 1/8 3/8 3/8 1/8 La variable aleatoria del experimento es Y ={ y 1 , 1, 2, 3}, donde y 1 representa el valor que debe pagar el jugador si en el resultado de arrojar las monedas no sale ninguna cara y los demás valores representan la ganancia igual al número de caras que aparecen. La distribución de probabilidad de la variable aleatoria Y es la siguiente Ganancia y y 1 1 2 3 f(y) 1/8 3/8 3/8 1/8 Para que un juego sea legal se requiere que E(y)=0 , entonces (1/8)(y 1 )+1(3/8)+2(3/8)+3(1/8)=0 despejando y 1 =-12 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 71 23. Supóngase que se van a vender 10 000 boletos a $1 cada uno en una lotería realizada para ayudar en las investigaciones contra el cáncer. El premio es un automóvil con valor de $ 4000. Si usted compró cinco boletos, ¿cuál es su contribución esperada a la investigación en contra del cáncer? SOLUCION Debido a que solamente se compran 5 de los 1000 boletos la probabilidad de ganar es P(ganar)=5/10000 y la de perder P(perder)=9995/10000 El premio es 4000 pesos pero, se resta 5 porque se ha pagado por el boleto 4000-5=3995 y la perdida es 5. La variable aleatoria del experimento Y es la ganancia y/o pérdida, Y ={-5 3995 }, entonces la correspondiente distribución de probabilidad de Y es y -5 3995 f(y) 9995/10000 5/10000 El valor esperado de la variable aleatoria es E(Y)=3995(3/10000)+(-5)(9995/10000)=1.9975-4.9475 =-31 Distribución de la media muestral X Considérese una población compuesta por los siguientes elementos P = {1, 3, 5, 7}, los cuales tiene una distribución de probabilidad uniforme, esto es, todos los elementos tienen la misma probabilidad de ser seleccionados), lo anterior es mostrado en la siguiente tabla de distribución de probabilidad x 1 3 5 7 p(x) 1/4 1/4 1/4 1/4 Su respectiva media y su varianza son = = = ∑ ) ( ) ( i i X x f x X E u 1(1/4)+3(1/4)+5(1/4)+7(1/4)=16/4=4 ∑ = − | . | \ | + | . | \ | + | . | \ | + | . | \ | = − = − = 5 4 4 1 7 4 1 5 4 1 3 4 1 1 ) ( ) ( ) ( 2 2 2 2 2 2 2 2 2 2 X i i X x f x x E x E u σ Supóngase ahora que se realiza el experimento de seleccionar una muestra de dos números (X 1 , X 2 ) de la población anterior con reemplazo y además se define la variable aleatoria ( ) 2 2 1 X X X + = (el promedio de los valores resultantes). Se pueden obtener un número infinito de muestras, pero muchas APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 72 de la muestra obtenidas serán idénticas, es decir tendrán el mismo resultado, aplicando las técnicas de conteo se sabe que hay solamente Diferentes muestras. Explícitamente las muestras son: S = { (1,1), (1,3), (1,5), (1,7), (3,1), (3,3), (3,5), (3,7), (5,1), (5,3), (5,5), (5,7), (7,1), (7,3), (7,5), (7,7)} Aplicando la definición de la variable aleatoria X se obtienen siguientes valores X = {1, 2, 3, 4, 5, 6,7} Con los resultados anteriores es posible construir una distribución de probabilidad para la variable aleatoria X a partir de todas las muestras posibles del mismo tamaño de una población dada, lo anterior se denomina distribución muestral de la media. La distribución muestral de la media se puede obtener a partir de la siguiente tabla: muestra X 1 X 2 Total Promedio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 1 1 1 3 3 3 3 5 5 5 5 7 7 7 7 1 3 5 7 1 3 5 7 1 3 5 7 1 3 5 7 2 4 6 8 4 6 8 10 6 8 10 12 8 10 12 14 1 2 3 4 2 3 4 5 3 4 5 6 4 5 6 7 Las distribuciones probabilísticas de todos los diferentes valores de un estadístico muestral El valor esperado de la media muestral y su varianza son. = = = ∑ ) ( ) ( i i X x f x X E u 1(1/6)+2(2/16)+3(3/16)+4(4/16)+3( 5/16)+2(6/16)+7/16=4 2 2 2 ) ( ) ( X E X E X − = σ 4 4 =16 x ) (x f 1 2 3 4 5 6 7 1/36 2/36 3/36 4/36 3/36 2/36 1/36 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 73 2 5 4 16 1 7 16 2 6 16 3 5 16 4 4 16 3 3 16 2 2 16 1 1 ) ( ) ( ) ( 2 2 2 2 2 2 2 2 2 2 2 2 = − | . | \ | + | . | \ | + | . | \ | + | . | \ | + | . | \ | + | . | \ | + | . | \ | = − = − = ∑ X i X x f x X E X E u σ 0 1 2 3 4 5 6 7 8 0 0.05 0.1 0.15 0.2 0.25 promedio de las muestras p r o b a b i l i d a d distribucion muestral Distribución muestral de X con n = 2 muestras Como se puede apreciar en la gráfica anterior, la distribución muestral de la media X tiene una forma totalmente simétrica. Si el experimento se realiza con una población y muestras más grandes se observaría el mismo comportamiento, es más, en el caso límite de una población y muestras infinitas la distribución se transformaría en una distribución normal con media X u .y varianza 2 X σ , para más detalles de esta distribución ver la siguiente sección. Unas preguntas interesantes son ¿Cuál es la relación entre la media muestral X u y X u ?, y ¿Cuál es la relación entre la media muestral 2 X σ y 2 X σ ? De el problema anterior so observa que X u = X u y 2 2 2 X X σ σ = Aunque el problema anterior es un ejemplo de muchos posibles, las relaciones anteriores se cumplen en el todos los casos de muestreo con reemplazo, esto es, APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 74 X u = X u (27) n X X 2 2 σ σ = (28) Donde n = tamaño de la muestra EJEMPLOS 24. Supóngase que una variable aleatoria X tiene la siguiente distribución probabilística a. Obténgase la media varianza de la población de X . b. Sea X la media de una muestra aleatoria de dos observaciones tomadas con reemplazo a partir de esta población. Obténgase la distribución muestral de X y preséntese gráficamente. c. Obténgase la media y la varianza de X con base a la distribución muestral y verifíquese las ecuaciones (27)y (28). SOLUCION Los valores de la media y varianza de la población son a) = = = ∑ = n i i i X x f x x E 1 ) ( ) ( u 1(1/3)+2(1/3)+3(1/3) = 2 2 2 2 ) ( ) ( X E X E X − = σ 1 2 (1/3)+2 2 (1/3)+3 2 (1/3)-2 2 =1/3+4/3+9/3 =14/3-(2) 2 = 2/3 b) los valores posibles del promedio 2 2 1 x x x + = de dos observaciones (n=2) son X ={1 3/2, 2 5/2 3} Explícitamente las muestras son S = {(1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2), (3,3} Entonces 9 1 ) 1 ( ) 1 ( = = = X P f 9 2 ) 2 3 ( ) 2 3 ( = = = X P f 9 3 ) 2 ( ) 2 ( = = = X P f 9 2 ) 2 5 ( ) 2 5 ( = = = X P f 9 1 ) 3 ( ) 3 ( = = = X P f Por lo tanto la distribución de probabilidad para la media muestral X es x 1 3/2 2 5/2 3 ( ) x f 1/9 2/9 3/9 2/9 1/9 Su gráfica respectiva se muestra a continuación x 1 2 3 f(x) 1/3 1/3 1/3 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 75 0 0.5 1 1.5 2 2.5 3 3.5 4 0 0.05 0.1 0.15 0.2 0.25 0.3 promedio de las muestras p r o b a b i l i d a d distribucion muestral c) = = = ∑ = n i i i X x f x X E 1 ) ( ) ( u 1(1/9)+(3/2)(2/9)+2(3/9)+(5/2)(2/9)+3(1/9) = 2 2 2 2 ) ( ) ( X E X E X − = σ 1 2 (1/9)+(3/2) 2 (2/9)+2 2 (3/9)+(5/2) 2 (2/9)+3 2 (1/9) - 2 2 = 13/3-4=1/3 Comparando los resultados X u = X u = 2 y n X X 2 2 σ σ = = (2/3)/2=1/3 Lo cual verifica las ecuaciones (27) y (28) 25. Se sabe que la varianza de una variable aleatoria Y es 225. Si Y es la media de una muestra aleatoria de 36 observaciones para , obténgase el error típico de Y . SOLUCION Se sabe que 2 Y σ =225 y n=36 observaciones, entonces utilizando la ecuación 28 n Y Y 2 2 σ σ = ó 6 / 15 36 225 2 2 = = = = n n Y Y Y σ σ σ APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 76 26. Sea X la duración en millas de cierta marca de neumáticos para automóvil. Supónganse que la media y desviación típica de X son, respectivamente, 30 000 y 200 mi. Si se selecciona una muestra aleatoria de 16 neumáticos, ¿cuáles serán el valor esperado y error típico de la media muestral? SOLUCION Tenemos una variable X, tiene media X u =30,000 , desviación típica X σ =200 y el tamaño de la muestra es n =16 Entonces de las ecuaciones (27) y (28) X X u u = =30,000 mi = = = = 4 200 16 200 n X X σ σ 50 mi 26. Cierta población tiene una media de 36 y una desviación típica de 5. Se extrae de esta población una muestra de 1000 y se calcula la media de la muestra. a. Obténgase el valor esperado de la media muestral. b. Obténgase el error típico de la media muestral. SOLUCION Tenemos una variable X, tiene media X u =36, desviación típica X σ =5 y el tamaño de la muestra es n =1000 Entonces de las ecuaciones (27) y (28) X X u u = =36 = = = 1000 5 n X X σ σ 0.158 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 77 Unidad IV Distribuciones paramétricas DISTRIBUCIONES DISCRETAS DE PROBABILIDAD ENSAYO DE BERNOULLI Un Ensayo de Bernoulli: es un experimento con dos resultados posibles uno llamado ÉXITO y el otro FRACASO. La variable aleatoria es X es tal que X(EXITO)=1y. X(FRACASO)=0, por otra parte, la probabilidad P(X =1)=p y por lo tanto P(X=0 = q =1-p La distribución de probabilidad del ensayo de Bernoulli se representa en la siguiente tabla MEDIA Y VARIANZA DEL MODELO DE BERNOULLI A partir de la distribución de probabilidad se puede obtener su respectiva media y desviación típica ( )( ) ( )( ) p p q x f x i i = + = = ∑ 1 0 ) ( u entonces p = u ( ) ( ) ( ) ( ) p p q x f x X E i = + = = ∑ 2 2 2 2 1 0 ) ( ) ( ( ) pq p p p p X E = − = − = − = 1 ) ( 2 2 2 2 u σ por lo tanto pq = σ DISTRIBUCION BINOMIAL El experimento binomial consiste en n ensayos independientes de Bernoulli. Para cada ensayo la probabilidad de éxitos P(E)=p y por lo tanto de fracaso es P(F)=q = 1-p. La variable aleatoria del experimento es X = {el número de éxitos en n ensayos} Para el cálculo de la probabilidad e un caso general de el experimento binomial obsérvese el caso mostrado en la figura siguiente, donde se muestran k EXITOS y por lo tanto n – k FRACASOS. k n-k n x 0 1 f(x) q p E E E E …….. E F F F F F APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 78 Se muestra solamente un resultado posible de el total de eventos que tienen k éxitos, En número de eventos que contienen k éxitos se puede determinar utilizando las técnicas de conteo, esto es ( ) ! ! ! ) ( k k n n EXITOS k N − = La probabilidad del evento individual mostrado se obtiene aplicando la condición de que cada ensayo de Bernoulli es independiente y por lo tanto su probabilidad es el producto de las probabilidades individuales ) ..... ..... ( F F F F E E E E P ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) F P F P F P F P E P E P E P E P ..... ..... = ( ) ( )( ) ( ) ( ) ( )( ) ( ) k n k q p q q q q p p p p − = = ..... ..... Así pues la probabilidad de obtener X =k éxitos en n ensayos es k n k q p k n k n k X P − − = = )! ( ! ! ) ( Escribiendo el resultado anterior de otra forma k n k q p k n k f − | | . | \ | = ) ( . (4.1) Por otra parte es conocido que el BINOMIO DE NEWTON tiene la forma: k n n k k n b a k n b a − = ∑ | | . | \ | = + 0 ) ( de donde se observa inmediatamente que si se realiza el cambio de variable p a = y q b = se tiene que el término dado en la sumatoria es igual al obtenido en la ecuación (29), de ahí el nombre de la distribución binomial. Por otra parte se puede verificar inmediatamente que (4.1) cumple con la propiedad k n n k k n q p k n q p − = ∑ | | . | \ | = + 0 ) ( k n n k k n q p k n − = ∑ | | . | \ | = 0 1 1 0 = | | . | \ | − = ∑ k n n k k q p k n APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 79 MEDIA Y VARIANZA DE LA DISTRIBUCIÓN BINOMIAL No es fácil determinar la media y desviación típica de la distribución binomial directamente, pero se puede n obtener aplicando las propiedades del valor esperado y la varianza para la suma de eventos independientes. La variable aleatoria se puede representar mediante la sumas de las variables aleatorias individuales de cada uno de los ensayos de Bernoulli X = X 1 + X 2 + X 3 + …+ X n Entonces para la media u ) ( ) ( ) ( ) ( 2 1 2 1 n n X E X E X E X X X E + + + = + + + = K K u np p p p = + + + = K Por lo que np = u (4.2) Y para la desviación típica ) ( ) ( ) ( ) ( 2 1 2 1 n n X Var X Var X Var X X X Var + + + = + + + K K q p n q p q p q p = + + + = K Entonces q p n = σ (4.3) Los coeficientes binomiales dados por la ecuación (4.1) se pueden calcular mediante el uso de una calculadora o recurrir a las tablas donde se encuentran previamente evaluados. Para el caso particular de n = 10 y p =0.5 se tienen la siguiente distribución de probabilidad x 0 1 2 3 4 5 6 7 8 9 10 f(x) 0.00098 0.00977 0.04395 0.11719 0.20508 0.24609 0.20508 0.11719 0.04395 0.00977 0.00098 El histograma correspondiente muestra una distribución simétrica Distribución binomial para n = 10 y p = 0.5 0 2 4 6 8 10 0 0.05 0.1 0.15 0.2 0.25 P r o b a b i l i d a d Distribución de probabilidad binomial para p=0.5 n=10 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 80 Para n = 10 y p = 0.2 se obtiene la siguiente distribución de probabilidad x 0 1 2 3 4 5 6 7 8 9 10 f(x) 0.10737 0.26843 0.30198 0.20133 0.0880 0.02642 0.00550 0.00079 0.00007 0.0000 0.0000 Distribución binomial para n = 10 y p = 0.2 APLICACIONES DE LA DISTRIBUCIÓN BINOMIAL EJEMPLOS 1. Obténganse los valores de las siguientes expresiones. a. C 3 1 (0.4) 1 (0.6) 2 b. C 4 2 (0.7) 2 (0.3) 2 SOLUCION a) )! 1 3 ( ! 1 ! 3 ) 6 . 0 ( ) 4 . 0 ( 2 1 3 1 − = C = (0.4) 1 (0.6) 2 =0.2492 b) )! 2 5 ( ! 2 ! 5 ) 4 . 0 ( ) 6 . 0 ( 3 2 5 2 − = C = (0.6) 2 (0.4) 2 =0.2304 2. Obténganse los valores de las siguientes expresiones. a. ( ) ( ) x x x x C − = ∑ 3 1 0 3 5 . 0 5 . 0 b. ( ) ( ) x x x x C − = ∑ 5 2 0 5 5 . 0 5 . 0 c. ( ) 5 . 0 5 | 2 = = ≤ p y n X P SOLUCION 0 2 4 6 8 10 0 0.05 0.1 0.15 0.2 0.25 0.3 P r o b a b i l i d a d Distribución de probabilidad binomial para p=0.2 n=10 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 81 3 2 5 2 4 5 1 5 0 5 0 2 0 5 5 ) 5 . 0 ( ) 5 . 0 ( ) 5 . 0 )( 5 . 0 ( ) 5 . 0 ( ) 5 . 0 ( ) 5 . 0 ( ) 5 . 0 ( ) C C C C b x x x x + = ∑ = − = 0.03125 + 0.15625 + 0.3125 = 0.5000 0 500 . 0 ) 5 . 0 ( ) 5 . 0 ( )) 5 . 0 ( 5 , 2 ( ) 2 0 5 5 ∑ = − = = = = ≤ x x x x C P y n X P c 3. Supóngase que en una prueba se incluyen diez preguntas de opción múltiple, con cinco respuestas para cada pregunta, de las cuales una es correcta. Si una estudiante responde las preguntas simplemente adivinando, ¿cuál es la probabilidad de que a. conteste correctamente cinco preguntas; b. conteste correctamente tres o menos preguntas; c. conteste correctamente cinco o más preguntas? SOLUCION Puesto que son diez preguntas n = 10 y debido a que se contesta al azar y cada pregunta contiene cinco posibles respuestas de las cuales solo una es correcta la probabilidad de ÉXITO es p =1/5 = 0.2 y por lo tanto la de FRACASO q =1-1/5=4/5 = 0.8 Para obtener la evaluación de cada una de las precuentas se puede recurrir a las tablas correspondientes de la distribución binomial a) P(X = 5, n = 10, p = 0.2)= 10 5 C (0.2) 5 (0.8) 5 =0.02642 b) P(X ≤3, n = 10, p = 0.2= = ∑ = − 3 0 10 ) 2 . 0 ( ) 2 . 0 ( x x n x x C 0.87913 c) P(5 ≤ X, n = 10, p = 0.2)=1-p(X<5, n = 10, p = 0.2)=1- = ∑ = − 4 0 10 5 ) 8 . 0 ( ) 2 . 0 ( x x x x C =1-0.96721=0.03279 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 82 4. Supóngase que diez aparatos de radar están operando independientemente uno del otro, y que la probabilidad de que uno solo de los aparatos detecte un cohete enemigo es de 0.80. ¿Cuál es la probabilidad de que nueve aparatos de radar detecten el cohete? SOLUCION De los datos proporcionados por el problema n =10 y l probabilidad de ÉXITO es p = 0.8 y la de FRACASO q =1-p =1 - 0.80= 0.20 La pregunta se refiere a que nueve de los aparatos exactamente tengan éxito en detectar el cohete enemigo esto es k = 9, entonces P(k = 9, n = 10, p = 0.8)= 10 9 C (0.8) 9 ((0.20) 1 =0.26844 5. Si se sabe que el 90% de los estudiantes que tornan un curso elemental de economía aprueban, ¿cuál es la probabilidad de que al menos 3 estudiantes en una clase de 15 no aprueben el curso? SOLUCION Para este problema n = 15 la probabilidad de éxito es p = 0.9 y de fracaso q = 1 –p = 1-0.9= 0.1 La pregunta se puede traducir al lenguaje simbólico como P (3 ≤ k, n = 15, p = 0.8) = ∑ = − 15 3 15 ) 2 . 0 ( ) 9 . 0 ( k k n k x C Puesto que las tablas de distribución binomial acumulada dan la sumatoria empiezan en cero, se puede transformar la expresión anterior al complemento APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 83 P (3 ≤ k, n = 15, p = 0.8) = I - P (0 ≤ k< 3, n = 15, p = 0.8) = 1- ∑ = − 2 0 15 ) 2 . 0 ( ) 9 . 0 ( k k n k x C =1-0.81594=0.18406 6. De la clase del último semestre, 60% son muchachas. ¿Cuál es la probabilidad de que en un grupo de 10 estudiantes seleccionados aleatóriamente de esta clase haya a. cinco muchachas; b. al menos 5 muchachas; c. cuando más 5 muchachas; d. entre 4 y 6 muchachas, inclusive? SOLUCION La clase corresponde a n =10 estudiantes con probabilidad de ser muchachas p = 0.6 y la de muchachos q =1-p =1 - 0.60= 0.40 Traduciendo correctamente cada una de las preguntas al lenguaje matemático a) P(X = 5,n = 15, p = 0.4)=0.20066 b) P(5≤X, n = 15, p = 0.4) = 1-P(X≤4, n = 15, p = 0.4)=1-0.16624=0.83376 c) P(X≤5, n = 15, p = 0.4)=0.36640 d) P(4 ≤ X≤ 6, n = 15, p = 0.4)= P(X≤6, n = 15, p = 0.4)-P(X≤3, ,n = 15, p = 0.4) =0.61772-0.05476 = 0.56296 Figura. La figura muestra la interpretación gráfica del inciso d) APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 84 7. Supóngase que la probabilidad de que al tirar un dado quede hacia arriba un número non de puntos es 0.4: ¿Cuál es la probabilidad de que en cinco tiradas del dado el número de veces que aparezca un número non de puntos sea a. menos de dos; b. más de dos; c. entre dos y cuatro, inclusive? SOLUCION El número de tiradas es n = 5 y la probabilidad de que quede un número non es p =0.4, entonces la probabilidad de que quede un número par es q =1 –p =1 .0.4 =0.6 a) p(X <2, n = 5, p = 0.4)= p(X ≤2, n = 5, p = 0.4)= 0.33696 b) p(X >2, n = 5, p = 0.4)=1- p(X ≤2, n = 5, p = 0.4) =1-0.68256=0.31744 c) p(2 ≤ X ≤4, n = 5, p = 0.4) = p(0 ≤ X ≤4, n = 5, p = 0.4) - p(X ≤1, n = 5, p = 0.4) = 0.98976-0.33696=0.6528 Figura. La figura muestra la interpretación gráfica del inciso c) 8. Considérese que el 50% de todos los empleados de una gran compañía están casados. Sea X el número de empleados casados en una muestra aleatoria de empleados. Obténganse la media y desviación típica de X. SOLUCION La probabilidad de estar casado es p = 0.5 y el número de empleados es n=100 Aplicando directamente las ecuaciones (30) y (31) u =np =100(0.5)=50 σ 2 = npq = 100(0.5)(1-0.5)=25 σ= 25 =5 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 85 9. De acuerdo con los registros de producción de cierta compañía, el 10% de tornillos producidos por cierta máquina son defectuosos. Obténganse la media y la desviación típica para X si ésta es el número de tornillos defectuosos en cualquier muestra aleatoria de tamaño 100. SOLUCION Como la variable aleatoria es el número de tornillos defectuosos en la muestra n = 100, la probabilidad “éxito” en este caso es p = 0.1 Aplicando directamente las ecuaciones (30) y (31) u =np =100(0.1)=10 σ 2 = npq = 100(0.1)(1-0.1)=9 σ= 9 =3 DISTRIBUCIÓN CONTINÚA DE PROBABILIDAD DISTRIBUCIÓN NORMAL Es una distribución continua descrita por la siguiente función de probabilidad 2 2 1 2 1 ) ( | . | \ | − − = = σ u π σ x e x X p • Se aplica a MEDICIONES de cantidades físicas continuas como longitud, masa, tiempo, voltaje corriente, energía, temperatura, etc. • Es la aproximación de TEOREMA DE LIMITE CENTRAL • Es una aproximación de la distribución binomial para n≥35 y p≅0.5 La distribución Normal depende de dos parámetros el valor esperado o media u y la desviación típica σ , Por lo que para cada uno de los valores de estos parámetros se tiene una gráfica diferente, pero todas estas 2 2 1 2 1 ) , ( | . | \ | − − = σ u π σ σ u x e N (4.4) La variación del parámetro u ocasiona un desplazamiento de la gráfica a la izquierda para valores negativos y a la derecha para valores positivos. La Figura siguiente muestra el efecto descrito para las graficas de la distribución normal con desviación típica 1 = σ , y tres diferentes medias 2 − = u 0 = u y 2 = u . APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 86 -6 -4 -2 0 2 4 6 8 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 Figura. Efecto de desplazamiento para 1 = σ 2 − = u , 0 = u y 2 = u Por otra parte la variación del parámetro σ hace que la altura y la anchura de la distribución de probabilidad cambien, esto es, si σ es grande la distribución será más ancha (más dispersa) y su altura disminuirá, pero si σ es pequeña su anchura disminuirá (más concentrada) y su altura será más grande. La siguiente figura muestra el efecto de modificar la desviación típica para una media dada 0 = u , y tres diferentes desviaciones 1 = σ , 4 = σ y 2 1 = σ . -20 -15 -10 -5 0 5 10 15 20 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Figura. Efecto de estiramiento o estrechamiento para 0 = u , 1 = σ , 4 = σ y 2 1 = u APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 87 La probabilidad de que la variable aleatoria X tome un conjunto de valores en un intervalo ( ) b a, se obtiene a partir de la siguiente integral ∫ | . | \ | − − = < < b a x dy e b X a p 2 2 1 2 1 ) ( σ u π σ (4.5) La figura siguiente muestra la gráfica del área bajo la distribución normal en un intervalo ( ) b a, -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Figura. Área bajo la curva normal en un intervalo ( ) b a, Resulta que la integral anterior no es tiene primitiva, esto es, no existe una función cuya derivada de cómo resultado la función de distribución normal dada por la ecuación (32). Por lo que la integral anterior se obtiene mediante integración numérica ó series. El problema anterior de determinar la probabilidad en un intervalo conduce a la elección de una distribución normal representativa la cual es conocida como distribución normal estándar. Distribución normal estándar La distribución normal estándar es aquella en la cual se tiene que 0 = u , 1 = σ , por lo que la ecuación (4.4) y (4.5) se transforman en N(0,1)= 2 2 1 2 1 x e − π (4.6) ∫ ∫ − = b a b a x dx e dx N 2 2 1 2 1 ) 1 , 0 ( π (4.7) Cualquier distribución normal con media u y desviación típica σ puede ser relacionada con la distribución normal mediante el cambio de variable APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 88 σ u − = x Z (4.8) La variable Z es conocida con variable tipificada El área bajo la curva normal estándar se puede consultan en tablas respetivas para los valores más comúnmente utilizados. Las tablas disponibles en general solo abarcan un rango para la variable tipificada de -3.4≤ Z ≤3.4, esto es debido a que la probabilidad de valores de Z mayores que 3.4 y menores que 3.4 tienen una probabilidad muy baja, y la probabilidad el área o bajo la curva normal estándar es prácticamente 1. -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 El área bajo la distribución normal estándar en el intervalo -3.4≤ Z ≤3.4 es prácticamente 1. APLICACIONES DE LA DISTRIBUCIÓN BINOMIAL EJEMPLOS 10. Obténganse las siguientes probabilidades. a. P(Z < 2.0) b. P(Z < 1.45) c. P(Z> -1.76) d. P(Z > -1.65) e. P(1.0<Z< 1.89) f. P(-1.4<Z< 1.75) g. P(-2.15 < Z < -0.55) SOLUCION Lo valores de los incisos a) y b) se obtiene directamente de la tabla del área bajo la curva de la distribución normal. a) p(Z<2.00)=0.9772 b) p(Z<1.45)=0.9265 Para los incisos c) y d) se procede como se indica a continuación. El área para valores de Z mayores que un número negativo es equivalente al área por debajo del valor absoluto de Z, en la cual se utiliza la simetría de la distribución normal. Lo anterior es mostrado en la figura siguiente. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 89 c) p(Z>-1.76) = p(Z<1.76)=0.9608 d) p(Z>-1.65) = p(Z<1.65)=0.9505 En el inciso e) la probabilidad solicitada es igual al área entre los valores Z1=1.00 y Z2=1.89, que de acuerdo a la figura y a la tabla se puede obtener mediante la diferencia de áreas e) p(1.0< Z <1.89)=p(z<1.89)- p(Z<1)= 0.9706-0.8413 = 0.1293 f) El área buscada es mostrada en la figura siguiente: Se puede descomponer en la suma de dos áreas, el área comprendida de-1.40 a 0 mas el área de 0 a 1.75. Para calcular la primera área se utiliza la simetría de la distribución normal esto es -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Z=-1.76 -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Z=1.76 -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 90 P(-1.40<Z≤0) = P(0≤ Z <1.40)= P(Z <1.40)-0.50 Para la segunda área se procede de manera semejante P(0≤ Z <1.75)= P(Z <1.75)-0.50 Entonces sumando las áreas P(-1.40 <Z< 1.75) = P(Z <1.40)-0.50 + P(Z <1.75)-0.50 = P(Z <1.40)+ P(Z <1.75) – 1 = 0.9192 + 0.9599 – 1.0000= 0.8792 g) Utilizando la simetría de la normal el problema es equivalente a P(-2.15 < Z < -0.55) = P(0.55< Z <2.15) = P(Z <2.15) - P(Z < 0.55) = 0.9842 - 0.7088 = 0.2754 11. Obténgase el valor de Z para cada una de las siguientes áreas bajo la curva normal estándar. a) A la izquierda de Z el área es 0.9949 b) A la izquierda de Z el área es de 0.9951 c) A la derecha de Z el área es de 0.005. d) A la izquierda de Z el área es de 0.9412. e) A la izquierda de Z el área es de 0.0582. f) A la derecha de Z el área es de 0.2810. g) A la derecha de z el área es de 0.0228. SOLUCION a) Se busca en la tabla el valor del área respectiva a = 0.9949 que corresponde a Z = 2.57. b) procediendo de igual que el inciso anterior para a = 0.9951 Z = 2.58. c) Se requiere el valor de área a la izquierda, por complemento este valor es a = 1-0.005=0.9950 En la tabla no existen el valor exacto de Z que conduzca al área = 0.9950, los valores más aproximados de Z son Z 1 = 2.57 que conduce a a 1 = 0.9949 y Z 2 = 2.58 que a 2 = 0.9951, entonces el valor de Z buscado se encuentra entre estos dos valores de Z ya que el área solicitada se encuentra entre las dos áreas a = 0.9950. -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 91 Como los valores son muy cercanos se puede aproximar el resultado pensando que la relación es lineal, esto es ) ( 1 1 2 1 2 1 x x x x y y y y − − − = − donde x 1 =a 1 = área 1 correspondiente a y 1 = Z 1 y x 2 = a 2 = área 2 correspondiente a y 2 = Z 2 , entonces ( ) 1 1 2 1 2 1 a a a a Z Z Z Z − | | . | \ | − − = − Despejando a y y sustituyendo a x =a ( ) ( ) 57 . 2 9949 . 0 9950 . 0 9949 . 0 9951 . 0 57 . 2 58 . 2 1 1 1 2 1 2 + − | . | \ | − − = + − | | . | \ | − − = Z a a a a Z Z Z = 2.575 d) Buscando en la tabla los valores más cercanos a el área a = 0.9412 son Z 1 = 1.56 con a 1 = 0.9406 y Z 2 = 1.57 con a 2 = 0.9418. Utilizando el resultado anterior ( ) ( ) 56 . 1 9406 . 0 9412 . 0 9406 . 0 9418 . 0 56 . 1 57 . 1 1 1 1 2 1 2 + − | . | \ | − − = + − | | . | \ | − − = Z a a a a Z Z Z = 1.565 e) Los valores de áreas menores que 0.5 en la tabla corresponden a valores negativos de Z, el problema se pude cambiar por el valor positivo pero para el área =1- 0.0582 =0.9418 que buscando en la tabla corresponde a Z = 1.57, por lo tanto el resultado es Z = -1.57. f) Aplicando el complemento a = 1-0.2810 = 0.7190, buscando en las tablas el valor correspondiente es Z = 0.58 g) Aplicando el complemento a = 1-0.0228= 0.9772, buscando en las tablas el valor correspondiente es Z = 2.00 12. Una variable aleatoria (X) se distribuye normalmente, con una media de 100 y una desviación típica de 15. Obténgase la probabilidad de que a. X sea menor de 80.5; b. X sea mayor de 116.5; c. X sea menor de 112; d. X esté entre 91 y 109; e. X esté entre 85 y 97. SOLUCION Para el problema µ = 100 y σ =15 a) p(X<80.5) = | . | \ | − < 15 100 5 . 80 Z P =P(Z< -1.30) = 1- P(Z<1.30) = 1- 0.9032 = 0.0968 b) p(X>116.5) = | . | \ | − > 15 100 5 . 116 Z P = P(Z> 1.1) =1 - P(Z< 1.1) = 1-0.8643= 0.1357 c) p(X<112) = | . | \ | − < 15 100 112 Z P = P(Z< 0.8) = 0.7881 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 92 d) p(91<X<109) = | . | \ | − < < − 15 100 109 15 100 91 Z P = P(-0.6<Z< 0.6) = 2* (0.7257)-1 = 0.4515 e) p(85<X<97) = | . | \ | − < < − 15 100 97 15 100 85 Z P = P(-1<Z<-0.2) = P(Z<1) - P(Z<0.2) = 0.8413 - 0.5793 = 0.2620 13. Una variable aleatoria (X) se distribuye normalmente con media 70 y desviación típica de 5. Obténgase la probabilidad de que a. X sea mayor de 66; b. X sea mayor de 63; c. X sea mayor de 71 y menor de 75; d. X sea mayor de 79 o menor de 61. SOLUCION Para todos los incisos u=70, σ=5 y el cambio de variable a la variable tipificada se realiza mediante σ u − = X Z a) P(X>66)= | . | \ | − > 5 70 66 Z P =P(Z>-0.8)= P(Z<0.8)=0.7881 b) P(X>63)= | . | \ | − > 5 70 63 Z P = P(Z>-1.4)= P(Z<1.4)=0.9192 c) P(71< X <75)= | . | \ | − < < − 5 70 75 5 70 71 Z P = P(0.2< Z <1)= P(Z<1) - P(Z<0.2) = 0.8413 – 0.5793 =0.2620 d) P(X>79)+P(X<61)= | . | \ | − > 5 70 79 Z P + | . | \ | − < 5 70 61 Z P = P(Z>1.8) + P(Z<-1.8) =2 (1-P(Z<1.8) =2(1- 0.9641)=0.0718 14. Un profesor de inglés ha determinado que el tiempo necesario para que los estudiantes concluyan un examen final se distribuye normalmente con media de 110 min y desviación típica de 10 min. a. ¿Cuál es la probabilidad de que un estudiante de inglés elegido aleatóriamente concluya el examen en menos de dos horas? b. ¿Cuál es la probabilidad de que un estudiante de inglés seleccionado aleatóriamente concluya el examen en 125 min o más? e. Si hay 50 estudiantes en la clase, ¿cuántos de ellos concluirán el examen antes de una hora y 50 minutos? SOLUCION La media y la desviación típica son u=110 y σ=10 a) Dos horas representan 120 minutos, entonces APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 93 P(X<120)=P(Z<(120-110)/10 =P(Z<1)=0.8413 b) Si el estudiante debe resolver el examen en 125 o más P(125≤X = P(Z<(125-110)/10 =P (1.5 < Z) =1- P(Z<1.5)=1 - 0.9332=0.0668 c) Primero se debe determinar la probabilidad de que los alumnos terminen antes de 110 min. P(X ≤ 110)=P(X< (110-110)/10 =P (X ≤ 0) = 0.5 Entonces el número de alumnos que terminen antes de 110 min es n = N. P(X ≤ 110) =(50)(0.5)=25 15. Supóngase que la longitud promedio de la estancia de los pacientes en cierto hospital es de diez días y la desviación típica es de dos días. Considérese que tales duraciones se distribuyen normalmente. a. ¿Cuál es la probabilidad de que el siguiente paciente que se reciba permanezca más de nueve días? b. Si el día de hoy se admitieron 200 pacientes, ¿cuántos continuarán en el hospital dentro de dos semanas? SOLUCION La media y la desviación típica son u=10, σ=2 a) P(X ≥ 9) = P(Z ≥ (9-10)/2 = P(Z ≥0.5)=P(Z ≤ 0.5)=0.6915 b) N = 200, X=2 semanas = 14 días P(X ≥ 14) =P(Z ≥(14-10)/2) = P(Z ≥ 2)=1-P(Z<2) =1-0.9772=0.0228 Entonces el número de pacientes después de dos semanas es n =N. P(X ≥ 14) =(200)(0.0228)=4.56 16. Supóngase que las calificaciones de prueba de un examen estándar se distribuyan normalmente, ¿Cuál es el valor aproximado correspondiente al percentil 75 -ésimo? SOLUCION El percentil corresponde a el porcentaje del área total, entonces P(Z≤Z 0 )=0.75 Buscando en la tabla los valores más cercanos a el área a = 0.75 son Z 1 = 0.67con a 1 = 0.7486y Z 2 = 0.68 con a 2 = 0.7517. la aproximación lineal ( ) ( ) 67 . 0 7486 . 0 7500 . 0 7486 . 0 7517 . 0 67 . 0 68 . 0 1 1 1 2 1 2 + − | . | \ | − − = + − | | . | \ | − − = Z a a a a Z Z Z = 0.6745 TEOREMA DEL LÍMITE CENTRAL El teorema del límite central establece que si X es cualquier variable aleatoria con media u y desviación típica σ la distribución de la media muestral X será aproximadamente normal con media u u u = = X X y desviación típica n n X X σ σ σ = = sin importar la forma de la distribución de probabilidad de X siempre y cuando el tamaño de la muestra sea grande n>30 Por lo anterior la variable tipificada para determinar la probabilidad de la variable aleatoria X es APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 94 n X Z σ u − = (4.9) EJEMPLOS 17. Supóngase que la distribución de las edades de los empleados de una gran compañía tiene una medía de 35 años y una desviación típica de 6 años. Se considera que la distribución no es normal. Si se selecciona una muestra aleatoria de 36 empleados, y se calcula su edad promedio, ¿cuál es la probabilidad de que la edad promedio de la muestra sea a. de más de 37.5 años; b. de menos de 33 años; c. de entre 34.25 y 34.75 años; d. de entre 36 y 37.75 años? SOLUCION La media y desviación típica de la población es u=35, σ=6 y el tamaño de la muestra n = 36 a) P(37.5< x )= | | . | \ | < − Z P 36 6 35 5 . 37 = P( Z >2.5) =1-P(Z<2.5)=1-0.9958 = 0.0042 b) P( x <33)= | | . | \ | < − Z P 36 6 35 33 = P( Z <-2) =1-P(Z<2)=1-0.9772 = 0.0228 c) P (34.25< x < 34.75) = | | . | \ | − < < − 36 6 35 75 . 34 36 6 35 25 . 34 Z P = P(-0.75<Z <-0.25) = P (0.25< Z <0.75)=P(Z<0.75)- P(Z<0.25)= 0.7734- 0.5987 =0.1747 d) P (36 < x < 37.75) = | | . | \ | − < < − 36 6 35 75 . 37 36 6 35 36 Z P = P(1< Z < 2.75) =P(2< Z <2.75)=P(Z<2.75) - P(Z<1) =0.9970-0.8413=0.1557 18. La distribución de los 10 dígitos aleatorios 0, 1, 2,. . ., y 9 se considera como uniforme, ya que la probabilidad de que aparezca cada dígito es de 0.1. Supóngase que se selecciona una muestra aleatoria de 100 dígitos, ya sea utilizando la tabla de dígitos aleatorios o mediante el método de la urna con reemplazo, y se calcula una media muestral. Obténganse las siguientes probabilidades. a. P( x < 4.84) b. P( x > 4.79) c. P(4.18< x < 4.87) d. P(4.00 < x < 4.90) SOLUCION Para la distribución uniforme x 0 1 2 3 4 5 6 7 8 9 f(x) 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 Por lo tanto la media u y la desviación típica σ poblacionales son ∑ = = ) ( ) ( i i x f x x E u =0(1/10)+1(1/10)+2(1/10)+3(1/10)+4(1/10)+5(1/10) + 6(1/10)+7(1/10)+8(1/10) + 9(1/10)+ = 4.5 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 95 ∑ = ) ( ) ( 2 2 i i x f x x E =0 2 (1/10)+1 2 (1/10)+2 2 (1/10)+3 2 (1/10)+4 2 (1/10)+5 2 (1/10) + 6 2 (1/10)+7 2 (1/10) + 8 2 (1/10) + 9 2 (1/10) = 28.5 = − = 2 2 2 ) ( u σ x E 28.5- (4.5) 2 = 8.25 87 . 2 25 . 8 = = σ Entonces para una muestra n=100 a) P( x <4.84)= | | . | \ | − < 100 87 . 2 5 . 4 84 . 4 Z P = P(Z< 1.19) = 0.8830 b) P( x >4.79)= | | . | \ | < − Z P 100 87 . 2 5 . 4 79 . 4 = P(1.01 < Z ) =1-P(Z≤1.01)=1-0.8438 = 0.1562 c) P (4.18< x < 4.57) = | | . | \ | < < 100 2.87 4.5 - 4.87 100 2.87 4.5 - 4.18 Z P = P(-1.11<Z <1.29) = P(Z<1.11)+P(Z<1.29)-1 = 0.8665 +0.9015-1=0.7680 d) P (4.00< x < 4.90) = | | . | \ | < < 100 2.87 4.5 - 4.90 100 2.87 4.5 - 4.00 Z P = P(-1.74<Z <1.39) = P(Z<1.74)+P(Z<1.39)-1 = 0.9591+0.9177-1=0.8768 19. Supóngase que a fin de mes los saldos de las cuentas de cheques en bancos se distribuyen normalmente con media $250 y desviación típica $15. a. ¿Cuál es la probabilidad de que una cuenta seleccionada aleatóriamente tenga un saldo de más de $272.50? b. ¿Cuál es la probabilidad de que el promedio de una muestra aleatoria de 25 cuentas sea de más de $257.50? SOLUCION De el problema se obtiene que u=250, σ= 15 y n = 25 a) P(272.5< x)= | . | \ | < − Z P 15 250 5 . 272 =P(1.5<1)=1-P(Z ≤1.5)=1-0.9332=0.0668 b) P(257.5< x )= | | . | \ | − < 25 15 250 5 . 257 Z P =P(2.5< Z)=1-P(Z ≤ 2.5)=1-0.9938=0.0062 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 96 Aproximación de la distribución binomial mediante la distribución normal. La distribución binomial con variable aleatoria X que representa el número de éxitos con probabilidad p puede ser aproximada mediante una distribución normal si cumple que el número de muestras es grande, esto es, 30 > n y con probabilidad 5 . 0 ≈ p . Si la probabilidad p está alejada de 0.5, entonces es posible que se requiera un mayor número de datos para obtener una mejor aproximación. La media a utilizar por parte de la normal p n = u (4.10) y la desviación típica o estándar npq = σ (4.11) La aproximación se puede llevar a cabo para un numero n menor siempre y cuando el producto de p n y ( ) p n − 1 sea mayores a 5, por ejemplo para el caso 15 = n y 4 . 0 = p se tiene que p n = 6 y ( ) p n − 1 = 9.6, entonces el posible aproximar la distribución binomial mediante la distribución normal para este caso. La figura siguiente muestra la distribución binomial y la normal para n = 15 y p = 0.4. 0 2 4 6 8 10 12 14 16 0 0.05 0.1 0.15 0.2 numero de exitos p r o b a b i l i d a d Figura. Aproximación de la binomial mediante la distribución normal, n =15 y p =0.4 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 97 Si ahora 15 = n y 3 . 0 = p se tiene que p n = 4.5 y ( ) p n − 1 = 10.5, entonces, para este caso no es adecuado aproximar la distribución binomial mediante la distribución normal La figura siguiente muestra la distribución binomial y la normal para n = 15 y p = 0.3. 0 2 4 6 8 10 12 14 16 0 0.05 0.1 0.15 0.2 0.25 numero de exitos p r o b a b i l i d a d Figura. La aproximación de la binomial mediante la distribución normal no es aconsejable para este caso n =15 y p =0.3 Como se puede deducir de los dos caso anteriores si la probabilidad de éxito se aleja de 0.5 entonces para obtener una buena aproximación normal se requerirá un n mucho mayor, por ejemplo, para 30 = n y 3 . 0 = p se tiene que p n = 9 y ( ) p n − 1 = 21, y entonces si es posible aproximar la distribución binomial mediante la normal. La siguiente figura muestra la aproximación para n = 30 y p =0.3 0 5 10 15 20 25 30 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 numero de exitos p r o b a b i l i d a d Figura. Aproximación de la distribución binomial a la normal para n = 30 y p =0.3 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 98 EJEMPLOS 20. Supóngase que cierta medicina tiene un 80% de efectividad para curar cierto tipo de enfermedad. Es decir, en promedio de cada 100 pacientes que contraen la enfermedad y reciben la medicina, se espera que 80 se recuperen. Sea X el número de pacientes en una muestra aleatoria de 100 que se recuperan después del tratamiento. Obténganse las siguientes probabilidades mediante la aproximación normal. a. más de 80 se recuperarán o P(X =80); b. P(80 < X < 90); c. P(70 < X < 75). SOLUCION La probabilidad de éxito es p = 0.8 y el tamaño de la muestra es n = 100 La media y la desviación típica son p n = u = (0.8)(100)=80 ) 8 . 0 1 )( 8 . 0 ( 100 − = = npq σ = 4 Entonces a) P(X>80)=P(Z > (80-80)/4=P(Z >0)=1-P(Z <0)=1-0.5=0.5 b) P(80< X <90)=P((80-80)/4 < Z< (90-80)/4)=P(0< Z < 2.5) = P(Z < 2.5)- P(Z≤0) =0.9938-0.5=0.4938 c) P(70< X < 75)=P((70-80)/4 < Z < (75-80)/4)=P(2.5< Z < -1.25)=P(1.25 < Z< 2.5) = P(Z<2.5)- P(Z<1.25)=0.9938-0.8944=0.0994 21. Se tira diez veces una moneda balanceada. Obténgase la probabilidad de que ocurran ya sea el seis, siete u ocho caras mediante a. la distribución binomial; b. el método de la aproximación normal con corrección por continuidad. SOLUCION a) Puesto que la moneda es balanceada p = 0.5 y n = 10, aplicando la distribución binomial P(6≤ X ≤ 8)= 2 8 3 7 4 6 ) 5 . 0 ( ) 5 . 0 ( 8 10 ) 5 . 0 ( ) 5 . 0 ( 7 10 ) 5 . 0 ( ) 5 . 0 ( 0 10 | | . | \ | + | | . | \ | + | | . | \ | =0.205078+0.11718+0.043945=0.366203 b) Aplicando la distribución binomial y la corrección por continuidad p n = u = 10(0.5) = 5 5811 . 1 5 . 2 ) 5 . 0 )( 5 . 0 ( 10 = = = = npq σ P(6≤ X ≤ 8)=P((5.5≤ X ≤ 8.5)=P((5.5-5)/1.5811 ≤ Z ≤ (8.5-5)/1.5811) =P(0.3162 ≤ Z ≤ 2.2136)= P(Z < 2.21)-P(Z ≤ 0.32) =0.9864 - 0.6255 = 0.3609 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 99 Figura representando la aproximación binomial a la normal para el ejemplo 2 n =10 y p =0.5. 0 2 4 6 8 10 0 0.05 0.1 0.15 0.2 0.25 Número de éxitos P r o b a b i l i d a d APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 100 UNIDAD V Inferencia estadística INFERENCIA ESTADÍSTICA Los conceptos básicos de probabilidad y distribuciones muestrales sirven de base para el método de inferencia estadística, la cual tiene como objetivo obtener información de las poblaciones a partir de las muestras obtenidas. En general se avoca a las dos siguientes áreas prueba de hipótesis y estimación. PRUEBA DE HIPÓTESIS Y ESTIMACIÓN. Una explicación concisa de cada una de estas áreas se da a continuación: • prueba de hipótesis: aceptar o rechazar declaraciones acerca de los parámetros de la población. • estimación: estimar valores de los parámetros de la población. PLANTEAMIENTO DE LA HIPÓTESIS NULA Y ALTERNATIVA Una hipótesis estadística consiste en realizar una declaración afirmativa o negativa acerca del valor de un parámetro o parámetros de una población. La aceptación o rechazo de la hipótesis estadística requiere de información obtenida a partir de la muestras de la población. Si la información obtenida es suficiente, la hipótesis estadística puede ser apoyada o no. Los pasos esenciales para realizar una prueba de hipótesis se indicas a continuación: • identificación del patrón de distribución de la variable aleatoria (binomial, normal…) Un procedimiento estadístico que requiere la identificación de la distribución probabilística se denomina enfoque paramétrico. Si no se especifica la distribución de probabilidad entonces se tiene un enfoque no paramétrico. • planteamiento de la hipótesis. En general se proponen 2 hipótesis, una denominada hipótesis nula denotada por H o , la cual se propone con el objetivo de ver si puede ser rechazada y la hipótesis alternativa la cual se denota por H 1 y es válida si la hipótesis nula es rechazada. Comúnmente la hipótesis nula H o , implica la idea de que no hay diferencia entre los parámetros, de ahí su nombre de nula. Por ejemplo se puede proponer que el promedio no es diferente de un valor particular, esto es H o :u = u 0 Las hipótesis alternativas H 1 , que pueden establecerse como complementaria para la hipótesis nula H o anterior, puede tomar alguna y solo una de las siguientes opciones: PRUEBA DE DOS COLAS H o :u = u 0 H 1 : u ≠ u 0 Debido a que no se especifica la dirección de la diferencia entre u y u 0 , la prueba se le denomina prueba de dos colas. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 101 Figura. Esquema utilizando la distribución normal para mostrar la prueba de dos colas, la región sombreada representa la región de rechazo de la hipótesis nula H o PRUEBA DE UNA COLA DERECHA H o :u = u 0 H 1 : u > u 0 Como u > u 0 , la prueba es llamada de una cola derecha Figura. Esquema utilizando la distribución normal para mostrar la prueba de cola derecha, la región sombreada representa la región de rechazo de la hipótesis nula H o PRUEBA DE UNA COLA IZQUIERDA: H o :u = u 0 H 1 : u < u 0 Como u < u 0 , la prueba es llamada de una cola izquierda -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 102 Figura. Esquema utilizando la distribución normal para mostrar la prueba de cola izquierda, la región sombreada representa la región de rechazo de la hipótesis nula H o ESPECIFICACION DEL NIVEL DE SIGNIFICACION α Normalmente las muestras extraídas de una población en general no son idénticas y presentan diferentes medias y desviaciones típicas, etc., estas diferencias pueden deberse a la naturaleza aleatoria del problema, por ejemplo si se considera la prueba de hipótesis H o :u = u 0 H 1 : u > u 0 La pregunta seria ¿Qué tan grande debe ser la media muestra para rechazar la hipótesis nula? De otra manera, ¿Qué tan grande debe ser la media muestral para que se considere significativamente mayor? La respuesta a la pregunta depende directamente del nivel de significación elegido para realizar la prueba de hipótesis, normalmente se denota como α, por ejemplo si α = 5%, la hipótesis nula no se rechazará en 5 de 100 muestras lo suficientemente grandes. Los valores comúnmente elegidos como niveles de significación son α=10%, α=5%, α=2.5%, α=1.0%, α=0.5% El nivel de significación: se puede entender también como la probabilidad de rechazar una hipótesis nula verdadera o la probabilidad de cometer un error tipo I que anteriormente se denotó por α. Por otra parte el error de no rechazar la hipótesis nula cuando es falsa se denomina error tipo II, denotado por β. Los dos tipos de errores se resumen a continuación TIPO DE ERROR PROBABILIDAD Rechazar H o cuando es verdadera I α. No rechazar a H o cuando es falsa II β La relación entre los tipos de error α y β se muestra en la siguiente gráfica para la .H o :u= u 0 y H 1 : u>u 0 -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 103 Figura. Relación entre los errores tipo I representado por el área sombreada α y el error tipo II representado por el área sombreada β Las áreas oscuras representan la probabilidades α y β, si se disminuye la probabilidad α al desplazar la línea vertical a la derecha el valor de β aumenta, y viceversa, si la línea vertical se mueve a la izquierda aumenta α y disminuye β. PLANTEAMIENTO DE LA REGLA DE DECISIÓN • Elegir el estadístico de prueba el cual es una variable aleatoria cuyo valor se utiliza para aceptar o rechazar la hipótesis nula. Puedes ser un estadístico muestral tal como la media muestral, desviación típica, proporción de defectos, etc. • Especificar el nivel de significancia de α. • Los valores del estadístico de prueba se dividen en 2 categorías: región de rechazo y región de aceptación, también se conoce la región de rechazo como región crítica. TOMA DE LA DECISIÓN: • El valor que separa las dos regiones es llamado el valor crítico. Se toma la decisión dependiendo en que región cae el valor del estadístico de prueba. Si el valor del estadístico de prueba cae el la región de rechazo, la hipótesis nula se rechaza, en caso contrario se acepta. TABLA DE DECISIONES Decisión H 0 es verdadera H 0 es falsa Se rechaza H 0 Error tipo I α Decisión correcta 1-β No se rechaza H 0 Decisión correcta 1-α Error tipo II β α β u = u0 u > u0 x x APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 104 Las siguientes figuras muestran el valor crítico, las regiones de aceptación y rechazo, para el caso de que se utilice a Z como estadístico de prueba, para cada una de los tres tipos de prueba de hipótesis. Prueba de dos colas -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Prueba de cola derecha Prueba de cola izquierda Región de rechazo Región de rechazo Región de aceptación α/2 Valor crítico Zα/2 Valor crítico Zα/2 α/2 1 - α H 1 : µ ≠ µ 0 -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Región de rechazo Región de aceptación α Valor crítico Zα 1 - α H 1 : µ < µ 0 -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Región de rechazo Región de aceptación Valor crítico Zα α 1 - α H 1 : µ > µ0 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 105 EJEMPLOS 1. En la prueba de la hipótesis nula µ = 100, la hipótesis alternativa puede ser cualquiera de las siguientes. a. u =110 b. u = 90 c. u > 100 d. u < 100 e. u ≠ 100 ¿Cuáles de estas cinco pruebas son de una cola? ¿Cuáles son de dos colas? SOLUCION a) Como u =110 y se encuentra a la derecha, es una prueba de cola derecha. b) En este caso u = 90 es menor a 100, por lo que es una prueba de cola izquierda. c) u > 100 es una prueba de cola derecha. d) u < 100 es una prueba de cola izquierda. e) u≠10 representa a una prueba de dos colas. 2. Supóngase que la producción promedio por hora de los trabajadores de cierta fábrica es de 60 unidades. El director de personal de la fábrica afirma que el programa de entrenamiento implantado hace algún tiempo ha aumentarlo la productividad de los trabajadores. Plantéense las hipótesis nula y alternativa. SOLUCION La Hipótesis nula en general se relaciona con que el estimador no cambia, por lo tanto H 0: u=60 y como se señala que el programa de entrenamiento ha mejorado la productividad la hipótesis alternativa se propone de cola derecha, esto es H 1: u>60 3. Cierto proceso de producción está diseñado para dar como resultado tornillos con una longitud media de 3 plg. Plantéese la regla de decisión para cada una de las siguientes situaciones: a. El gerente de producción desea determinar si la longitud promedio ha disminuido. b. Desea determinar si la longitud promedio ha aumentado. c. Desea determinar si la longitud promedio ha cambiado. SOLUCION Para el problema se debe seleccionar u 0 = 3 pulgadas y de acuerdo a cada uno de los incisos a) H 0: u=3 H 1: u< 3 Ha disminuido b) H 0: u=3 H 1: u> 3 Ha aumentado c) H 0: u=3 H 1: u≠ 3 Ha cambiado 4. Supóngase que el gasto anual en libros por parte de los estudiantes universitarios de los EUA se distribuye normalmente con media de $ 200. Formúlese, para cada una de las siguientes pruebas, la hipótesis alternativa y plantéese la regla de decisión. a. Pruébese si los estudiantes en la universidad a la que usted asiste han gastado más que el promedio nacional. b. Pruébese si el gasto anual por parte de los estudiantes de la universidad a la que usted asiste es diferente del promedio nacional. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 106 SOLUCION En este caso se elige u 0 = 200 y la hipótesis nula es para ambos inciso H 0: u =200. a) La hipótesis alternativa es H 1: u<200, y se rechaza H 0 para algún valor de X lo suficientemente grande. b) La hipótesis alternativa es H 1: u≠ 200 y se rechaza H 0 si X lo suficientemente grande o suficientemente pequeño. HIPOTESIS INEXACTA Las hipótesis se pueden clasificar como exactas e inexactas. Una hipótesis es exacta si se especifica en la prueba un único valor, por ejemplo, H 0 : u= u o , mientras que si especifica un conjunto de valores como H 0 : u ≤ u o ó H 0 : u > u o será una hipótesis inexacta. Las siguientes figuras muestran los casos de la Hipótesis exacta e inexacta de manera gráfica. Figura. Sucesión de gráficas con media menor a 100 que muestran el caso H 0 : u ≤ u o Figura. Sucesión de gráficas con media mayor a 100 que muestran el caso H 0 : u > u o El área sombreada para cada una de las gráficas de las dos figuras anteriores es cada vez más pequeña conforme la media se vuelve más pequeña (ó más grande), lo anterior implica que si se rechaza la hipótesis exacta u = u o con probabilidad α entonces para todos los casos u ≤ u o (ó u > u o ) se rechazara la hipótesis nula con una probabilidad menor a α. Por lo que los casos de hipótesis inexactas se trabajarán como hipótesis exactas u = u o con probabilidad de rechazo α. 70 75 80 85 90 95 100 105 110 115 120 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 H 0 : u ≤ u o α 80 85 90 95 100 105 110 115 120 125 130 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 H0 : u > uo α APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 107 PRUEBAS DE HIPÓTESIS PARA MUESTRAS GRANDES PRUEBA PARA LA MEDIA DE LA POBLACION Se utiliza la media muestral X como variable aleatoria obtenida a partir de una muestra de tamaño n la cual se obtiene de una población con media µ y desviación típica σ. Si la muestra es grande (teorema del limite central n>30) ó l la población tiene una distribución normal. Entonces, la muestra tendrá una distribución normal. Como ha sido mostrado anteriormente (distribución muestral de la media ó teorema del limite central) u u = X y n X σ σ = El estadístico de prueba Z para la prueba de una media con distribución normal es X X X Z σ u − = (5.1) ó n X Z σ u − = (5.2) EJEMPLOS 5. Se supone que los C.I. de los alumnos de cierto grupo étnico está en promedio ocho puntos por encima que el promedio de todos los alumnos en el país. Se sabe que para todos los alumnos la media es 100 y la desviación típica es 15. Pruebas aplicadas a una muestra de 25 alumnos seleccionados aleatóriamente entre el grupo étnico en cuestión proporcionan un C.I. medio de 104. Considerando que los C.I. Tienen una distribución normal, pruébese la hipótesis H 0 : u = 100 en contra de la hipótesis alternativa H 1 : u = 108 en α= 0.05. Determínese también el valor de β. SOLUCION Los datos del problema son La media y desviación estándar son u=100, σ =15, el nivel de significación es α=0.05, el tamaño de la muestra es n = 25 y la media muestral es = X 104 Las Hipótesis correspondientes nula y alternativa son respectivamente H 0: u=100 H 1: u 1 =108 La prueba es de una cola derecha. A partir del nivel de significancia α=0.05, se determina el área a la izquierda como A =1-0.05 =.95, entonces el valor crítico Zα se obtiene de la puntuación cuya área bajo la curva normal es igual a 0.95 este valor corresponde a Zα = 1.645 Calculando el estadístico de prueba correspondiente a partir de la tipificación de la media muestral x APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 108 Z = = − 25 15 100 104 4/3=1.333 Puesto que 1.333< 1.645 (Z< Zα) el valor cae dentro de la región de aceptación por lo que no se rechaza H 0 , ver grafica. b) Para determinar el error tipo II ó β, se requiere determinar primero α x la cual se puede obtener despejando de la relación n X Z σ u α α − = ( ) 100 25 15 645 . 1 + = + | . | \ | = u σ α α n Z X =1.645(3)+100=104.935 La figura siguiente muestra la idea general para determinar el error tipo β. Figura. Idea general para determinar el error tipo β. -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Región de rechazo Región de aceptación Zα=1.645 α 1 - α H 1 : µ > µ 0 Z=1.333 α β u = 100 u =108 x x X α =104.9 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 109 Entonces el error tipo β es igual de acuerdo a la figura anterior β = P(X < 104.9,u=108, σ=3)= | . | \ | − < 3 108 9 . 104 Z P = P(Z < -1.02166)=1-0.8461=0.1539 6. Una compañía que procesa fibras naturales afirma que sus fibras tienen una resistencia media a la ruptura de 40 lb y una desviación típica de 8 lb. Un comprador sospecha que la resistencia media a la ruptura es de solamente 37 lb, Una muestra aleatoria de 64 fibras proporciona una media de 38 lb. ¿Deberá rechazar el comprador H 0 : u=40 en favor de H 1 : u = 37 si el nivel de significación es 0.01? SOLUCION Los datos del problema son Los parámetros poblacionales son u=40, σ=8 promedio probables u 1 =37, tamaño de la muestra n = 64 nivel de significación α=0.01, media muestral = x 38 Las Hipótesis correspondientes nula y alternativa son respectivamente H 0: u=40 H 1: u 1 =37 La prueba es de una cola izquierda, entonces, el área a la izquierda de la distribución debe ser A =1- α= 1 - 0.01=0.99 lo cual corresponde a Z α = - 2.3226 El valor del estadístico de prueba es 2 64 8 40 38 − = − = − = n X Z σ u El cual es mayor que Z α . Por lo tanto no se rechaza H 0 -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Región de rechazo Región de aceptación α Zα=-2.3226 1 - α Z=-2 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 110 7. Un fabricante de medias está considerando reemplazar una vieja máquina de coser por una nueva. La vieja máquina produce cuando más, un promedio de 300 pares de medias por hora, con una desviación típica de 30 pares. Se considera que la producción por hora de tales máquinas de coser tiene una distribución normal. El vendedor de la nueva máquina afirma que su producción promedio por hora es de más de 300 pares. La nueva máquina se prueba durante un periodo de 25 h y se determina su producción promedio por hora como 310 pares. si el nivel de significación es de 0.05, ¿debería rechazarse la hipótesis nula u = 300? SOLUCION Los datos proporcionados por el problema son Media u=300, desviación σ=30, tamaño de la muestra n = 25, nivel de significancia α =0.05, media muestral X 310 La prueba de hipótesis se puede plantear como: H 0: u=300 H 1: u>300 Corresponde a una prueba de una cola derecha Utilizando la el nivel de significación α=0.05, se determina el área a la izquierda de la distribución normal A =1- α=1-0.05=0.95, el cual corresponde a una valor de puntuación crítico Z α =1.645 El valor del estadístico de prueba Z es 25 30 300 310 − = − = n X Z σ u = 1.6666 En este caso Z α < Z, la hipótesis nula se rechaza. Por lo tanto se rechaza H 0 a favor de de la hipótesis H 1 -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Región de rechazo Región de aceptación α Zα=1.645 1 - α Z=1.6666 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 111 8. Una compañía de servicio público desea determinar si su nuevo horario de Trabajo ha reducido de manera importante el tiempo de espera de los clientes para servicio. El tiempo de espera fue de al menos 30 min en el pasado y se sabia que la desviación típica era de 12 min. Se selecciona aleatóriamente una muestra de 144 observaciones. Se obtiene una media de 28 min. ¿Debería rechazarse la hipótesis nula u ≥ 30 en favor de la hipótesis alternativa u < 30 para α = 0.05? SOLUCION Los datos proporcionados por el problema son Media u=30 min, desviación σ=12 min, tamaño de la muestra n = 144, nivel de significancia α =0.05, media muestral = x 28 min La prueba de hipótesis nula es inexacta se puede plantear como: H 0: u≥30 H 1: u<30 Corresponde a una prueba de una cola izquierda Utilizando la el nivel de significación α=0.05, se determina el área a la izquierda de la distribución normal A =1- α=1-0.05=0.95, el cual corresponde a una valor de puntuación crítico Z α = -1.645 El valor del estadístico de prueba Z es 144 12 30 28 − = − = n X Z σ u = -2.000 En este caso Z < Z α , la hipótesis nula se rechaza. Por lo tanto se rechaza H 0 a favor de de la hipótesis H 1 Lo que se traduce en que el servicio al cliente ha mejorado. -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Región de rechazo Región de aceptación α Zα=-1.645 1 - α Z=-2 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 112 9. Los empleados que contraen cierta enfermedad y reciben tratamiento médico normal para ella permanecen ausentes del trabajo durante un promedio de 15 días. Un equipo médico de investigación afirma que se ha desarrollado un nuevo tratamiento que reduciría el periodo promedio de ausencia del trabajo. Considérese que el periodo de ausencia del trabajo tiene una distribución normal y una desviación típica de tres días. ¿Debería rechazarse la hipótesis nula u = 15 para α= 0.1 si una muestra de 16 pacientes que han recibido el nuevo tratamiento tiene una ausencia promedio del trabajo de exactamente 13 días? SOLUCION Los datos proporcionados por el problema son u=15 días, σ=3 días, n = 16, = X 13 y α =0.1 La prueba de hipótesis corresponde a una prueba de una cola izquierda con A =1- α=1-0.1=0.9 correspondiente a Z α = -1.282 El valor del estadístico de prueba Z es 16 3 15 13 − = − = n X Z σ u = -2.666 En este caso Z < Z α , la hipótesis nula se rechaza. Por lo tanto se rechaza H 0 a favor de de la hipótesis H 1 , el tratamiento es mejor. PRUEBA DE LA DIFERENCIA DE MEDIAS En ocasiones se requiere indicar por parte de la estadística si la diferencia entre dos medias muestrales es lo suficientemente grande para asegurar que esas diferencias no se deben a efectos del azar, sino que las muestras tomadas provienen de dos poblaciones distintas. La siguiente figura muestra el caso de dos distribuciones normales con desviación típica σ =10 y medias u1 = 100 y u2 = 120 Figura. Representación de dos poblaciones con desviación típica σ =10 y medias u1 = 100 y u2 = 120 60 80 100 120 140 160 0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 u 1 = 100 u 2 = 120 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 113 Para probar la hipótesis acerca de la diferencia de medias se introduce la variable aleatoria 2 1 X X D − = (5.3) Donde 1 X es una muestra tomada de una población con media 1 u y desviación típica 1 σ y 2 X procede otra población con media 2 u y desviación típica 2 σ . Los parámetros para variable aleatoria D se puede determinar aplicando las propiedades del valor esperado y varianza para muestras independientes 2 1 2 1 2 1 ) ( ) ( ) ( ) ( u u δ − = + = − = = X E X E X X E D E r (5.4) y la varianza 2 2 2 1 2 1 1 1 2 1 2 ) ( ) ( ) ( n n X VAR X VAR X X VAR D σ σ σ + = + = + = (5.5) Entonces, la desviación típica es 2 2 2 1 1 2 n n D σ σ σ + = (5.6) a la que se denomina error típico de la diferencia entre dos medias muestrales. Si las muestras 1 X y 2 X provienen de distribuciones que son normales o si las muestras son grandes, esto es n 1 y n 2 >30 la distribución de la variable aleatoria D es normal. La prueba de hipótesis acerca de la diferencia de medias se puede llevar acabo bajo dos condiciones diferentes: 1) Cuando se conoce las varianzas poblacionales 2 1 σ y 2 2 σ ó 2) Cuando no se conocen las varianzas poblacionales y tienen que estimarse a partir de las varianzas muestrales 2 1 s y 2 2 s . Primeramente los problemas que se desarrollan continuación suponen conocidas las varianzas poblacionales 2 1 σ y 2 2 σ . La hipótesis nula para la prueba de la diferencia de medias denotada por δ es H 0: δ =0 ó u 1 = u 2 Para la hipótesis alternativa puede tomar cualquiera de las siguientes posibilidades H 1 : δ<0 Cola izquierda u 1 < u 2 δ >0 Cola derecha u 1 > u 2 δ ≠0 Dos colas u 1 ≠ u 2 El estadístico de prueba es ( ) D X X Z σ u u ) ( 2 1 2 1 − − − = (5.7) APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 114 Recordando la hipótesis nula u 1 = u 2 y la definición de D σ 2 2 2 1 2 1 2 1 ) ( n n X X Z σ σ + − = (5.8) La prueba se realiza de manera semejante a la realizada anteriormente para la media, solamente que ahora para la prueba de dos medias se utiliza un estadístico diferente. EJEMPLOS 10. Se realizó un estudio para determinar si los alumnos pertenecientes a dos grupos étnicos, I y ll, tienen distintos CI., promedio. Se considera que las varianzas de los CI en los grupos I y ll son respectivamente, 2 1 σ = 225 y 2 2 σ = 196. Se toma una muestra de 25 alumnos del grupo l (n 1 = 25) y otra de 28 del grupo II (n 2 = 28). En base a la diferencia entre las dos medias muestrales, 1 X = 102 y 2 X = 98. Pruébese la hipótesis nula de que los alumnos de los dos grupos étnicos tienen CI promedio idénticos con respecto a la hipótesis alternativa de que los dos promedios son diferentes en α = 0.05. SOLUCION La lista de datos proporcionados por el problema se resume a continuación = 1 X 102 225 2 1 = σ n 1 =25 98 2 = X 196 2 2 = σ n 2 =28 Las hipótesis nulas y alternativas asociadas al problema son H 0: u 1 = u 2 H 1: u 1 ≠ u 2 La prueba es de dos colas por lo tanto Z α/2 = Z 0.05/2 = Z 0.025 El valor del área para la prueba es A= 1-0.025=0.975 Correspondiente de acuerdo a las tablas Z 0.025 =1.960 La regla de decisión es: Rechazar H 0 si Z ≥ 1.960 ó Z ≤ 1.960 El estadístico de prueba Z es 2 2 2 1 2 1 1 n n X X Z σ σ + − = = 1 4 4 28 196 25 225 98 102 = = + − APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 115 Como es mayor a -1.960 y menor a 1.960 no se rechaza H 0. 11. Cierta gran compañía emplea tanto hombres como mujeres para realizar el mismo tipo de trabajo. Se tiene la hipótesis de que la producción promedio de los hombres es menor que la de las mujeres. Supóngase que el equipo de investigación de la compañía proporciona la siguiente información. Hombres Mujeres Tamaño de la muestra n 1 = 36 n 2 = 36 Media muestral en unidades 1 X = 150 y 2 X =153 Varianza σ 1 2 = 70 σ 2 2 =74 ¿Es significativamente menor la producción promedio por hora de los hombre que la de las mujeres para α= 0.05? (Considérese que las dos muestras son independientes.) SOLUCION Las hipótesis nulas y alternativas son H 0: u 1 = u 2 H 1: u 1 < u 2 De acuerdo al nivel de significación α=0.05, A = 1- α= 1-0.05=0.95 correspondiente al valor crítico Z α = -1.645 El estadístico de prueba Z es 2 2 2 1 2 1 2 1 ) ( n n X X Z σ σ + − = = 5 . 1 2 3 36 74 36 70 153 150 − = − = + − -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Región de rechazo Región de aceptación α/2 1 - α Z α/2 =1.960 α/2 Z α/2 =-1.960 Región de rechazo Z =1 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 116 Como Z es mayor a Zα=-1.645 no se rechaza H 0. 12.Un fabricante afirma que el cordón nylon que su compañía produce es más fuerte que el cordón de algodón. Dada la siguiente información: Cordón de nylon Cordón de algodón Tamaño de la muestra n 1 =36 n 2 = 36 Resistencia promedio a la 1 X =105 lb 2 X = 101 lb ruptura Varianzas σ 1 2 = 74 σ 2 2 =70 ¿Podría llegarse a la conclusión de que en realidad el cordón de nylon es más fuerte que el de algodón para α = 0.01? SOLUCION Las hipótesis nulas y alternativas son H 0: u 1 = u 2 H 1: u 1 > u 2 De acuerdo al nivel de significación α=0.01, A = 1- α= 1-0.01=0.99 correspondiente al valor crítico Z α = 2.326 El estadístico de prueba Z es 2 2 2 1 2 1 2 1 ) ( n n X X Z σ σ + − = = 0 . 2 2 4 36 74 36 70 101 105 = = + − -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Región de rechazo Región de aceptación α Zα=-1.645 1 - α Z=-1.5 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 117 Como Z es menor a 2.326 no se rechaza H 0. -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 PUEBAS PARA LA PROPORCION DE EN LA POBLACION En ocasiones se requiere decidir si la proporción en la población denotada por p es igual a una proporción dada p o , en donde, la proporción de la muestra o el número de éxitos en n ensayos, se utiliza para realizar la inferencia. Si el evento ha ocurrido X veces en n intentos, la proporción de la muestra es estimada es n X p = ˆ , fracción que puede utilizarse para estimar la proporción de la población o la probabilidad de éxito. Para probar a hipótesis con respecto a la proporción p resulta más conveniente utilizar la variable aleatoria binomial X que la misma proporción p. Para valores pequeños de n (< 30) se puede utilizar las tablas binomiales acumuladas y para n grande se utilizar la aproximación normal a la binomial. EJEMPLOS 13. Un fabricante de drogas afirma que una medicina recientemente desarrollada tiene una efectividad de más del 90% en el alivio de dolores musculares. En una muestra de 100 personas que sufren de dolores musculares, la medicina proporcionó alivio a 95. Pruébese la hipótesis nula de que la medicina tiene una efectividad de 90% contra la hipótesis alternativa de que la medicina tiene una efectividad de más del 90% para α = 0.05. SOLUCION Debido a que el tamaño de la muestra es grande n = 100, es recomendable utilizar la aproximación normal a la binomial. Utilizando la proporción como la probabilidad de éxito, que de acuerdo a los datos proporcionados la proporción p 0 = 0.90, entonces el promedio es np = u =100(0.9)=90 Región de rechazo Región de aceptación α Zα=2.326 1 - α Z=2 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 118 y la desviación típica de la población es = = npq σ 3 ) 1 . 0 )( 9 . 0 )( 100 ( = Para pˆ = 0.95, el promedio estimado es entonces p n X ˆ ˆ = = (0.95) (100) = 95 Las hipótesis nulas y alternativas del problema son H 0: p = 0.9 o u = 90 H 1: p > 0.9 o u > 90 Para el nivel de significancia α=0.05 y la prueba de cola derecha el área a la izquierda es A =1-α = 1-0.05=0.95, correspondiente a una valor crítico para la distribución normal Ζ α = Ζ 0.05 = 1.645 El valor del estadístico de prueba Z es σ u − = X Z = 3 90 - 95 =1.6666 como Z > Z α , se rechaza la hipótesis nula H 0 a favor de H 1 , esto es, la medicina tiene una efectividad mayor que el 90 %. 14. Un investigador de mercado desea determinar si las amas de casa prefieren el aceite de cocina I o el aceite de cocina II. Se entrevista a 30 amas de casa y 18 de ellas indican que prefieren el aceite I. ¿Puede llegarse a la conclusión de que las amas de casa en general prefieren el aceite I, si el nivel de significación es de 0.04937? SOLUCION Debido a que el tamaño de la muestra es pequeña n = 30, se debe utilizar preferentemente las tablas de la distribución binomial correspondientes. Como no existe preferencia previa con respecto a la elección de los tipos de aceite, se tiene una proporción p 0 = 0.50, entonces el número de éxitos esperado para esta proporción es np = u = (30) (0.5)=15 Las hipótesis nulas y alternativas en competencia son H 0: p = 0.5 o u= 15 H 1: p > 0.5 o u > 15 Para el nivel de significancia α=0.04937 y considerando la prueba de cola derecha el área a la izquierda e la distribución binomial es A =1-α = 1 - 0.04937 =0.95063, buscando el la tabla para la distribución binomial acumulada para n =30 y p =0.5 se encuentra que el número de éxitos crítico correspondiente es X α = 19 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 119 De acuerdo a los datos proporcionados la cantidad de éxitos ó preferencias por el aceite I es X ˆ =18, entonces, X ˆ < X α y no debe rechazarse la hipótesis nula. 15. Considérese p, la verdadera proporción de los votantes registrados que están en contra de la pena capital. Supóngase que en el pasado p ha sido igual a 50% menos. Actualmente existen razones para creer que p ha aumentado. Una muestra aleatoria de 20 votantes de una proporción en la muestra del 55 %, ¿Puede llegarse a la conclusión de que la verdadera proporción permanece sin cambio, es decir sin haber aumentado, para α = 0.0207? SOLUCION Por el tamaño de la muestra es pequeña n = 20, se debe utilizar las tablas de la distribución binomial correspondientes. La proporción previa en contra de la pena capital es p 0 = 0.50 lo cual corresponde a una media np = u = (20)(0.5)=10 Las hipótesis nulas y alternativas en competencia son H 0: p = 0.5 o u= 10 H 1: p > 0.5 o u > 10 Para el nivel de significancia α=0.0207 y considerando la prueba de cola derecha el área a la izquierda e la distribución binomial es A = 1-α = 1 - 0.0207=.9793, buscando el la tabla para la distribución binomial l acumulada para n =20 y p =0.5 se encuentra que el número de éxitos crítico correspondiente es X α = 14 De acuerdo a los datos la nueva proporción de votantes en contra de la pena capital es pˆ =0.55 por lo que el valor esperado correspondiente a la cantidad de éxitos es 0 5 10 15 20 25 30 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 BINOMIAL Región de rechazo Región de aceptación α Xα=19 1 - α X ˆ =18 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 120 X ˆ = p nˆ = (20) (0.55) = 11 Como X ˆ < X α y no debe rechazarse la hipótesis nula. 16. Se ha insinuado que los profesores se han vuelto más despreocupados al calificar a sus estudiantes. En el pasado, 80% de todos los estudiantes universitarios de primer año obtenían C o calificaciones superiores. Una encuesta de la clase más reciente de estudiantes universitarios de primer arto muestra que 8100 de los 10 000 estudiantes universitarios de primer año de la muestra recibieron calificaciones de C o mayores. ¿Es verdadero que los profesores se han vuelto más despreocupados, si el nivel de significación se especifica en 0.01? SOLUCION La proporción previa de acuerdo a loa datos es p 0 = 0.80 El tamaño de la muestra es n = 1000, Debido al tamaño de la muestra se utilizará la aproximación normal a la binomial. Utilizando los datos anteriores se tiene que el promedio es np = u =10000(0.80)=8000 estudiantes y la desviación típica de la población es = = npq σ ) 2 . 0 )( 8 . 0 )( 10000 ( =40 El promedio obtenido del experimento es X ˆ = 8100 estudiantes Las hipótesis nulas y alternativas del problema son H 0: p = 0.80 o u = 8000 H 1: p > 0.80 o u > 8000 0 2 4 6 8 10 12 14 16 18 20 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 BINOMIAL Región de rechazo Región de aceptación α Xα=14 1 - α X ˆ =11 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 121 Para el nivel de significancia α=0.01 y la prueba de cola derecha el área a la izquierda es A =1-α = 1-0.01=0.99, correspondiente a una valor crítico para la distribución normal Ζ α = Ζ 0.01 = 2.326 El valor del estadístico de prueba Z es 5 . 2 40 8000 8100 = − = − = σ u X Z como Z > Z α , se rechaza la hipótesis nula H 0 a favor de H 1 , esto es, los profesores se han vuelto más despreocupados ESTIMACION MATEMATICA El procedimiento para determinar un intervalo de valores entre los cuales se encuentre el de un parámetro de la población con una probabilidad 1-α se conoce como estimación del intervalo. El parámetro α se interpreta como la probabilidad de cometer un error en la estimación, por lo que 1-α es la medida de la confianza para la media poblacional, ó equivalente a la probabilidad de que el parámetro poblacional estimado se encuentre dentro de intervalo adecuado. ESTIMACION DE LA MEDIA POBLACIONAL Para mostrar como se obtiene el intervalo de confianza considérese a la media muestral X para estimar a la media poblacional u . Como ha sido mostrado anteriormente, la distribución de la media muestral puede aproximar mediante la distribución normal para el caso de muestras grandes, entonces una proporción 1-α del área bajo la curva normal se encuentra entre el intervalo -Z α/2 < Z < Z α/2 (ver figura siguiente). -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Región de rechazo Región de aceptación α Z α =2.326 1 - α Z=2.5 -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 α/2 - Z α/2 α/2 Z α/2 -Z α/2 < Z < Z α/2 1 - α APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 122 Garantizado así que Z se encuentra en el intervalo -Z α/2 < Z < Z α/2 con una probabilidad 1-α. Utilizando el hecho de que X X Z σ u − = , se tiene que 2 / 2 / α α σ u Z X Z X < − < − Multiplicando por -1 2 / 2 / α α σ u Z Z X Z X − > + − > Cambiando el orden de la desigualdad: 2 / 2 / α α σ u Z X Z X < + − < − Multiplicando por σ: X X Z X Z σ u σ α α 2 / 2 / < − < − Sumando X X X Z X Z X σ u σ α α 2 / 2 / + < < − (5.9) Utilizando finalmente el resultado n X σ σ = n Z X n Z X σ u σ α α 2 / 2 / + < < − (5.10) ESTIMACION DE LA DIFIERENCIA ENTRE DOS MEDIAS Para obtener un intervalo de confianza de la verdadera diferencia entre dos medias poblacionales 2 1 u u δ − = se utiliza el estadístico 2 1 X X D − = . Si se considera que 1 X y 2 X son independientes y el tamaño de sus respectivas muestras es grande ( 1 n , 2 n > 30), entonces D se distribuye normalmente, por otra parte su media y desviación típica son respectivamente δ u u u = − = 2 1 D y 2 2 2 1 2 1 n n D σ σ σ + = Considerando que D se distribuye normalmente, el intervalo de confianza se puede obtener utilizado la ecuación (42) simplemente sustituyendo δ u → , D X → y D X σ σ → APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 123 2 2 2 1 2 1 2 / 2 2 2 1 2 1 2 / n n Z D n n Z D σ σ δ σ σ α α + + < < + − (5.11) ESTIMACION DE LA PROPORCION DE LA POBLACION Como se ha mencionado anteriormente la proporción p tiene una distribución binomial, pero cuando se cumple las condiciones de la aproximación normal ( np ≥ 5 y nq ≥ 5) se puede aplicar la ecuación (42) para obtener el intervalo de confianza para la proporción de la población, simplemente realizando los siguientes cambios np → u , p n X ˆ → , y ) ˆ 1 ( ˆ p p n X − → σ donde pˆ es la proporción estimada a partir de una muestra y ) ˆ 1 ( ˆ p p n s − = es la desviación típica estimada de la variable aleatoria X. Entonces X X Z X Z X σ u σ α α 2 / 2 / + < < − ( ) ( ) p p n Z p n p n p p n Z p n ˆ 1 ˆ ˆ ˆ 1 ˆ ˆ 2 / 2 / − + < < − − α α Dividiendo entre n: n p p n Z p p n p p n Z p ) ˆ 1 ( ˆ ) ˆ 1 ( ˆ 2 / 2 / − + < < − − ) ) α α Finalmente n p p Z p p n p p Z p ) ˆ 1 ( ˆ ) ˆ 1 ( ˆ 2 / 2 / − + < < − − ) ) α α (5.12) EJEMPLOS 17. Supóngase que un psicólogo desea realizar una estimación de intervalo de la media verdadera de los C.I. de alumno, de cierto grupo étnico. Se sabe que los C.I. se distribuyen normalmente con desviación típica de 15. Constrúyase un intervalo de confianza del 95% para la media verdadera (u) con base en una muestra de 25 alumnos con una media muestral de 105 SOLUCION Los datos proporcionados por le problema son Desviación típica σ=15, media muestral = X 105, tamaño de la muestra n = 25 y intervalo de confianza 1-α=0.95 A partir del intervalo de confianza α=1-0.95=0.05, entonces α/2=0.025 El área a la izquierda de la distribución normal es A = 1-(α/2)=0.975, buscando en la tabla se obtiene que Z α/2 =1.960 Sustituyendo en la ecuación 43 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 124 n Z X n Z X σ u σ α α 2 / 2 / + ≤ < − 25 15 960 . 1 105 25 15 960 . 1 105 + ≤ ≤ − u 99.12< u <110.88 18. Una compañía fabricante de harina la empaca en bolsas de papel. Se desea estimar el verdadero peso medio de las bolsas. Una muestra de 36 bolsas da media muestral de 24.5 lb. La desviación típica es de 15 lb. Obténgase el intervalo de confianza del 99 % para su verdadero peso medio de las bolsas de harina. SOLUCION Los datos proporcionados por le problema son Desviación típica σ=15, media muestral = X 24.5, tamaño de la muestra n = 36 y intervalo de confianza 1-α=0.99 A partir del intervalo de confianza α=1-0.99=0.01, entonces α/2=0.005 El área a la izquierda de la distribución normal es A = 1-(α/2)=0.995, buscando en la tabla se obtiene que Z α/2 =2.575 Sustituyendo en la ecuación 43 n Z X n Z X σ u σ α α 2 / 2 / + ≤ < − 36 15 575 . 2 5 . 24 36 15 575 . 2 5 . 24 + ≤ ≤ − u 18.0625< u < 30.9375 19. Se seleccionaron aleatóriamente dos grupos de empleados de una fábrica para entrenarlos a fin de que realicen cierta operación. Cada grupo se entrenó empleando un método diferente. El tiempo promedio para que cada grupo realice la operación después del entrenamiento y otros datos importantes se proporcionan a continuación. Método 1 Método 2 n 1 =24 n 2 =36 1 X =45 2 X =55 2 1 σ =200 2 2 σ =276 Determínese el intervalo de confianza del 98% para la verdadera diferencia en la efectividad de los dos métodos de entrenamiento. SOLUCION A partir del intervalo de confianza α=1-0.98=0.02, por lo tanto α/2=0.01 El área a la izquierda de la distribución normal es A = 1-(α/2)=0.99, buscando en la tabla se obtiene que Z α/2 =2.326 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 125 Utilizando los datos proporcionados se calcula D = 1 X - 2 X = 45 - 55= -10 2 2 2 1 2 1 n n D σ σ σ + = = 36 276 24 200 + =4 Sustituyendo en la ecuación 44 2 2 2 1 2 1 2 / 2 2 2 1 2 1 2 / n n Z D n n Z D σ σ δ σ σ α α + + < < + − -10-2.326(4)< δ <-10+2.326(4) -19.304< δ <-0.696 20. Se realiza un experimento para estimar la verdadera diferencia en la duración promedio de dos marcas de baterías para automóviles. Con la siguiente información determínese el intervalo de confianza del 95% para la verdadera diferencia en la duración de las dos marcas de baterías para automóviles. Marca I Marca II Tamaño de la muestra n1 = 36 n2 = 36 Duración promedio (meses) 1 X = 38 2 X = 35 Varianza σ 1 2 = 41 σ 2 2 = 40 SOLUCION El intervalo de confianza es α=1-0.95=0.05, por lo tanto α/2=0.025 El área a la izquierda de la distribución normal es A = 1-(α/2)= 1-0.025 = 0.975, buscando en la tabla se obtiene que Z α/2 = 1.960 Utilizando los datos proporcionados se calcula D = 1 X - 2 X = 38 - 35=3 2 2 2 1 2 1 n n D σ σ σ + = = 36 40 36 41 + = 1.5 Sustituyendo en la ecuación 44 2 2 2 1 2 1 2 / 2 2 2 1 2 1 2 / n n Z D n n Z D σ σ δ σ σ α α + + < < + − r r 3-1.960 (1.5)< δ <3+1.960 (1.5) 0.0.06 < δ < 5.94 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 126 21 Se realizó una investigación de tele audiencia. En una muestra de 900 espectadores, el número de ellos que veían un programa en particular fue de 180. Determínese el intervalo de confianza del 99% para la verdadera proporción de espectadores que ven este programa en particular. SOLUCION Tamaño de la muestra n = 900, número de espectadores que ven el programa X = 180, intervalo de confianza es 1- α = 0.99 Como el tamaño de la muestra es grande se utiliza la aproximación normal a la binomial. A partir del intervalo de confianza α=1- 0.99 =0.01 entonces α/2= 0.005 y él área a la izquierda de la distribución normal es A = 1-0.005 = .995, buscando en la tabla correspondiente se obtiene que Z α/2 = 2.575 La proporción estimada por los datos n X p = ˆ = 900 180 = 0.2 Sustituyendo los datos en la fórmula (45) n p p Z p p n p p Z p ) ˆ 1 ( ˆ ) ˆ 1 ( ˆ 2 / 2 / − + < < − − ) ) α α 900 ) 2 . 0 1 ( 2 . 0 575 . 2 2 . 0 900 ) 2 . 0 1 ( 2 . 0 575 . 2 2 . 0 − + < < − − p 0.1656 < p < 0.2343 22. En una muestra seleccionada aleatóriamente de 64 muchachas universitarias de primer año, 32 de ellas resultan ser casadas. Determínese el intervalo de confianza del 95% para p, verdadera proporción de todas las mujeres universitarias de primer año que están casadas. SOLUCION Tamaño de la muestra n = 64, número de casadas X = 32, intervalo de confianza es 1- α = 0.95 Como el tamaño de la muestra es grande se utiliza la aproximación normal a la binomial. A partir del intervalo de confianza α=1- 0.95 =0.05 entonces α/2= 0.025 y él área a la izquierda de la distribución normal es A = 1 - 0.025 = 0.975, buscando en la tabla correspondiente se obtiene que Z α/2 = 1.960 La proporción estimada por los datos n X p = ˆ = 64 32 = 0.5 Sustituyendo los datos en la fórmula (45) APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 127 n p p Z p p n p p Z p ) ˆ 1 ( ˆ ) ˆ 1 ( ˆ 2 / 2 / − + < < − − ) ) α α 64 ) 5 . 0 1 ( 5 . 0 960 . 1 5 . 0 64 ) 5 . 0 1 ( 5 . 0 960 . 1 5 . 0 − − < < − − p = 0.3775 < p < 0.6225 DISTRIBUCIÓN DE PROBABILIDAD PARA MUESTRAS PEQUEÑAS En los problemas de hipótesis anteriores se supuso conocida la varianza poblacional, situación que en la mayoría de los casos no se tiene. La desviación típica de una población se puede estimar a partir de la desviación típica de una muestral, de tal forma que la razón n s X u − (5.13) Se utiliza como estadístico de prueba. Sin embargo si la muestra es pequeña se tiene que la desviación típica muestra s es bastante distinta a la poblacional σ. Por lo anterior no es posible utilizar la distribución normal para el caso de muestras pequeñas. La solución del problema anterior de la inferencia estadística acerca de un parámetro de la población utilizando muestras pequeñas y desconociendo la varianza poblacional fue resuelto por W. S: Gosset en 1908 al publicar una distribución de probabilidad la cual describe el comportamiento del estadístico dado por la ecuación (5.13), siempre y cuando la muestra sea obtenida a partir de una población con distribución de probabilidad normal. DISTRIBUCION T-STUDENT La distribución t-Student se obtiene a partir de considerar que la muestra pequeña se obtiene a partir de una población con distribución normal, si la hipótesis anterior no se cumple será necesario utilizar los métodos no paramétricos para la prueba de hipótesis. La distribución t-student o simplemente distribución t es al igual que la distribución normal una distribución continua en forma de campana simétrica, cuyo estadístico de prueba es n s X T u − = (5.14) La probabilidad acumulada para la distribución para la distribución t-student es ) ( x T P < < −∞ = ( ) ( ) dt t x 2 1 2 1 2 2 1 1 + − ∞ − ∫ | | . | \ | + Γ | . | \ | + Γ ν ν ν ν νπ (5.15) donde ( ) ∫ ∞ − − = Γ 0 1 dt e t n t n es la llamada función gamma. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 128 Como se puede observar de la distribución t-student tiene una expresión matemática complicada, y al igual que con la distribución normal recurriremos a las tablas respectivas para la solución de los problemas. Por otra parte la distribución t student tiene más variabilidad que la distribución normal ya que depende del número de datos n. Esto es, a diferencia de la distribución normal en la cual el estadístico Z depende de de u y σ que son constantes e independientes del tamaño de la muestra n, en el estadístico T la desviación típica muestral s depende de el tamaño de la muestra n. en consecuencia T es más variable que Z. La variabilidad de la distribución t-student se asocia con el concepto de grados de libertad, es cual es simplemente se define como 1 − = n ν (5.16) Así se tiene que para cada grado de libertad ν se tendría que utilizar una tabla para la distribución t- student, pero en general para las pruebas de hipótesis respetivas solo son necesarios los valores críticos correspondientes a los valores de significación α más utilizados (10%, 5%, 2.5%, 1%, etc) los cuales son reportados en una sola tabla. Por otra parte la distribución T-student converge o se aproxima a la normal cuando el número de datos tiende a infinito. Las siguientes figuras muestran una distribución t student para ν =4 y su comparación con la distribución normal. Figura Gráfica de la función t student con ν =4 Figura Comparación de la distribución t-student con ν = 4 (línea continua) y la distribución normal respectiva (línea discontinua). -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 T STUDENT -4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 129 EJEMPLOS 23. Para una distribución con 10 grados de libertad, obténgase el valor crítico t que corta cada una de las siguientes áreas bajo la curva. a. El 2.5% superior b. El 5% inferior c. El 0.005 superior d. El 0.01 inferior SOLUCION Recurriendo directamente a la tabla correspondiente de la distribución t-student a) Superior = 0.025 T 10, 0.05 = 2.228 b) El 5% inferior T 10, 0.05 = -1.812 c) El 0.005 superior T 10,0.005 = 3.169 d) El 0.01 inferior T 10, 0.01 = -2.764 24. Supóngase que cierta prueba implica un nivel de significación de 0.10 y una muestra de 25 observaciones. Obténgase el valor crítico t bajo cada una de las siguientes condiciones y muéstrese gráficamente cada respuesta. a. Una prueba de una cola con la región de rechazo en el área de la cola superior. b. Una prueba de una cola con la región de rechazo en el área de la cola inferior. c. Una prueba de dos colas. SOLUCION a) Recurriendo a la tabla de la distribución t-student para ν =n-1=25-1=24 y α=0.1 se tiene T 0.1, 24 = 1.318 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 T STUDENT b) El valor para el caso de cola inferior es igual al anterior pero negativo T 24, 0.1 = - 1.318 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 T STUDENT APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 130 c) En el caso de dos colas se tiene que α/2 = 0.1/2=0.05 lo cual corresponde a T 0.1, 24 = 1.711 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 T STUDENT 25. Sea X el salario por hora de cualquier minero seleccionado al azar y considérese que X se distribuye normalmente. Si los valores críticos t fueran 2.624, 2.492 y 2.423 para α = 0.01 con H 1 :u > u 1 , ¿qué tan grande debería ser el tamaño de la muestra para una prueba de una cola? SOLUCION La prueba corresponde a una prueba de cola derecha o superior H o : u=u 1 H 1 : u>u 1 Buscando en la tabla para la t – student, para α=0.01 y los valores de t α se obtienen directamente T α =2.624, entonces v 1 =14 por lo tanto n = v + 1 = 15 T α =2.492, entonces v 2 =24 por lo tanto n = 24 +1=25 T α =2.423, entonces v 3 =40 por lo tanto n = 40 +1=41 PRUEBAS PARA LA MEDIA DE LA POBLACION CON MUESTRAS PEQUEÑAS Cuando la muestra es pequeña la varianza muestral s 2 puede diferir demasiado de la poblacional σ 2 , y no es adecuado ni recomendable utilizar a la puntuación Z como estadístico de prueba, en este caso se debe utilizar a T como estadístico de prueba, esto es para obtener las fórmulas correspondientes a las pruebas de hipótesis y estimación simplemente se puede sustituir a Z por T en las fórmulas correspondientes y utilizar a la distribución t- student en lugar de la normal, siempre y cuando la distribución original de la variable aleatoria X sea normal. Siguiendo la idea anterior, el estadístico de prueba de la media poblacional es dado por la ecuación (5.14) n s X T u − = Para la estimación de un intervalo para la verdadera media población µ, con una confianza 1- α para muestras pequeñas se tiene n s T X n s T X 2 / 2 / α α u + ≤ < − (5.17) APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 131 EJEMPLOS 26. La Federal Food and Drug Administration está realizando una prueba para determinar si una nueva medicina tiene el indeseable efecto lateral de elevar la temperatura del cuerpo. Se entiende que la temperatura del cuerpo humano se distribuye normalmente con una media de 98.6 °F. Se administra la nueva medicina a nueve pacientes, se toman las temperaturas y se obtiene una media muestral de 99°F y una desviación típica de 0.36 °F. ¿Debería permitirse a la compañía poner a la venta la nueva droga si el nivel de significación se especifica en 0.01? SOLUCION La hipótesis nula y alternativa de problema son H o : u = 98.6 H 1 : u > 98.6 El número de datos es n = 9, por lo que los grados de libertad es ν = n - 1 = 8. Para el nivel de significancia α = 0.01 y Tα = T 8 , 0.01 = 2.896 La media muestral y su respectiva desviación típica es X = 99, s = 0.36, entonces n s X T u − = = 9 36 . 0 6 . 98 99 − = 3.333 Como T > T α Se rechaza Ho ya que efectivamente aumenta la temperatura, por lo que no debe salir al mercado 27. Se considera que un proceso de producción está funcionando en forma adecuada cuando la cantidad promedio de café instantáneo que se empaca en un frasco es de 6 oz. Se selecciona una muestra aleatoria de 16 frascos; se determina el promedio muestral como 6.1 oz, con una desviación típica de 0.2 oz. El nivel de significación se especifica en 0.05. Considérese que la cantidad de café en cada frasco tiene una distribución normal. a. ¿Está funcionando adecuadamente el proceso? b. ¿Cuáles son los límites de confianza del 95% para su promedio verdadero en vista de la información muestral? -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 Región de rechazo Región de aceptación α T α =2.896 1 - α T=3.333 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 132 SOLUCION a) Los datos obtenidos del problema son n = 16, u = 6, X = 6.1, s = 0.2 y α = 0.05 El problema se puede plantear como una prueba de dos colas, con las siguientes hipótesis nula y alternativa. H o : u =6 H 1 : u ≠6 Los grados de libertad es ν = n - 1 = 16 -1 =15. Para el nivel de significancia α=0.05 y prueba de dos colas T α/2 = T 15 , 0.025 = 2.131. A partir de la media muestral y su respectiva desviación típica se tiene que n s X T u − = = 16 2 . 0 6 1 . 6 − = 2 Como -T α/2 < T < T α/2 No se rechaza H o , La maquinaria funciona adecuadamente. b) A partir del intervalo de confianza 1-α = 0.95, α =0.05 por lo tanto para dos colas T α/2 =2.131 n s T X n s T X 2 / 2 / α α u + ≤ < − 16 2 . 0 131 . 2 1 . 6 16 2 . 0 131 . 2 1 . 6 + < < − u 5.99345 < u < 6.20655 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 α/2 -T α/2 =-2.131 α/2 T α/2 =2.131 T=2 1 - α Región de rechazo Región de aceptación Región de rechazo APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 133 28. Se considera que el peso promedio de los reclutas del ejército se distribuye normalmente con una media de 160 lb. En una muestra aleatoria de 25 reclutas, la media es 150 lb y la desviación típica es 20 lb. a. Pruébese la hipótesis nula contra la hipótesis alternativa de que el peso promedio de los reclutas más recientes del ejército es diferente de 160 lb para α = 0.02. b. Obténgase el intervalo de confianza del 98% para la media verdadera. SOLUCION a) Para este problema n = 25, u = 160, X = 150, s = 20 y α = 0.02 El problema plantea una prueba de dos colas, con las siguientes hipótesis nula y alternativa. H o : u =160 H 1 : u ≠160 Los grados de libertad es ν = n - 1 = 25 -1 =24. Para el nivel de significancia α=0.02 y prueba de dos colas T α/2 = T 0.01 , 24 = 2.492. Utilizando los valores de la media muestral y su respectiva desviación típica se tiene n s X T u − = = 25 20 160 150 − = -2.5 Como T < -T α/2 , se rechaza Ho, el peso de los reclutas es diferente. b) A partir del intervalo de confianza 1-α = 0.98, α =0.02 por lo tanto para dos colas T α/2 = 2.492 n s T X n s T X 2 / 2 / α α u + ≤ < − 25 20 492 . 2 150 25 20 492 . 2 150 + < < − u 140.032 < u < 159.986 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 α/2 -T α/2 =-2.492 α/2 T α/2 =2.492 T = -2.5 1 - α Región de rechazo Región de aceptación Región de rechazo APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 134 29. Supóngase que en una línea aérea se desea determinar si el peso promedio de las maletas llevadas por los pasajeros entre Los Angeles y New York es de más de 40 lb. Se selecciona aleatóriamente una muestra de 16 pasajeros y se obtiene una media de 42 lb y una desviación típica de 4 lb. ¿Puede llegarse a la conclusión de que el peso promedio es de más de 40 lb con α = 0.01, considerando que los pesos de las maletas se distribuyen normalmente? a) Los datos obtenidos del problema son n = 16, u = 6, X = 42, s = 4 y α = 0.01 El problema se puede plantear como una prueba una cola derecha, con las siguientes hipótesis nula y alternativa. H o : u=40 H 1 : u>40 Los grados de libertad es ν = n - 1 = 16 -1 =15. Para el nivel de significancia α=0.01 y prueba una cola T α = T 15 , 0.01 = 2.602. La media muestral y su respectiva desviación típica es X = 42, s = 4, entonces n s X T u − = = 16 4 40 42 − = 2 Como T < T α No se rechaza H o . PRUEBA PARA LA DIFERENCIA ENTRE DOS MEDIAS PARA MUESTRAS PEQUEÑAS. Cuando los patrones de distribución de las poblaciones se distribuyen normalmente o de manera casi normal, y se tiene que las muestras son pequeñas (n<30), se utiliza la prueba t de la distribución t- student para tomar las decisiones. Pero el proceso es diferente para muestras que se consideren independientes y/o dependientes. -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 Región de rechazo Región de aceptación α T α =2.602 1 - α T=2 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 135 En el caso de muestras independientes de tal manera que ninguna se relacione con la otra, se deberá hacer la consideración adicional de que las muestras provienen de poblaciones con idéntica desviación típica con el fin de facilitar el procedimiento, esto es, σ 1 =σ 2 . Como se mencionó anteriormente la varianza de la diferencia muestral D = 1 X - 2 X es 2 2 2 1 1 2 n n D σ σ σ + = considerando que σ 1 =σ 2 = σ se transforma en | | . | \ | + = 2 1 2 2 1 1 n n D σ σ La mejor estimación que se puede hacer de 2 D σ es 2 D S y el mejor estadístico para estimar 2 σ es 2 s , por lo tanto la expresión anterior se transforma en | | . | \ | + = 2 1 2 2 1 1 n n s s D La mejor estimación de 2 s se puede obtener al considerar que se mezclan los datos de ambas muestras, en tal caso se obtiene que ( ) ( ) 2 1 1 2 1 2 2 2 2 1 1 2 − + − + − = n n s n s n s por lo que el error típico de la diferencia entre dos medias para muestras pequeñas es | | . | \ | + | | . | \ | − + − + − = 2 1 2 1 2 2 2 2 1 1 1 1 ) 2 ( ) 1 ( ) 1 ( n n n n s n s n s D (5.18) La hipótesis nula para la prueba de la diferencia de medias denotada por δ es H 0: δ =0 ó u 1 = u 2 Para la hipótesis alternativa puede tomar cualquiera de las siguientes posibilidades H 1 : δ<0 Cola izquierda u 1 < u 2 δ >0 Cola derecha u 1 > u 2 δ ≠0 Dos colas u 1 ≠ u 2 El estadístico de prueba es ( ) D X X T σ u u ) ( 2 1 2 1 − − − = (5.19) APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 136 Recordando la hipótesis nula u 1 = u 2 y la definición de D σ dada por la ecuación (5.18) | | . | \ | + | | . | \ | − + − + − − = 2 1 2 1 2 2 2 2 1 1 2 1 1 1 ) 2 ( ) 1 ( ) 1 ( n n n n s n s n X X T (5.20) El valor crítico T α se determina a partir de el nivel α de significancia, los grados de libertad ν = n 1 + n 2 – 2 Y buscando en la tabla de la distribución t-student, se realiza la comparación con T y se concluye si se acepta o rechaza la hipótesis nula H 0 . INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS PARA MUESTRAS PEQUEÑAS El respectivo intervalo de confianza 1- α. para el caso de la diferencia de medias en muestras pequeñas independientes se puede determinar como D D s T D s T D 2 / 2 / α α δ + ≤ < − o utilizando la expresión (48) | | . | \ | + | | . | \ | − + − + − + < < | | . | \ | + | | . | \ | − + − + − − 2 1 2 1 2 2 2 2 1 2 2 / 2 1 2 1 2 2 2 2 1 1 2 / 1 1 ) 2 ( ) 1 ( ) 1 ( 1 1 ) 2 ( ) 1 ( ) 1 ( n n n n s n s n T D n n n n s n s n T D α α δ (5.21) EJEMPLOS 30. Se prueban dos motores distintos de automóvil para determinar si presentan diferencias en cuanto a control de contaminación. En una prueba de 16 días del Motor I, las medidas indican un índice promedio de contaminación de 60 y una desviación típica (s 1 ) de 9; en una prueba de 16 días del Motor II, las mediciones indican un índice promedio de contaminación de 55 y una desviación típica (s 2 ) de 9. Se cree que las mediciones tienen una distribución normal y varianza idéntica, y que las dos muestras son independientes. ¿Existe suficiente evidencia de que el Motor I y el Motor II tienen distinto control de contaminación para α = 0.05? SOLUCION Los respectivos datos del problema son Tamaño de muestra 1 n 1 = 36 Tamaño de muestra 2 n 2 =36 Promedio 1 1 X =60, promedio 2 2 X =55 Desviación típica 1 s 1 =9 Desviación típica 2 s 2 =9 nivel de significancia α=0.05 Los grados de libertad para el estadístico de prueba son ν =n 1 + n 2 -2=16+16-2=30 La hipótesis nula y alternativa del problema son respectivamente H o : u 1 =u 2 H 1 : u 1 ≠u 2 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 137 Para el nivel de significancia α=0.05 y los grados de libertad ν =30 y una prueba de dos colas T α/2 =2.042 Sustituyendo los datos en la ecuación | | . | \ | + | | . | \ | − + − + − − = 2 1 2 1 2 2 2 2 1 1 2 1 1 1 ) 2 ( ) 1 ( ) 1 ( n n n n s n s n X X T | . | \ | + − + − + − − = 16 1 16 1 ) 2 16 16 ( 9 ) 16 ( 9 ) 1 16 ( 55 60 2 2 T =1.5713 Como T α/2 < T <T α/2 , no se rechaza H 0 . 31. Se desea determinar si los promedios de puntos de calificación (PPC) son diferentes para niños y niñas. Se considera que el PPC se distribuye normalmente con varianza idéntica para ambos sexos. Dos muestras independientes de cinco estudiantes cada una proporcionan lo siguiente: PPC para niños: 2.9 3.1 2.7 3.3 3.0 PPC para niñas: 3.6 2.8 3.6 3.2 2.8 a. Utilizando α = 0.05, pruébese la hipótesis de que el PPC medio para niños es el mismo que el PPC medio para niñas, contra la hipótesis alternativa de que las dos medias son diferentes. b. Obténganse los límites de confianza del 95% para la verdadera diferencia entre las dos medias poblaciones. SOLUCION. a) Para la solución de problema primero es necesario calcular la media y la desviación típica insesgada para cada uno de los datos dados. Para los niños la media y la varianza son 1 X = 5 0 . 3 3 . 3 7 . 2 1 . 3 9 . 2 + + + + = 3 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 α/2 -T α/2 =-2.042 α/2 T α/2 =2.042 T = 1.5713 1 - α Región de rechazo Región de aceptación Región de rechazo APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 138 2 1 s = ( ) ( ) ( ) ( ) ( ) 1 5 3 3 3 3 . 3 3 7 . 2 3 1 . 3 3 9 . 2 2 2 2 2 2 − − + − + − + − + − = 0.05 para las niñas 2 X = 5 8 . 2 2 . 3 6 . 3 8 . 2 6 . 3 + + + + = 3.2 2 2 s = ( ) ( ) ( ) ( ) ( ) 1 5 2 . 3 8 . 2 2 . 3 2 . 3 2 . 3 6 . 3 2 . 3 8 . 2 2 . 3 6 . 3 2 2 2 2 2 − − + − + − + − + − = 0.16 Los grados de libertad para el estadístico de prueba son ν =n 1 + n 2 -2=5+5-2=8 La hipótesis nula y alternativa del problema son respectivamente H o : u 1 =u 2 H 1 : u 1 ≠u 2 Para el nivel de significancia α=0.05 y los grados de libertad ν =8 y una prueba de dos colas T α/2 = 2.306 Sustituyendo los datos en la ecuación | | . | \ | + | | . | \ | − + − + − − = 2 1 2 1 2 2 2 2 1 1 2 1 1 1 ) 2 ( ) 1 ( ) 1 ( n n n n s n s n X X T ( ) ( ) | . | \ | + − + − + − − = 5 1 5 1 ) 2 5 5 ( ) 4 . 0 ( 1 5 ) 05 . 0 ( 1 5 2 . 3 3 T = 2049 . 0 2 . 0 − = -0.9760 Como T α/2 < T <T α/2 , no se rechaza H 0 . b) Para el nivel de significancia 1- α = 0.95 y una prueba de dos colas con α = 0.05 y ν =8, se tiene que T α/2 = 2.306 Conviene primero conviene evaluar D s = ( ) ( ) | . | \ | + − + − + − 5 1 5 1 ) 2 5 5 ( ) 16 . 0 ( 1 5 ) 05 . 0 ( 1 5 = 0.2049 Finalmente evaluado la expresión σ δ σ α α T D T D + < < − r -0.2 - (2.306)( 0.2049)<δ<-0.2 + (2.306)( 0.2049) =-0.67273<δ<0.27273 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 α/2 -T α/2 =-2.306 α/2 T α/2 = 2.306 T = 0.6666 1 - α Región de rechazo Región de aceptación Región de rechazo APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 139 32. Supóngase que se desea determinar si una dieta completada con una hormona de crecimiento puede aumentar significativamente la ganancia en peso de los cerditos. Con este fin, se seleccionan aleatóriamente dos grupos independientes de cerditos. A un grupo se le alimenta con la dieta acostumbrada y al otro con una dieta con la hormona de crecimiento. Las ganancias de peso para los dos grupos se registran un mes después de que se han estado utilizando las dietas respectivas. a continuación se muestran los datos de importancia. Grupo 1 Grupo 11 (Dieta acostumbrada) (Dieta con hormonas) Tamaño de la muestra n1 = 21 n2 = 21 Media muestral (en libras) 1 X = 16 2 X = 19 Varianza s 1 2 = 35 s 2 2 = 45 ¿Es posible que la dieta completada con una hormona de crecimiento aumente la ganancia en peso de los cerditos para α = 0.05? (Considérese que las ganancias en peso se distribuyen normalmente.) SOLUCION Las hipótesis respectivas del problema son: H o : u 1 =u 2 H 1 : u 2> u 1 El número de grados de libertad es ν =n 1 + n 2 -2=21 + 21-2 =40 Para el nivel de significancia α = 0.05 y ν = 40 y una prueba de cola izquierda T ν.α =-1.684 | | . | \ | + | | . | \ | − + − + − = 2 1 2 1 2 2 2 2 1 1 1 1 2 ) 1 ( ) 1 ( n n n n s n s n s D | . | \ | + | . | \ | − + − + − = 21 1 21 1 2 21 21 45 ) 1 21 ( 35 ) 1 21 ( D s = | . | \ | | . | \ | + 21 2 40 900 700 = 9518 . 1 El estadístico de prueba es D s X X T 2 1 − = = 9518 . 1 19 16 − =-1.5370 Puesto que T < T α no se rechaza H o -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 Región de rechazo Región de aceptación α T α =1.684 1 - α T=-1.5370 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 140 APROXIMACIÓN NORMAL A LA DISTRIBUCIÓN T-STUEDENT En general en la mayoría de los casos no se conoce la desviación típica de la población. Una forma de solventar esta carencia es observar que la distribución t-student tiende a la distribución normal cuando n es grande, la aproximación se puede aplicar a partir de que n ≥ 30, La aproximación se realiza simplemente sustituyendo en los estadísticos de prueba de las pruebas de hipótesis la desviación típica o desviaciones típicas por sus correspondientes desviaciones típicas muestrales. Para la prueba de una media n s X Z / u − = Y para la de la diferencia de medias 2 2 2 1 2 1 2 1 n s n s X X Z + − = EJEMPLOS 33. Sea Y una variable aleatoria que se sabe tiene una media de 500. Una muestra aleatoria de 900 observaciones para Y proporciona una media Y = 550 y una varianza s 2 = 562 500. a. Pruébese la hipótesis de que la media de Y permanece siendo 500 contra la hipótesis alternativa de que es diferente de 500 con α = 0.01. b. Determínese el intervalo de confianza del 99% para la verdadera media. SOLUCION a) Los datos que se tienen del problema son Media poblacional u=500, número de datos n = 900, media muestral X =550, varianza muestral s 2 = 562500 y nivel de significancia α=0.01 La hipótesis nula y alternativa es H o : u=500 H 1 : u≠500 Para la prueba de dos colas con α=0.01se tiene que α/2=0.005 y A =1-α/2= 0.995 lo que corresponde de acuerdo a la tabla respectiva de la distribución normal Z α/2 = 2.575 El estadístico de prueba es n s X Z / u − = = 900 / 750 500 550 − =2 Puesto que -Z α/2 < Z < Z α/2 No se rechaza H 0 . b) A partir del intervalo de confianza solicitado 1-α = 0.99, se tiene que, α = 0.01, y α/2 = 0.005 por lo que A =1-α/2= 0.995 lo que corresponde Z α/2 = 2.575 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 141 Utilizando la expresión siguiente n s X X n s Z X 2 / 2 / α α u + < < − 900 750 575 . 2 550 900 750 575 . 2 550 + < < − u 485.625< u<614.375 34. Un productor de azúcar la empaca en bolsas de papel, cada una de las cuales debe contener 10 lb ó 160 oz. Algunos clientes se han quejado de que las bolsas contienen solamente 9.5 lb ó 152 oz. Se realiza una prueba para determinar si la queja es razonable. Una muestra aleatoria de 49 bolsas proporciona una media de 156 oz y una desviación típica (s) de 10.5 oz. ¿Deberá rechazarse la hipótesis nula de que el peso promedio es de 160 oz en oposición a la hipótesis alternativa a de que es de 152 oz para α = 0.01? SOLUCION Los datos que se tienen del problema son los siguientes Media poblacional u=160, número de datos n = 49, media muestral X =156, varianza muestral s 2 = 10.5 y nivel de significancia α=0.01 La hipótesis nula y alternativa es H o : u=160 H 1 : u<160 La prueba es de cola izquierda, para α=0.01 se tiene que A =1-α = 0.99, por lo que Z α = -2.326 El estadístico de prueba es n s X Z / u − = = 49 / 5 . 10 160 156 − = -2.666 Puesto que Z < Z α se rechaza H 0 . 35. Un nutriólogo desea comparar la efectividad de dos dietas para reducir de peso. Los siguientes datos se obtienen a partir de dos muestras independientes. Con α = 0.10, ¿existe suficiente evidencia de que la Dicta I produce una pérdida menor de peso que la Dieta II? Dieta I Dieta II Tamaño de la muestra n 1 =40 n 2 =60 Pérdida promedio de peso en libras 1 X =9 2 X =11 Varianza muestral s 1 2 =20 s 2 2 =30 SOLUCION La hipótesis nula y alternativa del problema son H o : u=u H 1 : u 1< u 2 Correspondiendo a una prueba de una cola izquierda APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 142 Para el nivel de significancia α=0.10, se tiene que A = 1--α=0.90 por lo que Z α =- 1.282 El estadístico de prueba es en este caso 2 2 2 1 2 1 2 1 n s n s X X Z + − = = 60 30 40 20 11 9 + − = 1 11 9 − = -2 Puesto que Z < Z α se rechaza H o , la dieta I produce una perdida de peso que la dieta II DISTRIBUCION χ 2 (chi cuadrada) La distribución χ 2 (chi cuadrada) también es conocida como Ji – cuadrada y surge como distribución reprobabilidad de la variable aleatoria 2 2 2 ) 1 ( σ s n − = Χ la cual es utilizada como estadístico de prueba para algunas pruebas de hipótesis, por ejemplo para la prueba de una sola varianza de la población. La probabilidad acumulada para la distribución χ 2 es ) 0 ( 2 x P < Χ < = ( ) ( ) dt e t x t ∫ − − Γ 0 2 / 2 2 2 / 2 2 1 ν ν ν (5.22) De manera semejante a la distribución t-student, la distribución χ 2 depende solamente de un parámetro, que es el número de grados de libertad (ν =n-1), La gráfica de χ 2 para algunos grados de libertad es mostrada a continuación, Figura. Gráfica de algunas funciones χ 2 con ν =1, ν =5, ν =10 y ν =15 0 5 10 15 20 25 30 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Función χ 2 ν =1 ν =5 ν =10 ν =15 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 143 Observándose que la distribución no tiene simetría para valores pequeños de ν. tendiendo a la simetría respecto a una recta perpendicular que pasa pos su valor máximo para valores grandes de ν. además, el valor de χ 2 nunca es negativo pudiendo tomar solamente valores positivos o cero. Al igual que para las anteriores distribuciones existen tablas de probabilidad acumulada para los valores de significación α más utilizados en la práctica que permiten localizar los valores críticos de χ 2 denotados en ocasiones como α ν χ , 2 . el primer subíndice índica los grados de libertad y el segundo la significancia, como la distribución no tiene valores negativos los valores de para una prueba de cola izquierda es totalmente diferente que el requerido de cola derecha, por ejemplo, para una distribución chi cuadrado con χ 2 grados de libertad para una significancia α = 0.05 de cola izquierda se localiza en la tabla respectiva el valor de ν =10 y α = 0.95, esto es debido a que el área bajo la curva reportada en la tabla para la distribución chi cuadrada se calcula de manera inversa a la reportada en las anteriores distribuciones de probabilidad, obteniéndose un valor crítico 95 . 0 , 10 2 χ =3.9403 y correspondiente valor para una significancia α = 0.95 de cola derecha se localiza directamente 05 . 0 , 10 2 χ =18.307. La figura siguiente muestra los valores críticos anteriores para la distribución chi cuadrada con ν =10. Figura. Representación gráfica de los valores críticos para la distribución chi cuadrada para ν =10 y α = 0.95, para una prueba de cola izquierda y cola derecha. PRUEBA PARA UNA SOLA VARIANZA Esta prueba permite comparar la varianza de una población que tiene una distribución normal, con tales condiciones se puede mostrar que el estadístico 2 2 2 ) 1 ( σ s n − = Χ (5.23) tiene una distribución χ 2 con ν = n-1 grados de libertad. En la prueba de la varianza se considera que σ 2 y n son constantes para cada problema particular, por lo que la distribución de s 2 de acuerdo a la ecuación (53) tiene una distribución Χ 2 . Por lo tanto se puede utilizar la expresión (53) como el estadístico de prueba para realizar la prueba de hipótesis para una sola varianza poblacional. Como en todos los casos de prueba de hipótesis la hipótesis nula se define como 0 5 10 15 20 25 30 35 40 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 95 . 0 , 10 2 χ =3.9403 05 . 0 , 10 2 χ =18.307 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 144 H o : σ 2 = σ o 2 Y las correspondientes hipótesis alternativas H 1 : σ 2 > σ o 2 σ 2 ≠ σ o 2 σ 2 < σ o 2 Dependiendo de la elección del la hipótesis alternativa y el nivel de significancia α se tomará la decisión, por ejemplo, si H 1 : σ 2 >σ o 2 , la hipótesis nula se rechazará solamente cuando Χ 2 > χ 2 ν. α . DETERMINACION DEL INTERVALO DE CONFIANZA PARA LA VERDADERA VARIANZA POBLACIONAL Para obtener el respectivo intervalo de confianza 1- α. para la varianza poblacional se procede como en los casos anteriores utilizando el estadístico de prueba y los respectivos valores críticos χ 2 α/2 inf y χ 2 α/2 sup . Esto es ( ) sup 2 / , 2 2 2 inf 2 / , 2 1 α ν α ν χ σ χ < − < s n Invirtiendo la desigualdad ( ) sup 2 / , 2 2 2 inf 2 / , 2 1 1 1 α ν α ν χ σ χ > − > s n Multiplicando por ( ) 2 1 s n − ( ) ( ) sup 2 / , 2 2 2 inf 2 / , 2 2 1 1 α ν α ν χ σ χ s n s n − > > − Finalmente ( ) ( ) inf 2 / , 2 2 2 sup 2 / , 2 2 1 1 α ν α ν χ σ χ s n s n − < < − (5.24) EJEMPLOS 36. Dada una distribución χ 2 con 20 grados de libertad, obténgase el valor χ 2 que corta cada una de las siguientes áreas bajo la curva. a) 2.5 superior b) 10% superior c) 90% superior d) 5% interior e) 1% interior SOLUCION Buscando en la tabla ν = 20 y los correspondientes puntos porcentuales o noveles de significación APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 145 a) χ 2 10. 0.025 .=34.1696 b) χ 2 10. 0.10 .=28.4120 c) χ 2 10. 0.90 .=12.4426 d) χ 2 10. 0.95 .10.8508 se busca el 0.95 ya que el área a la izquierda es 0.05. e) χ 2 10. 0.99 . 8.2604 procediendo como en el inciso anterior el área a la izquierda es 0.99 37. Obténganse los puntos porcentuales bajo la cola superior de la distribución con 16 grados de libertad, que estén cortados por los siguientes valores chi cuadrada a. 23.5418 b. 26.2962 c. 31.9999 SOLUCION Buscando en la tabla de la χ 2 y en el número de grados de libertad ν =16 los respectivos valores de área se tiene directamente que a) 23.5418 → 0.10 → 10% b) 26.2962 → 0.05 → 5% c) 31.999 → 0.01 → 1% 38. En una muestra de 10 observaciones tornadas a partir, de una población normal, se encuentra que la varianza s 2 es 15. ¿Cuáles son los límites de confianza del 90% para la varianza de la población? SOLUCION Los datos proporcionados en el problema son Varianza muestral s 2 =15 número de datos n = 10 1 - α= 0.9 A partir de los datos e tiene que el número de grados de libertad es ν =10 - 1 = 9 Del intervalo de confianza 1 - α= 0.9, el área a la derecha α/2=0.05, y para el área a la izquierda de la distribución chi -cuadrado 1-0.05 = 0.95, buscando estos valores en la tabla correspondiente para ν =10 se tiene χ 2 α/2 inf = 3.32511 χ 2 α/2 sup = 16.9190 Sustituyendo en la ecuación (54) ( ) ( ) ( ) ( ) 9190 . 16 15 1 10 32511 . 3 15 1 10 2 − < < − σ 39. Cuando un proceso de producción está funcionando adecuadamente, la varianza de las partes producidas es cuatro. Las medidas de las partes se distribuyen normalmente. Se sugiere que el proceso de producción en la actualidad se encuentra fuera de control. Se selecciona aleatóriamente una muestra de nueve partes producidas y se obtienen las siguientes medidas. 9 10 12 13 12 8 6 11 9 a. Obténgase la varianza s 2 b. Pruébese la hipótesis de que el proceso de producción sigue funcionando adecuadamente, con α = 0.10. c. Establézcase el intervalo de confianza del 90% para la verdadera varianza (s 2 , con base en la información muestral. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 146 SOLUCION a) se puede determinar la varianza muestral insesgada a partir de la ecuación ( ) 1 2 2 2 − − = ∑ ∑ n n x x s i i total x 9 10 12 13 12 8 6 11 9 ∑ i x = 90 x 2 81 100 144 169 144 64 36 121 81 ∑ 2 i x =940 sustituyendo ( ) 1 9 9 90 940 2 2 − − = s = 5 El número de muestras es n = 9, por lo tanto el numero de grados de libertad es ν =9 - 1 = 8 b) La varianza poblacional es σ 2 = 4 y el número total de datos es n = 9, entonces los grados de libertad son ν =9-1=8 Debido a que el proceso no funciona adecuadamente si la varianza es muy grande a pequeña, la prueba de hipótesis es de dos colas, con las hipótesis nula y alternativa H o: σ 2 =4 H i: σ 2 ≠4 Para el nivel de significancia α=0.10 se tiene para el área a la derecha α/2=0.05 y el área a la izquierda 1- α/2=1- 0.05 = 0.95, por lo que los valores críticos correspondientes para estos valores con ν = 8, son χ 2 8.9.5 inf = 2.73264 χ 2 8.0.5 sup = 15.5073 Evaluando el estadístico de prueba ( )( ) 4 5 1 9 ) 1 ( 2 2 2 − = − = Χ σ s n = 10 puesto que 15.5073, no se rechaza H 0 , el sistema funciona adecuadamente. 0 5 10 15 20 25 30 35 40 0 0.02 0.04 0.06 0.08 0.1 0.12 α/2 χ 2 8, 0.95 =2.73264 α/2 χ 2 8, 0.05 =15.5073 1 - α Región de rechazo Región de aceptación Región de rechazo Χ 2 =10 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 147 c) Evaluando la ecuación ( ) ( ) inf 2 / , 2 2 2 sup 2 / , 2 2 1 1 α ν α ν χ σ χ s n s n − < < − ( ) ( ) ( ) ( ) 5073 . 15 5 1 9 73264 . 2 5 1 9 2 − < < − σ 2.5794<σ2<14.6378 40. Se sugiere que después de firmar un contrato laboral, la producción por hora de los trabajadores mostrará una variación mayor que antes de firmar el contrato. Se sabe que la varianza de las producciones por hora antes del contrato laboral era de σ 2 = 80. Considérese que las producciones por hora se distribuyen normalmente. Se selecciona una muestra aleatoria de 30 trabajadores y se obtienen sus producciones por hora después de la firma del contrato. Se encuentra que la varianza de la muestra es 90 (s 2 = 90). ¿Debe llegarse a la conclusión de que la dispersión de las producciones por hora ha aumentado significativamente, con α = 0.05? SOLUCION La varianza poblacional es σ 2 = 80, la varianza muestral es s 2 = 90, el tamaño de muestra es 30 y el nivel de significancia es α = 0.05, entonces los grados de libertad son ν =30 - 1 = 29. Las hipótesis de la prueba son H o: σ 2 = 80 H i: σ 2 > 80 Situación correspondiente a una de cola derecha. Para estas condiciones el valor crítico es χ 2 29, 0.05 = 42.5570 y en valor del estadístico de prueba ( )( ) 80 90 1 30 ) 1 ( 2 2 2 − = − = Χ σ s n = 32.6250 Como Χ 2 = 32.6250 < 32.6250 no se rechaza H 0 . 0 10 20 30 40 50 60 0 0.01 0.02 0.03 0.04 0.05 0.06 Región de rechazo Región de aceptación α χ 2 8, 0.05 =42.5570 1 - α Χ 2 =32.6250 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 148 PRUEBA DE BONDAD DE AJUSTE Mediante esta prueba se puede verificar si los datos obtenidos de un experimento particular siguen alguna distribución particular, por ejemplo, una distribución uniforme, distribución binomial, distribución normal, etc. La prueba necesita la clasificación de los datos muestrales en una tabla de distribución de frecuencia denominada frecuencias observadas y esta se compara con las frecuencias esperadas obtenidas utilizando alguna distribución elegida, las frecuencias observadas se denotan por la letra O y las correspondientes esperadas con la letra E tal como se muestra a continuación. El estadístico de prueba Χ 2 está definido como ( ) ∑ = − = Χ J k k k k E E O 1 2 2 (5.25) Donde la sumatoria se lleva a cabo sobre todas las frecuencias ó clases (J) en que han sido dividido los datos. Cuando el tamaño de la muestra es grande de tal manera que ninguna frecuencia esperada es menor a 5, Χ 2 se distribuye aproximadamente siguiendo un distribución chi cuadrada con ν = J – 1, grados de libertad. Por la definición dada al estadístico de prueba en la ecuación (55), la prueba de hipótesis es de una cola derecha, que indica que el ajuste o comparación con la distribución esperada es bueno si la diferencia entre los valores observados son muy parecidos a los esperados dando por resultado un valor de Χ 2 pequeño, pero cuando el valor de Χ 2 es más grande que un valor especificado (valor crítico χ 2 ν. α ), la hipótesis nula se rechaza indicando que no existe suficiente evidencia para decir que los datos propuestos tienen la distribución propuesta. EJEMPLOS 41. Se supone que una tabla de dígitos aleatorios es no sesgada; esto es, cada uno de los 10 dígitos debe tener la misma probabilidad de aparecer. Para probar si éste es o no en realidad el caso, se selecciona una muestra de 100 dígitos y se obtienen los siguientes resultados. Dígito: 0 1 2 3 4 5 6 7 8 9 Total Número de veces: que aparece 8 11 10 14 7 12 6 9 13 10 100 ¿Debería rechazarse la hipótesis de que los dígitos de la tabla están arreglados aleatóriamente, con α = 0.05? SOLUCION El número de clases es J = 10, por lo tanto, los grados de libertad son ν = J – 1 = 10 -9 = 9. Para el nivel de significancia α = 0.05 y 9 grados de libertad el valor crítico es χ 2 v,α = χ 2 9, 0.05 =16.9190 Considerando la distribución uniforme, se tiene que el valor esperado correspondiente es Dígito: 0 1 2 3 4 5 6 7 8 9 Total Frecuencia esperada 10 10 10 10 10 10 10 10 10 10 100 I E 1 E 2 E 3 E J II O 1 O 2 O 3 O J APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 149 A partir de las tablas anteriores se calcula el estadístico de prueba ( ) ∑ = − = Χ J k k k k E E O 1 2 2 =(8-2) 2 /10+(11-10) 2 /10+(10-10) 2 /10+(14-10) 2 /10+(7-10) 2 /10+(8-10) 2 /10+ + (6-10) 2 /10+(9-10) 2 /10+(13-10) 2 /10+(10-10) 2 /10=6 Como 6 < 16.9190 no se rechaza H o , La distribución si es uniforme. 42. Se arrojan simultáneamente cuatro monedas balanceadas 160 veces. A continuación se muestran los resultados. Número de caras: 0 1 2 3 4 Total Frecuencia observada: 16 35 55 48 6 160 Con α = 0.05, pruébese la hipótesis nula de que las cuatro monedas están todas bien balanceadas y fueron arrojadas aleatóriamente. SOLUCION La distribución de probabilidad para el experimento de arrojar cuatro monedas balaceadas se muestra a continuación x 0 1 2 3 4 f(x) : 1/16 4/16 6/16 4/16 1/16 Por lo que el las frecuencias esperadas para el experimento Número de caras: 0 1 2 3 4 Total Frecuencia esperada: 10 40 60 40 10 160 El número de clases es J = 5, por o que ν = J – 1 = 4, el valor crítico es para el nivel de significancia α = 0.05 es χ 2 v,α = χ 2 4, 0.05 =9.48773. 0 5 10 15 20 25 30 0 0.02 0.04 0.06 0.08 0.1 0.12 Región de rechazo Región de aceptación α χ 2 9, 0.05 =16.9190 1 - α Χ 2 =6 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 150 El estadístico de prueba es ( ) ∑ = − = Χ J k k k k E E O 1 2 2 = ( ) ( ) ( ) ( ) ( ) 10 10 6 40 40 48 60 60 55 40 40 35 10 10 16 2 2 2 2 2 − + − + − + − + − = 7.8417 Como 7.8417 < 9.48773 no se rechaza H o , las monedas se encuentran bien balanceadas. 43. En un experimento con chícharos, un biólogo observa 186 plantas altas y coloridas, 66 altas y sin color, 54 bajas y coloridas, y 14 bajas y sin color. De acuerdo a la teoría de la herencia de Mendel, sería de esperarse que las diferentes categorías tuvieran las siguientes proporciones: 9:3:3:1. ¿Existe suficiente evidencia para apoyar la teoría de Mendel, al nivel de significación del 0.01? SOLUCION La información de la frecuencia observada del experimento se resume en la siguiente tabla Las proporciones del problema son 9:3:3:1, lo cual se puede traducir en términos de la probabilidad en 9x + 3x + 3x +x = 1, de donde x = 1/16, por lo que las frecuencias esperadas son 9/16x320=180 3/16x320=60 3/16x320=60 1/16x320 El número de clases es J = 4, por o que ν = J – 1 = 3, el valor crítico es para el nivel de significancia α = 0.01 es χ 2 v,α = χ 2 3, 0.01 =11.3449. Clases Altas y color Altas sin color Bajas con color Bajas sin color Total Frecuencia observada 186 66 54 14 320 Clases Altas y color Altas sin color Bajas con color Bajas sin color Total Frecuencia esperada 180 60 60 20 320 0 2 4 6 8 10 12 14 16 18 20 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 Región de rechazo Región de aceptación α χ 2 9, 0.05 =9.48773 1 - α Χ 2 =7.8417 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 151 El estadístico de prueba es ( ) ∑ = − = Χ J k k k k E E O 1 2 2 = ( ) ( ) ( ) ( ) 20 20 14 60 60 54 60 60 66 180 180 186 2 2 2 2 − + − + − + − = 3.2 Como 3.2 < 11.3449.no se rechaza H o el experimento cumple las leyes de Mendel. PRUEBA DE INDEPENDENCIA Otro tipo de prueba donde se puede aplicar la distribución chi cuadrado en la prueba de independencia donde se toma la decisión acerca de si una variable es independiente de la otra de otra variable. La hipótesis nula se establece suponiendo que son independientes. Los datos se acomodan en una tabla llamada tabla de contingencia, en la cual existe N clases o categorías de renglón y M clases o categorías de columna. Al final de cada una de las filas o columnas se escriben los totales marginales de fila R j o columna C k . La intersección de cada columna y fila da una celda C jk que es la frecuencia observada. A continuación se muestra una tabla de contingencia general. El estadístico de prueba es una generalización del utilizado el la prueba de bondad de ajuste, por lo que es necesario calcular primero los valores esperados E jk , los cuales se pueden obtener a partir de los C 11 C 12 --- C 1k --- --- C 1M C 21 C 22 --- C 2k --- --- C 2M R 1 C 31 --- --- --- --- --- --- R 2 --- --- --- --- --- --- --- --- C j1 C j2 C jk C jM R j --- --- --- --- --- --- --- --- C N1 C N2 --- C Nk --- C NM R N C 1 C 2 --- C i --- C k C M 0 2 4 6 8 10 12 14 16 18 20 0 0.05 0.1 0.15 0.2 0.25 Región de rechazo Región de aceptación α χ 2 3, 0.01 =11.3449 1 - α Χ 2 =3.2 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 152 totales marginales de fila R j , los totales marginales de columna C k y el número total de datos n, mediante la siguiente ecuación. n C R E k j jk ⋅ = (5.26) El estadístico de prueba para probar la independencia de dos variables es: ∑∑ = = − = Χ N j M k jk jk jk E E C 1 1 2 2 ) ( (5.27) La cual tiene una distribución chi cuadrado con ν = (N – 1)(M - 1) número de grados de libertad. La prueba es una prueba de cola derecha, y se rechazará la hipótesis nula H 0 si el valor del estadístico de prueba es lo suficientemente grande para superar el valor crítico establecido a partir de la significancia α y de el número de grados de libertad ν. El rechazo de la hipótesis nula implicará que las variables son dependientes, en caso contrario serán independientes. EJEMPLOS 44. Supóngase que la siguiente es la distribución de frecuencias observada de 1000 votantes clasificados según el partido al que están afiliados y su preferencia al votar con respecto a cierto asunto. Pruébese la hipótesis de que la preferencia al votar no esta relacionada con la afiliación de partido, con α = 0.05. SOLUCION A partir de los totales marginales y el total de datos se obtienen los valores esperados E ij utilizando la ecuación n C R E k j jk ⋅ = . Los resultados esperados son acomodados en la siguiente tabla A partir de las dos tablas anteriores se calcula el estadístico de prueba Pref. al votar Demócratas Republicanos Total En contra 250 200 450 A favor 400 150 550 Total 650 350 1000 Pref. al votar Demócratas Republicanos Total En contra 292.5 157.5 450 A favor 357.5 192.5 550 Total 650 350 1000 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 153 ∑∑ = = − = Χ N j M k jk jk jk E E C 1 1 2 2 ) ( = ( ) ( ) ( ) ( ) 5 . 192 5 . 5 . 192 150 5 . 357 5 . 357 400 5 . 157 5 . 157 200 5 . 292 5 . 292 250 2 2 2 2 − + − + − + − = 32.079 El número de grados de libertad para el problema es ν = (2 – 1)(2 - 1) = 1, Por lo que el valor crítico es χ 2 v,α = χ 2 1, 0.05 =3.84146 Puesto que 3.84146< 32.079 se rechaza H o , por lo que si hay dependencia en las variables, 45. Se realiza una investigación para determinar si la calificación de desempeño en el trabajo es independiente de los logros académicos en universidad. Se selecciona aleatóriamente una muestra de 100 empleados y su clasificación en una tabla de 3 por 3 se muestra a continuación. Nivel académico en universidad Calificación de desempeño A B C o menos Total Excelente 10 5 5 20 Promedio 20 12 8 40 Malo 20 13 7 40 Total 50 30 20 100 Especificando el nivel de significación en 0.01, ¿debe llegarse a la conclusión de que la calificación de desempeño en el trabajo no está relacionada con los logros académicos en universidad? SOLUCION Primero se construye la tabla de continencia de los valores esperados utilizando la ecuación n C R E k j jk ⋅ = Nivel académico en universidad Calificación de desempeño A B C o menos Total Excelente 10 6 4 20 Promedio 20 12 8 40 Malo 20 12 8 40 Total 50 30 20 100 Procediendo a calcular el estadístico de prueba ∑∑ = = − = Χ N j M k jk jk jk E E C 1 1 2 2 ) ( = ( ) ( ) ( ) ( ) ( ) + − + − + − + − + − 12 12 12 6 6 5 20 20 20 20 20 20 10 10 10 2 2 2 2 2 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 154 + ( ) ( ) ( ) ( ) 8 7 8 8 8 8 4 4 5 12 12 13 2 2 2 2 − + − + − + − = 0.54166 El número de grados de libertad para el problema es ν = (3 – 1)(3 - 1) = 4, Por lo que el valor crítico para ν = 4 y α= 0.01es χ 2 v,α = χ 2 4, 0.01 =13.2767 Puesto que 0.54166< 13.2767 no se rechaza H o , por lo que las variables son independencia. 46. Un psicólogo realizó un experimento para determinar si el desempeño de los estudiantes está relacionado con el método utilizado en cierto tema. Se están considerando tres métodos de enseñanza: I, II, y III, y el desempeño de los estudiantes se clasifica como A, B o C. Los resultados fueron los siguientes. Pruébese la hipótesis nula de que el desempeño de los estudiantes no está relacionado con el método de enseñanza, con α = 0.01. SOLUCION Construyendo primero la tabla de continencia de los valores esperados utilizando la ecuación n C R E k j jk ⋅ = Calculando el estadístico de prueba ∑∑ = = − = Χ N j M k jk jk jk E E C 1 1 2 2 ) ( = ( ) ( ) ( ) ( ) ( ) + − + − + − + − + − 20 20 15 15 15 20 5 . 7 5 . 7 5 10 10 15 5 . 7 5 . 7 5 2 2 2 2 2 + ( ) ( ) ( ) ( ) 5 . 7 5 . 7 10 10 10 10 5 . 7 5 . 7 5 15 15 15 2 2 2 2 − + − − + − = 8.73 El número de grados de libertad para el problema es ν = (3 – 1)(3 - 1) = 4, Por lo que el valor crítico es χ 2 v,α = χ 2 4,0.01 =13.2767 Puesto que 8.73< 13.2767 no se rechaza H o , por lo que no hay dependencia en las variables, METODOS DE ENSEÑANZA Desempeño I III III Total A 7.5 15 7.5 30 B 10 20 10 40 C 7.5 15 7.5 30 Total 25 50 25 100 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 155 PRUEBA DE FISHER R. A. Fisher, quien fue el primero en obtener la distribución y desarrollar la prueba, de ahí el nombre de la distribución. La prueba f se utiliza principalmente para probar la igualdad entre dos varianzas poblacionales que provienen de poblaciones que tiene una distribución normal, también se ha desarrollado un procedimiento basado en esta prueba para investigar la igualdad entre tres ó más medias poblacionales, procedimiento que comúnmente se denomina análisis de varianza (ANOVA). El estadístico de prueba para la prueba F es la razón de los estimadores insesgados de de dos varianzas poblacionales 2 2 2 1 s s F = (5.28) Se debe cumplir siempre que s 1 2 >s 2 2 para que la razón sea mayor que uno (F ≥1). La probabilidad acumulada para la distribución Fisher se obtiene de la siguiente ecuación ) 0 ( x F P < < = ( ) ( ) ( ) ( ) dt t t x ∫ + − − + | . | \ | Γ | . | \ | Γ | . | \ | + Γ 0 2 / 1 2 1 2 / 2 1 2 / 2 2 / 1 2 1 2 1 1 2 1 2 2 2 ν ν ν ν ν ν ν ν ν ν ν ν ν (5.29) La distribución F tiene 2 variables ν 1 y ν 2 que son los grados de libertad de cada una de las poblaciones. ν 1 = n 1 - 1 grados de libertad de la población 1 ν 2 = n 2 – 1 grados de libertad de la población 2 Entonces, para cada pareja de valores ν 1 y ν 2 se tendrá una tabla correspondiente a los valores porcentuales de α más utilizados. En general los valores críticos F α , ν1, ν 2 es diferente de F α , ν 2, ν1, esto es, si se intercambian los valores de ν 1 y ν 2 no se obtiene el mismo valor crítico, por lo que hay que tener cuidado al utilizar las tablas y recordar que ν 1 se asocia la población que tiene la mayor varianza y ν 2 .a la que tiene la menor varianza. Algunas gráficas de la distribución F se muestran a continuación. Se observa que la distribución no tiene simetría en ningún caso mostrado. Figura. Gráfica de algunas de distribuciones Fisher, F 1 , 4 , F 3 , 8 y F 8 , 10. 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 F 1 , 4 F 8 , 10 F 3 , 8 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 156 PRUEBA DE LA DIFERENCIA DE DOS VARIANZAS Al igual que en las pruebas anteriores, la hipótesis nula H 0 se asocia con la igualdad entre los estadísticos de prueba poblacionales y la hipótesis alternativa H 1 solamente tiene dos posibles opciones, una prueba de cola derecha y una prueba de dos colas H o : σ 1 2 =σ 2 2 H 1 : σ 1 2 >σ 2 2 σ 1 2 ≠σ 2 2 El estadístico de prueba a utilizar es 2 2 2 1 s s F = , el cual cumple con la distribución Fisher. La hipótesis nula se rechazará si el valor de F es lo suficientemente grande para que sea mayor que el valor crítico F α , ν1, ν 2. EJEMPLOS 47. Supóngase que se comparan las materias primas suministradas por dos proveedores. En apariencia los dos proveedores proporcionan materiales distribuidos normalmente con el mismo promedio, pero existe preocupación en cuanto a la variabilidad de los materiales. Una muestra de 16 lotes del Proveedor I proporciona una varianza de 150 (s 1 2 = 150), mientras que una muestra de 21 lotes provenientes del Proveedor II proporciona una varianza de 225 (s 2 2 = 225). Pruébese la hipótesis nula de que sus varianzas verdaderas son iguales contra la hipótesis alternativas de que son diferentes, con α= 0.05. SOLUCION Los datos de cada un de los proveedores se resumen a continuación (reacuérdese que s 1 2 >s 2 2 ) Proveedor I Proveedor II s 2 2 =150 s 1 2 =225 n 2 =16 n 1 =21 La hipótesis nula y alternativa de problema son respectivamente H o : σ 1 2 =σ 2 2 H 1 : σ 1 2 ≠σ 2 2 Utilizando el número de datos de cada muestra, ν 1 =21 – 1 = 20 y ν 2 =16 – 1 = 15. Por otra parte, puesto que la prueba es de dos colas y α=0.05, α/2=0.025 El valor crítico para la prueba es F 0.025, 20, 15 = 2.76. EL estadístico de prueba es 2 2 2 1 s s F = = 150 225 =1.5 Como 1.5 < 2.76, no se rechaza H o , las varianzas son estadísticamente iguales. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 157 48. Se emplean dos métodos de enseñanza de la lectura a dos grupos seleccionados aleatóriamente de niños de nueve años. Se desea determinar si los resultados de los dos métodos, en términos de las puntuaciones obtenidas en una prueba estándar de lectura, tienen la misma variabilidad. Supóngase que se obtienen los siguientes datos de las dos poblaciones consideradas como normales: Método I Método II Tamaño de la muestra n 1 = 25 n 2 = 30 Varianza muestral s 1 2 = 108 s 2 2 = 95 Con un nivel de significación de 0.05, ¿debería llegarse a la conclusión de que las puntuaciones de prueba de los dos grupos tienen la misma varianza poblacional? SOLUCION En este caso la hipótesis nula y alternativa de problema son H o : σ 1 2 =σ 2 2 H 1 : σ 1 2 ≠σ 2 2 Utilizando el número de datos de cada muestra, ν 1 =25 – 1 = 24 y ν 2 =30 – 1 = 29. La prueba es de dos colas, entonces como α=0.05, α/2=0.025 El valor crítico para la prueba es F 0.025, 24, 29 = 2.15, por otra parte estadístico de prueba es 2 2 2 1 s s F = = 95 108 =1.1368 Como 1.1368 < 2.15, no se rechaza H o , las varianzas son estadísticamente iguales. 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 α/2 α/2 F0.025, 20, 15 = 2.76 1 - α Región de rechazo Región de aceptación Región de rechazo F =1.5 0 0.5 1 1.5 2 2.5 3 0 0.2 0.4 0.6 0.8 1 α/2 α/2 F0.025, 20, 15 = 2.15 1 - α Región de rechazo Región de aceptación Región de rechazo F = 1.1368 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 158 49. Un psicólogo desea determinar si la inteligencia de las niñas más variable que la de los niños. Se sabe que los C.I. tanto de niños como de niñas se distribuyen normalmente. Supóngase que una muestra aleatoria de los C.I. de 61 niñas proporciona una varianza de s 1 2 = 240, y una muestra aleatoria de los C.I. de 61 niños proporciona una varianza de s 2 2 = 200. Con α = 0.01, pruébese la hipótesis nula de que la variabilidad de los C.I. de las niñas es igual que la de los niños, contra la hipótesis alternativa de que la primera es mayor que la segunda. SOLUCION Los datos para el grupo de niños y niñas se resumen a continuación Niñas Niños s 1 2 =240 s 2 2 =200 n 1 =61 n 2 =61 La hipótesis nula y alternativa de problema son respectivamente H o : σ 1 2 =σ 2 2 H 1 : σ 1 2 > σ 2 2 Los grados de libertad para cada muestra son respectivamente ν 1 =n 1 -1 = 61 – 1 = 60 y ν 2 =n 2 -1 = 61 – 1 = 60 La prueba de hipótesis es de cola derecha con α=0.01. El valor crítico para la prueba es F 0.01, 60, 60 = 1.84. EL estadístico de prueba es 2 2 2 1 s s F = = 200 240 =1.2 Como 1.2 < 1.84, no se rechaza H o , las varianzas son estadísticamente iguales. 0 0.5 1 1.5 2 2.5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 α F 0.01, 60, 60 = 1.84 1 - α Región de rechazo Región de aceptación F =1.2 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 159 50. Se emplean dos máquinas, I y II, para producir pernos idénticos cuyas longitudes se cree que se distribuyen normalmente. Una muestra aleatoria de 41 pernos producidos por la máquina I da una s 1 2 =0.5, una muestra de 61 pernos producidos por la máquina II da una s 2 2 =0.3. Pruebe la hipótesis nula de que pernos producidos por las dos máquinas tienen variabilidad idéntica, contra la hipótesis alternativa de que tiene varianza diferente, con α=0.10. SOLUCION Las varianzas y número de datos se resumen a continuación para cada máquina Maquina I Maquina II s 1 2 =0.5 s 2 2 =0.3 n 1 =41 n 2 =61 Para este problema la hipótesis nula y alternativa de problema son H o : σ 1 2 =σ 2 2 H 1 : σ 1 2 ≠σ 2 2 A partir del número de datos de cada muestra se determina los grados de libertad ν 1 =41 – 1 = 40 y ν 2 =61 – 1 = 60. Como α=0.1 y la prueba es de dos colas, se tiene que s, α/2=0.05 El valor crítico para la prueba es F 0.05, 40, 60 = 1.59, El estadístico de prueba es 2 2 2 1 s s F = = 95 108 =1.66 Como 1.59 < 1.66, se rechaza H o , las varianzas son estadísticamente diferentes. 0 0.5 1 1.5 2 2.5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 α/2 α/2 F 0.05, 40, 60 = 1.59 1 - α Región de rechazo Región de aceptación Región de rechazo F = 1.66 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 160 ANALISIS DE VARIANZA (ANOVA) El análisis realizado mediante la distribución t-student permite entre otras cosas realizar la comparación entre dos medias muestrales que provienen de poblaciones con distribución normal y tiene la misma varianza, pero si se desea generalizar el problema anterior, esto es, comparar entre tres o más medias muestrales provenientes de poblaciones con distribución normal y varianza idéntica, la distribución t- student no sería el método más adecuado para llevar a cabo tal comparación, ya que esta prueba solo se aplica a parejas de medias, afortunadamente se ha desarrollado un método conocido como análisis de varianza (ANOVA) que permite de una manera directa realizar la comparación, esta prueba utiliza a la distribución F o Fisher como base, ya que el estadístico de prueba se define como la razón de dos cantidades positivas que se relacionan con la varianza total de los datos y con la varianza de las medias respecto de las media total, más adelante se da una descripción del método utilizando un ejemplo numérico. La prueba ANOVA tiene como hipótesis nula H 0 de que todas las medias u 1 , u 2, u 3, … u k son iguales y la hipótesis H 1 que alguna de ellas es diferente, lo anterior se índica a continuación H o : u 1 =u 2= u 3=… u k H 1 : u 1 ≠u 2 ≠u 3 ≠ … u k La descripción del método se realizará mediante el siguiente ejemplo, en donde cada columna muestra las calificaciones obtenidas al aplicar un método de aprendizaje, hay tres métodos diferentes, por lo que la hipótesis nula es que los tres métodos producen resultados idénticos y la hipótesis alternativa es que producen resultados diferentes. H o : u 1 =u 2= u 3 H 1 : u 1 ≠u 2 ≠u 3 A partir de la suma total de cada método se determina las medias para cada uno de los métodos utilizando la fórmula para el promedio ∑ = n x x i , donde n es el número de datos en cada método o clase. = 1 x 370/5=74 = 2 x 400/5=80 = 3 x 430/5=86 Las respectivas varianzas insesgadas de cada método se pueden calcular aplicando ( ) ∑ − − = 1 2 2 n x x s i s 1 2 = ( ) ( ) ( ) ( ) ( ) 1 5 74 72 74 73 74 73 74 78 74 74 2 2 2 2 2 − − + − + − + − + − =5.5 METODO I METODO II METODO III 74 78 73 73 72 84 77 79 79 81 83 85 86 87 89 Total 370 400 470 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 161 s 2 2 = ( ) ( ) ( ) ( ) ( ) 1 5 80 81 80 79 80 79 80 77 80 84 2 2 2 2 2 − − + − + − + − + − =7 s 3 2 = ( ) ( ) ( ) ( ) ( ) 1 5 86 89 86 87 86 86 86 85 86 83 2 2 2 2 2 − − + − + − + − + − =5 La media de las medias o media total es x = 15 470 400 370 + + = 80 La varianza de las medias muestrales se puede calcular como 1 ) ( 2 2 − − = ∑ n x x s i x = ( ) ( ) ( ) 1 3 80 86 80 80 80 74 2 2 2 − − + − + − = 36 2 x s (varianza de la media muestral) es un estimador de 2 x σ (varianza de la media poblacional), esto es 2 x σ = 2 x s =36 Por otra parte recordando el teorema del límite central n x 2 2 σ σ = y tomando como n = 5 ya que es el número de datos en cada muestra, se tiene que 180 ) 36 ( 5 2 2 = = = x nσ σ Lo anterior muestra como la varianza para las medias se transforma en un estimador de la varianza de una población. Como σ 2 se obtiene a partir de las 3 medias que representan a cada uno de los métodos, por lo que sus grados de libertad son ν 1 = 3 -1 = 2. Para un coso más general donde existan K clase se tendrá que los grados de libertad para σ 2 son general. ν 1 =K-1 La estimación de σ 2 mejora si se utiliza toda la información disponible de las muestras, por lo que un mejor estimador sería el promedio de cada de las varianzas individuales s 1 2 , s 2 2 y s 3 2 , ∑ = = − = K i i W K s s 1 2 2 1 1 3 5 7 5 . 5 − + + = 5.83 Los grados de libertad de 2 W s para un caso general se puede obtener mediante ν 2 = n 1 + n 2 + n k – K = N - k Donde n k , es el número de datos en la clase k y N es el número total de datos. Para el presente ejemplo ν 2 = 5+ 5+ 5 – 3 = 12 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 162 El estadístico de prueba se define como 2 2 W x s s F = por lo tanto, para el ejemplo 83 . 5 180 = F = 30.9 Para aceptar o rechazar la hipótesis nula, se requiere de un valor crítico, por ejemplo si si α=0.05 F α, ν1, ν 2 = F 0.05,2,12 = 3.89 Puesto que 3.89 < 30.9 Se rechaza H o , lo que se traduce en que los métodos de aprendizaje son diferentes. Método general En general si se tiene una tabla con K muestras o clases y cada muestra tiene n k datos como se muestra a continuación Las siguientes definiciones permiten simplificar los resultados Total de la muestra k ∑ = = k n i k i K X T 1 , Suma total de la muestras ∑∑ = = = K j n i j i k X T 1 1 , Total de las observaciones N = n 1 + n 2 +…n k = ∑ = k i i n 1 Recordando que el estadístico de prueba se definió como la razón de la varianza entre las medias muestrales y la varianza dentro de cada una de las muestras. La suma externa de cuadrados se define como N T n T SSB K k k k 2 1 2 − = ∑ = (5.30) Muestra I Muestra II … Muestra K x 11 x 12 . . x 1n x 21 x 22 . . x 2n … x k1 x k2 . . x kn Tamaño de la muestra n 1 n 2 n k Total de la muestra T 1 T 2 T k APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 163 La cual tiene ν 1 = K -1 grados de libertad. La suma interna de cuadrados calcula la varianza dentro de cada una de las muestras. ∑∑ ∑ = = = − = K j n i K k k k j i k n T x SSW 1 1 1 2 2 , (5.31) La cual tiene ν 2 = N -K grados de libertad. La suma total de cuadrados se define como la suma SSB SSB SST + = (5.32) Utilizando las definiciones anteriores, la suma total de cuadrados es ∑∑ = = − = K j n i j i k N T x SST 1 1 2 2 , (5.33) La varianza entre las medias muestrales se determina como 1 2 − = K SSB S B (5.34) La varianza dentro de cada una de las muestras es K N SSW S W − = 2 (5.35) La razón o estadístico de prueba se define como 2 2 W B s s F = (5.36) El procedimiento de análisis de varianza se resume en la siguiente tabla Fuentes de variación Suma de cuadrados Grados de libertad Varianza Razón F Entre grupos N T n T SSB K k k k 2 1 2 − = ∑ = ν 1 = K-1 1 2 − = K SSB S B 2 2 W B s s F = Dentro de los grupos ∑∑ ∑ = = = − = K j n i K k k k j i k n T x SSW 1 1 1 2 2 , ν 2 = N - K K N SSW S W − = 2 Total ∑∑ = = − = K j n i j i k N T x SST 1 1 2 2 , N-1 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 164 EJEMPLOS 51. Utilizando los datos del ejemplo anterior y las fórmulas (60) y (61) obtenga: S B 2 y S w 2 y F. SOLUCION Numero de clases K = 3. Número total de datos N = n 1 + n 2 +…n k = 5 + 5+ 5 = 15 La suma de cada muestra es T 1 =370 T 2 =400 T 3 =430 Total de las observaciones T = 370 + 400 + 430=1200 Suma externa de cuadrados N T n T SSB K k k k 2 1 2 − = ∑ = = 15 1200 5 430 5 400 5 370 2 2 2 2 − + + = 360 Grados de libertad ν 1 = K -1 = 3 -1 =2 1 2 − = K SSB S B = 1 3 360 − =180 Suma interna de cuadrados ∑∑ ∑ = = = − = K j n i K k k k j i k n T x SSW 1 1 1 2 2 , = + + − + + 5 430 5 400 5 370 37000 32028 27402 2 2 2 = 70 Grados de libertad ν 2 = N -K = 15 -3 =12 K N SSW S W − = 2 = 3 15 70 − = 5.833 El estadístico de prueba es 2 2 W B s s F = = 833 . 5 180 = 30.86 Obteniéndose los mismos resultados descritos en el ejemplo anterior. Método I Método II Método III Método I Método II Método III X 1 X 2 X 3 X 1 2 X 2 2 X 3 2 74 84 83 5476 7056 6889 78 77 85 6084 5929 7225 73 79 86 5329 6241 7396 73 79 87 5329 6241 7589 72 81 89 5184 6561 7921 Total 370 400 470 27402 32028 37000 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 165 52. A tres grupos de pollos seleccionados aleatóriamente se les alimenta con tres dietas diferentes. Cada grupo consta de cinco pollos. Sus aumentos de peso durante un periodo específico de tiempo son los siguientes: Dieta I Dieta II Dicta III 4 3 6 4 4 7 7 5 7 7 6 7 8 7 8 Utilícese α =0.05 para probar la hipótesis nula de que las tres dietas tienen el mismo efecto en el aumento de peso de los pollos, contra la hipótesis alternativa de que tienen distintos efectos. SOLUCION Un resultado interesante es que la suma externa de cuadrados y la suma interna de cuadrados no se ven alteradas si a cada dato de la tabla se le suma o resta un número fijo. Haciendo uso de la idea anterior conviene restarle a cada dato el número 7 Dieta I Dieta II Dieta III Dieta I Dieta II Dieta III X 1 X 2 X 3 X 1 2 X 2 2 X 3 2 -3 -4 -1 9 16 1 -3 -3 0 9 9 0 0 -2 0 0 4 0 0 -1 0 0 1 0 1 0 1 1 0 1 Total -5 -10 0 19 30 2 El número de clases es K = 3 y el número total de datos es N =15 La hipótesis nula y alternativa del problema es H o :u 1 =u 2 =u 3 H 1 :u 1 ≠u 2 ≠u 3 Los respectivos grados de libertad son v 1 = K-1 = 3 -1 = 2 y v 2 =N – K = 15 - 3=12 Como α =0.05 el valor crítico para la prueba es f α,ν1, ν 2 = f 0.05,2,12 = 3.89 La suma de cada muestra es T 1 = -5 T 2 = -10 T 3 =0 Total de las observaciones T = -5 - 10 + 0=-15 Calculando la suma externa de cuadrados N T n T SSB K k k k 2 1 2 − = ∑ = = ( ) ( ) ( ) 15 15 5 0 5 10 5 5 2 2 2 2 − − + − + − = 10 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 166 por lo tanto 1 2 − = K SSB S B = 1 3 10 − =5 La suma interna de cuadrados es ∑∑ ∑ = = = − = K j n i K k k k j i k n T x SSW 1 1 1 2 2 , = ( ) + − + − − + + 5 0 5 10 5 5 2 30 19 2 2 2 = 26 K N SSW S W − = 2 = 3 15 26 − = 13/6 = 2.1667 El estadístico de prueba es 2 2 W B s s F = = 1667 . 2 5 = 2.307 Como 2.307 <3.89, no se rechaza H o , las dietas son igualmente efectivas. 53. Una compañía manufacturera tiene cuatro máquinas idénticas en un proceso especifico de producción. Cada máquina es operada por un trabajador distinto. Se toma de cada máquina una muestra de los productos obtenidos durante un periodo de cinco horas y se obtiene el número de partes defectuosas producidas cada hora. Los resultados son los siguientes: Máquina I Máquina II Máquina III Máquina IV 10 7 2 3 9 7 3 3 9 8 3 6 9 8 3 6 8 5 4 7 Utilizando α = 0.01, pruébese la hipótesis nula de que las máquinas producen el mismo promedio de partes defectuosas por hora, contra la hipótesis alternativa de que los cuatro promedios son diferentes. SOLUCION Restando el numero 6 a cada elemento de tabla El número de clases es K = 4 y el número total de datos es N =20 M I M II M III M IV M I M II M III M IV X 1 X 2 X 3 X 4 X 1 2 X 2 2 X 3 2 X 4 2 4 1 -4 -3 16 1 16 9 3 1 -3 -3 9 1 9 9 3 2 -3 0 9 4 9 0 3 2 -3 0 9 4 9 0 2 -1 -2 1 4 1 4 1 Total 15 5 -15 -5 47 11 47 19 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 167 La hipótesis nula y alternativa del problema es H o :u 1 =u 2 =u 3 H 1 :u 1 ≠u 2 ≠u 3 Los respectivos grados de libertad son v 1 = K-1 = 4 -1 = 3 y v 2 =N – K = 20 - 4=16 Como α =0.01 el valor crítico para la prueba es f α,ν1, ν 2 = f 0.01,3,16 = 5.29 La suma de cada muestra es T 1 = 15 T 2 = 7 T 3 =15 T 4 =47 Total de las observaciones T = 15 + 5 - 15 -5 = 0 Calculando la suma externa de cuadrados N T n T SSB K k k k 2 1 2 − = ∑ = = ( ) ( ) ( ) ( ) ( ) 20 0 5 5 5 15 5 5 5 15 2 2 2 2 2 − − + − + + = 100 por lo tanto 1 2 − = K SSB S B = 1 4 100 − = 33.3333 La suma interna de cuadrados es ∑∑ ∑ = = = − = K j n i K k k k j i k n T x SSW 1 1 1 2 2 , = ( ) ( ) ( ) ( ) − + − + + − + + + 5 5 5 15 5 5 5 15 19 47 11 47 2 2 2 2 = 24 K N SSW S W − = 2 = 4 20 24 − = 1.5 El estadístico de prueba es 2 2 W B s s F = = 5 . 1 3333 . 33 = 22.222 Como 5.29 < 22.222, se rechaza H o , los promedios de producción son diferentes. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 168 UNIDAD VI Regresión y correlación REGRESIÓN Existen problemas experimentales en los cuales se trata de establecer si existe un relación entre dos conjuntos de datos X y Y, por ejemplo se desea establecer la cantidad de lluvia (X) se relaciona con la producción de trigo (Y), o si la experiencia en años (X) se relaciona con las ventas obtenidas (Y), etc. Si la relación existe entonces se puede estimar que tan fuerte es esta relación o dependencia, además es posible determinar el valor posible de una variable a partir del valor de la otra. Dependiendo del problema es posible determinar la relación entre las variables X y Y, mediante la técnica de regresión. La fuerza de la relación entre las variables X y Y se determina mediante el coeficiente de correlación. Si en un problema se tienen solamente dos variables, se dice que la técnica es una regresión o correlación simple. Cuando existen más variables involucradas se dice que el problema es de regresión o correlación múltiple. En caso de regresión simple la variable que es utilizada para estimar a la otra se llama variable independiente y se denota por X, mientras que la otra es conocida como variable dependiente y se denota por la letra Y. La regresión múltiple involucra dos o más variables independientes y una variable dependiente. REGRESION LINEAL La regresión lineal se refiere a determinar la “mejor ecuación lineal” de la forma: b x m y + = que es posible establecer entre las variables X y Y. En muchas ocasiones la relación entre las variables es no lineal lo cual complica el problema, pero en muchos casos es posible determinar una relación entre las variables de la forma: y = f(x), donde f(x) puede ser una relación polinomial, potencial, exponencial. etc. El trabajo de aplicar la regresión lineal a un problema consiste en determinar los valores ó parámetros a y b de la recta b x m y + = a partir del conjunto de datos X y Y DIAGRAMA DE DISPERSIÓN Como primer paso para la obtención de una regresión primero se grafican los datos, lo cual es conocido como diagrama de dispersión. En la figura A siguiente se muestran una tabla de datos y su respectivo diagrama de dispersión. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 169 TABLA DE DATOS X Y x 1 y 1 x 2 y 2 . . . . . . x n y n MÉTODO DE MÍNIMOS CUADRADOS Como se puede observar del diagrama de dispersión anterior los datos no se encuentran exactamente en una línea recta. El criterio que más se utiliza para determinar la mejor recta de ajuste se conoce como recta método de mínimos cuadrados, consiste en buscar los parámetros a y b de la recta b x m y + = de tal manera que las suma de los cuadrados de las distancias verticales entre los puntos de la recta y del diagrama de dispersión sea lo más pequeña posible. La figura siguiente muestra la idea general del método de mínimos cuadrados, cada uno de los 15 puntos graficados muestra representa a cada uno de los pares ordenados (X i ,Y i ) donde i =1, 2, 3,…,n. Al sustituir el valor de la abscisa X i de cada uno de los puntos en la ecuación de la recta b x m y + = se obtienen un conjunto de valores b X m Yr i i + = , donde i =1, 2, 3,…, n., los cuales se encuentran sobre la recta. 0 5 10 15 0 5 10 15 20 25 30 35 X Y DIAGRAMA DE DISPERSION 0 5 10 15 0 5 10 15 20 25 30 35 X Y b x m y + = i Y i Yr APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 170 La diferencia D i = i i Yr Y − se denomina desviación, por lo que la idea básica del método de mínimos cuadrados se puede expresar matemáticamente como: ∑ ∑ = = − = = n i n i i i i Yr Y D b m S 1 1 2 2 ) ( ) , ( (6.1) Para el caso de la línea recta la ecuación anterior toma la forma siguiente ∑ ∑ = = − − = = n i n i i i i b mX Y D b m S 1 1 2 2 ) ( ) , ( (6.2) La función debe S(m, b) se considera como una función de dos variables m y b para la cual debe de existir al menos un par de valores (m, b) tales que sean un mínimo de la función. La condición que debe de cumplir la función S(m, b) para tener un mínimo (o máximo) es que sus derivadas parciales con respecto a los parámetros m y b sean cero, esto es: 0 = ∂ ∂ m S (6.3) 0 = ∂ ∂ b S (6.4) Aplicando la condición dada por la ecuación (6.3) ∑ ∑ = = − − − = − − ∂ ∂ = ∂ ∂ n i i i i n i i i X b mX Y b mX Y m m S 1 1 2 ) )( ( 2 ) ( Utilizando las propiedades de la sumatoria se tiene que + + − = + + − = ∑ ∑ ∑ ∑ = = = = n i n i n i i i i i n i i i i i X b X m X Y bX mX X Y b m S 1 1 1 2 1 2 2 ) ( 2 ) , ( Posteriormente igualando a cero 0 2 1 1 1 2 = + + − ∑ ∑ ∑ = = = n i n i n i i i i i X b X m X Y Despejando se obtiene la ecuación ∑ ∑ ∑ = = = + = + n i i i n i n i i i X Y X b X m 1 1 1 2 (6.5) Ahora si se aplica la condición dada por la ecuación (6.4) APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 171 ∑ ∑ = = − − − = − − ∂ ∂ = ∂ ∂ n i i i n i i i b mX Y b mX Y m b S 1 1 2 ) 1 )( ( 2 ) ( Aplicando nuevamente las propiedades de la sumatoria + + − = + + − = ∑ ∑ ∑ = = = n i n i i i n i i i n b X m Y b mX Y b m S 1 1 1 2 ) ( 2 ) , ( Igualando a cero 0 2 1 1 = + + − ∑ ∑ = = n i n i i i n b X m Y Reacomodando términos se obtiene la ecuación ∑ ∑ ∑ = = = + = + n i i i n i n i i i X Y X b X m 1 1 1 2 (6.6) Las ecuaciones 5.41 y 5.42 forman un sistema de de ecuaciones donde m y b son las incógnitas, i n i i n i n i i i Y X X b X m ∑ ∑ ∑ = = = = + 1 1 1 2 ∑ ∑ = = = + n i i n i i Y n b X m 1 1 La solución del sistema de ecuaciones anterior se puede resolver mediante determinantes, a continuación se evalúan los determinantes requeridos para el cálculo ( ) 2 2 2 ∑ ∑ ∑ ∑ ∑ − = = ∆ i i i i i X X n n X X X ∑ ∑ ∑ ∑ ∑ ∑ − = = ∆ i i i i i i i i Y X Y X n n Y X Y X 1 ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − = = ∆ i i i i i i i i i i Y X X Y X Y X Y X X 2 2 2 De donde se obtiene las ecuaciones que permiten obtener los parámetros para la mejor recta de mínimos cuadrados. ( ) ∑ ∑ ∑ ∑ ∑ − − = ∆ ∆ = 2 2 1 i i i i i i X X n Y X Y X n m (6.7) APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 172 ( ) ∑ ∑ ∑ ∑ ∑ ∑ − − = ∆ ∆ = 2 2 2 2 i i i i i i i X X n Y X X Y X b (6.8) Como se puede observarse de las ecuaciones anteriores, para obtener los parámetros m y b es necesario realizar las sumatorias indicadas a partir de los datos (X i ,Y i ) donde i =1, 2, 3,…,n. EJEMPLOS 1. En una compañía de seguros se desea determinar la relación entre la experiencia en ventas y el volumen de las mismas. Se selecciona una muestra aleatoria de nueve vendedores. Se encuentra que sus años de experiencia (X) y ventas anuales normales (Y) son los siguientes: X 1 2 3 4 5 6 7 8 9 Y : 2 1 3 3 4 5 6 5 7 (en $100 000) a. Constrúyase un diagrama de dispersión y trácese la recta de regresión de Y sobre X en el diagrama. b. Estímese el volumen de ventas anuales para un vendedor que tiene una experiencia en ventas de diez años. SOLUCION a) Es conveniente primero construir la tabla siguiente, con el fin de determinar las sumatorias necesarias para el cálculo de m y b Evaluando en las expresiones ( ) ( )( ) ( )( ) ( )( ) ( ) 2 2 2 45 285 9 36 45 220 9 − − = − − = ∑ ∑ ∑ ∑ ∑ i i i i i i X X n Y X Y X n m = 3 2 = 0.6667 ( ) ( )( ) ( )( ) ( )( ) ( ) 2 2 2 2 45 285 9 220 45 36 285 − − = − − = ∑ ∑ ∑ ∑ ∑ ∑ i i i i i i i X X n Y X X Y X b = 3 2 =0.6667 Entonces, la recta de regresión tiene la ecuación 3 2 3 2 + = x y El diagrama de dispersión y la recta de regresión se muestran el la siguiente gráfica X Y X 2 X Y 1 2 1 2 2 1 4 2 3 3 9 9 4 3 16 12 5 4 25 20 6 5 36 30 7 6 49 42 8 5 64 40 9 7 81 63 Σ 45 36 285 220 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 173 b) El volumen de ventas anuales para un vendedor que tiene una experiencia en venta de 10 años se obtiene al evaluar la recta de regresión obtenida para x =10. 3 2 3 2 + = x y = ( ) 3 2 10 3 2 + = y = 7.33 el resultado anterior se multiplica por 10 000 para obtener el total de ventas. Ventas = 7.33(100000)=$ 733 000. 2. Se tiene un registro de los costos de mantenimiento para seis máquinas idénticas de distintas edades. Por parte de la gerencia se desea determinar si existe una relación funcional entre la edad de la máquina (X) y el costo de mantenimiento ( Y) Se obtienen los siguientes datos. Máquina .X Y 1 2 $ 70 2 1 40 3 3 l00 4 2 80 5 1 30 6 3 100 Obténgase la ecuación de regresión con X como variable independiente y Y como variable dependiente. ¿Cuál sería el costo de mantenimiento para una máquina de cuatro años? SOLUCION La tabla siguiente resume los cálculos necesarios para las sumatorias X Y X Y X 2 2 70 140 4 1 40 40 1 3 100 300 9 2 80 160 4 1 30 30 1 3 100 300 9 Σ 12 420 970 28 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 X Y APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 174 Evaluando en las expresiones para calcular m y b ( ) ( )( ) ( )( ) ( )( ) ( ) 2 2 2 12 28 6 420 12 970 6 − − = − − = ∑ ∑ ∑ ∑ ∑ i i i i i i X X n Y X Y X n m = 32.5 ( ) ( )( ) ( )( ) ( )( ) ( ) 2 2 2 2 12 28 6 970 12 420 28 − − = − − = ∑ ∑ ∑ ∑ ∑ ∑ i i i i i i i X X n Y X X Y X b = 5 Así se tiene la recta de regresión 5 5 . 32 + = x y , evaluado para x = 4 ( )( ) 5 4 5 . 32 + = y =135 Por lo que el costo de reparación de la maquina de 4 años es $135. CORRELACIÓN Como ya se ha señalado anteriormente, la correlación es la fuerza de la relación entre las variables X y Y, y se determina mediante el coeficiente de correlación. COEFICIENTE DE CORRELACIÓN A partir de la ecuación de mínimos cuadrados se puede realizar una predicción de el valor de Y sustituyendo el valor respectivo X, pero el grado de exactitud de la predicción depende de el grado de correlación entre las variables X y Y. Cuando la correlación es pequeña se tiene poca precisión en la determinación del valor Y, pero cuando la correlación es grande se tiene una gran exactitud en la determinación del valor Y. La medida del grado de correlación utilizando los n pares de datos (X i ,Y i ) es llamado coeficiente de correlación, normalmente denotado por r. Para determinar a r se considera primero que Y es una variable aleatoria cuya desviación respecto de la recta de mínimos cuadrados es la menor posible, esto quiere decir que la variabilidad se divide en dos partes, la primera es la eliminada por la recta de mínimos cuadrados y la cantidad que permanece a pesar de de la recta de regresión. Si b X m Yr + = (valor calculado a partir de la recta de regresión) y ∑ = = n i i Y n Y 1 1 , entonces la variación total se puede separar de la forma. ∑ = − 2 ) ( Y Y i ∑ − 2 ) ( Y Yr + ∑ − 2 ) ( Yr Y i (6.9) Variación total Variación eliminado Variación restante por regresión Mientras más variación se elimine mediante la recta de regresión más cercana será la relación entre X y Y y se volverá más precisa la estimación del valor Y. Dividiendo ambos lados de la ecuación 68 entre ( ) 2 ∑ −Y Y se obtiene ∑ ∑ ∑ ∑ ∑ ∑ − − + − − = − − 2 2 2 2 2 2 ) ( ) ( ) ( ) ( ) ( ) ( Y Y Yr Y Y Y Y Yr Y Y Y Y i i i i i APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 175 Entonces, la expresión anterior se puede escribir como. ∑ ∑ − − + = 2 2 2 ) ( ) ( 1 Y Y Yr Y r i i Donde r es el coeficiente de correlación, así se tiene que ∑ ∑ − − − = 2 2 ) ( ) ( 1 Y Y Yr Y r i i (6.10) En lugar de usar la ecuación anterior para determinar el coeficiente de correlación se utiliza para el caso de la línea recta la fórmula siguiente ( ) ( ) ∑ ∑ ∑ ∑ ∑ ∑ ∑ − − − = 2 2 2 2 i i i i i i i i Y Y n X X n Y X Y X n r (6.11) Si la correlación entre las variables X y Y es fuerte, la mayor parte de la variabilidad de Y puede atribuirse a la relación con X y r será cercana a 1 o -1, en particular se r = 1 o -1 se dirá que hay un ajuste perfecto a la recta. En general el valor de r varía de -1 a 1, y cuando la correlación es débil su valor es cercano a 0. Si r = 0, se dice que no existe correlación entre X y Y. Cuando r se encuentra entre 0 y 1 existe correlación positiva y cuando está entre -1 y 0 hay correlación negativa. PRUEBA DE HIPÓTESIS PARA EL COEFICIENTE DE CORRELACIÓN Existe una prueba de hipótesis para determinar si el un coeficiente de correlación (r) es lo suficientemente grande para afirmar que hay correlación entre los pares de valores X y Y. o si el valor r corresponde al azar. Dicho de otra manera, se desea probar la hipótesis de que el coeficiente de correlación poblacional ρ es igual a cero contra la hipótesis alternativa de que no lo es. Si la distribución de las dos variables involucradas es normal entonces, el estadístico de prueba T empleado se define como 2 1 2 r n r T − − = (6.12) El cual se distribuye de acuerdo a una distribución T-Student con ν = n- 2 grados de libertad. Si no es clara la idea de que las variables se distribuyan normalmente se pueden aplicar métodos no paramétricos a la prueba de hipótesis como la prueba de correlación de rangos. EJEMPLOS 4. Por parte de una compañía de seguros se desea determinar la relación entre los años de experiencia en ventas de sus vendedores y su volumen de ventas. Se selecciona una muestra aleatoria de nueve vendedores y se encuentra que sus años de experiencia (X) y ventas anuales actuales (Y) son los siguientes: APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 176 X 1 2 3 4 5 6 7 8 9 Y 2 1 3 4 3 5 6 7 5 (en $100 000) a. Obténgase el coeficiente de correlación r. b. Pruébese la hipótesis de que el coeficiente de correlación de la población ρes cero con α = 0.05. SOLUCION a) La siguiente tabla muestra los cálculos requeridos para determinar las sumatorias que permiten determinar el coeficiente de correlación ( ) ( ) ∑ ∑ ∑ ∑ ∑ ∑ ∑ − − − = 2 2 2 2 i i i i i i i i Y Y n X X n Y X Y X n r 2 2 ) 36 ( ) 174 ( 9 ) 45 ( ) 285 ( 9 ) 36 )( 45 ( ) 217 ( 9 − − − = = 0.8721 b) La prueba de hipótesis del problema se plantea como H o : ρ =0 H 1 : ρ ≠ 0 El estadístico de prueba es 2 1 2 r n r T − − = 7153 . 4 ) 8721 . 0 ( 1 2 9 8721 . 0 2 = − − = El cual tiene una distribución como T-student con v =n-2 = 9 – 2 = 7 grados de libertad. El planteamiento de la Hipótesis conduce a una prueba de dos colas, como α = 0.05 entonces T α/2,7 = 2.365 Comparando el valor crítico con el estadístico de prueba se tiene que T > T α/2,7 (4.7153 >2.365). Se rechaza H o , sí hay correlación X Y X 2 Y 2 XY 1 2 1 4 2 2 1 4 1 2 3 3 9 9 9 4 4 16 16 16 5 3 25 9 15 6 5 36 25 30 7 6 49 36 42 8 7 64 49 56 9 5 81 25 45 Σ 45 36 285 174 217 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 Distribucion T-Student Región de rechazo Región de aceptación α T α/2 , 7 = 2.365 1 - α T = 4.7153 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 177 5. Se realiza un experimento para determinar la relación entre la precipitación pluvial y el rendimiento del trigo. Supóngase que se obtienen los siguientes datos. Precipitación pluvial en pulgadas: X 1 2 3 4 5 5 6 7 8 9 Rendimiento de trigo en bushel: Y 1 3 2 5 5 4 7 6 9 8 a. Ajústese una recta de mínimos cuadrados a los datos con X como variable independiente y grafíquese después la recta sobre un diagrama de dispersión. b. Estímese el rendimiento de trigo si la precipitación pluvial es de 10 pulg. c. Obténgase el coeficiente de correlación r. d. Pruébese la hipótesis nula de que no existe relación entre la precipitación pluvial y el rendimiento del trigo, con α = 0.05. SOLUCION a) La siguiente tabla muestra los cálculos requeridos para determinar las sumatorias X Y XY X 2 Y 2 1 1 1 1 1 2 3 6 4 9 3 2 6 9 4 4 5 20 16 25 5 5 25 25 25 5 4 20 25 16 6 7 42 36 49 7 6 42 49 36 8 9 72 64 81 9 8 72 81 64 Σ 50 50 306 310 310 Evaluando en las expresiones para calcular m y b ( ) ( )( ) ( )( ) ( )( ) ( ) 2 2 2 50 310 10 50 50 306 10 − − = − − = ∑ ∑ ∑ ∑ ∑ i i i i i i X X n Y X Y X n m = 0.9333 ( ) ( )( ) ( )( ) ( )( ) ( ) 2 2 2 2 12 28 6 306 50 50 310 − − = − − = ∑ ∑ ∑ ∑ ∑ ∑ i i i i i i i X X n Y X X Y X b = 0.3333 Así se tiene la recta de regresión 3333 . 0 9333 . 0 + = x y , la gráfica siguiente muestra el diagrama de dispersión y la recta de regresión. b) Evaluado en la ecuación de regresión el valor de x = 10 pulg se obtiene ( )( ) 3333 . 0 10 9333 . 0 + = y =9.6667 bushel: c) El coeficiente de correlación es ( ) ( ) ( )( ) ( )( ) ( )( ) ( ) ( )( ) ( ) 2 2 2 2 2 2 50 310 10 50 310 10 50 50 306 10 − − − = − − − = ∑ ∑ ∑ ∑ ∑ ∑ ∑ i i i i i i i i Y Y n X X n Y X Y X n r = 0.9333 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 178 Diagrama de dispersión y recta de mínimos cuadrados del problema d) La prueba de hipótesis del problema se plantea como H o : ρ =0 H 1 : ρ ≠ 0 El estadístico de prueba es 2 1 2 r n r T − − = 2 ) 9333 . 0 ( 1 2 10 9333 . 0 − − = = 7.3532 El cual tiene una distribución como T-student con v =n-2 = 10 – 2 = 8 grados de libertad. El planteamiento de la Hipótesis conduce a una prueba de dos colas, como α = 0.05 entonces T α/2,7 = 2.306 Comparando el valor crítico con el estadístico de prueba se tiene que T > T α/2,8 (7.3532>2.306). Se rechaza H o , sí hay correlación -4 -2 0 2 4 6 8 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 Región de rechazo Región de aceptación α T α/2 , 8 = 2.306 1 - α T = 7.3532 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 X Y APUNTES DE ESTADISTICA GONZALO GALVEZ COYT ORGANIZACIÓN DE DATOS Una vez que se ha realizado un experimento el resultado generalmente es un conjunto de datos u observaciones, sin embargo, tal como aparecen pueden no resultar adecuados para obtener información de ellos, por lo que es necesario realizar en la mayoría de los caso un trabajo mínimo que consiste en la organización y presentación de los datos de manera adecuada. Esto es precisamente el objetivo de la estadística descriptiva. Como primer paso los datos pueden ser acomodados en un ARREGLO, el cual tiene el objetivo de presentar los datos con un mínimo de orden. Es deseable que este orden sea descendente o ascendente, como se muestra a continuación. NUMERO DE PERSONAS VIVIENDO EN UN GRANJAS 2 2 3 3 4 4 4 4 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 9 10 9 9 11 9 10 11 9 10 12 9 10 12 TABLA DE DISTRIBUCIÓN DE FRECUENCIAS A partir de los datos ordenados en un arreglo se puede presentar los datos en una DISTRIBUCION DE FRECUENCIAS. Para realizar la distribución de frecuencias se puede seguir el siguiente procedimiento: a) Localice el valor máximo (Xmax) Obténgase el RANGO como: y mínimo (Xmin) del conjunto de datos, y a partir de ellos R = Xmax - Xmin b) Ahora proceda a dividir el rango en INTERVALOS DE CLASE, se sugiere que el número de intervalos de clase no sea menor a 6 ni mayor a 20. c) La LONGITUD DE EL INTERVALO de cada clase debe ser la misma en todas las clases y deberá ser de tal que el punto medio de cada intervalo tenga en mismo número de dígitos y precisión que los datos originales. d) Una vez definidos adecuadamente los intervalos proceda a contar los datos que se encuentren dentro de su límite inferior y su límite superior, el número de datos que caen dentro de dicho intervalo, constituye la FRECUENCIA DE CLASE. e) Tome en cuenta que cada dato solo pertenece solamente a una clase, por lo que no debe haber ambigüedad en su pertenencia a alguna clase. f) El punto medio de cada intervalo es llamado LA MARCA DE CLASE y representará a todos los puntos que caigan dentro del intervalo. g) LA TABLA DE DISTRIBUCIÓN DE FRECUENCIA se construye colocando en la primera columna (ó fila) los intervalos de clase y/o las marcas de clase y en la siguiente columna (ó fila) las frecuencias correspondientes. 2 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT EJEMPLOS 1. Obtenga la tabla de la distribución de frecuencias para los datos siguientes. NÚMERO DE PERSONAS VIVIENDO EN UN GRANJAS 2 4 5 6 6 7 8 8 2 4 5 6 7 7 8 9 9 9 10 11 3 4 5 6 7 7 8 9 10 11 3 5 5 6 7 7 8 9 10 12 4 5 6 6 7 8 8 9 10 12 Por la naturaleza de los datos presentados en la tabla se puede optar por que cada uno de los valores: 2, 3, 4, 5, 6, 7, 8, 9, 10 11 y 12 sean los “intervalos”, entonces X FR(X) 2 2 3 2 4 4 5 6 6 7 8 7 9 6 10 4 11 2 12 2 (2) Obtenga la tabla de la distribución de frecuencias para los datos siguientes. Divida en 7 clases. 2.3 2.3 2.4 2.6 2.8 3.0 3.4 3.5 3.5 3.6 El rango es Dividiendo el rango en N = 7 intervalos 3.7 3.8 3.8 3.9 3.9 4.0 4.0 4.1 4.1 4.3 4.3 4.4 4.4 4.4 4.5 4.5 4.6 4.6 4.6 4.6 4.7 4.8 4.8 4.9 4.9 5.0 5.0 5.1 5.1 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0 6.4 6.5 7.1 R = 7.1-2.3=4.8. ancho =4.8/7=0.6857 ancho =0.7 Como el ancho tiene muchos dígitos, el ancho se puede redefinir como Pero en este caso la longitud total de los intervalos es Longitud = (7) (0.7)=4.9 Esta longitud excede en 4.9 -4.8= 0.1 al rango, este excedente se puede repartir entre las clase extremas, por ejemplo, el límite inferior de la primera clase es 2.25 y el superior 2.25+0.7= 2.95. Para la segunda clase se considera como límite inferior el límite superior de la primera clase, su correspondiente límite superior es 2.95+0.7= 3.65, el proceso anterior se repite para cada una de las clases posteriores. Los resultados son colocados en la siguiente tabla 3 7 5.65 .0 4. polígono de frecuencias y ojiva.0 4.95 -3.05 -5. Distribución de frecuencias problema 2 PRESENTACIÓN GRÁFICA DE DATOS. Un histograma se puede convertir en un POLÍGONO DE FRECUENCIAS simplemente conectando los puntos medios o marcas de clase con líneas rectas. Distribución de frecuencias y frecuencias acumuladas ejemplo1 4 .8 5 11 16 6 5 2 10 21 37 43 48 50 Tabla 1.8 5 11 16 6 5 2 Tabla 1.75 -6.25 -2.3 4.25 -2.6 5 5 3.75 5.65 3.1 6.4.05 5. 35 4.45 6.75 5.45 -7.05 -5.3 4.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Clases 2. OJIVA Para algunas aplicaciones es requerido obtener la tabla de las FRECUENCIAS ACUMULADAS la cual se obtiene sumando las frecuencias precedentes a cada una de las clases.95 2.4 6. Clases 2. HISTOGRAMA Y POLÍGONO DE FRECUENCIAS La tabla de distribución de frecuencias puede ser utilizada para obtener una gráfica en la cual se coloca en el eje X los puntos medios de las clases y en el eje Y las correspondientes frecuencias de la clase.4 6.1 6.95 -3.15 Marca de Frecuencia Clase FR(X) 2.65 .35 -5.15 Marca de Frecuencia Frecuencia Clase FR(X) acumulada 2.75 -6.35 -5. La gráfica descrita se conoce como HISTOGRAMA.65 3. pero es necesario agregar dos puntos medios extras.4. La gráfica de las clases vs las frecuencias acumulas es conocida como OJIVA EJEMPLOS 3. SOLUCION: Primero se obtiene la frecuencia acumulada de los datos.45 6.6 5 3.45 -7. 35 4.05 5.95 2. uno correspondiente a una previa a la primera clase y con frecuencia cero y otro posterior a la última clase con frecuencia cero. Utilice el resultado de problema (2) anterior para obtener el histograma.7 5. por lo que pueden ser representadas juntas como se observa a continuación.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT A continuación se presentan cada una de las gráficas solicitadas a partir de los datos de la tabla anterior Histogtrama 20 18 16 14 frecuencia 12 10 8 6 4 2 0 2 3 4 5 6 7 Histograma del ejemplo 1 Poligono de frecuencias 20 18 16 14 12 frecuencia 10 8 6 4 2 0 2 3 4 5 6 7 Gráfica del polígono de frecuencias del ejemplo 1 Las gráficas anteriores representan a la distribución de frecuencias. 5 . APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Histograma y Polígono de frecuencias 20 18 16 14 Frecuencia 12 10 8 6 4 2 0 2 3 4 5 6 7 Histograma y polígono de frecuencias del ejemplo 1 Ojiva 50 45 40 frecuencia acumulada 35 30 25 20 15 10 5 0 2 3 4 5 6 7 Ojiva o gráfica de las frecuencias acumuladas del problema 1 6 . APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Histograma de frecuencias relativas Si se dividen las frecuencias obtenidas en la tabla de distribución de frecuencias entre el total de datos se obtiene la llamada LA TABLA DE DISTRIBUCIÓN DE FRECUENCIA RELATIVA, y su respectiva gráfica se llama HISTOGRAMA DE FRECUENCIAS RELATIVAS. Lo anterior se puede aplicar también a la tabla de frecuencias acumuladas obteniéndose LA TABLA DE FRECUENCIAS ACUMULADAS RELATIVAS y su respectiva gráfica se llama OJIVA DE FRECUENCIAS RELATIVAS. La ventaja del uso de las frecuencias relativas es su inmediata relación con la probabilidad, es decir, la frecuencia relativa de una clase es la probabilidad de que los datos considerados se encuentren en dicho intervalo. (2) A continuación se muestran algunas de las gráficas del problema 2 para el caso de frecuencias relativas. Histograma de frecuencia relativa 0.4 0.35 0.3 Frecuencia relativa 0.25 0.2 0.15 0.1 0.05 0 2 3 4 5 6 7 Histograma de frecuencias relativas del ejemplo 1 Ojiva de frecuencia relativa 1 frecuencia relativa acumulada 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 2 3 4 5 6 7 Ojiva de frecuencias relativas acumuladas del ejemplo 1 7 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 4. Se realiza una investigación a los vendedores de una cadena nacional de tiendas de departamentos para determinar el patrón de sus ingresos diarios. Se seleccionan una muestra aleatoria de 50 vendedores y se obtienen sus ingresos durante cierto día. 53 63 69 74 77 79 82 85 88 92 57 64 70 74 77 79 82 85 90 93 58 66 71 74 78 81 83 86 90 94 61 67 72 74 81 78 83 87 90 96 61 68 73 77 79 81 84 87 90 97 a) Organice los datos en una tabla. Las clases son 52.5 - 57.5, 57.5 - 62.5, 62.5 - 67.5,.., 92.5 - 97.5 b) Conviértase en frecuencias relativas y relativas acumuladas. Obténgase el Histograma de frecuencias relativas y la ojiva de frecuencias relativas. SOLUCION A partir de los datos y las clases propuestas se determina la siguiente tabla. Clases 52.5 -57.5 57.5 - 62.5 62.5- 67.5 67.5 -72.5 72.5 - 77.5 77.5 - 82.5 82.5 - 87.5 87.5 - 92.5 92.5 - 97.5 Marca de Frecuencia Frecuencia Frecuencia Frecuencia Clase FR(X) acumulada relativa relativa FR(X) acumulada 55 2 2 0.0400 0.0400 60 65 70 75 80 85 90 95 3 4 5 8 10 8 6 4 5 9 14 22 32 40 46 50 0.0600 0.0800 0.1000 0.1600 0.2000 0.1600 0.1200 0.0800 0.1000 0.1800 0.2800 0.4400 0.6400 0.8000 0.9200 1.0000 Tabla 2. Distribución de frecuencias, frecuencias acumuladas y relativas de ejemplo 2 8 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Histograma de frecuencia relativa 0.25 0.2 Frecuencia relativa 0.15 0.1 0.05 0 50 55 60 65 70 75 80 85 90 95 100 Histograma de frecuencias relativas del ejemplo 2 Ojiva de frecuencia relativa 1 0.9 frecuencia relativa acumulada 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 50 55 60 65 70 75 80 85 90 95 100 Ojiva de frecuencias relativas acumuladas del ejemplo 1 9 Las más conocidas son la MEDIA ARITMETICA MEDIANA y MODA. Es costumbre representar algunas propiedades y definiciones mediante la notación sigma: ∑a i =1 N i = a1 + a 2 + a3 + . entonces i =1 N S (a) = ∑ ( X i − a) = 0 i =1 N Aplicando las propiedades de la notación sigma 10 .. el menor valor de la función es S (a ) = 0 . supongamos que se define la función D(X) como a continuación se indica S (a) = ∑ ( X i − a) Donde Xi son los datos y a es una constante. Propiedades de la notación sigma Sean N ∑ a1 y i =1 N ∑b i =1 N 1 dos sumatorias y c una constante.1) Es posible dar una justificación matemática a la definición anterior. Para tal fin. A continuación se presentan algunas de las propiedades más importantes. promedio o simplemente media es denotada por: X .….XN. esto es: X = ∑X i =1 N i N (1.. X3.X2. PROMEDIO X La media aritmética. dividida entre el número N total de datos. + a N Como se puede observar es utilizada para representar la suma de de elementos también conocida como serie. es simplemente la suma de todas las observaciones X1.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT MEDIDAS DE TENDENCIA CENTRAL Las MEDIDAS TENDENCIA CENTRAL ó DE CENTRALIZACION de tienen como objetivo es tratar de localizar (ó encontrar) el centro de la distribución. las cuales se utilizarán posteriormente. entonces: N a) ∑ (ai + bi ) = ∑ ai + ∑ bi i =1 N i =1 i =1 N b) ∑ cai = c∑ ai i =1 i =1 N MEDIA ARITMÉTICA. X = ∑ f (x )x x =1 n 1 i N i ∑ f (x ) i (1. la mediana dos partes iguales N .APUNTES DE ESTADISTICA GONZALO GALVEZ COYT ∑ X − ∑a = 0 i =1 N i i =1 N N ∑X i =1 i − Na = 0 Despejando a a a= ∑X i =1 N i N La cual corresponde a la definición del promedio. es el número que divide el conjunto de datos en Para el caso de datos no agrupados. la mediana se define como el valor X que divide al histograma correspondiente en dos partes con áreas iguales. Para datos agrupados se calcula la media mediante la ecuación.2) La suma de las frecuencias individuales es igual al número total de datos. Para datos agrupados la mediana se pude obtener mediante ~ X = Li ( x m ) + Donde N − CF ( x ) m −1 2 w F ( xm ) (1.4) Li ( x m ) Límite inferior de la clase que contiene a la mediana- 11 . 2 ~ En el caso de datos agrupados.3) ~ ~ X . esto es N = ∑ f i ( xi ) i =1 n Entonces X = MEDIANA X ∑ f (x )x i =1 i n i N (1. ˆ MODA X ˆ La moda X es el valor que más veces aparece en un conjunto de datos.5 .5 .5 .5 -57.5 -72.62.5 72.5 92.5 67.82.5 .77.5 -57.97. Frecuencia de la clase que contiene a la mediana.5 .92.5 87.87.5 62.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 2 CF ( x m −1 ) F ( xm ) w N Mitad de los datos.5 .5 TOTAL SOLUCION Es recomendable construir la tabla siguiente a partir de los datos dados: Clases 52.92.67.67.5 .5 92.5 67.97.62. EJEMPLO 5.5 .5 62.5.77. Ancho de la clase.5 57.5 .5 TOTAL X 55 60 65 70 75 80 85 90 95 F(x) 2 3 4 5 8 10 8 6 4 50 X F(X) 110 180 260 350 600 800 680 540 380 3900 X 55 60 65 70 75 80 85 90 95 F(x) 2 3 4 5 8 10 8 6 4 50 La media se obtiene a partir de la definición de datos agrupados X = ∑ f (x )x i =1 i n i N = 3900 = 78 50 12 . mediana y moda para la distribución de frecuencias siguiente y localice sobre el histograma cada una de ellas sobre el histograma correspondiente.5 -72.82. Frecuencia acumulada hasta la clase anterior a la que contiene a la mediana.5.5 .5 82.87.5 77.5 77. Determine media.5 57.5 82.5 .5 87. Clases 52.5 .5 72. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT La clase que contiene a la mediana se ha sombreado en la tabla anterior. La mediana se obtiene aplicando la ecuación para datos agrupados N − CF ( x ) 50 − 22 m −1 2 w = 77.5 + 2 10 5 = 79 F ( xm ) ˆ La moda es simplemente X = 80 ~ X = Li ( x m ) + La gráfica siguiente muestra que las tres medidas de centralización, las cuales son muy cercanas entre si y se localizan como debe ser en el centro del histograma. Histograma de frecuencia relativa 0.25 Frecuencia relativa 0.2 0.15 0.1 0.05 ~ X 0 50 55 60 65 70 75 X ˆ X 80 85 90 95 100 MEDIDA DE DISPERSIÓN DESVIACIÓN TÍPICA Ó ESTÁNDAR La desviación típica ó estándar: es la medida de dispersión más representativa de un conjunto de datos. .Se define utilizando como 2 N 2 ∑ ( xi − x ) S N = i =1 N 1 (1.5) La fórmula anterior es conocida como desviación típica ó estándar sesgada Para datos agrupados la fórmula anterior se escribe como 13 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 2 N 2 ∑ f ( xi )( xi − x ) S N == i =1 N 1 (1.6) VARIANZA El valor de la desviación estándar al cuadrado es conocido como la Varianza, esto es Varianza = S2 Una forma alternativa par el cálculo de la varianza y/o de la desviación estándar sesgada se obtiene desarrollando la definición dada, esto es SN = 2 ∑ (x i − x)2 2 1 N 1 = N 1 = N 1 = N = (∑ x − ∑ 2 x x + ∑ x ) (∑ x − 2 x ∑ x + x ∑1) (∑ x − 2 x N x − Nx ) 2 i i 2 2 i i N = 1 N ∑ (x 2 i − 2 xi x + x 2 ) 2 2 i ∑x 2 i − x2 Entonces SN = Notación 2 1 N ∑x 2 i − x2 (1.7) Normalmente las letras latinas x , S , S , etc., representan los estadísticos de una muestra y las letras griegas 2 µ ,σ ,σ 2 , etc., representan los estadísticos de una población. 2 Existe una forma para la varianza muestral S que proporciona una estimación más precisa de la varianza de la población, en particular, cuando la muestra es pequeña (N ≤36); es conocida como varianza insesgada de la población y se calcula mediante S N −1 = 2 ∑ (x i − x)2 N −1 (1.8) 14 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT De aquí se calcula mediante la raíz cuadrada la desviación estándar insesgada S N −1 ∑ ( xi − x ) 2 2 = N −1 1 (1.9) Procediendo de manera similar al caso sesgado se puede obtener una fórmula directa para calcular la varianza y/o desviación estándar insesgada S N −1 2 N −1 1 2 2 = ∑ xi − ∑ 2 xi x + ∑ x N −1 1 2 2 = ∑ xi − 2 x ∑ xi + x ∑1 N −1 1 ∑ xi x − N ∑ xi 2 = ∑ xi − 2 ∑ i N N N −1 2 1 x 2 − (∑ xi ) = ∑ i N N − 1 ∑ (x = i − x)2 ( ( 1 2 2 = ∑ xi − 2 x i x + x N −1 ( ) ) ) 2 Por lo tanto S N −1 2 2 1 x 2 − (∑ xi ) = ∑ i N N − 1 (1.10) La desviación estándar como se ha indicado anteriormente es una medida de la dispersión de los datos, está dispersión se mide a partir de la media de la distribución de datos; por ejemplo, supóngase que se comparan dos conjuntos de datos obtenidos a partir de la misma población, los cuales tienen el mismo número de datos ( N 1 = N 2 ),el mismo promedio ( x1 = x 2 ), entonces, si la desviación del primer conjunto es menor que la del segundo conjunto, ( s1 < s 2 ), es posible afirmar que los datos del primer conjunto se encuentran más concentrados que los de la segundo y la altura del primer conjunto de datos es mayor que la del segundo. La figura siguiente compara dos distribuciones continuas con las características descritas anteriormente. 15 se muestra la idea del teorema de Tchebycheff para k = 2.. este tipo de distribución puede ser comparada con una distribución teórica continua llamada curva normal. Esta idea se expresa en un teorema enunciado por el matemático ruso Tchebycheff.1 0. En la figura 1. Es posible aplicar las características de la curva normal a este tipo de distribuciones muestrales para determinar la proporción de datos contenidos dentro de una. Un valor pequeño de la desviación típica ó estándar indica una mayor probabilidad de obtener un valor más cercano a la media.35 s1=1 0. [ ] Regla de la normal En muchas ocasiones el histograma que representa la distribución de frecuencia tiene una forma de campana simétrica. [X − S . donde k es cualquier número mayor que 1.15 0. x + 2 s . el teorema anterior garantiza que sin importar como es la distribución de frecuencias. aproximadamente el 68 % de los datos caerán en el intervalo [X − 2 S .2 0. y casi el 100 % de los datos caerán en el intervalo [X − 3S . existe 1-1/22=0.25 0.05 0 -6 s2=2 x1=x2 -4 -2 0 2 4 6 Comparación de dos distribuciones de frecuencia con diferentes desviaciones estándar s1 < s 2 La desviación estándar se puede emplear también para medir las variaciones con respecto a la media de los valores con respecto a la media. el 95 % de los datos caerán en el intervalo 16 .APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 0. X + 2 S ] . A continuación se enuncia la regla de la normal. dos y tres desviaciones estándar. X + S ].4 0. Por ejemplo.3 Frecuencia 0. X + 3S ] . para el caso de k = 2. Para distribuciones de frecuencia simétricas en forma de campana.75 de los datos se encuentran dentro del intervalo comprendido por x − 2 s. Teorema de Tchebycheff La proporción de cualquier conjunto de valores que caerá dentro k desviaciones típicas a partir de la media es al menos 1-1/k2. X + S ].2 0.05 0 50 55 60 65 70 75 80 85 90 95 100 X − 2s X X + 2s Figura 1. Regla de Normal.15 0. X + 2S ].APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Histograma de frecuencia relativa 0. 35 30 25 20 15 10 Aproximadamente 68% casi 100% Aproximadamente 95% 5 0 -200 -150 -100 -50 0 50 100 15 200 250 300 x − 3s x − 2s x − s x x + s0 x + 2s x + 3s Figura 2. y casi el 100 % en X − 3S . X + 3S . Teorema de Tchebycheff proporción de datos 1-1/k2 para el caso k = 2.1 0. 68 % de los datos en el intervalo [X − 2S . [ ] [X − S . el 95 % en 17 .25 Frecuencia relativa Al menos 3/4 0. 27 S N = 113.54 S N −1 2 2 1 f ( x ) x 2 − (∑ f ( xi ) xi ) = ∑ i i N N − 1 1 (3900)2 = 309750 − 50 − 1 50 = 113.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT EJEMPLOS 6.64 18 . X 55 60 65 70 75 80 85 90 95 SOLUCION Es recomendable construir la tabla siguiente a partir de los datos dados: X 55 60 65 70 75 80 85 90 95 F(x) 2 3 4 5 8 10 8 6 4 50 X F(X) 110 180 260 350 600 800 680 540 380 3900 X2 F(X) 6050 10800 16900 39200 45000 64000 57800 48600 36100 309750 F(x) 2 3 4 5 8 10 8 6 4 50 Utilizando los resultados de la tabla en las ecuaciones respectivas SN 2 1 = N ∑ 1 (309750) − 3900 = 111 f ( xi ) xi − x = 50 50 2 2 2 S N = 111 = 10.27 = 10. Determine la desviación estándar sesgada e insesgada para el conjunto de datos siguientes. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 7. Obtenga la mediana para el conjunto de datos siguiente 53 63 69 74 77 79 82 85 88 92 SOLUCION La mediana debe dividir los datos en la mitad, esto es en 25 datos a la izquierda y 25 a la derecha. Puesto que los datos se encuentran acomodados en orden ascendente, se puede observar el dato X25 = 79 y el dato X26 = 79, por lo tanto 57 64 70 74 77 79 82 85 90 93 58 66 71 74 78 81 83 86 90 94 61 67 72 74 81 78 83 87 90 96 61 68 73 77 79 81 84 87 90 97 ~ X + X 26 = 79 + 79 = 79 X = 25 2 2 8. Cierta tarde del sábado 30 estudiantes universitarios de primer semestre trabajaron.A continuación se muestra la distribución de frecuencias de sus ganancias. a) Obtenga la media, mediana y moda b) Obtenga la desviación estándar S n , S n −1 Ganancia x 10 15 20 25 30 35 SOLUCION Primero se realiza la siguiente tabla a partir de la anterior x 10 15 20 25 30 35 f(x) 2 5 9 6 3 5 30 xif(xi) 20 75 180 150 90 175 690 f(xi)xi2 200 1125 3600 3750 2700 6125 17500 Frecuencia f(x) 2 5 9 6 3 5 30 Σ 19 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Promedio X = ∑ f (x )x i i N = 690 = 23 30 Mediana De los datos de la tabla Límite inferior de la clase Li(xm) =17.5 Frecuencia acumulada hasta antes de la clase m Frecuencia de la clase donde está la mediana = 9 Ancho de la clase CF ( x m −1 ) m=7 F (xm ) w=5 30 −7 N − CF ( x ) m −1 ~ (5) = 22.22 X = Li ( x m ) + 2 w = 17.5 + 2 F ( xm ) 9 Moda El valor con mayor frecuencia es x = 20 ˆ Desviación estándar sesgada SN = 2 1 N ∑ f (x )x i 2 i − x2 = 1 (17500) − (23) 2 = 54.33 30 Entonces S = 54.33 = 7.37 Desviación estándar insesgada S 2 n −1 = (∑ f ( x) xi ) 1 2 ∑ f ( xi ) xi − N N −1 S N −1 = 56.21 = 7.50 2 = (690) 2 17500 − 30 30 − 1 = 56.21 Por lo tanto 9. Las mediciones en la escala de Richter correspondientes a los 50 terremotos más recientes en el mundo son dadas en la tabla. a) Constrúyanse una distribución de frecuencias con límites de clase de 2.25 a 2.75, 2.75 a 3.25, etc. b) Trácense el histograma y polígono de frecuencias (c) Obtenga la media, mediana y moda (d) Obtenga la desviación estándar S n , S n −1 20 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 2.3 2.3 2.4 2.6 2.8 3.0 3.4 3.5 3.5 3.6 SOLUCION 3.7 3.8 3.8 3.9 3.9 4.0 4.0 4.1 4.1 4.3 4.3 4.4 4.4 4.4 4.5 4.5 4.6 4.6 4.6 4.6 4.7 4.8 4.8 4.9 4.9 5.0 5.0 5.1 5.1 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0 6.4 6.5 7.1 (a) Utilizando las clases sugeridas se determinan las respectivas marcas de clase, frecuencias y se evalúan de xf(x) y x2 f(x), acomodando los resultados en la siguiente tabla clase 2.25-2.95 2.95-3.65 3.65-4.35 4.35-5.05 5.05-5.75 5.75-6.45 6.45-7.15 x 2.6 3.3 4.0 4.7 5.4 6.1 6.8 f(x) 5 5 11 16 7 4 2 50 x(f(x)) 13 16.5 44 75.2 37.8 24.4 13.6 224.5 x2(f(x)) 33.8 54.45 17.6 353.44 204.12 148.84 92.48 1106.313 Σ (b) Histograma y polígono de frecuencias. Histograma y Poligono de frecuencias 20 18 16 14 12 frecuencia 10 8 6 4 2 0 2 3 4 5 6 7 21 49) 2 = 1.7 ˆ Moda Mediana Para los datos no agrupados N N dato + dato + 1 2 = 4.5 = 4.5 + 4.125 Por lo tanto S N −1 = 1.1025 = 1.35 + 2 F ( xm ) 16 1 (1063.125 = 1.5 2 ~= x 2 2 Para los datos agrupados ~ X = Li ( x m ) + 50 N − CF ( x ) − 21 m −1 2 (0.7 ) = 4. Supóngase que cierto conjunto de observaciones tiene una x = 100 y una S2= 225 Conteste las siguientes preguntas.5)2 1 2 ∑ f ( x i ) x i − = 1063.9 = 4.13 − = 50 N N − 1 50 − 1 = 1.0606 10.05 Desviación estándar insesgada S N −1 2 (∑ f i ( x)( xi ))2 1 (224.54 w = 4. de acuerdo al teorema de Tchebycheff. a) ¿Al menos qué porcentaje de todas las observaciones caerá entre 70 y 130? b) ¿A menos que porcentaje de las observaciones caerá entre 25 y 175? SOLUCION a) De los datos se obtiene x = 100 S = 15 22 .APUNTES DE ESTADISTICA GONZALO GALVEZ COYT (b) A partir de los datos de la tabla de frecuencia se puede determinar los estadísticos solicitados Media x= ∑ ( fi)( xi) = 2245 = 44.49 N 50 16 x = 4.1025 50 Desviación estándar sesgada SN = 2 1 N ∑ f (x )x i =1 i i n 2 i − x2 = Entonces S = 1.13) − (4. por lo tanto Número de trabajadores = Total x Fracción N = 100 x 0.95 = 95 23 . o sea al 2.5% ó equivalentemente a 0.95 del total de datos. los valores de k correspondientes a 25 y a 175 son k1 = 25 − 100 175 − 100 = −5 y k 2 = =5 15 15 Es un intervalo simétrico a partir de la media con k =5. ¿aproximadamente cuántos trabajadores tienen una producción entre 40 y 80 unidades? SOLUCION El número de desviaciones estándar a partir de la media se puede determinar con Del problema k= x = 60 y S = 10 entonces. x + 2S ] hay aproximadamente el 95 % de los datos. que de acuerdo a la regla de la normal corresponde al 95 % de los datos ó al 0. Una muestra de 100 trabajadores tiene una producción promedio por hora de 60 unidades y una desviación típica de 10 unidades. De acuerdo al teorema de Tchebycheff Proporción al menos = 1 − 1 1 100 = 1 − 2 100 = 96 % 2 k 5 11. De acuerdo con la regla normal ¿Cuál es la proporción aproximada de un conjunto de observaciones que caerá por debajo de x − 2 S SOLUCION De acuerdo a la regla de la Normal dentro del intervalo [x − 2S .APUNTES DE ESTADISTICA GONZALO GALVEZ COYT En general el valor de k correspondiente a un valor X cualquiera se puede determinar a partir de la ecuación k= X −x S Los valores de k correspondientes a 70 y a 130 son k1 = 70 − 100 130 − 100 = −2 y k 2 = =2 15 15 Es un intervalo simétrico a partir de la media con k =2. De acuerdo con la regla de la normal.0250 de los datos. para los valores de 40 y 80 se tiene que X −x S k1 = 40 − 60 80 − 60 = −2 y k 2 = =2 10 10 Lo cual corresponde a dos desviaciones a la izquierda y a la derecha del promedio. pero como solo se consideran los que están por debajo de x − 2 S esto corresponde a la mitad. 12. quedando fuera el 5 %. De acuerdo al teorema de Tchebycheff Proporción al menos = 1 − 1 1 100 = 1 − 2 100 = 75 % 2 k 2 (b) Procediendo de manera similar al inciso anterior. 3. C. α.-2.0.…. A = {x.…. b.6.} La forma implícita corresponde cuando los elementos del conjunto no son mostrados directamente y son definidos mediante una condición o condiciones.| x es un número par} El CONJUNTO UNIVERSO denotado generalmente por U es el conjunto más grande que es utilizado en un problema particular y contiene a todos los elementos. c. Φ. En el ámbito de la Estadística se relaciona directamente el conjunto universo con la población y el caso de la Probabilidad con el llamado espacio muestral. v.} C = {…-4. Notación: x ∈ Α. φ. 2.6. e. Z W. Ω ELEMENTO: en un único objeto o dato que es parte de un conjunto Notación de elemento: los elementos se denotan con letras minúsculas a. o. 4. Conceptos básicos de la teoría de conjuntos: CONJUNTO: es una colección de objetos. i.| x es una vocal del abecedario} B = {x. 2. Se dice que un elemento x pertenece a un conjunto A si x es parte del conjunto A. La forma explícita corresponde cuando los elementos del conjunto son mostrados directamente EJEMPLO A = {a. de forma explícita y /o implícita.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Unidad II Probabilidad CONJUNTOS Y ÁLGEBRA DE CONJUNTOS DEFINICIÓN DE CONJUNTO. 5. En forma gráfica la condición se representa mediante el diagrama siguiente 24 . que pueden cumplir una o varias condiciones. w. Notación de conjunto: comúnmente se representa a los conjuntos mediante letras mayúsculas A. 4. datos. θ Los conjuntos pueden describirse de dos maneras. U. u} B = {1. B.| x es un número natural} C = {x. U A B 25 . x también x ∈ A. existe un número total de elementos. Notación: B ⊂ A. esto es. Se dice que un conjunto B está CONTENIDO en un conjunto A ó es SUBCONJUNTO de A si y solo sí todo elemento x ∈ B. #A=n Si el # A = ∞ entonces el conjunto es infinito.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT U A x Si x no pertenece a un conjunto A. U A x Un conjunto es finito si se pueden contar sus elementos. Notación: x ∉Α. entonces x no es parte del conjunto A. En forma compacta: Notación: B ⊄ A. La definición de CONTENIDO o CONTENCION anterior se puede escribir como: B ⊂ A ↔ ∀ x ∈ B. Cabe mencionar que estas operaciones no se deben comparar con las operaciones algebraicas entre números como son la suma. no es U A B x ÁLGEBRA DE CONJUNTOS (OPERACIONES BÁSICAS) Las operaciones entre conjuntos permiten obtener nuevos conjuntos a partir de conjuntos más simples ó representar conjuntos complejos mediante conjuntos más simples. Por lo tanto. SUBCONJUNTO de A. Entonces. Todas las operaciones que se define a continuación son de gran importancia para el desarrollo de la probabilidad. x ∈ A Si algún x∈ B pero x ∉ A entonces se dirá que B NO ESTA CONTENIDO A ó que B ∃ x∈B x ∉ A → B ⊄ A. Existe. resta y multiplicación- UNIÓN DE CONJUNTOS A∪ B = Notación: {x x ∈ A ó x ∈ B} A∪ B U A B 26 . por lo que se recomienda aprenderlas y aplicarlas correctamente cada una de ellas. Si y solo si.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Para facilitar la escritura de algunas expresiones matemáticas a continuación se presentan algunos símbolos y su significado ↔ → ∀ ∃ ∴ Para todo. d . h} A ∩ B = {c. b. b. d . f . b. d . h} INTERSECCIÓN DE CONJUNTOS A = {a. d } COMPLEMENTO A c = {x x ∉ A Notación: y x ∈U } Ac U A Ac 27 . d } B = {a. f . h} C = A ∪ B = {a. g . g . c. c. f . b. d } A ∩ B = {x x ∈ A Notación: y x ∈ B} A∩ B U A B EJEMPLO A = {a. b. c. c. c.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT EJEMPLO B = {a. g . U A B 28 . Se dice que dos conjuntos A y B son AJENOS si solo si A ∩ B = Φ . h} Siendo Φ = { } conjunto vacío A partir de las operaciones anteriores entre conjuntos se pueden definir y obtener nuevas propiedades entre conjuntos. las cuales serán utilizadas en secciones posteriores y en particular en el tema de probabilidad.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Complemento relativo: B / A = {x | x ∉ B Notación: y x ∈ A} Ac U B A B EJEMPLO Utilizando los conjuntos anteriores B / A = { }= Φ A / B = {g . f . entonces: j) k) A∪B=A A∩B=B Leyes conmutativas l) m) A∪B=B∪A A∩B=B ∩A Leyes distributivas n) o) A ∪ ( B ∩ C) = (A ∪B) ∩ (Α∪ C) A ∩ ( B ∪ C) = (A ∩B) ∪ (Α ∩ C) Leyes de Morgan p) q) (A ∪ B)c = Ac ∩ Bc (A ∩ B)c = Ac ∪ Bc 29 . B dos conjuntos siguientes condiciones a) b) c) d) A∪A=A A∩A=A A ∪ Ac = U A ∩ Ac = Φ generales dentro de un conjunto universo U entonces se cumplen las e) f) g) h) i) U c= Φ Φc = U A∪Φ=Φ A∩Φ=Φ A = ( A ∩ B) ∪ (A ∩ Bc) Si B ⊂ A.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT PROPIEDADES BÁSICASDE LOS CONJUNTOS Sean A. Teoría elemental del muestreo La toma de datos ó muestras de un experimento aleatorio en general se debe realizar de tal manera que todos los posibles resultados del experimento tenga la misma oportunidad ó probabilidad de se elegidos. EVENTOS A continuación se dan nuevamente las definiciones de población. La POBLACION es el conjunto total de datos que se obtienen al realizar un experimento. 30 . El muestreo al azar se puede realizar de dos maneras CON REEMPLAZO y SIN REEMPLAZO. por otra parte si el muestreo se lleva a cabo sin reemplazo el objeto que es seleccionado no se regresa al conjunto y por lo tanto nunca más podrá se seleccionado. para la elección de muestras de un lote se puede recurrir a tablas ó programas que generan números aleatorios para evitar tendencias y realizar una correcta selección de las muestras El muestreo de datos se puede realizar al azar con o sin reemplazo El estudio de la Probabilidad permite dar una respuesta a problema de la elección adecuada de cuando una muestra es representativa de un experimento aleatorio o población. Un EVENTO O SUCESO: es un subconjunto del espacio muestral. La MUESTRA es una parte ó subconjunto de la población. lo anterior constituye el PRINCIPIO FUNDAMENTAL DEL MUESTREO. En el caso de reemplazo una vez elegido un objeto este es regresado de nuevo al conjunto y por lo tanto puede ser nuevamente seleccionado. POBLACIÓN MUESTRA. El principio anterior es conocido también como MUESTREO AL AZAR y tiene la finalidad de obtener una muestra lo más representativa del experimento. muestra y eventos. en el caso de que se obtenga resultados o datos diferentes se dirá que el es un EXPERIMENTO PROBABILISTICO ó ALEATORIO. Normalmente el espacio muestral se representa por la letra S y en términos de conjuntos es el equivalente al conjunto universo. por ejemplo. Los EVENTOS están formados generalmente por muestras a las cuales se les pide que cumplan con alguna condición o condiciones. Para efectuar un muestreo adecuado se debe evitar posibles tendencias al realizar un experimento. En aplicaciones prácticas aparecen ambos tipos de muestreo. ESPACIO MUESTRAL El ESPACIO MUESTRAL es el conjunto de todos los resultados posibles de un evento aleatorio ó probabilístico.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT EXPERIMENTOS PROBABILÍSTICOS Y DETERMINÍSTICOS Como ya se ha mencionado en la unidad anterior: Un EXPERIMENTO ES DETERMINÍSTICO si al realizarse bajo las mismas condiciones se obtiene invariablemente en mismo resultado o dato. N = N1. si el evento i puede ocurrir de Ni formas.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT DEFINICIÓN DE PROBABILIDAD La PROBABILIDAD DE UN EVENTO se puede definir en el caso de conjuntos finitos como: P( E ) = N . por lo que es conveniente recurrir en principio a las técnicas de conteo para determinar las probabilidad. esto no es posible para la mayoría de los demás caso. N (S).N2 formas. Diagrama de árbol que representa el principio fundamental del conteo N1*N2=4*2= 8 31 .1) El principio fundamental del conteo se puede representar gráficamente mediante el llamado diagrama de árbol.(S ) N (E):= número de elementos independientes de E. En algunos casos sencillos es posible conocer fácilmente el número total de elementos que conforman cada uno de los conjuntos.N2…. Cada trayectoria en el diagrama de árbol representa un posible resultado o forma de realizarse el experimento. esto es. N1 N2 Figura 1. sin embargo.(E ) N . entonces el evento total conjunto de los k eventos. se puede realizar de N1. Ni……Nk formas. entonces el evento conjunto se puede realizar de N1. = número total de elementos independientes. TÉCNICAS DE CONTEO PRINCIPIO FUNDAMENTAL DEL CONTEO.N2 (2. Si un evento n1 se puede realizar de N1 formas y otro evento se puede realizar de N2 formas. con lo que se obtienen N1*N2=4*2= 8 trayectorias ó formas Por otra parte el principio fundamental del conteo se puede generalizar a k eventos. En la figura 1 se muestra el diagrama de árbol para el caso de N1=4 y N2 = 2. A. S. A. A. S. A. S. (A. A. A S A S A S A S 32 . 2. 4. si la moneda es arrojada dos veces entonces N = N1*N2 = 2*2 = 4 eventos independientes Cada uno de los eventos individuales se muestran a continuación: S={ (A. A. 6. 7. A. S. (S. Una moneda es arrojada 2 veces consecutivas. A. S. A.A). S. S.A). S. S. (S. S. A. esto es N1=10. S. A. 2. S. A S A S A S A S S.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT EJEMPLOS 1. A. N2=10. lístense todas las posibilidades: SOLUCION El número total de posibles eventos independientes es N=(2. A. A. S. S. Un experimento consiste en arrojar una moneda 4 veces. Aplicando el principio fundamental del conteo se obtiene: 10 10 10 = 103 =1000 combinaciones 2. 2. Combinación de un candado. S. S. A. A. SOLUCION De acuerdo a los indicado en el problema cada uno de los discos pude ser colocado en 10 formas. 2)= 24=16 Puede utilizarse un diagrama de árbol para listar correctamente todas las posibilidades. S. y N3=10. estas son: A. A. S. S. Determine el número total de combinaciones de un candado formado por formado por 3 discos giratorios y cada uno de los cuales puede ser colocado en los números 0. S. S. 8. 3. 1. S. 5. A A. A. Obtenga el espacio muestral del conjunto. SOLUCION Una moneda tiene dos resultados posibles. 9.S)} 3. Águila (A) ó Sol (S). A. A. A.S). S. 6). Determine el número posible de combinación de placas válidas si la placa esta formada por 3 números consecutivos y 3 letras del abecedario.3). (3. (1. (1. (2.1).3).4). Obtenga el espacio muestral que se genera al arrojar un dado 2 veces SOLUCION El dado tiene 6 caras y por lo tanto existen 6 posibilidades para cada vez que es arrojado.4).1).3).APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 4.5). (5.3). (6. (2. (3. entonces: 2 2 2 2 2 =25 =32 posibles 5.6). (1.2).2).5). SOLUCION En cada uno de los 5 casos de arrojar una moneda está puede tener solamente dos resultados posibles. (2.4). (5. (6. (5.5). (3. (2.1). Obtenga el número total de eventos independientes que se obtiene al arrojar una moneda 5 veces consecutivas. (4.6).4). (3. (2. (5.1). (3. LL y la letra Ñ). (3. (6.4).2). entonces: METODO I Números 10 10 10 Letras 26 26 26 Placas =(103) (263) En el cálculo anterior se han incluido placas que no existen para fines prácticos. (4. (1. 33 . (6. Águila (A). (2.1).6) } 6.5).2). por ejemplo: La placa 0 0 0 A A A No existe En general las placas no pueden tener un cero o ceros antes que un número diferente de cero.6). S = { (1. (4.5). (6.3). SOLUCION Existen 10 posibilidades para cada uno de los números y 26 posibilidades para cada una de las letras (no se incluyen letras dobles RR.2). (5. entonces como es arrojado 2 veces: 6 6 = 62 =36 resultados Los eventos independientes pueden obtenerse fácilmente mediante un diagrama de árbol.3).2). ó Sol (S). (5. (1.6).1). (4. (4.5).4). CH. (4. (6. las permutaciones y las combinaciones PERMUTACIONES La permutación aparece cuando se tienen N objetos DISTINGUIBLES SIN REEMPLAZO y estos pueden ocupar r lugares o posiciones. por lo tanto se reduce sus posibles valores a N1=9 Manteniéndose los demás valores iguales al método I Números 9 10 10 Letras 26 26 26 Placas =(900) (263) Número de placas no validas = (900) (263) = 15 818 400 placas. METODO II La primer casilla de número no puede ser cero.(100) (263) = (900)( 263)= 15 818 400 placas.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Por otra parte no existen las placas 0 1 num 9 num 10 letra 26 letra 26 letra 26 No existen = (90)(263) 0 1 0 1 num 9 letra 26 letra 26 letra 26 No existen =(9)(263) 0 1 0 1 0 1 letra 26 letra 26 letra 26 No existen =263 Número de placas no validas = (90)(263)+ (9)(263)+ 263=(102)(263)=(100) (263) Entonces Número de placas validad =Número total . El principio fundamental del conteo permite obtener fórmulas matemáticas para algunos casos generales que ocurren comúnmente en aplicaciones prácticas.Número de placas no validas. Lo anterior se representa gráficamente como Lugar 1 Lugar 2 Lugar 1 Lugar 1 … Lugar r 34 . como son. = (103) (263). -r+1) Existe un caso particular en el cual en número de objetos n es igual al número de posiciones que pueden ocupar. Mostrar que la definición de las permutaciones en términos de factoriales es correcta SOLUCION Partiendo de la definición dada nP r = n! n(n − 1)(n − 2) L (n − r + 1)(n − r ) L 3 ⋅ 2 ⋅ 1 = (n − r )! (n − r )(n − r − 1) L 3 ⋅ 2 ⋅ 1 Simplificando términos nP r = n! = n(n − 1)(n − 2) L (n − r + 1) (n − r )! para el caso particular de n = r 35 . r = n.2) nP r = EJEMPLOS n! (n − r )! (2..-r)…. por lo tanto el producto anterior se convierte en el producto de los enteros consecutivos del 1 al n.-r)…1 Este producto particular es conocido como el FACTORIAL n! = n(n-1)(n-2)(n-3)(n. esto es.1 Propiedades elementales del factorial (a) n! (n+1) =(n+1)! (b) 0!=1 Las permutaciones para n objetos ocupando r lugares ó casillas pueden definirse en términos del factorial y sus propiedades anteriores como.3) 7.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Aplicando el principio fundamental del conteo y recordando que en el primer lugar pude ser ocupado por los n objetos. el segundo lugar por los N-1 restantes y así sucesivamente hasta el lugar r donde solamente puede ser ocupado por n-r objetos n n-1 n-2 n-3 … n-r+1 Permutaciones = n(n-1)(n-2)(n-3)(n. (2. n n-1 n-2 n-3 … 1 Permutaciones = n(n-1)(n-2)(n-3)(n. (C. en términos de permutaciones n =2 r =2 Bloque A 2 B letra C 1 =2! 36 .B ) y (C.A. Determinar cuantas formas hay de acomodar las letra A.C). solo hay 4 casos MÉTODO II (formación de bloques) Si las letras A y B deben permanecer juntas. (B. (B. con lo cual el bloque en conjunto se pude considerar como un “elemento”. entonces ambas forman un bloque.A. 3 P 3 = 3!= 1 ⋅ 2 ⋅ 3 = 6 Explícitamente las permutaciones se pueden obtener a partir del diagrama de árbol siguiente A B C C B C A B C B A C C A B (A.B). Muestre explícitamente cuales son estas posibilidades.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT nP n = n! n! = = n! (n − n )! 0! 8.C.C). (C.A) 9.A.B.A).B.C sin reemplazo en tres lugares consecutivos. Para el problema n =3 y r =3.C. esto es.B ) y (C. (A.B.C).A).B.A.B.C). (B. Utilizando el problema anterior determine ¿en cuántos casos las letra A y B permanecen juntas en todo momento? SOLUCION MÉTODO I Directamente del problema anterior se pueden observar directamente que los casos que cumplen que A y B estén siempre juntas son: (A. 3 de física y 2 de biología. B estas puede permutarse y mantenerse juntas entre si. Se tienen 8 libros 3 de matemáticas. por los que hay que tomar en cuenta está posibilidad donde también n =2 r =2 B 2 A C 1 =2! Sumando las posibilidades anteriores se tiene TOTAL = 2! + 2! = 2+ 2 =4 permutaciones En términos de notación de permutaciones: TOTAL = 2P2* 2P2= 2! + 2! = 2+ 2 =4 permutaciones 10. ¿De cuántas maneras se pueden acomodar de tal manera que los libros de cada materia queden siempre juntos? SOLUCION Los tipos de libros para mantenerse juntos forman bloques de cada tipo. entonces 10 P 10 = 10!= 3 628 800 Formas 11. los cuales se pueden acomodar de las siguientes N1 = 3P3 =3! 3 Bloque 1 2 bloque 2 1 bloque e =3! Supóngase ahora que se tiene por ejemplo el siguiente acomodo particular de los bloques 3 2 1 3 2 Física 1 2 1 Biología =3! 3! 2! Matemáticas Dentro de cada bloque se pueden permutar los libros de cada sección y tal como se observa se tendrían N2= (3P3)( 3P3)(2P1) =3! 3! 2! Permutaciones Aplicando el principio fundamental de conteo en número total es N2= 3P3+ 3P3+ =3! N= N1 N2= 3! (3! 3! 2!)=432 37 . ¿De cuántas formas se pueden acomodar 10 libros distintos en un estante SOLUCION Aplicando el principio fundamental del conteo 10 9 8 7 6 5 4 3 2 1 =10!=3 628 800 Mediante permutaciones n =10 y r =10.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Pero en el bloque formado por las letras A. por lo que hay tres bloques. B.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 12. C. C B A C B A A = B. C. A. Utilizando los ejemplos anteriores es posible deducir una fórmula simple. l2 objetos indistinguibles. que cumplen l1 + l2 +…. . pero la secretaria les informa que solo se atenderán a seis personas. A. Diez personas se encuentran esperando ser atendidas en una oficina de gobierno. A. entonces N= nPr = 10P6 = 10! 10! = = 151 200 opciones (10 − 6)! 4! COMBINACIONES Para entender las como se obtienen las combinaciones primero hay que observar lo que sucede cuando los objetos que son considerados distinguibles se transforman en indistinguibles. A. A. A reducción Las permutaciones se reducen a 1 caso únicamente. B. C y posteriormente hagamos que A = B A. A. C. B. B. A. A. C. C diferente A. a. C A A reducción Las permutaciones se reducen a 3 casos únicamente. A. C. objetos indistinguibles. A. Como ejemplo considere las permutaciones de las letras A.…. C. A. A. A. . A. A. B. C. A. B. A. A. B. A. C. C. ¿cuál es la cantidad de posibles opciones para atender a las personas? SOLUCION Para este problema se tienen n = 10 personas y solo se cuenta con r = 6 lugares. A . A. A. C diferentes A. C diferentes A. C B A C B A A=B=C A. Sí se tienen n objetos que pueden ocupar r lugares y entre ellos hay l1 objetos indistinguibles. A. B. C. A. C. C. A. A. entonces en numero total de permutaciones se reduce a: 38 . Si ahora se las tres letras son indistinguibles entre si ó equivalentemente A=B=C A. B. A. lk. A A A A A A A. C A A C A A A. C.+ lk =n. B. C. B. A).6. Se tienen 8 libros.B. en este caso se puede considerar que existe un conjunto con l = r objetos iguales por lo tanto utilizando la fórmula (2.B. (A.4) Para el primer caso n = r.5.2.B). l1 = 3 libros de matemáticas iguales. 3 de física y 2 de biología. l1= 2 Para el segundo caso n = r.2. l2 = 2 libros de biología iguales. entonces N= 8! 1.3. ¿De cuántas formas diferentes puede un comprador elegir una casa? SOLUCION Hay N1= 5 distribuciones N2= 3 tipos de techos y N3= 2 tipos de alfombra.2 Las COMBINACIONES de n objetos en r lugares se obtiene cuando en una permutación de estos objetos la posición relativa no importa a pesar de ser diferentes entre ellos.B ) y (C. Un contratista de construcción ofrece casas con cinco distintos tipos de distribución.4) nCr = nPr n! = r! (n − r )! r! (2.C.C).APUNTES DE ESTADISTICA GONZALO GALVEZ COYT N= nPr l1!l 2 !Ll k ! 3! 1. (C. Si los 3 libros de matemáticas son iguales y los 2 de biología son iguales ¿Cuántas formas posibles existen de acomodarlos en un librero? SOLUCION De acuerdo a los datos del problema.3. l1= 3 EJEMPLO 13.2.1.C).C. (B.3 = =3 2! 1. (B.A. 3 de matemáticas.2 3! N = =1 3! N= (2.8 = = 3360 3! 2! 1. tres tipos de techo y dos tipos de alfombrado. aplicando el principio fundamental del conteo N= N1 N2 N3 = 5 3 2 = 30 elecciones de casa diferentes 39 .A.7.5) Las combinaciones pueden escribirse también como n n! = r (n − r )! r! EJEMPLOS 14.4. n=8 libros .A) son equivalentes a (A.B.C). entonces. por ejemplo todas las permutaciones (A. aplicando el principio fundamental del conteo N= 6 6 6 6 6 6 = 66 = 46656 formas diferentes 16. 15 blancos. ¿De cuántas formas diferentes pueden quedar las caras hacia arriba? SOLUCION Hay 6 posibles resultados de cara para cada uno de los 6 dados. Debe formarse un comité de 6 miembros. entonces. Una clase consiste en diez estudiantes.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 15. 10 negros y 5 de otras razas. ¿De cuántas formas puede seleccionarse un comité de tres estudiantes SOLUCION Este problema corresponde a un caso clásico de combinaciones donde n =10 estudiantes. entonces N= 10! == 120 comités. r = 3 estudiantes. ¿Cuántas placas diferentes pueden emitirse si no hay restricciones? SOLUCION Para las letras hay 26 posibles resultados y para los números hay 10 posibles valores. (10 − 3)!3! 18. Se tiran seis dados.103=676000 N= 17. ¿de cuántas formas puede hacerse esto? SOLUCION Los 30 miembros son divididos en 3 clases:15 blancos. Las placas de matrícula de automóviles emitidas por cierto estado tienen dos letras seguidas por tres dígitos. 5 de otros Como las proporciones deben de ser iguales y el comité está formado por 6 miembros a cada clase le corresponden 2 miembros para el comité Se pueden elegir 15 15! = (15 − 2)! 2! = 105 comités de blancos 2 10 10! = 2 (10 − 2)! 2! = 45 comités de blancos 5 5! = 2 (3 − 2)! 2! = 10 comités de otros Un posible caso de de comité es 2 blancos 2 negros 2 de otros N= 105 45 10 = 47 250 comités 40 . con proporciones iguales. 10 negros. Si los 3 grupos deben estar representados. por lo tanto mediante el principio fundamental del conteo Letra letra Num 26 26 10 Num 10 Num 10 =262. Un club consta de 30 miembros. (E ) N . entonces nCr == 52! = 2 598. ¿Cuántas manos diferentes pueden formarse a partir de la baraja completa? SOLUCION Se tiene n = 52 naipes para seleccionar una combinación r = 5. Procediendo como en el problema anterior 3 hombres de 20 N= 2 mujeres de 10 20 3 10 2 = (1140)(45)= 51 300 comités b.960 manos (52 − 5)! 5! La probabilidad de un evento se definió en párrafos anteriores como: P( E ) = N . a.(S ) N. 41 . entonces el resultado es la suma de cada uno de los casos 5 hombres de 20 N= 5 mujeres de 10 + 20 3 10 2 = 15 504+ 45= 15 549 comités 20. N. Hay n = 30 estudiantes para ocupar r = 5 lugares n 30 30! = r 5 (30 − 5)! 5! = 142 506 comités. ¿De cuántas formas puede seleccionarse un comité de tres hombres y dos mujeres? b ¿De cuántas formas puede seleccionarse un comité de cinco estudiantes? c. c. Puede haber un comité formado por 5 hombres ó un comité formado por 5 mujeres.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 19. (E):= número de elementos independientes de E. ¿De cuántas formas puede seleccionarse un comité de cinco estudiantes si los cinco deben de ser del mismo sexo? SOLUCION a. En una clase de 30 estudiantes. Una "mano de póker" consiste en 5 naipes sacados de una baraja ordinaria 52 naipes. hay 20 hombres y 10 mujeres. (S) = número total de elementos independientes. entonces N (Ec)= 80-14= 66 a) b) P( E ) = N ( E ) 14 7 = = N ( S ) 80 40 N ( E c ) 66 33 = = N ( S ) 80 40 P( E c ) = 23. ¿Cuál es la probabilidad de que llueva durante el desfile de las Rosas el próximo día de año nuevo? b. ¿Cuál es la probabilidad de que cualquiera de los votantes favorezca a este candidato? SOLUCION N (S)= 1000 y N (E)=495 entonces aplicando la definición directa de la probabilidad P= 495 = 0. Como N (E)=14. En una votación preliminar simulada para determinar la probabilidad de cierto candidato para la presidencia de los E. Va a constituirse un comité de 5 miembros. a.A. la probabilidad se puede definir como el cociente de el área que representa al evento E entre el área total que representa al espacio muestral. entonces Ec= { x | x es un año no lluvioso el día del desfile de las Rosas}.495 1000 22.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Es de mencionar que la definición anterior está dada particularmente para conjuntos finitos y existen otras definiciones para conjuntos infinitos. La probabilidad se puede interpretar como la medida de la ocurrencia de un evento que es parte de un evento E que es parte de un espacio muestral ó experimento aleatorio. Un club tiene 30 miembros: 25 hombres y 5 mujeres. por ejemplo par el caso de conjuntos representados mediante áreas. EJEMPLOS 21. ¿Cuál es la probabilidad de que no llueva? SOLUCION Si E = { x | x es un año lluvioso el día del desfile de las Rosas}. si los miembros de éste se seleccionan aleatóriamente? SOLUCION El número total de comités con r = 5 miembros que se pueden formar con n = 30 miembros es N(S)= 30C5= 142 506 El número de comités con r =5 mujeres que se pueden formar con n = 5 mujeres es N(E)= 5C5= 1 42 . ¿Cuál es la probabilidad de que las 5 mujeres se incluyan en el comité. se encontró que 495 de 1000 votantes seleccionados aleatóriamente están a favor de dicho candidato.. Supóngase que estadísticas recopiladas por la oficina meteorológica de Los Ángeles muestran que ha llovido durante el desfile de las Rosas en Pasadena 14 veces durante los últimos 80 años.U. se seleccionan r = 4 aparatos. X. en la cual se considera que n = 8. n = nx+ ny=7. Determine la probabilidad P (E). ¿cuál es la probabilidad de que se vendan dos de cada modelo? SOLUCION Hay nx = 7 aparatos tipo X. Si se venden aleatóriamente cuatro aparatos. entonces. el evento puede representarse como: [X. r =8. n x n y 7 3 7! 3! N ( E ) = = = r r 2 2 (7 − 2)! 2! (3 − 2)! 2! = (21)(3 )= 63 x y y n 10 10! N (S ) = = = r 4 (10 − 4 )! 4! = 210 43 .APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Por lo tanto P( E ) = N (E) 1 = N ( S ) 142506 24. l1=5 y l2=3. Sea E el es evento de que se vendan dos de cada modelo ó equivalentemente dos aparatos del modelo X y dos aparatos del modelo Y. siete de modelo X y tres de modelo Y. ny = 3 aparatos tipo Y. Y] Se deben de elegir rx = 2 aparatos tipo x de 7 existentes y ry = 2 aparatos tipo Y de 3 existentes. SOLUCION El número de elementos que forman el espacio muestral es: N(S) = 2 2 2 2 2 2 2 2 = 28 = 256 Un esquema de un elemento del evento E es mostrado a continuación A A A A A S S S Para determinar el número total de elementos que forman el evento E se puede aplicar la ecuación 4. Sea el espacio muestral S = {arrojan una moneda legal 8 veces} y sea el evento E = {Salen 5 águilas exactamente}. N (E) = Entonces nPr 8! = = 56 l1!l 2 ! 5!3! N (E ) 56 7 = = N (S ) 256 32 P( E ) = 25. Una tienda de aparatos de sonido acaba de recibir un embarque de diez nuevos aparatos. Y. 2. para i =1. ¿Cuál es la probabilidad de que las tres personas del comité sean todas del mismo sexo? SOLUCION De acuerdo a los datos n =15 personas. un tercio de los cuales son mujeres y dos tercios hombres. El consejo consta de quince miembros. nH = 10 hombres y nM = 5 mujeres. se debe selecciona un comité r = 3 personas Sean los conjuntos A = {comité de 3 mujeres} y B ={ comité de 3 hombres} entonces C ={ en comité de personas del mismo sexo}= {las tres personas sean mujeres o sean hombres } C=A∪B Puesto que A ∩ B =Φ se tiene que N(C) = N(A) + N(B) n nM N (C ) = H + r r y 10! 5! = (10 − 3)! 3! + (5 − 3)! 3! =120 + 10 =130 comités n 15 10! N (S ) = = = r 3 (10 − 3)! 4! = 455 comités finalmente P( E ) = N (E ) 130 2 = = N (S ) 455 7 27. Debe seleccionarse un comité de tres personas del consejo directivo de una compañía.3 y 4. ¿Cuál es la probabilidad de que los cinco naipes sean del mismo palo? SOLUCION En un problema previo se sabe que n = 52 cartas. picas ♣ y tréboles♠ por lo que cada tipo de figuras está conformado por nP = 13 cartas.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT por lo tanto P( E ) = N (E ) 63 3 = = N (S ) 210 10 26. Sea el conjunto B = {5 cartas del mismo palo} y Ai = {5 cartas del mismo palo tipo i}. r = 5 cartas y n 52 52! N (S ) = = = r 5 (52 − 5)! 5! = 2 598 960 manos El mazo de cartas es esta formado por 4 figuras diamantes♦. corazones♥. Una "mano de póker consta de cinco naipes. 44 . Se están formando grupos de cuatro letras empleando las letras A E I O U X Y. Si se venden aleatóriamente cuatro automóviles.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Entonces resulta que B =A1∪ A2∪A3∪A4 . por lo tanto se cumple que N(B ) = N(A1) + N(A2) + N(A3) + N(A4) Utilizando los datos se pede determinar el número de elementos para cada uno de los conjuntos Ai. se venden r = 4 S={vender 4 modelos de 8 disponibles} E={2 de cada modelo}={ 2 modelos compactos y 2 modelos de lujo} 8 8! = 70 Total de posibles ventas N (S ) = = 4 4!4! 45 .3 y 4 como las combinaciones de nP = 13 cartas tomadas de r = 5 cartas. 3 de lujo. cinco de los cuales son compactos y tres modelos de lujo. ¿Cuántos grupos pueden formarse si cualquier letra puede repetirse tan veces como se desee? AEIOUXY SOLUCION a) Este caso corresponde a una permutación puesto que todas las letras son diferentes con n =7. r =4. i= 1. N= 7 P4 = 7! = 840 (7 − 4)! 4! b) El caso corresponde a un caso de elección con reemplazo donde en cada elección se puede seleccionar cualquiera de las 7 letras para ocupar los 4 lugares. entonces N = (7) (7) (7) (7)= 74 = 2 401 29. obténgase la probabilidad de que se hayan vendido dos de cada modelo SOLUCION n =8 automóviles 5 compactos. Un vendedor de automóviles acaba de recibir un embarque de ocho automóvil nuevos. ¿Cuántos grupos pueden formarse si no deben repetirse las letras? b. n 13 13! N ( Ai ) = P = = r 5 (13 − 5)! 5! =1 287 por lo tanto 13 N ( B) = 4 = 4(1287 ) = 5148 5 P( B) = 5148 33 = 2598960 16660 28. a. y además A1∩ A2∩A3∩A4 = Φ.2. C)} 32. C). A). C. como en la programación hay orden. A). con o sin transmisión automática. entonces el número de formas posibles de acomodar la programación es: N= 10 P4 = 10! = 5040 (10 − 4)! 4! 31. ¿de cuántas formas posibles puede arreglarse la programación? SOLUCION De 8:30 a 10:30 solo se pueden acomodar r = 4 programas de media hora. C. T).(2). señalando las selecciones del fabricante de relojes en el eje horizontal y las del fabricante de máquinas de escribir en el eje vertical. de n = 10 disponibles.(2). T). T). a. Un comprador de un automóvil nuevo puede elegir entre cinco estilos de carrocería. b.128 N (S ) 70 7 30. (C. con o sin aire acondicionado. A). A} M= FABRICANTE DE MAQUINAS = { T.} (b) E = {solamente uno de los fabricantes seleccione avión} = { (T. C). (T. y) | x ∈M y y ∈R |} = {(T. de manera que cada resultado es equiprobable.(10)=400 46 . ¿Cuál es la probabilidad de que solamente uno de los fabricantes seleccione avión para el embarque de sus productos? SOLUCION (a) R= FABRICANTE DE RELOJES = { T. ¿De cuántas formas puede realizar su elección el comprador? SOLUCION Aplicando directamente el principio fundamental del conteo N1=5 N2=2 N3=2 N4=2 N5=10 carrozas (carrocerías) transmisión automática aire acondicionado asientos individuales colores N = N1 N2 N3 N4 N5 =(5). A} S = M x R ={ (x. (T. (A. T). (A. con o sin asientos individuales y entre diez colores. Ninguno de los fabricantes tiene preferencia en cuanto a la forma de envío. A). (C.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 5! 3! 5 3 N (E ) = = ⋅ 2 2 3!2! 1! 3! N (E ) 30 3 P ( A) = = = = 0. C). (C. (A. A).(2). (C. (A. Muéstrese el espacio muestral en un plano bidimensional. camión (C) y avión (A). Si en una estación televisora se debe seleccionar cuatro de entre diez programas de media hora para emitirlos cada mañana de 8:30 a 10:30. Supóngase que una compañía que fabrica relojes y una compañía que fabrica máquinas de escribir deben elegir para embarcar sus productos entre tren (T). (A. n. es necesario definir nuevas propiedades que permitan calcularla para los casos en que no sea posible aplicar dicha definición.2. entonces P(AUB)=P(A)+P(B) (d) Si Ei∩Ej=Ф para i≠ j i. ¿De cuántas formas puede elegirse un cuarteto (grupo de cuatro jugadores) de entre doce miembros de un club de golf? SOLUCION El problema corresponde directamente a el caso típico de combinaciones donde n =12 y r = 4.….. entonces (2. Por lo tanto.3. si al resolver algún problema se obtiene una probabilidad que no cumpla la propiedad c) se pude afirmar que el problema está mal resuelto.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 33.06 x10 − 4 4845 AXIOMAS BÁSICOS DE LA PROBABILIDAD Aunque la definición dada anteriormente de la PROBABILIDAD permite calcularla a partir del conteo de los conjuntos. evento seguro evento imposible REGLA DE LA ADICIÓN DE PROBABILIDAD PARA EVENTOS AJENOS (c) Si A∩B=Ф es decir A y B son conjuntos ajenos.7) (2. entonces 20 C 4 = 20! 2.432902008 x1018 = = 4845 (20 − 4)!4! 2. entonces a) P (S)=1 b) P ( φ )=0 c) 0 ≤ P (E) ≤ 1 Es importante resaltar la propiedad c) ya que señala que ningún evento puede de ninguna manera tener una probabilidad negativa ni nunca puede ser mayor que la unidad. Sean S el espacio muestral y E un evento cualquiera. entonces 12 C4 = 12! = 495 (12 − 4)!4! 34.092278989 x10 3 (24) P ( A) = #A #S y por lo tanto la probabilidad de que se seleccione una estación de servicio es: P= 1 = 2. Si 20 estaciones de servicio constituyen una población. j =1.6) P(E1U E2 U…. U En)= P(E1)+P(E2)+…+P(En) 47 . ¿cuál es la probabilidad de que se seleccione como muestra aleatoria una combinación de cuatro estaciones en particular? SOLUCION Para el problema n =20 y r = 4. P(A∩B) .8) REGLA GENERAL DE LA ADICIÓN DE PROBABILIDAD. ASS. SSS} E1∩E2=Ф P(E1 U E2)=P(E1) +P (E2) =3/8 + 1/8 = 4/8 =1/2 48 . B. SAS. SSA.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT (e) como S =A U Ac y A∩Ac=Ф entonces Por otra parte P(S)=1 por lo tanto Despejando a P(A) P(S)=P(AU Ac)=P(A) +P(Ac) 1= P(A) +P(Ac) P(A) = 1. AAS.10) (2.P(A∩B) . ¿cuál es la probabilidad de que ocurra ya sea E1 ó E2? Esto es. SAS. (f) Si A∩B ≠ Ф entonces P (AUB) =P(A)+P(B)-P(A∩B) Nota: La regla (f) se reduce a la regla (c) en el caso de conjuntos ajenos.P(B∩C) +P(A∩B ∩C)) (2.P(A∩(BUC) =P(A)+P(B)+P(C)-P(B∩C)-P((A∩B) U(A∩C)) =P(A)+P(B)+P(C)-P(B∩C)-(P(A∩B)-P(A∩C) +P(A∩B ∩A∩C)) =P(A)+P(B)+P(C) .P(B∩C) +P(A∩B ∩C)) P(AUBUC) = P(A)+P(B)+P(C) . SAA. ASA.P(A∩C). EJEMPLOS 35. Por ejemplo. AAA} E1={dos soles}=}={SSA.9) CALCULO DE PROBABILIDADES APLICANDO LAS REGLAS BÁSICAS. no necesariamente ajenos P(AUBUC)= P(AU(BUC))=P(A)+P(BUC) . C cualquiera. se considera que los ocho posibles resultados son equiprobables. ¿cuál es P(E1U E2)? SOLUCION El espacio muestral del problema y cada uno de los eventos E1 y E2 son mostrados a continuación S ={ arrojar 3 monedas}={SSS. En el experimento de arrojar tres monedas. Si E1 denota al evento de que ocurran dos soles y E2 al evento de que ocurran tres soles. a continuación se muestra la regla de adición para el caso de tres conjuntos A. ASS. P(E2)=1/8. E1 U E2= {dos soles ó tres soles}=}={SSA.P(A∩C). La regla es difícil de generalizar para un número grande de conjuntos.P(Ac) (2. SAS. ASS} E2={3 soles}=}={SSS } P(E1)=3/8. se debe aplicar la ecuación (8) P(AUB) = P(A)+P(B)-P(AUB) = 4/8+7/8-3/8=1 37. corazones. 10. SAS. SAS. SSS} B= {2 ó menos soles} ={ASS. En el problema anterior. SSA. ¿cuál es la probabilidad de que ocurra ya sea A o B? Esto es ¿cuánto es. SOLUCION El espacio muestral y cada uno de los eventos se describen a continuación S={extraer una esfera marcada del 1 al 10} = {1. 4. 2. 8. AAS. 49 . Entonces No son excluyentes Aplicando la regla general de la adición P(EUF)=P(E)+P(F)-P(E∩F)=5/10+6/10-3/10=8/10=4/3 38. SSA } Debido a que los conjuntos no son ajenos. 6. 8. SAS. (a)¿cuál es la probabilidad de extraer un trébol o un corazón o un diamante? (b)¿Cuál es la probabilidad de extraer un diamante o un as? SOLUCION Hay que recordar que la baraja está formada por 4 conjuntos de 13 cartas.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 36. y que cada uno de los conjuntos está corresponde a las figuras de tréboles. SAA. 10} F={5 ó mayor}={5. 10} se tiene que P (E∩F)=3/10 Y puesto que P(E) P(F)=(5/10)(6/10)=3/10. 4. vale P(AUB)?. entonces los conjuntos E y F son excluyentes. SOLUCION Del espacio muestral del problema anterior se tiene que A= {2 ó más soles} ={ASS. AAA} A∩B={ ASS. Supóngase que una bolsa contiene 10 esferas marcadas 1. . diamantes y picas. ASA. . 6. 5. 8. 9. 3. 2. Sea E el evento de extraer una esfera marcada con un número par y F el evento de extraer una esfera marcada con un número 5 o mayor. 7. Si se extrae aleatóriamente un naipe de una baraja ordinaria de 52 naipes bien barajados. SSA. 7. 6.. ¿Son E y F mutuamente excluyentes? Obténgase P(E U F). 9. si A denota al evento de que ocurran dos o más soles y B denota al evento de que ocurran dos o menos soles. 3. 8.. 10} E={par}={2. 10} Para que los eventos sena excluyente se debe tener que P(E∩F)=P(E) P(F) Como E∩F = {6. 25 4 0. 0.25. a.10 40. ¿Cuál es la probabilidad de que un turista estadounidense vacacionando en el Lejano Oriente visite o Tokio o Hong Kong? ¿Cuál es la probabilidad de que el turista no visite ninguna de estas ciudades? SOLUCION Sean A= {visitan Tokio} B= {visitan Hong Kong} A∩B = {visitan Tokio y Hong Kong} P(A) =0.05. (b) En este C∩E ={ as de diamantes}.7=0. o sea los eventos no son ajenos.05 1 0.20 y 0.9 C=(AUB)c representa a el conjunto de los turistas que no visitan a Tokio ó Hong Kong La probabilidad P(C) puede ser calculada mediante P(C)=1-P(C)c P(C)=1-P(AUB) P(C)=1-0.8+0. tres. ¿Cuál es la probabilidad de que venda tres o menos automóviles en una semana? SOLUCION Los datos para la probabilidad de venta en una semana son: Venda Prob. respectivamente.9 P(AUB)=0.8 P(B) =0. 0 0. uno.10 2 0. Las probabilidades de que un vendedor de automóviles venda en una semana cero. por lo que: P(CUE) = P(C)+P(E)-P(C∩E)=13/52 + 4/52-1/52=4/13 39. 80% visitan Hong Kong y 70% visitan tanto Tokio como Hong Kong.8 P(A∩B) =0.8-0. C y D son mutuamente ajenos.9=0.18. B. cuatro o cinco o más automóviles son 0. Supóngase que el 80% de todos los estadounidenses que vacacionan en el lejano oriente visitan Tokio.10.7 La probabilidad de la unión se obtiene utilizando P(AUB)=P(A)+P(B)-P(A∩B) P(AUB)=0. Por lo tanto: (a) P(AUBUC)=P(A)+P(B)+P(C) =13/52 + 13/52+13/52 = ¾.22 50 .22.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT El conveniente definir los siguientes conjuntos: A={la carta elegida es un trébol} B={la carta elegida es un corazón} C={la carta elegida es un diamante} D={la carta elegida es una pica} E={la carta elegida es un as Los eventos A. 0. 0. ¿Cuál es la probabilidad de que venda tres o más automóviles en una semana? b. 0. dos.18 3 0.20 5 0. 25 0. j =1.25 Los cuales cumplen Fi ∩Fj = Φ para i.05 F1= {no venda} 0. entonces A = {venda 3 ó mas automóviles}= E1 U E2U E3..2.10 F2= {venda 1 auto} 0.20+0.58 51 .20 0.3. así se tiene que P (A)= P(E1 U E2U E3 )= P(E1) +P(E2) + P(E3 )= 0.67 (b) Sean lo eventos 0.25+0.18+0.25= 0. j =1.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT (a) Sean lo eventos E1= {venda 3 automóviles} E2= {venda 4 automóviles} E3= {venda 5 automóviles} 0.18 F3= {venda 2 autos} F4= {venda 3 autos} 0.05+0. entonces B = {venda 3 ó menos automóviles}= F1 U F2 U F3 U F4 así se tiene que P (B)= P(F1 U F2U F3 U F4 )= P(F1) +P(F2) + P(F3 )+ P(F4 )+ = 0.22 = 0.. 4.2.22 Los cuales cumplen Ei ∩Ej = Φ para i.10+0.3. la probabilidad de que ocurran tanto A como B es igual al producto de sus probabilidades respectivas. (A. SOLUCION El espacio muestral del problema es S ={(S. Determine si los eventos A = {sol en la primera tirada} B = {sol en la segunda tirada} son independientes en el experimento de arrojar una moneda dos veces.S).S)} P(A∩B)=N(E)/N(S)= 1/4 Para la parte derecha de la ecuación (10) P(A).APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Unidad III Probabilidad condicional y variables aleatorias PROBABILIDAD CONDICIONAL Eventos independientes y dependientes Se dice que dos eventos A y B son EVENTOS INDEPENDIENTES si y solo si la ocurrencia de uno de ellos no afecta la ocurrencia del otro.1) En el caso de que la ocurrencia de un evento A afecte la ocurrencia del evento B entonces se tiene el caso de EVENTOS DEPENDIENTES ó de la PROBABILIDAD CONDICIONAL.3) 1.A)} Para la parte izquierda de la ecuación (10) E = {dos soles al arrojar una moneda dos veces} = A∩B = ={(S.P(B). cuando son dependientes se obtiene mediante la expresión: P(A∩B)= P(A)P(B A). P{A}=1/2 P{B}= 1/2 52 .P(B) (3.2) P ( B | A) = EJEMPLOS P( A ∩ B ) P ( A) (3. (3. por lo que los eventos son independientes. la cual se denota por: P(B A) “ La probabilidad de B dado que ha ocurrido A” En general la probabilidad de la intersección de los eventos A∩B.A). (A. Despejando a P(B A). (S.P(B)=(1/2)(1/2)=1/4 Entonces se cumple que P(A∩B) = P(A). esto es: P(A∩B)=P(A).S). Si A y B son EVENTOS INDEPENDIENTES entonces. 85)=0.P(R2R1). ¿Cuál es la probabilidad de que solamente una máquina esté lista? 53 .) SOLUCION Se definen los eventos: A={el señor viva más de 15 años }. El experimento se realiza sin reemplazo. ¿Cuáles la probabilidad de que ambas máquinas no estén listas? c.P(R3R2∩R1)=(3/10)(2/9)(1/8)= 1/120 (d) P({ Negra.85 Entonces C = A U B = {El señor y la señora vivan más 15 de años} Considerando los eventos independientes se tiene que P(A∩B)=P(A).85. entonces P(B)=0. ¿Cuál es la probabilidad de extraer dos esferas blancas una después de otra? b. P(A)=0.70)(0. ¿Cuál es la probabilidad de extraer una esfera negra. una después de otra? d. ¿cuál es la probabilidad de que ambas máquinas estén listas? b. respectivamente. por lo que los eventos son dependientes Definiendo los siguientes conjuntos B1 = {Sacar bola blanca en la 1ª extracción} B2 = {Sacar bola blanca en la 2ª extracción} B3 = {Sacar bola blanca en la 3ª extracción} R1 = {Sacar bola roja en la 1ª extracción} R2 = {Sacar bola roja en la 2ª extracción} R3 = {Sacar bola roja en la 3ª extracción} N1 = {Sacar bola negra en la 1ª extracción} N2 = {Sacar bola negra en la 2ª extracción} (a) P({2 blancas una después de la otra})= P(B1∩ B2)= P(B1) P(B2 B1)= (5/10)(4/9) =2/9 (b) P({Una roja y una negra})= P(R1∩ N2)= P(R1) P(N2 R1) = (3/10)(2/9) =1/15 (c) P({Tres rojas después de otra}) = P(R1). La probabilidad de que cualesquier de las dos máquinas esté lista cuando se necesite es de 90%. a. Huerta como su esposa continúen vivos dentro de 15 años? (Considérese que las longevidades del esposo y esposa son independientes. a. Una caja contiene diez esferas.P(R3R2∩R1) = (3/10) (2/9)(5/8) = 1/24 3. ¿cuál es la probabilidad de que tanto el Sr. El Sr.70+0. ¿Cuál es la probabilidad de extraer una esfera roja y después una negra? c. después un roja y finalmente un blanca? SOLUCION Los datos del problema son: total de esferas n =10 repartidas en 5 blancas. Huerta y su esposa tienen 55 y 50 años de edad. Se selecciona aleatóriamente una esfera .70 B={la señora viva más de 15 años }. y finalmente blanca}) = P(R1). después roja. Si la probabilidad de que un hombre de 55 años de edad viva al menos otros 15 años es de 0. tres rojas y dos negras.595= 9.595 P(C)= P(AUB)=P(A)+P(B)-P(A∩B) = 0.85 -0.70. 3 rojas y 2 negras. Cinco de ellas son blancas.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 2. ¿Cuál es la probabilidad de extraer tres esferas rojas. Se considera que la disponibilidad de una máquina es independiente de la otra. En el caso de una alarma por incendio.sin reemplazo. y la probabilidad de que una mujer de 50 años de edad viva al menos otros 15 años es de 0. entonces. Se dispone de dos máquinas contra incendios para casos de emergencia.P(R2R1).995 4.P(B) = (0. 28/0.12/0.18/0.6 P (M)=0.70 Hombres F’ 0. y P(M' ).9)(0.70=0.18/0. d .60=0. P(F’I M' ). e.P(Bc)+P(Ac)P(B) = (0.3 54 .09=0.81 b) P(Ac∩Bc)=P(Ac).12 0. P(F I M') y P(F).09+0.42 0.60 0.01 c) El evento de que al menos una de las máquinas esté disponible es C = (A∩Bc)U(Ac∩B) P(C) = P((A∩Bc)U(Ac∩B))= P(A∩Bc)+ P(Ac∩B).1)(0.30 Total 0.9 Entonces.40 1. Obténgase P(F’I M). SOLUCION (a) Para contestar esta pregunta hay que aplicar la ecuación (12) para determinar la probabilidad condicional en cada una de las combinaciones señaladas en los incisos siguientes (b) P (M I F)=P(M∩F)/P(F)=0.7 P (F I M’)= P(F∩M’)/P(M’)=0.7 P (F)=0.3 P (F’)=0.3 P (F’ I M’) = P(F’∩M’)/P(M’)=0.4=0.0 a. Estado civil Casados (M) Solteros (M’) Total Mujeres F 0.4=0.30=0.) c.9)(0. Obténgase P(M I F).7 Entonces P (F I M)= P(F I M’)= P(F) P (M’ I F)=P(M’∩F)/P(F)=0.12/0.28/0.1)=0.28 0.18 0.42/0. P(M' I F).70=0.4 (c) (d) (e) P (F’ I M)=P(F’∩M)/P(M)=0.3 Entonces P (F’ I M) = P (F’ I M) = P (F’)=0.4 P(M’)=0. A continuación se encuentra una tabla probabilística acerca del sexo y el estado civil de los empleados de una gran institución.9)(1-0.6 P (M I F’)=P(M∩F’)/P(F’)=0. y P(F').9 P(B)=0.P(Bc)=(1-P(A)(1-P(B)=(0.9) = 0.9)+(1-0. Obténgase P(F I M). ¿Son independientes el sexo y estado civil? ¿Por qué si o por qué no? b.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT SOLUCION Es conveniente definir los eventos A={la máquina 1 esté lista} B={la máquina 2 esté lista } P(A)=0.9==0. P(M I F’) y P(M).P(A∩B) ∩(Ac∩B) =P(A).42/0.P(B)=(0.30=0.Obténgase P(M' I F’).60=0.4 P(M’ I F’)= P(M’∩F’)/P(F’)=0.18 5.4 Entonces P (M’ I F) = P(M’ I F’) = P(M’)=0.6 Entonces P (M I F)= P (M I F’)= P (M) P (F I M)=P(F∩M)/P(M)=0. cada uno de los incisos se puede resolver como se indica a continuación a) P(A∩B)=P(A). (La barra vertical "I " significa "dado que". P(A2 I A1). Si los naipes que se han extraído no se reemplazan antes de extraer el siguiente. ¿cuál es la probabilidad de extraer a.39) =4/209. corazones sean los eventos: C1={Corazón en la primera elección} C2={ Corazón en la segunda elección } C3= { Corazón en la tercera elección} C4={ Corazón en la cuarta elección} C5 ={ Corazón en la quinta elección } P(C1∩C2∩C3∩C4∩ C5)=P(C1).P(B I A1∩A2∩A3∩A4) =(4/52)(3/51)(2/50)(1/49)(48/48) = 1152/3118752000=1/270725 b) El caso es mostrado A Utilizando lo eventos anteriores y K4= {Rey en la cuarta elección} K5= {Rey en la quinta elección} P(A1∩A2∩A3∩K4∩ K5)=P(A1). Cinco naipes del mismo palo? SOLUCION a) Un caso posible se muestra a continuación A Definiendo los eventos: A1={As en la primera elección} A2={As en la segunda elección } A3= {As en la tercera elección} A4={As en la cuarta elección} B ={cualquiera en la quinta elección } Entonces: P(A1∩A2∩A3∩A4∩B)=P(A1). Cuatro ases y después cualesquier de los otros naipes.P(A3 I A1∩A2)P(K4 I A1∩A2∩A3). los eventos de sexo y estado civil son independientes uno del otro. c.39 Finalmente multiplicando por 4 P({5 naipes del mismo palo}) = (4)(1/209. 6.39 A A K K A A A B 55 .P(C2 I C1).P(C5 I C1∩C2∩C3∩C4) =(13/52)(12/51)(11/50)(10/49)(9/48)=15440/311873200=1/209.P(A2 I A1).APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Como se observa de cada uno de los incisos anteriores. Tres ases y después dos reyes. b.P(C3 I C1∩A2)P(C4 I C1∩C2∩C3). Se extraen naipes de una baraja ordinaria.P(A3 I A1∩A2)P(A4 I A1∩A2∩A3). por ejemplo.P(K5 I A1∩A2∩A3∩K4) =4/52(3/51)(2/50)(4/49)(3/48)=288/31879.220=1/10820900 c) Hay 4 palos y 13 figuras por palo. para cada uno de los palos. entonces.14 P(S’∩T) = P(S’) P(T | S’)= (0.2 P(T’|S)=0.20. De las familias que han adquirido pólizas de seguros el 30% viven en casas unifamiliares de dos pisos (T) o P( T | .S) = 0.20 P(T | S) = 0.40) =0.40 La cual puede ser utilizada para calcular las probabilidades conjuntas P(S∩T) = P(S) P(T | S)= (0. Los restantes compradores (70%) viven en otros tipos de edificios (T’) o P(T’|.8 P(T’|S’)=0. Un cartón contiene 20 huevos.4 P(S’ ∩T’)=0.70) =0. y 80% de las visitas no (S') o P(S') = 0.60 P(T‘| S) = 0.30) =0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 7. 5 de los cuales están descompuestos.40.80. el 60% vivían en casas unifamiliares de dos pisos o P(T| S') = 0. definiendo los eventos Di = {Huevo defectuoso en la elección i} para i =1. 2.80)( 0. P({3 huevos descompuestos}) = P(D1∩D2∩D3)=P(D1)P(D2 I D1)P(D3 I D1∩D2)=(5/20)(4/19)(3/18)=1/114 8.6 P(S ∩T’)=0.7 P(T|S’)=0.14 P(S’ ∩T)=0. el 20 % de las visitas dan como resultado una venta (S).48 P(S’∩T’) = P(S’) P(T’| S’)= (0. ¿cuál es la probabilidad de que los tres estén descompuestos? SOLUCION De acuerdo a la información de n = 20 hay 5 descompuestos y hay que elegir 3 sin reemplazo.48 P(S’)=0.06 P(S∩T’) = P(S) P(T’| S)= (0. De acuerdo a la experiencia anterior. ¿cuánto vale P(S|T)? b.70. ¿cuánto vale P(S'| T’)? (Sugerencia: calcúlense las probabilidades conjuntas) SOLUCION La información se puede resumir como: P(S) = 0.20)( 0.30 P(S') = 0.60 y el 40% vivían en otros tipos de casas o P(T' |S') = 0.3 P(S ∩T)=0.32 56 . Supóngase que la política de cierta compañía de seguros es que sus vendedores realicen visitas de casa en casa.70 P(T’| S') = 0.32 El resultado anterior puede ser representado gráficamente con un diagrama de árbol P(T|S)=0. De aquellas familias que no adquirieron una póliza.20)( 0. a.80 P(T | S') = 0. ¿Cuál es la probabilidad de que la siguiente visita dé como resultado una venta si los posibles clientes viven en una casa unifamiliar de dos pisos? Es decir.30.80)( 0. ¿Cuál es la probabilidad de que la siguiente visita no dé como resultado una venta si la familia vive en cualquier otro tipo de edificio? Es decir.06 P(S)=0. o P(S) = 0. 3.60) =0.S) = 0. Si se seleccionan aleatóriamente tres huevos sin reemplazo. 60)( 0. En una encuesta aplicada a los estudiantes que se gradúan en el colegio de cierta comunidad.4.40)( 0.24 P(T’∩C) = P(T’) P(T’| C)= (0.40)( 0.54 P(T’) = P(S∩T’) + P(S’∩T’) = 0.04 P(T’∩A) = P(T’) P(T’| A)= (0.14 +0. la proporción de estudiantes que han obtenido calificaciones promedio de A. ¿Cuál es la probabilidad de que no continúe su educación si la calificación promedio es de B? SOLUCION Utilizando P(T)=0.05 0.30) =0.55 TOTAL 1 1 a.07 P(B) = P(B∩T) + P(B∩T’) =0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Por otra parte T = (S∩T) U(S’∩T) T’ = (S∩T’) U(S’∩T’) Entonces P(T) = P(S∩T) + P(S’∩T) = 0.06 1 = = P(T ) 0.30 0 60 0.06+0.38 Por lo tanto 57 .14 +0. Dadas estas dos categorías de estudiantes.05) =0.40 0.46 23 (b) P ( S ' | T ' ) = 9.33 Además P(A) = P(A∩T) + P(A∩T’) =0.46 Con la información anterior (a) P ( S | T ) = P (S ∩ T ) 0.60)( 0.10 0.40) =0.04+0. se determinó que el 40% de los estudiantes continuarán estudiando alguna especialización en otra universidad (T) y el 60% no lo harán (T').03 P(T∩B) = P(T) P(A | T)= (0.60)( 0.24 P(T∩C) = P(T) P(A | C)= (0. Estudiantes T T’ Calificaciones promedio A B C o menos 0. P(T’)=0.32=0.48=0.12 P(T’∩B) = P(T’) P(T’| A)= (0. Se selecciona aleatóriamente un estudiante y su calificación promedio es A.54 9 P(S '∩T ') 0. ¿Cuál es la probabilidad de que continúe estudiando? b.10) =0.55) =0.32 16 = = P(T ') 0.60) =0. B y C o menos se muestran a continuación.40)( 0.03 =0.24=0.6 y la tabla se puede calcular la probabilidad conjunta P(T∩A) = P(T) P(A | T)= (0. Una gran caja contiene transistores fabricados en tres máquinas.P(B | A1)+ P(B).04 y para C es 0. U ( An I B ) l =i n Entonces P(B)= P(A1∩B)+P(A2∩B)+…+P(An∩B) Además como P(Ai ∩B) = P(B). A2. EJEMPLOS 10. ¿Cuál es la probabilidad de que la haya producido la máquina C? 58 . A3.…An.38 19 (b) P (T ' | B ) = Regla de Bayes o teorema de Bayes Algunos de los problemas resueltos en la sección anterior son problemas que pueden ser resueltos mediante el Teorema de Bayes.. esto es. para i =1.04 4 = = P ( A) 0. n Así se tiene que P(B) = = P(B).P(B |An) Por otra parte adecuando la ecuación (12) al problema P ( Ai | B) = P( Ai ∩ B ) P(B ∩ Ai ) = P (B ) P (B ) P( Ai ) P(B | Ai ) = P( A1 ) P(B | A1 ) + P ( A2 ) P(B | A2 ) + K + P ( An ) P(B | An ) (3.24 12 = = P (B ) 0.02 para B es 0. Se selecciona al azar un transistor de la caja y resulta defectuoso.4) La ecuación anterior establece un forma para invertir la probabilidad condicional. 2..3. conjuntos mutuamente excluyentes. Ai∩Aj=Ф Y que además U Ai = S l =i n Por lo tanto cualquier conjunto B puede ser representado por los A1.…An de la forma: B = U ( Ai I B ) = ( A1 U B ) U ( A2 I B ) U . La tasa de defectos para la máquina A es 0.P(B | A2)+……+P(An). Sean los conjuntos A1. esto es se puede pasar de P(B | A1) a P(A1 | B). el cual se detalla a continuación.P(B | Ai).07 7 P(T '∩ B ) 0. A3. A2.….APUNTES DE ESTADISTICA GONZALO GALVEZ COYT (a) P (T | A) = P(T ∩ A) 0. La máquina A es el doble de rápida que la máquina B o C. 02. 20 (0.15 P(T|S)=0.30 P(N)=0.04) + (0. Durante los años de experiencia ha acumulado los siguientes datos: de todas las visitas realizadas el 15% dieron como resultado lo que ella considera como grandes ventas (L). el 50% viven en casas de este tipo.50 P(D|B)=0.02) 1 = = 0.02) + (0. tenemos que: P (C | D) = P (C | D) = P (C ) P(D | C ) P( A) P(D | A) + P ( B ) P(D | B ) + P (C ) P(D | C ) (0. de aquellos que hicieron grandes compras.150 P(T|N)=0. Una vendedora realiza su trabajo haciendo visitas domiciliarias.005 Utilizando la fórmula (3. el 75% viven en casas unifamiliares de dos pisos (T).25 P(C∩D)=0.02 P(A ∩D)=0. 30% ventas pequeñas (S) y 55% no fueron ventas (N). entre quienes no realizaron compras el 30% viven en casas de este tipo.165 59 .1125 P(T|L)=0.75 P(L)=0. Además.50 P(S)=0.25)(0. Si la siguiente casa que visita es una casa unifamiliar de dos pisos.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT SOLUCION El uso de un diagrama de árbol es útil para representar los datos y calcular la probabilidad conjunta P(D|A)=0.25)(0.4). ¿cuál es la probabilidad de que dé como resultado una gran venta? ¿Una venta pequeña? ¿Ninguna venta? SOLUCION Representando los resultados en un diagrama de árbol P(L ∩T)=0.02) 5 11.02 P(C)=0. de los que realizaron pequeñas compras.25 P(B ∩D)=0.04 P(B)=0.01 P(D|C)=0.55 P(N∩T)=0.01 P(A)=0.30 P(S ∩T)=0.50)(0.25)(0. 03 P(N|H)=0. Supóngase además que si una persona tiene la enfermedad.1125 5 = = = P ( L) P(T | L ) + P ( S ) P(T | S ) + P( N ) P(T | N ) 0. Supóngase que en un cierto grupo de personas.06 P(H ∩N)=0.150 0.1125 + 0.150 + 0.165 22 = = = P( L) P(T | L ) + P ( S ) P(T | S ) + P( N ) P(T | N ) 0.0582 P(H’)=0.4275 19 P ( S ) P(T | S ) 0.0015 0. ¿cuál es la probabilidad de que en realidad tenga la enfermedad? SOLUCION Representando los resultados en un diagrama de árbol P(P|H)=0. pero el 5% no la detectan (N).97 P(N’|H’)=0.9118 0.165 0. el 6% de las pruebas muestran resultados positivos y el 94% muestran resultados negativos.0285 P(H)=0. Como muchos saben la hepatitis se detecta comúnmente realizando pruebas sanguíneas.1125 + 0.165 0.165 0.4) P( L | T ) = P( L) P (T | L ) 0.4275 57 P( S | T ) = P( N | T ) = 12.150 + 0.9118 Entonces P( H | N ) = P( H ) P(N | H ) 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Utilizando la fórmula (3.165 0.150 + 0.1125 0.6451 × 10 −3 P( H ) P (N | H ) + P ( H ' ) P( N | H ') 0.0015 + 0.0015 P(H’ ∩P)=0.4275 57 P ( N ) P(T | N ) 0. el 95% de las pruebas sanguíneas la detectan (P). Si la prueba sanguínea de una persona es negativa.94 P(H’ ∩N)=0.05 P(P|H’)=0.0015 = = = 1.150 20 = = = P ( L) P(T | L ) + P ( S ) P(T | S ) + P ( N ) P(T | N ) 0. Para las personas que no tienen la enfermedad. el 30% realmente tiene hepatitis (H) y el 97% no (H').1125 + 0.9133 60 .95 P(H ∩P)=0. x ∈ [a. b] ∫ b a f ( x) dx = 1 para x ∈ [a.K . 3. etc. 2. 2. K.5) f ( x) = P( X = x) En general se dice que una función propiedades Para el caso discreto (a) (b) (3. Y. mientras que la que toma un número infinito ó continuo de valores se llama variable aleatoria continua DISTRIBUCIONES DE PROBABILIDAD DE LAS VARIABLES DISCRETAS Y CONTINUAS Si X es una variable aleatoria discreta ó continua la cual tiene un conjunto de valores x1. K. La variable X se les conoce como variable independiente y la variable Y como variable dependiente.6) f (x) es una distribución de probabilidad si satisface las siguientes 0 ≤ f ( x k ) ≤ 1 para k = 1. Z.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT VARIABLES ALEATORIAS Una función es una asociación tal que a cada elemento X de un conjunto llamado dominio le asocia un único elemento Y de otro conjunto llamado rango. ∑ f (x k k ) = 1 para k = 1. La variable aleatoria se denota normalmente con letras mayúsculas X. x3. La variable aleatoria es una función que asigna valores numéricos a los resultados de un experimento aleatorio. 2. b] 61 .…. 3. ordenados de forma creciente y además la probabilidad de la variable aleatoria tome cada uno de los valores xk es P( X = x k ) k = 1. Es posible entonces definir una función de probabilidad para la variable aleatoria discreta como: f ( x k ) = P( X = x k ) y para el caso continuo en una variable k = 1. 3.. Para el caso continuo (a) (b) 0 ≤ f ( x) ≤ 1 para x ∈ [a. 2. 3. TIPOS VARIABLES ALEATORIAS Una variable aleatoria que toma que toma un número finito o infinito contable de valores se denomina variable aleatoria discreta. b] (3. x2.…. K. por ejemplo. 3. y ) = P ( X = x. y k = 1. Y = y ) Donde la función (a) (b) (3. y ) satisface para el caso discreto 0 ≤ f ( x j . 3. Para este caso se dice que la distribución conjunta de probabilidad satisface P( X = x. 2. se define la función de probabilidad conjunta como f ( x. ∑∑ f ( x j k k ) = 1 para j = 1. y ) dx dy = 1 para x ∈ [a. 2. y ) ≤ 1 para x ∈ [a.K. d ] Se dice que dos variables aleatorias Y y Y discretas son variables aleatorias independientes si y solo si los eventos X=x y Y=y son independientes para todo x . 3. b] y y ∈ [c. 2.y.7) f ( x. Y = y ) = P( X = x) P(Y = y ) o de igual forma f ( x. 2. K. y k ) ≤ 1 para j = 1. K.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT La función de distribución acumulada para una variable aleatoria X se define como F ( x) = P( X ≤ x ) Lo cual se traduce para el caso discreto en F ( x) = ∑ f ( x j ) j≤k Y para el caso continuo F ( x ) = ∫ f ( x) dx x a Las ideas anteriores pueden generalizarse para el caso de más variables aleatorias. y ) = f ( x ) f ( y ) VALOR ESPERADO DE LA DISTRIBUCIÓN DE PROBABILIDAD Un concepto importante para las distribuciones de probabilidad es el valor esperado ó esperanza matemática la cual se define como: Para el caso discreto E ( X ) = ∑ f ( xi ) xi i =1 n (3.8) 62 . d ] ∫∫ c d b a f ( x. y k = 1. 3.K. para el caso de dos variables aleatorias X y Y. Para el caso continuo (a) (b) 0 ≤ f ( x. b] y y ∈ [c. Y son dos variables aleatorias independiente. Desarrollando la definición anterior y aplicando las propiedades de la esperanza matemática 2 σ X = E[( X − µ )2 ] = E[X 2 − 2 Xµ + µ 2 ] = E (X 2 ) − 2µ E ( X ) + µ 2 E (1) = E (X 2 ) − 2 µ 2 + µ 2 = E (X 2 ) − µ 2 esto es σ 2 = E (X 2 ) − µ 2 Para una distribución discreta la varianza se calcula mediante 2 σ X = ∑ xk 2 f ( xk ) − µ 2 i =k b n (3.12) y para el continuo 2 σ X = ∫ x 2 f ( x )dx − µ 2 a (3.11) (3. Y son variables aleatorias. Por su definición la varianza nunca puede tomar valores negativos. Propiedades de la esperanza matemática (a) (b) (c) Si c es una constante.13) 63 . y su interpretación es idéntica a la que se dio para la distribuciones de frecuencia en la sección de la estadística descriptiva.10) σ = Var ( X ) . 2 X σX mediante Por lo que la varianza puede ser representada mediante cualquiera de las notaciones anteriores. entonces Si X. entonces Si X. entonces de la distribución de E (cX ) = cE ( X ) E ( X + Y ) = E ( X ) + E (Y ) E ( XY ) = E ( X ) E (Y ) VARIANZA Y DESVIACIÓN TÍPICA DE UNA DISTRIBUCIÓN DE PROBABILIDAD Otra estadístico importante en la probabilidad y la estadística es la Varianza la cual se denota por se define para el caso de distribuciones de probabilidad como σ2 y Var ( X ) = E (( X − µ ) 2 ) La varianza Var ( X ) se relaciona con la desviación típica de una variable aleatoria (3. la cual se denota por la letra griega µ .APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Y para el caso continuo E ( X ) = ∫ x f ( x) dx a b (3.9) La esperanza matemática E ( X ) se pude considerar como el promedio probabilidad. la persona pide sol y cae águila. . 14.Se tira la moneda.P(S2)=(1/2) (1/2) +(1/2) (1/2)= (1/2) Los resultados generalmente se pueden acomodar para las variables discretas en una tabla x -1 1 f(x) ½ ½ De la tabla anterior se puede calcular la esperanza matemática del experimento E ( X ) = ∑ xi f ( xi ) = (-1) (1/2)+(1) (1/2)=-1/2+1/2=0 i =1 n El resultado indica que el juego es legal.Se tira la moneda. la persona pide águila y cae águila.P(S2)+P(A1). La variable aleatoria del experimento se puede definir como X = {-1. la persona pide águila y cae sol.P(A2)=(1/2) (1/2) +(1/2) (1/2)= (1/2) f(-1)= P(X=-1)=P(S1∩A2)+P(A1∩S2)=P(S1). entonces La cantidad E ( X + a ) es mínima cuando a = µ Si X. pierde 1 peso.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Propiedades de la Varianza (a) (b) (c) Si c es una constante. Y son dos variables aleatorias independiente. . gana 1 peso.P(A2)+P(A1). Se dice que un juego es “legal” si al jugar el juego el valor esperado de ganar ó perder es cero.Se tira la moneda. la persona pide sol y cae sol.Se tira la moneda. Denótese mediante X al número de caras obtenidas en la tirada de dos monedas ¿Cuál es la media y la varianza de X? SOLUCION La tabla de la distribución de probabilidad se da a continuación 64 . A2=={cae águila} Entonces las respectivas probabilidades de cada valor de la variable aleatoria son: f(1)= P(X=1)=P(S1∩S2)+P(A1∩A2)=P(S1). gana 1 peso. S2=={cae sol} A1={la persona pide águila}. . pierde 1 peso. 1} Definiendo los eventos S1={la persona pide sol}. SOLUCION El juego consiste en lo siguiente: . entonces 2 [ ] Var (cX ) = cVar ( X ) Var ( X ± Y ) = Var ( X ) + Var (Y ) EJEMPLOS ó σ 2 X ±Y = σ 2 Y + σ 2 Y 13. Diga usted si el juego de los “volados” con una moneda balanceada es un juego “legal”. f(1)=1-p f(0)+f(1) = 1 Entonces la tabal de distribución de probabilidad de W es W 0 1 p f(W) 1-p (b) E ( X ) = n ∑x i =1 n i f ( xi ) = (0) (1-p) + (1) (p)= p (c) 2 σ X = ∑ x k 2 f ( x k ) − µ 2 = (0)2 (1-p) + (1)2 (p) – p2 = p . SOLUCION (a) De acuerdo a los datos del problema. "sí" y "no". 3. En un estudio acerca de las actitudes de los consumidores hacia cierto producto nuevo. (a) ¿Cuál es la distribución probabilística de W. Sea X la variable aleatoria correspondiente al número de soles obtenidas en la tirada de cuatro monedas balanceadas. se pregunta lo siguiente: "¿Le agrada el nuevo producto?" Para esta pregunta hay solamente dos posibles respuestas. 4} 65 . 1. 1} y f(1)=P(X = 1) = p Como k ∑ f (x la distribución de probabilidad de la variable aleatoria k W debe cumplir la propiedad ) = 1 . a las cuales se les asignan los valores de 1 y 0. (b) su Valor esperado y (c) su desviación típica.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT x 0 1 2 f(x) 1/4 1/2 1/4 Entonces µ = E ( x) = ∑ xi f ( xi ) = 0(1/4)+1(1/2+2(1/4)=1 i =1 n E ( x 2 ) = ∑ xi f ( xi ) = 02(1/4)+12(1/2)+22(1/4)=1/2+1=3/2 2 n σ = E ( x 2 ) − [E ( x)]2 =(3/2)2 . respectivamente. la variable aleatoria W toma los valores W = {0. entonces f(0)=1 . variable aleatoria de este experimento?.p2 =p (1-p) i=k entonces σX = p (1 − p ) 16. Obténgase la distribución probabilística de X. 2. y su valor esperado. SOLUCION De la definición de la variable aleatoria se tiene que X = {0. Sea p la probabilidad de que ocurra el evento de una respuesta "sí".12 = 3/4 2 X i =1 15. 2).1). (4. (6. (2.2). (3. b.3).6). (5. (5. (6. (3. La media de la distribución.6). (3.5).1). (5.5).6).4).2). (6.3). (2. SOLUCION (a) El espacio muestral del experimento es S = { (1.2).4).3).2). (4.1).1). c. entonces aparecerán n-r águilas y el número de eventos simples que contienen r soles se determina utilizando las técnicas de conteo: n! r ! (n − r )! Entonces la probabilidad de que ocurran en n tiradas r soles es P (r soles ) = n! 1 r ! (n − r )! 2 n Aplicando el resultado anterior para cada uno de los valores de la variable aleaoria 4! 1 1 = 4 0 ! (4 − 0)! 2 16 4! 1 4 1 f (1) = P( X = 1) = = = 4 1 ! (4 − 1)! 2 16 4 4! 1 6 3 f (2) = P( X = 2) = = = 4 2 ! (4 − 2)! 2 16 8 4! 1 4 1 f (3) = P( X = 3) = = = 4 3 ! (4 − 3)! 2 16 4 4! 1 1 f (4) = P ( X = 4) = = 4 4 ! (4 − 4)! 2 16 f (0) = P( X = 0) = Acomodando los resultados en la tabla siguiente x 0 1 1/4 2 3/8 3 1/4 4 1/16 f(x) 1/16 Utilizando la tabla anterior n E ( X ) = ∑ xi f ( xi ) = (0) (1/16) + (1) (1/4) +(2) (3/8) + (3) (1/4)= (4) (1/16) = 2.4). (4.6). si en el evento se lanzar n monedas y aparecen r soles. (2.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT En general para un evento cualquiera de arrojar una moneda balanceada n veces la probabilidad de cada evento simple es: P( E ) = 1 2n Por otra parte. (3. (5. (2. (3.4). (1.2). (6.5).3). (6.6). (4. (2. (4.4). i =1 17.5). (1.6) } 66 .3).4).5). (2. (4.1). (5. (3. La desviación típica. (1. a. (5. (1.3).5).1). Obténgase la distribución probabilística de X. (1. Sea X la variable aleatoria correspondiente al número de caras obtenidas en la tirada de cuatro monedas balanceadas. (6. 8. 4. b.35/6 = 5. Si apuesta 1 peso a chicos y sale chicos. 6. pierde 1 peso Si apuesta 1 peso a grandes y sale chico ó casa. 11.4152 18. Un juego llamado CHICOS Y GRANDES consiste primero en arrojar dos dados y se suman los puntos de sus caras. gana 1 peso.83333 entonces = (2)2 (1/36) + (3)2 (1/18)+ (4)2 (1/12) + (5)2 (1/9)+ (6)2 (5/36) + (7)2 (1/6)+ (8)2 (5/36) + i=k σ X =2. 4. tal como se muestra en la higiene figura 2. Si apuesta 1 peso a chicos y sale grandes ó casa. 10. 11. 67 . 5. Si apuesta 1 peso a grandes y sale grandes. 7. 6 chicos 7 Casa 8. 3. x f(x) 2 1/36 3 1/18 4 1/12 5 1/9 6 5/56 7 1/6 8 5/56 9 1/9 10 1/12 11 1/18 12 1/36 (b) µ = ∑ xi f ( xi ) = (2) (1/36) + (3) (1/18)+ (4) (1/12) + (5) (1/9)+ (6) (5/36) + (7) (1/6)+ i =1 n + (8) (5/36) + (9) (1/9)+ (10) (1/12) + (11) (1/18)+ (12) (1/36) = 7.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Entonces los valores posibles de la variable aleatoria son X = {2. c. e. 9. 5. CASA si cae siete y GRANDES si valor es mayor que siete. 12} y sus respectivas probabilidades se pueden calcular directamente del espacio muestral f (2) = P( X = 2) = f (5) = P ( X = 5) = 1 36 4 1 = 36 9 f (3) = P( X = 3) = f (6) = P( X = 6) = 2 1 = 36 18 5 36 f (4) = P ( X = 4) = f (7) = P ( X = 7 ) = 3 1 = 36 12 6 1 = 36 6 f (8) = P( X = 6) = 5 36 2 1 = 36 18 f (9) = P( X = 9) = 4 1 = 36 9 1 36 f (10) = P( X = 10) = 3 1 = 36 12 f (11) = P( X = 11) = f (12) = P( X = 12) = Colocando los resultados en una tabla. d. (c) 2 σ X = ∑ xk 2 f ( xk ) − µ 2 n (9)2 (1/9)+ (10)2 (1/12) + (11)2 (1/18)+ (12)2 (1/36) -72= . 9. gana 1 peso. 3. Los resultados de la suma son divididos en CHICOS si su valor es menor que siete. 10. pierde 1 peso Si apuesta 1 peso a la casa y sale casa gana 2 pesos. 12 grande Las condiciones de juego son las siguientes: a. 2. 2} La distribución de probabilidad para la suma de los puntos de las caras de un dado son y f(y) 2 1/36 3 1/18 4 1/12 5 1/9 6 5/56 7 1/6 8 5/56 9 1/9 10 1/12 11 1/18 12 1/36 Definiendo los siguientes eventos CH = {CHICOS} CA = {CASA} y G = {GRANDES}. H y T. SOLUCION La variable aleatoria adecuada al juego es X = {-1. Un vendedor ofrece dos modelos distintos de receptores de estéreo. a. (b) Las probabidades de la variable aleatoria X se determinan mediante las técnicas de conteo f (0) = C3 1 = 20 6 C3 3 f (0) = 3 C 2 3 C1 (3)(3) 9 = = 20 20 6 C3 68 .APUNTES DE ESTADISTICA GONZALO GALVEZ COYT f.222 i =1 n Como el resultado es negativo el juego no solamente no es legal sino que es desfavorable al jugador. utilizando las condiciones de juego y tabla anterior f(-1)=P(x =-1)=P(CH∩CH’)+P(G∩G’)+P(CA∩CA’) =P(CH)P(CH’)+P(G)P(G’)+P(C)+P(CA)P(CHUG)= = (15/36)+(21/36)+(15/36)+(21/36)+(6/36)+(30/36)=35/144+35/144+5/36=5/8 f(1)=P(x = 1)=P(CH∩CH)+P(G∩G)=P(CH)P(CH)+P(G)P(G)= = (15/36)(15/36)+(15/36)+(15/36)=25/72 f(2)=P(x = 2)=P(CA∩CA)=P(CA)P(CA)=(6/36)(6/36)=1/36 Por lo tanto se tiene la tabla x -1 1 2 f(x) 5/8 25/72 1/36 Entonces µ = ∑ xi f ( xi ) = -1(5/8)+1(25/72)+2(1/36)=-5/18+1/8=-2/9= -0. entonces si la venta consiste solamente de 3 aparatos X puede tomar los siguientes valores: X = {0. Defínase la variable aleatoria de este experimento. pierde 1 peso. ¿Cuál es la distribución probabilística de la variable aleatoria? SOLUCION En total hay n = 6 receptores. 1. Además. considérese que el vendedor tiene en existencia tres receptores de cada modelo y que en un solo día se venden tres receptores. Si apuesta 1 peso a la casa y sale chicos ó grandes. 1. 3 modelo H y 3 modelo T y la venta o selección consiste en r =3 aparatos (a) La variable aleatoria X del experimento es el número de aparatos tipo H vendidos. Diga usted si el juego es legal o no. b. 3}. Considérese que los dos modelos son igualmente populares: el 50% de todos los posibles compradores prefieren el Modelo H y el 50% prefieren el Modelo T. 19. 3)+ (3) (0. 1. dos de los cuales dos son defectuosos. Obténganse la varianza y desviación típica de X. Se seleccionan sucesivamente dos bulbos y se quitan del aparato para inspeccionarlos. Aranda podrían dar como resulta siguientes beneficios.1 1.61 = 1.7 millones i =1 n E ( x 2 ) = ∑ X i f ( xi ) = 12(0. 2} f(0) = P(X = 0)= C 2 15 = 28 8 C2 6 69 .1)=8. 2 defectuosos 6 sin defecto.2)+22(0. ¿Cuál es el valor esperado de X y su respectiva desviación típica? SOLUCION El número total de bulbos es n = 8 tubos. con las probabilidades indicadas: Beneficio $1 millón 2 millones 3 millones 4 millones 5 millones Total Probabilidad 0.3)+32(0.3 0. La variable aleatoria es X = {No.2) + (4) (0.72 = 1.27 millones 21. Sea X el número de bulbos defectuosos en la muestra de dos bulbos. Supóngase que un aparato de televisión tiene ocho bulbos.2)+ (5) (0.2 0.2 0. de defectuosos en la muestra}={0.0 Sea X el beneficio de su inversión.2 0.1) = 2.2) + (2) (0.2)+52(0.9 millones 2 n i =1 σ x2 = E ( x 2 ) − µ 2 = 8. SOLUCION µ = ∑ xi f ( xi ) = (1) (0. La muestra a considerar es r =2.61. σ x = 1. La inversión realizada por el Sr.9-2.4)+42(0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT f (2) = 3 C1 3 C 2 (3)(3) 9 = = 20 20 6 C3 f (3) = C3 1 = 20 6 C3 3 La respectiva distribución de probabilidad se resume en la tabla siguiente x 0 1 2 3 f(x) 1/20 9/20 9/20 1/20 20. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT f(1)=P(X =1)= 2 C1 ( 6 C1 ) 12 = 28 8 C2 C2 1 = 28 8 C2 2 f(2) = P(X = 2)= = Entonces la tabla de la distribución de frecuencia es x 0 1 2 f(x) 15/28 12/28 1/28 por lo tanto µ = E ( x) = ∑ xi f ( xi ) =0(15/28)+1(12/28)+2(1/28)=1/2 E ( x 2 ) = ∑ xi f ( xi ) =02(15/28)+12(12/28)+22(1/28)=4/7 2 σ x2 = E ( x 2 ) − µ 2 = 4/7.5666 22. 2. donde y1 representa el valor que debe pagar el jugador si en el resultado de arrojar las monedas no sale ninguna cara y los demás valores representan la ganancia igual al número de caras que aparecen. Gana $3 si ocurren tres caras. Un jugador arroja tres monedas ideales. ¿cuánto debería pagar si no aparece ninguna cara? SOLUCION La distribución de probabilidad del experimento de arrojar tres monedas legales es x 0 1 2 3 f(x) 1/8 3/8 3/8 1/8 La variable aleatoria del experimento es Y ={ y1. entonces (1/8)(y1)+1(3/8)+2(3/8)+3(1/8)=0 despejando y1=-12 70 . 3}. La distribución de probabilidad de la variable aleatoria Y es la siguiente Ganancia y y1 1 2 3 f(y) 1/8 3/8 3/8 1/8 Para que un juego sea legal se requiere que E(y)=0 .(1/2)2 = 9/28 σ x = 9 / 28 = 3 28 = 0. Si el juego es justo. 1. $2~ ocurren dos caras y $1 si ocurre una cara. lo anterior es mostrado en la siguiente tabla de distribución de probabilidad x 1 3 1/4 5 1/4 7 1/4 p(x) 1/4 Su respectiva media y su varianza son µ X = E ( X ) = ∑ xi f ( xi ) = 1(1/4)+3(1/4)+5(1/4)+7(1/4)=16/4=4 2 σ X = E ( xi ) 2 − E ( x) 2 1 1 1 1 2 = ∑ xi2 f ( x) − µ X = 12 + 3 2 + 5 2 + 7 2 − 4 2 = 5 4 4 4 4 Supóngase ahora que se realiza el experimento de seleccionar una muestra de dos números (X1. 7}. X2) de la población anterior con reemplazo y además se define la variable aleatoria X = (X 1 + X 2 ) 2 (el promedio de los valores resultantes). Y ={-5 3995 }. pero muchas 71 . El premio es un automóvil con valor de $ 4000. los cuales tiene una distribución de probabilidad uniforme.9475 =-31 Distribución de la media muestral X Considérese una población compuesta por los siguientes elementos P = {1.9975-4. Se pueden obtener un número infinito de muestras. esto es. Supóngase que se van a vender 10 000 boletos a $1 cada uno en una lotería realizada para ayudar en las investigaciones contra el cáncer. ¿cuál es su contribución esperada a la investigación en contra del cáncer? SOLUCION Debido a que solamente se compran 5 de los 1000 boletos la probabilidad de ganar es y la de perder P(ganar)=5/10000 P(perder)=9995/10000 El premio es 4000 pesos pero. 5. 3. entonces la correspondiente distribución de probabilidad de Y es y f(y) -5 9995/10000 3995 5/10000 El valor esperado de la variable aleatoria es E(Y)=3995(3/10000)+(-5)(9995/10000)=1. todos los elementos tienen la misma probabilidad de ser seleccionados). La variable aleatoria del experimento Y es la ganancia y/o pérdida. se resta 5 porque se ha pagado por el boleto 4000-5=3995 y la perdida es 5.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 23. Si usted compró cinco boletos. La distribución muestral de la media se puede obtener a partir de la siguiente tabla: muestra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 X1 1 1 1 1 3 3 3 3 5 5 5 5 7 7 7 7 X2 1 3 5 7 1 3 5 7 1 3 5 7 1 3 5 7 Total 2 4 6 8 4 6 8 10 6 8 10 12 8 10 12 14 Promedio 1 2 3 4 2 3 4 5 3 4 5 6 4 5 6 7 x 1 2 3 4 5 6 7 f (x ) 1/36 2/36 3/36 4/36 3/36 2/36 1/36 Las distribuciones probabilísticas de todos los diferentes valores de un estadístico muestral El valor esperado de la media muestral y su varianza son. (1.3). aplicando las técnicas de conteo se sabe que hay solamente 4 4 =16 Diferentes muestras.1). es decir tendrán el mismo resultado. (5. (5. (7. µ X = E ( X ) = ∑ xi f ( xi ) = 1(1/6)+2(2/16)+3(3/16)+4(4/16)+3( 5/16)+2(6/16)+7/16=4 2 σ X = E( X 2 ) − E( X ) 2 72 . 3.3). 5.5).7). (3.3). (7.5).5). (5. (3. (3.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT de la muestra obtenidas serán idénticas. (7. 2. (1. Explícitamente las muestras son: S = { (1.7)} Aplicando la definición de la variable aleatoria X se obtienen siguientes valores X = {1.5).3).1).7} Con los resultados anteriores es posible construir una distribución de probabilidad para la variable aleatoria X a partir de todas las muestras posibles del mismo tamaño de una población dada. 4. (7. (3.7). 6.7).1). lo anterior se denomina distribución muestral de la media. (1. (5.1). Unas preguntas interesantes son ¿Cuál es la relación entre la media muestral relación entre la media muestral µ X . la distribución muestral de la media X tiene una forma totalmente simétrica. 73 . y ¿Cuál es la σX 2 y σX 2 ? 2 σX = 2 σX De el problema anterior so observa que µX =µX y 2 Aunque el problema anterior es un ejemplo de muchos posibles.15 0.y varianza σX2.2 probabilidad 0.1 0.05 0 0 1 2 3 4 5 promedio de las muestras 6 7 8 Distribución muestral de X con n = 2 muestras Como se puede apreciar en la gráfica anterior. en el caso límite de una población y muestras infinitas la distribución se transformaría en una distribución normal con media detalles de esta distribución ver la siguiente sección. es más.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 2 σ X = E( X )2 − E( X ) 2 1 2 3 4 3 2 1 = ∑ xi2 f ( x) − µ X = 12 + 2 2 + 3 2 + 4 2 + 5 2 + 6 2 + 7 2 − 4 2 16 16 16 16 16 16 16 5 = 2 distribucion muestral 0. para más µX y µ X ?. Si el experimento se realiza con una población y muestras más grandes se observaría el mismo comportamiento.25 0. las relaciones anteriores se cumplen en el todos los casos de muestreo con reemplazo. esto es. (2.3} Entonces f (1) = P ( X = 1) = 1 9 f (5 2) = P ( X = 5 2) = 2 9 f (3 2) = P( X = 3 2) = 2 9 f (3) = P ( X = 3) = 1 9 f (2) = P( X = 2) = 3 9 Por lo tanto la distribución de probabilidad para la media muestral X es x 1 3/2 2 5/2 3 f ( x ) 1/9 2/9 3/9 2/9 1/9 Su gráfica respectiva se muestra a continuación 74 . Obténgase la media varianza de la población de X . (2.1).2).APUNTES DE ESTADISTICA GONZALO GALVEZ COYT µX =µX σ Donde n = tamaño de la muestra 2 X (27) = 2 σX n (28) EJEMPLOS 24.3).1).3).1). (1. b. (3.2). Obténgase la distribución muestral de X y preséntese gráficamente. 2 5/2 3} 2 Explícitamente las muestras son S = {(1. Sea X la media de una muestra aleatoria de dos observaciones tomadas con reemplazo a partir de esta población. Obténgase la media y la varianza de X con base a la distribución muestral y verifíquese las ecuaciones (27)y (28). (3. Supóngase que una variable aleatoria X tiene la siguiente distribución probabilística x 1 2 3 f(x) 1/3 1/3 1/3 a. (1. (3.2). c. (2. SOLUCION Los valores de la media y varianza de la población son a) n µ X = E ( x) = ∑ xi f ( xi ) = 1(1/3)+2(1/3)+3(1/3) = 2 i =1 2 σ X = E ( X 2 ) − E ( X ) 2 12(1/3)+22(1/3)+32(1/3)-22=1/3+4/3+9/3 =14/3-(2)2 = 2/3 b) los valores posibles del promedio x = x1 + x 2 de dos observaciones (n=2) son X ={1 3/2. 5 4 c) µ X = E ( X ) = ∑ xi f ( xi ) = 1(1/9)+(3/2)(2/9)+2(3/9)+(5/2)(2/9)+3(1/9) = 2 i =1 n σ = E ( X ) − E ( X ) 2 12(1/9)+(3/2)2(2/9)+22(3/9)+(5/2)2(2/9)+32(1/9) . Se sabe que la varianza de una variable aleatoria Y es 225.25 probabilidad 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT distribucion muestral 0.5 2 2.1 0.15 0.3 0.22= 13/3-4=1/3 2 X 2 Comparando los resultados µX = µX = 2 y σ 2 X = 2 σX n = (2/3)/2=1/3 Lo cual verifica las ecuaciones (27) y (28) 25.5 promedio de las muestras 3 3. obténgase el error típico de Y .05 0 0 0. entonces utilizando la ecuación 28 σ Y2 n ó σY = σ Y2 n = σ Y2 n = 225 = 15 / 6 36 75 .5 1 1. SOLUCION Se sabe que 2 σY = 2 σ Y =225 y n=36 observaciones. Si Y es la media de una muestra aleatoria de 36 observaciones para .2 0. 000 mi σX = σX n = 200 200 = = 50 mi 4 16 26.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 26. Si se selecciona una muestra aleatoria de 16 neumáticos. 30 000 y 200 mi. tiene media muestra es n =16 Entonces de las ecuaciones (27) y (28) µ X =30.000 . respectivamente. tiene media =1000 Entonces de las ecuaciones (27) y (28) µ X =36. desviación típica σ X =5 y el tamaño de la muestra es n µ X = µ X =36 σX = σX n = 5 = 0. Se extrae de esta población una muestra de 1000 y se calcula la media de la muestra. b. desviación típica σ X =200 y el tamaño de la µ X = µ X =30. Obténgase el valor esperado de la media muestral. Cierta población tiene una media de 36 y una desviación típica de 5. a. Sea X la duración en millas de cierta marca de neumáticos para automóvil. SOLUCION Tenemos una variable X.158 1000 76 . Supónganse que la media y desviación típica de X son. ¿cuáles serán el valor esperado y error típico de la media muestral? SOLUCION Tenemos una variable X. Obténgase el error típico de la media muestral. la probabilidad P(X =1)=p y por lo tanto P(X=0 = q =1-p La distribución de probabilidad del ensayo de Bernoulli se representa en la siguiente tabla x 0 1 p f(x) q MEDIA Y VARIANZA DEL MODELO DE BERNOULLI A partir de la distribución de probabilidad se puede obtener su respectiva media y desviación típica µ = ∑x i f ( x i ) = (0 )(q ) + (1 )( p ) = p entonces µ = p 2 2 E ( X 2 ) = ∑ xi2 f ( x) =(0) (q ) + (1) ( p ) = p σ 2 = E ( X 2 ) − µ 2 = p − p 2 = p (1 − p ) = pq por lo tanto σ = pq DISTRIBUCION BINOMIAL El experimento binomial consiste en n ensayos independientes de Bernoulli. La variable aleatoria del experimento es X = {el número de éxitos en n ensayos} la Para el cálculo de la probabilidad e un caso general de el experimento binomial obsérvese el caso mostrado en la figura siguiente.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Unidad IV Distribuciones paramétricas DISTRIBUCIONES DISCRETAS DE PROBABILIDAD ENSAYO DE BERNOULLI Un Ensayo de Bernoulli: es un experimento con dos resultados posibles uno llamado ÉXITO y el otro FRACASO.. La variable aleatoria es X es tal que X(EXITO)=1y. donde se muestran k EXITOS y por lo tanto n – k FRACASOS. Para cada ensayo probabilidad de éxitos P(E)=p y por lo tanto de fracaso es P(F)=q = 1-p. n E F n-k F F F F 77 . k E E E E ……. por otra parte. X(FRACASO)=0. ...1) cumple con la propiedad n n ( p + q) n = ∑ p k q n−k k =0 k n n 1n = ∑ p k q n − k k =0 k n ∑k p k =0 n k q n−k = 1 78 ..APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Se muestra solamente un resultado posible de el total de eventos que tienen k éxitos..(q ) = p k q n − k Así pues la probabilidad de obtener X =k éxitos en n ensayos es P( X = k ) = n! p k q n−k k!(n − k )! Escribiendo el resultado anterior de otra forma n f (k ) = p k q n−k ..( p ) (q ) (q )(q ) .........P(F ) = ( p ) ( p )( p ) .F ) = P(E )P (E )P(E ) . En número de eventos que contienen k éxitos se puede determinar utilizando las técnicas de conteo... k Por otra parte es conocido que el BINOMIO DE NEWTON tiene la forma: n n ( a + b) n = ∑ a k b n − k k =0 k (4.....1) de donde se observa inmediatamente que si se realiza el cambio de variable a = p y b = q se tiene que el término dado en la sumatoria es igual al obtenido en la ecuación (29).. de ahí el nombre de la distribución binomial. Por otra parte se puede verificar inmediatamente que (4..E F F F ...P(E ) P(F ) P(F )P(F ) . esto es N (k EXITOS ) = n! (n − k )! k ! La probabilidad del evento individual mostrado se obtiene aplicando la condición de que cada ensayo de Bernoulli es independiente y por lo tanto su probabilidad es el producto de las probabilidades individuales P( E E E . 15 0.00098 1 0. Para el caso particular de n = 10 y p =0.2) Var ( X 1 + X 2 + K + X n ) = Var ( X 1 ) + Var ( X 2 ) + K + Var ( X n ) = p q + p q +K+ p q = n p q Entonces σ = n pq (4.04395 3 0.1 0.20508 7 0.20508 5 0.24609 6 0.5 79 .11719 4 0.00977 2 0.5 n=10 0. La variable aleatoria se puede representar mediante la sumas de las variables aleatorias individuales de cada uno de los ensayos de Bernoulli X = X1+ X2 + X3 + …+ Xn Entonces para la media µ µ = E( X 1 + X 2 + K + X n ) = E( X 1 ) + E( X 2 ) + K + E( X n ) = p + p + K + p = np Por lo que Y para la desviación típica µ = np (4.2 Probabilidad 0.00098 El histograma correspondiente muestra una distribución simétrica Distribución de probabilidad binomial para p=0.3) Los coeficientes binomiales dados por la ecuación (4.04395 9 0.00977 10 0.11719 8 0.05 0 0 2 4 6 8 10 Distribución binomial para n = 10 y p = 0.1) se pueden calcular mediante el uso de una calculadora o recurrir a las tablas donde se encuentran previamente evaluados.5 se tienen la siguiente distribución de probabilidad x f(x) 0 0.25 0. pero se puede n obtener aplicando las propiedades del valor esperado y la varianza para la suma de eventos independientes.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT MEDIA Y VARIANZA DE LA DISTRIBUCIÓN BINOMIAL No es fácil determinar la media y desviación típica de la distribución binomial directamente. 1 0. a.2492 1!(3 − 1)! 5! 5 C 2 (0.30198 3 0.10737 1 0.6) 2 = 3! = (0.5) (0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Para n = 10 y p = 0.7)2(0. P( X ≤ 2 | n = 5 y p = 0.5) (0.5) x =0 5 x x 5− x c.5) x =0 2 3 x 1 x 3− x ∑ C (0.5) SOLUCION 80 . C 42 (0.3)2 SOLUCION a) b) C13 (0.00079 8 0.4)1(0.2 APLICACIONES DE LA DISTRIBUCIÓN BINOMIAL EJEMPLOS 1.2 n=10 0.25 Probabilidad 0. ∑ C (0.02642 6 0. b.4)1 (0.00007 9 0.15 0. C 31 (0. Obténganse los valores de las siguientes expresiones.6)2 b.05 0 0 2 4 6 8 10 Distribución binomial para n = 10 y p = 0. Obténganse los valores de las siguientes expresiones.0000 10 0.2 se obtiene la siguiente distribución de probabilidad x f(x) 0 0.00550 7 0.6)2=0.6) 2 (0. a.20133 4 0.26843 2 0.4) 3 = = (0.3 0.2304 2!(5 − 2)! 2.6)2(0.4)1(0.0880 5 0.0000 Distribución de probabilidad binomial para p=0.4)2=0.2 0. 5) 5 + C15 (0.03279 ∑C x =0 4 5 x (0.5)(0. conteste correctamente tres o menos preguntas. n = 10.5000 5 c) P ( X ≤ 2.5) 0 (0. c.5) x (0.5) 2 (0. p = 0. conteste correctamente cinco o más preguntas? SOLUCION Puesto que son diez preguntas n = 10 y debido a que se contesta al azar y cada pregunta contiene cinco posibles respuestas de las cuales solo una es correcta la probabilidad de ÉXITO es p =1/5 = 0.2) x (0.2 y por lo tanto la de FRACASO q =1-1/5=4/5 = 0. Si una estudiante responde las preguntas simplemente adivinando.96721=0.5) 5− x = 0. n = 10. p = 0.2= 10 ∑C x =0 3 10 x (0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 5 5 5 b) ∑ C x (0.2)5(0.2) n − x = 0.03125 + 0.87913 c) P(5 ≤ X.2)=1=1-0. b.8)5=0. p = 0.15625 + 0. ¿cuál es la probabilidad de que a. Supóngase que en una prueba se incluyen diez preguntas de opción múltiple. n = 10. de las cuales una es correcta.02642 P(X ≤3.5) 3 x =0 2 = 0.5)) = ∑ C x (0.8)10− x = 81 .5) 4 C 2 (0.5) x (0.5) 5− x = C 0 (0.2)=1-p(X<5.2)= C 5 (0. p = 0.3125 = 0. n = 5 y P = (0. con cinco respuestas para cada pregunta. conteste correctamente cinco preguntas.8 Para obtener la evaluación de cada una de las precuentas se puede recurrir a las tablas correspondientes de la distribución binomial a) b) P(X = 5.5000 x =0 2 3.2) x (0. n = 10. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 4.8 y la de FRACASO q =1-p =1 . p = 0. n = 15.2) n − k Puesto que las tablas de distribución binomial acumulada dan la sumatoria empiezan en cero.0. Supóngase que diez aparatos de radar están operando independientemente uno del otro. p = 0. ¿Cuál es la probabilidad de que nueve aparatos de radar detecten el cohete? SOLUCION De los datos proporcionados por el problema n =10 y l probabilidad de ÉXITO es p = 0. ¿cuál es la probabilidad de que al menos 3 estudiantes en una clase de 15 no aprueben el curso? SOLUCION Para este problema n = 15 la probabilidad de éxito es p = 0.8) = 10 ∑C k =3 15 15 x (0. entonces P(k = 9.80.20)1=0.20 La pregunta se refiere a que nueve de los aparatos exactamente tengan éxito en detectar el cohete enemigo esto es k = 9.8)= C 9 (0. n = 10.1 La pregunta se puede traducir al lenguaje simbólico como P (3 ≤ k.80= 0.9) k (0.26844 5. se puede transformar la expresión anterior al complemento 82 . y que la probabilidad de que uno solo de los aparatos detecte un cohete enemigo es de 0. Si se sabe que el 90% de los estudiantes que tornan un curso elemental de economía aprueban.9= 0.9 y de fracaso q = 1 –p = 1-0.8)9((0. n = 15. .P (0 ≤ k< 3.40 probabilidad de ser muchachas p = 0. De la clase del último semestre.18406 6. p = 0. c.4)=0.4)=1-0.81594=0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT P (3 ≤ k. d.60= 0.6 y la de Traduciendo correctamente cada una de las preguntas al lenguaje matemático a) b) c) d) P(X = 5.4)= P(X≤6.20066 P(5≤X. p = 0.83376 P(X≤5. p = 0. p = 0. n = 15. n = 15. cuando más 5 muchachas.8) = I . n = 15.2) n − k =1-0. p = 0.56296 Figura.61772-0.4) =0. p = 0.n = 15.4)=0.05476 = 0.36640 P(4 ≤ X≤ 6. ¿Cuál es la probabilidad de que en un grupo de 10 estudiantes seleccionados aleatóriamente de esta clase haya a. p = 0. n = 15. p = 0.n = 15. inclusive? SOLUCION La clase corresponde a n =10 estudiantes con muchachos q =1-p =1 . cinco muchachas. n = 15. b.9) k (0.0.4)-P(X≤3.16624=0.8) = 1- ∑C k =0 2 15 x (0. p = 0. n = 15.4) = 1-P(X≤4. al menos 5 muchachas. La figura muestra la interpretación gráfica del inciso d) 83 . entre 4 y 6 muchachas. 60% son muchachas. p = 0. n = 5.6 a) b) c) p(X <2.4) = 0. SOLUCION La probabilidad de estar casado es p = 0. Obténganse la media y desviación típica de X. p = 0. b. Sea X el número de empleados casados en una muestra aleatoria de empleados. n = 5.98976-0. n = 5. Considérese que el 50% de todos los empleados de una gran compañía están casados.33696=0. entonces la probabilidad de que quede un número par es q =1 –p =1 .4) .5 y el número de empleados es n=100 Aplicando directamente las ecuaciones (30) y (31) µ =np =100(0.5)=50 σ2= npq = 100(0. c.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 7.0. más de dos. n = 5.6528 Figura. n = 5.p(X ≤1.4 =0.p(X ≤2. p = 0.31744 p(2 ≤ X ≤4. Supóngase que la probabilidad de que al tirar un dado quede hacia arriba un número non de puntos es 0.4)= 0. La figura muestra la interpretación gráfica del inciso c) 8.4. n = 5. entre dos y cuatro.5)=25 σ= 25 =5 84 . p = 0. p = 0.4) =1-0. n = 5.4)= p(X ≤2. inclusive? SOLUCION El número de tiradas es n = 5 y la probabilidad de que quede un número non es p =0. menos de dos.4) = p(0 ≤ X ≤4.33696 p(X >2. p = 0.68256=0.5)(1-0. p = 0.4)=1.4: ¿Cuál es la probabilidad de que en cinco tiradas del dado el número de veces que aparezca un número non de puntos sea a. 1)(1-0. etc.1)=10 σ2= npq = 100(0. Por lo que para cada uno de los valores de estos parámetros se tiene una gráfica diferente. masa. la probabilidad “éxito” en este caso es p = 0. • Es la aproximación de TEOREMA DE LIMITE CENTRAL • Es una aproximación de la distribución binomial para n≥35 y p≅0. voltaje corriente. energía. 85 . pero todas estas − 1 N (µ . SOLUCION Como la variable aleatoria es el número de tornillos defectuosos en la muestra n = 100.1)=9 σ= 9 =3 DISTRIBUCIÓN CONTINÚA DE PROBABILIDAD DISTRIBUCIÓN NORMAL Es una distribución continua descrita por la siguiente función de probabilidad − 1 p( X = x) = e 2 σ 2π 1 x−µ σ 2 • Se aplica a MEDICIONES de cantidades físicas continuas como longitud.1 Aplicando directamente las ecuaciones (30) y (31) µ =np =100(0. La Figura siguiente muestra el efecto descrito para las graficas de la distribución normal con desviación típica σ = 1 . el 10% de tornillos producidos por cierta máquina son defectuosos. Obténganse la media y la desviación típica para X si ésta es el número de tornillos defectuosos en cualquier muestra aleatoria de tamaño 100.σ ) = e 2 σ 2π 1 x−µ σ 2 (4.5 La distribución Normal depende de dos parámetros el valor esperado o media µ y la desviación típica σ . tiempo. y tres diferentes medias µ = −2 µ = 0 y µ = 2. temperatura.4) La variación del parámetro µ ocasiona un desplazamiento de la gráfica a la izquierda para valores negativos y a la derecha para valores positivos.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 9. De acuerdo con los registros de producción de cierta compañía. y σ = 1.3 0.1 0.35 0.5 0. pero si σ es pequeña su anchura disminuirá (más concentrada) y su altura será más grande.2 0.3 0. Efecto de desplazamiento para σ = 1 µ = −2 . σ = 4 y σ= 1 .6 0.4 0.1 0 -20 -15 -10 -5 0 5 10 15 20 Figura.05 0 -6 -4 -2 0 2 4 6 8 Figura.2 0. σ = 1. σ = 4 y µ = 12 86 . esto es. La siguiente figura muestra el efecto de modificar la desviación típica para una media dada tres diferentes desviaciones µ = 0.8 0.25 0.4 0.15 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 0. si σ es grande la distribución será más ancha (más dispersa) y su altura disminuirá. µ = 0 y µ=2 Por otra parte la variación del parámetro σ hace que la altura y la anchura de la distribución de probabilidad cambien. 2 0. Efecto de estiramiento o estrechamiento para µ = 0 .7 0. Área bajo la curva normal en un intervalo (a. Por lo que la integral anterior se obtiene mediante integración numérica ó series.4) y (4.2 0.5) se transforman en N(0. b ) Resulta que la integral anterior no es tiene primitiva.5 0.4 0. El problema anterior de determinar la probabilidad en un intervalo conduce a la elección de una distribución normal representativa la cual es conocida como distribución normal estándar.1 0. b ) se obtiene a partir de la siguiente integral − 1 p ( a < X < b) = ∫ e 2 a σ 2π b 1 x−µ σ 2 dy (4.45 0.25 0.1)= µ = 0 .15 0. esto es.5) La figura siguiente muestra la gráfica del área bajo la distribución normal en un intervalo (a.3 0. por lo que la ecuación 1 2π e 1 − x2 2 (4.7) Cualquier distribución normal con media µ y desviación típica distribución normal mediante el cambio de variable σ puede ser relacionada con la 87 .35 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT La probabilidad de que la variable aleatoria X tome un conjunto de valores en un intervalo (a.6) − x2 1 N (0.05 0 -4 -3 -2 -1 0 1 2 3 4 Figura. Distribución normal estándar La distribución normal estándar es aquella en la cual se tiene que (4.1)dx = e 2 dx ∫ 2π ∫ a a b b 1 (4. no existe una función cuya derivada de cómo resultado la función de distribución normal dada por la ecuación (32). b ) 0. σ = 1 . 35 0. P(1. P(Z < 1. y la probabilidad el área o bajo la curva normal estándar es prácticamente 1. esto es debido a que la probabilidad de valores de Z mayores que 3.5 0.4 0.89) f.2 0.45 0.15 < Z < -0.4 tienen una probabilidad muy baja.0) b. El área para valores de Z mayores que un número negativo es equivalente al área por debajo del valor absoluto de Z.4 es prácticamente 1.4<Z< 1.05 0 -4 -3 -2 -1 0 1 2 3 4 El área bajo la distribución normal estándar en el intervalo -3.65) e.4 y menores que 3.4.75) g.3 0. a.15 0.0<Z< 1. P(-2.9772 p(Z<1.00)=0. 0.25 0. P(-1.4≤ Z ≤3.76) d. en la cual se utiliza la simetría de la distribución normal. Las tablas disponibles en general solo abarcan un rango para la variable tipificada de -3. P(Z > -1. APLICACIONES DE LA DISTRIBUCIÓN BINOMIAL EJEMPLOS 10. Lo anterior es mostrado en la figura siguiente.45) c. P(Z> -1. Obténganse las siguientes probabilidades.45)=0. P(Z < 2.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Z= x−µ σ (4.8) La variable Z es conocida con variable tipificada El área bajo la curva normal estándar se puede consultan en tablas respetivas para los valores más comúnmente utilizados. 88 . a) b) p(Z<2.55) SOLUCION Lo valores de los incisos a) y b) se obtiene directamente de la tabla del área bajo la curva de la distribución normal.4≤ Z ≤3.1 0.9265 Para los incisos c) y d) se procede como se indica a continuación. 4 0.25 0.4 0.1293 El área buscada es mostrada en la figura siguiente: 0.76) = p(Z<1.25 0.4 0.76)=0.65) = p(Z<1.15 0.0< Z <1.05 0 -4 -3 -2 -1 0 1 2 3 4 Se puede descomponer en la suma de dos áreas.05 0 -4 -3 -2 -1 0 1 2 3 4 Z=-1.05 0 -4 -3 -2 -1 0 1 2 3 4 0.2 0.76 c) d) p(Z>-1.3 0.9706-0.25 0.00 y Z2=1.2 0.2 0.89.25 0. el área comprendida de-1.35 0.05 0 -4 -3 -2 -1 0 1 2 3 4 e) f) p(1.4 0.15 0.5 0.1 0.3 0.76 Z=1.35 0. Para calcular la primera área se utiliza la simetría de la distribución normal esto es 89 .15 0.9505 En el inciso e) la probabilidad solicitada es igual al área entre los valores Z1=1.p(Z<1)= 0.3 0.5 0.40 a 0 mas el área de 0 a 1.1 0.35 0.5 0.45 0.9608 p(Z>-1.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 0.45 0.65)=0.35 0.1 0.3 0.1 0.45 0.8413 = 0.45 0.89).75.89)=p(z<1.2 0.15 0.5 0. que de acuerdo a la figura y a la tabla se puede obtener mediante la diferencia de áreas 0. 40<Z≤0) = P(0≤ Z <1.2 0. b) procediendo de igual que el inciso anterior para a = 0.15 0.8792 g) Utilizando la simetría de la normal el problema es equivalente a P(-2.P(Z < 0.55) = 0.7088 = 0.57 que conduce a a1= 0.35 0.9950.15) = P(Z <2.5 0.9950 En la tabla no existen el valor exacto de Z que conduzca al área = 0.0.75) – 1 = 0.9949 b) A la izquierda de Z el área es de 0. a) A la izquierda de Z el área es 0.55< Z <2.9192 + 0.57.75)-0. Obténgase el valor de Z para cada una de las siguientes áreas bajo la curva normal estándar.40)= P(Z <1.3 0.9599 – 1.40)-0.4 0.2754 0.58.5 0.40)-0.50 Para la segunda área se procede de manera semejante P(0≤ Z <1.1 0.25 0.2810. f) A la derecha de Z el área es de 0.1 0.9951.9950.9412.005. los valores más aproximados de Z son Z1 = 2. c) Se requiere el valor de área a la izquierda. por complemento este valor es a = 1-0.40)+ P(Z <1.9842 .75)-0.15 0. d) A la izquierda de Z el área es de 0.2 0. 90 .75)= P(Z <1.55) = P(0. g) A la derecha de z el área es de 0.3 0. e) A la izquierda de Z el área es de 0.15) .45 0.50 = P(Z <1.50 + P(Z <1.9951 Z = 2.15 < Z < -0.9951 c) A la derecha de Z el área es de 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT P(-1.9949 y Z2 = 2.0228.25 0.05 0 -4 -3 -2 -1 0 1 2 3 4 11.005=0.0582.75) = P(Z <1. entonces el valor de Z buscado se encuentra entre estos dos valores de Z ya que el área solicitada se encuentra entre las dos áreas a = 0. SOLUCION a) Se busca en la tabla el valor del área respectiva a = 0.40 <Z< 1.50 Entonces sumando las áreas P(-1.45 0.05 0 -4 -3 -2 -1 0 1 2 3 4 0.9949 que corresponde a Z = 2.58 que a2 = 0.0000= 0.35 0.4 0. 9406 ) + 1.56 Z = 2 (a − a1 ) + Z 1 = 0. b.5 − 100 p(X>116.2810 = 0.9406 (0.5 en la tabla corresponden a valores negativos de Z. Una variable aleatoria (X) se distribuye normalmente. esto es y − y1 = y 2 − y1 ( x − x1 ) x 2 − x1 donde x1=a1 = área 1 correspondiente a y1= Z1 y x2= a2= área 2 correspondiente a y2= Z2.9412 − 0. con una media de 100 y una desviación típica de 15.57 con a2 = 0. SOLUCION Para el problema µ = 100 y σ =15 a) b) c) 80. X esté entre 91 y 109.8643= 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Como los valores son muy cercanos se puede aproximar el resultado pensando que la relación es lineal.P(Z<1.9418. el problema se pude cambiar por el valor positivo pero para el área =1.P(Z< 1.58 − 2.9418 que buscando en la tabla corresponde a Z = 1.0.0582 =0.9032 = 0.57 Z = 2 (a − a1 ) + Z 1 = 0. X sea mayor de 116.1) =1 . c.57.57 = 2.8) = 0.9412 son Z1 = 1.7881 15 p(X<80.57 − 1.0228= 0.00 12.9406 y Z2 = 1. buscando en las tablas el valor correspondiente es Z = 0.1) = 1-0. entonces Z − Z1 (a − a1 ) Z − Z1 = 2 a 2 − a1 Despejando a y y sustituyendo a x =a Z − Z1 2.5. X sea menor de 80.57.30) = 1.5) = P Z < 91 .5.9949 ) + 2. X sea menor de 112.565 a 2 − a1 e) Los valores de áreas menores que 0.56 con a1= 0.30) = 1.9951 − 0. e.7190.0.56 = 1.0968 15 116.58 g) Aplicando el complemento a = 1-0.9418 − 0. Obténgase la probabilidad de que a. d.5 − 100 =P(Z< -1. por lo tanto el resultado es Z = -1. f) Aplicando el complemento a = 1-0. Utilizando el resultado anterior Z − Z1 1.9949 (0. buscando en las tablas el valor correspondiente es Z = 2.5) = P Z > = P(Z> 1.9950 − 0.1357 15 112 − 100 p(X<112) = P Z < = P(Z< 0.9772. X esté entre 85 y 97.575 a 2 − a1 d) Buscando en la tabla los valores más cercanos a el área a = 0. 8)= P(Z<0. b. c.8) =2(1. X sea mayor de 79 o menor de 61. ¿cuántos de ellos concluirán el examen antes de una hora y 50 minutos? SOLUCION La media y la desviación típica son µ=110 y σ=10 a) Dos horas representan 120 minutos.6) 15 15 = 2* (0. SOLUCION Para todos los incisos µ=70.6<Z< 0.8413 .8) + P(Z<-1. X sea mayor de 71 y menor de 75.0718 14. d.2620 P(X>79)+P(X<61)= P Z > d) 79 − 70 61 − 70 + P Z < = P(Z>1.5793 = 0.2) = 0. Si hay 50 estudiantes en la clase. ¿Cuál es la probabilidad de que un estudiante de inglés seleccionado aleatóriamente concluya el examen en 125 min o más? e. X sea mayor de 63.9641)=0.8)=0.0.2) 15 15 = P(Z<1) . Una variable aleatoria (X) se distribuye normalmente con media 70 y desviación típica de 5. σ=5 y el cambio de variable a la variable tipificada se realiza mediante Z= X −µ σ P(X>66)= a) b) c) 66 − 70 P Z > =P(Z>-0.7257)-1 = 0.0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT d) p(91<X<109) = P 109 − 100 91 − 100 <Z< = P(-0.2620 13.4)=0.9192 5 75 − 70 71 − 70 <Z< P(71< X <75)= P = P(0. Obténgase la probabilidad de que a. entonces 92 .P(Z<0. ¿Cuál es la probabilidad de que un estudiante de inglés elegido aleatóriamente concluya el examen en menos de dos horas? b.4515 e) p(85<X<97) = P 97 − 100 85 − 100 <Z< = P(-1<Z<-0.P(Z<0.8) 5 5 =2 (1-P(Z<1. a.4)= P(Z<1.2) 5 5 = 0.8413 – 0. X sea mayor de 66.2< Z <1)= P(Z<1) . Un profesor de inglés ha determinado que el tiempo necesario para que los estudiantes concluyan un examen final se distribuye normalmente con media de 110 min y desviación típica de 10 min.7881 5 63 − 70 P(X>63)= P Z > = P(Z>-1.5793 =0. 68 − 0.56 16.68 con a2 = 0.7500 − 0.P(Z<1. a. P(X ≤ 110)=P(X< (110-110)/10 =P (X ≤ 0) = 0.0.9772=0.9332=0.5 < Z) =1. ¿Cuál es la probabilidad de que el siguiente paciente que se reciba permanezca más de nueve días? b.67 = 0. Supóngase que las calificaciones de prueba de un examen estándar se distribuyan normalmente. σ=2 a) b) P(X ≥ 9) = P(Z ≥ (9-10)/2 = P(Z ≥0.7486 ) + 0.5)=1 .67con a1= 0. Supóngase que la longitud promedio de la estancia de los pacientes en cierto hospital es de diez días y la desviación típica es de dos días.7517 − 0.5)=25 15. X=2 semanas = 14 días P(X ≥ 14) =P(Z ≥(14-10)/2) = P(Z ≥ 2)=1-P(Z<2) =1-0.5)=P(Z ≤ 0. ¿Cuál es el valor aproximado correspondiente al percentil 75 -ésimo? SOLUCION El percentil corresponde a el porcentaje del área total.7486y Z2 = 0.75 Buscando en la tabla los valores más cercanos a el área a = 0. Si el día de hoy se admitieron 200 pacientes.0228)=4.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT P(X<120)=P(Z<(120-110)/10 =P(Z<1)=0.6745 1 2 TEOREMA DEL LÍMITE CENTRAL El teorema del límite central establece que si X es cualquier variable aleatoria con media µ y desviación típica σ la distribución de la media muestral X será aproximadamente normal con media µX = µX = µ y desviación típica σX = σX n = σ n sin importar la forma de la distribución de probabilidad de X siempre y cuando el tamaño de la muestra sea grande n>30 Por lo anterior la variable tipificada para determinar la probabilidad de la variable aleatoria X es 93 .7517.7486 (0. Considérese que tales duraciones se distribuyen normalmente.75 son Z1 = 0.8413 b) Si el estudiante debe resolver el examen en 125 o más P(125≤X = P(Z<(125-110)/10 =P (1.6915 N = 200. P(X ≤ 110) =(50)(0.5)=0. entonces P(Z≤Z0)=0.5 Entonces el número de alumnos que terminen antes de 110 min es n = N. la aproximación lineal Z − Z1 0. P(X ≥ 14) =(200)(0. ¿cuántos continuarán en el hospital dentro de dos semanas? SOLUCION La media y la desviación típica son µ=10.67 Z = 2 a − a (a − a1 ) + Z 1 = 0.0668 c) Primero se debe determinar la probabilidad de que los alumnos terminen antes de 110 min.0228 Entonces el número de pacientes después de dos semanas es n =N. ¿cuál es la probabilidad de que la edad promedio de la muestra sea a.0.75) = P 6 36 < Z < 6 36 = P(-0.5 − 35 < Z = P( Z >2. y 9 se considera como uniforme.9970-0.1557 18.75 − 35 x < 34. de menos de 33 años. b. y se calcula una media muestral..79) c. P( x > 4. Supóngase que se selecciona una muestra aleatoria de 100 dígitos.75)=P(Z<2. 1. c. P(4. ya sea utilizando la tabla de dígitos aleatorios o mediante el método de la urna con reemplazo.75<Z <-0.75) .25) = P (0.5 94 .87) d..1. d.75) <Z< 6 36 6 36 =P(2< Z <2. Se considera que la distribución no es normal. de entre 36 y 37. de entre 34.75)=P(Z<0. de más de 37.84) b. ya que la probabilidad de que aparezca cada dígito es de 0.9772 = 0. P(4. y se calcula su edad promedio.9958 = 0.75 − 35 = P(1< Z < 2.5) =1-P(Z<2.5< x )= P 37.5)=1-0.00 < x < 4.75) = P 36 − 35 37. σ=6 y el tamaño de la muestra n = 36 a) P(37. 2.90) SOLUCION Para la distribución uniforme x f(x) 0 1/10 1 1/10 2 1/10 3 1/10 4 1/10 5 1/10 6 1/10 7 1/10 8 1/10 9 1/10 Por lo tanto la media µ y la desviación típica σ poblacionales son µ = E ( x) = ∑ xi f ( xi ) =0(1/10)+1(1/10)+2(1/10)+3(1/10)+4(1/10)+5(1/10) + 6(1/10)+7(1/10)+8(1/10) + 9(1/10)+ = 4.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Z= EJEMPLOS X −µ σ n (4. .25< 34.75 años.75 años? SOLUCION La media y desviación típica de la población es µ=35.5987 =0.P(Z<1) =0.25)= 0.0042 6 36 33 − 35 b) P( x <33)= P 6 36 < Z = P( Z <-2) =1-P(Z<2)=1-0.0228 c) P (34.25 − 35 34. a.5 años. Si se selecciona una muestra aleatoria de 36 empleados.P(Z<0. P( x < 4.1747 d) P (36 < x < 37. .18< x < 4.7734. Obténganse las siguientes probabilidades.9) 17.8413=0.25< Z <0.25 y 34. La distribución de los 10 dígitos aleatorios 0. Supóngase que la distribución de las edades de los empleados de una gran compañía tiene una medía de 35 años y una desviación típica de 6 años.75). 79 − 4.84)= P Z < c) P (4.5)=1-0.84 − 4.29)-1 = 0.5< x)= P 95 .39) <Z< 2.9938=0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT E ( x 2 ) = ∑ xi f ( xi ) =02 (1/10)+12 (1/10)+22 (1/10)+32 (1/10)+42 (1/10)+52 (1/10) + 62 (1/10)+72 (1/10) + 2 82 (1/10) + 92 (1/10) = 28.4.9591+0.5 4. Supóngase que a fin de mes los saldos de las cuentas de cheques en bancos se distribuyen normalmente con media $250 y desviación típica $15.90 .87 .5 = P(-1.25 = 2.87 100 2.5 = P(-1.5 b) P( x >4.5< Z)=1-P(Z ≤ 2.00 . a.5 4.29) <Z< x < 4.57) = P 2.01 < Z ) =1-P(Z≤1.74<Z <1. ¿Cuál es la probabilidad de que una cuenta seleccionada aleatóriamente tenga un saldo de más de $272.90) = P 4.9015-1=0.87 100 = P(Z<1.8830 2.0668 15 257.7680 d) P (4.5< x )= P Z < 15 25 P(272.9332=0.4.50? SOLUCION De el problema se obtiene que µ=250.74)+P(Z<1.5)=1-0.5 − 250 =P(2.87 100 4.8768 19.5 σ 2 = E ( x 2 ) − µ 2 = 28.9177-1=0.01)=1-0.5.5 − 250 < Z =P(1.25 σ = 8.8438 = 0.4.39)-1 = 0.1562 2.8665 +0.18< 4.11)+P(Z<1. σ= 15 y n = 25 a) b) 272. ¿Cuál es la probabilidad de que el promedio de una muestra aleatoria de 25 cuentas sea de más de $257.5 = P(Z< 1.5<1)=1-P(Z ≤1.87 100 2.50? b.4.(4.00< x < 4.0062 P(257.87 100 = P(Z<1.87 Entonces para una muestra n=100 4.19) = 0.79)= P < Z = P(1.18 .11<Z <1.5)2 = 8.87 100 a) P( x <4. Aproximación de la binomial mediante la distribución normal.4 96 .1 0.5 .5. La media a utilizar por parte de la normal µ=np y la desviación típica o estándar (4.10) σ = npq (4. por ejemplo para el caso n = 15 y p = 0. La distribución binomial con variable aleatoria X que representa el número de éxitos con probabilidad p puede ser aproximada mediante una distribución normal si cumple que el número de muestras es grande.2 probabilidad 0.11) La aproximación se puede llevar a cabo para un numero n menor siempre y cuando el producto de y n (1 − p ) sea mayores a 5.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Aproximación de la distribución binomial mediante la distribución normal. n =15 y p =0.05 0 0 2 4 6 8 10 numero de exitos 12 14 16 Figura. esto es.6. La figura siguiente muestra la distribución binomial y la normal para n = 15 y p = 0.4. n > 30 y con probabilidad p ≈ 0. entonces el posible aproximar la distribución binomial mediante la distribución normal np para este caso. 0. Si la probabilidad p está alejada de 0.4 se tiene que n p = 6 y n (1 − p ) = 9.15 0. entonces es posible que se requiera un mayor número de datos para obtener una mejor aproximación. 5 y n (1 − p ) = 10.3 se tiene que n p = 4.16 0.5. 0.04 0.3 97 .14 0.1 0.1 0.3 Como se puede deducir de los dos caso anteriores si la probabilidad de éxito se aleja de 0.3 se tiene que n p = 9 y n (1 − p ) = 21. La aproximación de la binomial mediante la distribución normal no es aconsejable para este caso n =15 y p =0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Si ahora n = 15 y p = 0.02 0 0 5 10 15 20 numero de exitos 25 30 Figura. para este caso no es adecuado aproximar la distribución binomial mediante la distribución normal La figura siguiente muestra la distribución binomial y la normal para n = 15 y p = 0.5 entonces para obtener una buena aproximación normal se requerirá un n mucho mayor.18 0.25 0.2 probabilidad 0.15 0.3 0. por ejemplo.06 0. para n = 30 y p = 0.08 0. La siguiente figura muestra la aproximación para n = 30 y p =0. y entonces si es posible aproximar la distribución binomial mediante la normal. Aproximación de la distribución binomial a la normal para n = 30 y p =0.05 0 0 2 4 6 8 10 numero de exitos 12 14 16 Figura.3. entonces.12 probabilidad 0. 5) 3 + (0.5).P(Z<1. b.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT EJEMPLOS 20. SOLUCION La probabilidad de éxito es p = 0. el método de la aproximación normal con corrección por continuidad.5) = P(Z < 2.11718+0.0994 21.6255 = 0.25)=P(1.5-5)/1. en promedio de cada 100 pacientes que contraen la enfermedad y reciben la medicina. a.2136)= P(Z < 2.9938-0. Es decir.25)=0. la distribución binomial.3162 ≤ Z ≤ 2.5< Z < -1.4938 c) P(70< X < 75)=P((70-80)/4 < Z < (75-80)/4)=P(2.5) 4 + (0.9938-0.5 b) P(80< X <90)=P((80-80)/4 < Z< (90-80)/4)=P(0< Z < 2.5811) =P(0.5) 8 (0. P(80 < X < 90).8) = 4 Entonces a) P(X>80)=P(Z > (80-80)/4=P(Z >0)=1-P(Z <0)=1-0. más de 80 se recuperarán o P(X =80).8944=0.21)-P(Z ≤ 0.5).5=0. aplicando la distribución binomial P(6≤ X ≤ 8)= 10 10 10 (0.5811 P(6≤ X ≤ 8)=P((5.8)(100)=80 σ = npq = 100(0.5)(0. Se tira diez veces una moneda balanceada.5)=P((5. se espera que 80 se recuperen.3609 98 . Sea X el número de pacientes en una muestra aleatoria de 100 que se recuperan después del tratamiento.5811 ≤ Z ≤ (8. c.5) = 5 σ = npq = 10(0.0.366203 b) Aplicando la distribución binomial y la corrección por continuidad µ = n p = 10(0.5-5)/1.8)(1 − 0.5) 7 (0.5) = P(Z<2.32) =0. SOLUCION a) Puesto que la moneda es balanceada p = 0.8 y el tamaño de la muestra es n = 100 La media y la desviación típica son µ = n p = (0. Supóngase que cierta medicina tiene un 80% de efectividad para curar cierto tipo de enfermedad.5 y n = 10.5≤ X ≤ 8.205078+0.5) = 2.5) 2 8 0 7 =0.5 = 1. P(70 < X < 75). Obténgase la probabilidad de que ocurran ya sea el seis.043945=0.5) 6 (0.5=0.P(Z≤0) =0. b. siete u ocho caras mediante a. Obténganse las siguientes probabilidades mediante la aproximación normal.25 < Z< 2.9864 . 05 0 0 2 4 6 Número de éxitos 8 10 Figura representando la aproximación binomial a la normal para el ejemplo 2 n =10 y p =0.1 0.2 0.5.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 0.25 Probabilidad 0.15 0. 99 . esto es Ho:µ = µ0 Las hipótesis alternativas H1. Por ejemplo se puede proponer que el promedio no es diferente de un valor particular. implica la idea de que no hay diferencia entre los parámetros. • planteamiento de la hipótesis. la prueba se le denomina prueba de dos colas. Una explicación concisa de cada una de estas áreas se da a continuación: • • prueba de hipótesis: aceptar o rechazar declaraciones acerca de los parámetros de la población. Comúnmente la hipótesis nula Ho. la cual se propone con el objetivo de ver si puede ser rechazada y la hipótesis alternativa la cual se denota por H1 y es válida si la hipótesis nula es rechazada. La aceptación o rechazo de la hipótesis estadística requiere de información obtenida a partir de la muestras de la población. puede tomar alguna y solo una de las siguientes opciones: PRUEBA DE DOS COLAS Ho:µ = µ0 H1: µ ≠ µ0 Debido a que no se especifica la dirección de la diferencia entre µ y µ0. la hipótesis estadística puede ser apoyada o no. de ahí su nombre de nula. Los pasos esenciales para realizar una prueba de hipótesis se indicas a continuación: • identificación del patrón de distribución de la variable aleatoria (binomial. una denominada hipótesis nula denotada por Ho. normal…) Un procedimiento estadístico que requiere la identificación de la distribución probabilística se denomina enfoque paramétrico. la cual tiene como objetivo obtener información de las poblaciones a partir de las muestras obtenidas. Si la información obtenida es suficiente. estimación: estimar valores de los parámetros de la población. que pueden establecerse como complementaria para la hipótesis nula Ho anterior. En general se avoca a las dos siguientes áreas prueba de hipótesis y estimación. PRUEBA DE HIPÓTESIS Y ESTIMACIÓN. Si no se especifica la distribución de probabilidad entonces se tiene un enfoque no paramétrico. PLANTEAMIENTO DE LA HIPÓTESIS NULA Y ALTERNATIVA Una hipótesis estadística consiste en realizar una declaración afirmativa o negativa acerca del valor de un parámetro o parámetros de una población.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT UNIDAD V Inferencia estadística INFERENCIA ESTADÍSTICA Los conceptos básicos de probabilidad y distribuciones muestrales sirven de base para el método de inferencia estadística. 100 . En general se proponen 2 hipótesis. la prueba es llamada de una cola izquierda 101 .35 0.15 0.4 0. Esquema utilizando la distribución normal para mostrar la prueba de dos colas. Esquema utilizando la distribución normal para mostrar la prueba de cola derecha.4 0.25 0.2 0.45 0.25 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 0.35 0.3 0.1 0. la prueba es llamada de una cola derecha 0.1 0.15 0.2 0.45 0.3 0. la región sombreada representa la región de rechazo de la hipótesis nula Ho PRUEBA DE UNA COLA IZQUIERDA: Ho:µ = µ0 H1: µ < µ0 Como µ < µ0.5 0.5 0.05 0 -4 -3 -2 -1 0 1 2 3 4 Figura. la región sombreada representa la región de rechazo de la hipótesis nula Ho PRUEBA DE UNA COLA DERECHA Ho:µ = µ0 H1: µ > µ0 Como µ > µ0.05 0 -4 -3 -2 -1 0 1 2 3 4 Figura. 1 0. la región sombreada representa la región de rechazo de la hipótesis nula Ho ESPECIFICACION DEL NIVEL DE SIGNIFICACION α Normalmente las muestras extraídas de una población en general no son idénticas y presentan diferentes medias y desviaciones típicas. ¿Qué tan grande debe ser la media muestral para que se considere significativamente mayor? La respuesta a la pregunta depende directamente del nivel de significación elegido para realizar la prueba de hipótesis. α=1.4 0.0%. normalmente se denota como α.2 0. β La relación entre los tipos de error α y β se muestra en la siguiente gráfica para la ..35 0. por ejemplo si α = 5%. por ejemplo si se considera la prueba de hipótesis Ho:µ = µ0 H1: µ > µ0 La pregunta seria ¿Qué tan grande debe ser la media muestra para rechazar la hipótesis nula? De otra manera. denotado por β. α=2.05 0 -4 -3 -2 -1 0 1 2 3 4 Figura. estas diferencias pueden deberse a la naturaleza aleatoria del problema.15 0.45 0.25 0. Por otra parte el error de no rechazar la hipótesis nula cuando es falsa se denomina error tipo II.5 0. α=5%.5% El nivel de significación: se puede entender también como la probabilidad de rechazar una hipótesis nula verdadera o la probabilidad de cometer un error tipo I que anteriormente se denotó por α. α=0. Los valores comúnmente elegidos como niveles de significación son α=10%. Los dos tipos de errores se resumen a continuación TIPO DE ERROR PROBABILIDAD Rechazar Ho cuando es verdadera No rechazar a Ho cuando es falsa I II α.3 0. la hipótesis nula no se rechazará en 5 de 100 muestras lo suficientemente grandes.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 0.Ho:µ= µ0 y H1: µ>µ0 102 .5%. Esquema utilizando la distribución normal para mostrar la prueba de cola izquierda. etc. proporción de defectos. etc. y viceversa. • Los valores del estadístico de prueba se dividen en 2 categorías: región de rechazo y región de aceptación. PLANTEAMIENTO DE LA REGLA DE DECISIÓN • Elegir el estadístico de prueba el cual es una variable aleatoria cuyo valor se utiliza para aceptar o rechazar la hipótesis nula. TOMA DE LA DECISIÓN: • El valor que separa las dos regiones es llamado el valor crítico. la hipótesis nula se rechaza. Se toma la decisión dependiendo en que región cae el valor del estadístico de prueba. si la línea vertical se mueve a la izquierda aumenta α y disminuye β. Si el valor del estadístico de prueba cae el la región de rechazo. desviación típica. • Especificar el nivel de significancia de α. TABLA DE DECISIONES Decisión Se rechaza H0 No se rechaza H0 H0 es verdadera Error tipo I α Decisión correcta 1-α H0 es falsa Decisión correcta 1-β Error tipo II β 103 . si se disminuye la probabilidad α al desplazar la línea vertical a la derecha el valor de β aumenta. Relación entre los errores tipo I representado por el área sombreada α y el error representado por el área sombreada β tipo II Las áreas oscuras representan la probabilidades α y β.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT α µ = µ0 x β x µ > µ0 Figura. en caso contrario se acepta. también se conoce la región de rechazo como región crítica. Puedes ser un estadístico muestral tal como la media muestral. 2 0.35 0. Prueba de dos colas 0.1 0.5 0.15 0.1 0. las regiones de aceptación y rechazo.45 0.4 0.25 0.2 0.15 0. para el caso de que se utilice a Z como estadístico de prueba. para cada una de los tres tipos de prueba de hipótesis.05 0 -4 -3 Región de rechazo Valor crítico Zα H1: µ < µ0 1-α α -2 -1 0 1 2 3 4 Región de rechazo Valor crítico Zα Región de aceptación 104 .05 0 -4 -3 -2 H1: µ ≠ µ0 1-α α/2 -1 0 1 α/22 3 4 Región de aceptación Región de rechazo Región de rechazo Valor crítico Valor crítico Zα/2 Zα/2 Prueba de cola derecha 0.5 0.35 0.2 0.3 0.4 0.4 0.25 0.1 0.25 0.45 0.45 0.15 0.35 0.3 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Las siguientes figuras muestran el valor crítico.5 0.05 0 -4 -3 -2 -1 0 1 H1: µ > µ0 1-α α 2 3 4 Región de aceptación Prueba de cola izquierda 0.3 0. El gerente de producción desea determinar si la longitud promedio ha disminuido. d) µ < 100 es una prueba de cola izquierda. SOLUCION La Hipótesis nula en general se relaciona con que el estimador no cambia. para cada una de las siguientes pruebas. µ < 100 e. 105 . e) µ≠10 representa a una prueba de dos colas. µ = 90 c. µ =110 b. c. µ ≠ 100 ¿Cuáles de estas cinco pruebas son de una cola? ¿Cuáles son de dos colas? SOLUCION a) Como µ =110 y se encuentra a la derecha. a. Desea determinar si la longitud promedio ha cambiado. Plantéense las hipótesis nula y alternativa. Cierto proceso de producción está diseñado para dar como resultado tornillos con una longitud media de 3 plg. Plantéese la regla de decisión para cada una de las siguientes situaciones: a. a. En la prueba de la hipótesis nula µ = 100. Supóngase que el gasto anual en libros por parte de los estudiantes universitarios de los EUA se distribuye normalmente con media de $ 200. Pruébese si los estudiantes en la universidad a la que usted asiste han gastado más que el promedio nacional. Supóngase que la producción promedio por hora de los trabajadores de cierta fábrica es de 60 unidades. Pruébese si el gasto anual por parte de los estudiantes de la universidad a la que usted asiste es diferente del promedio nacional. b) En este caso µ = 90 es menor a 100. la hipótesis alternativa y plantéese la regla de decisión. 2. c) µ > 100 es una prueba de cola derecha. Formúlese. esto es H1: µ>60 3. El director de personal de la fábrica afirma que el programa de entrenamiento implantado hace algún tiempo ha aumentarlo la productividad de los trabajadores. µ > 100 d.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT EJEMPLOS 1. b. Desea determinar si la longitud promedio ha aumentado. la hipótesis alternativa puede ser cualquiera de las siguientes. por lo tanto H0: µ=60 y como se señala que el programa de entrenamiento ha mejorado la productividad la hipótesis alternativa se propone de cola derecha. SOLUCION Para el problema se debe seleccionar µ0= 3 pulgadas y de acuerdo a cada uno de los incisos a) H0: µ=3 b) H0: µ=3 c) H0: µ=3 H1: µ< 3 H1: µ> 3 H1: µ≠ 3 Ha disminuido Ha aumentado Ha cambiado 4. b. por lo que es una prueba de cola izquierda. es una prueba de cola derecha. Las siguientes figuras muestran los casos de la Hipótesis exacta e inexacta de manera gráfica.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT SOLUCION En este caso se elige µ0= 200 y la hipótesis nula es para ambos inciso H0: µ =200.06 0.1 0. Sucesión de gráficas con media menor a 100 que muestran el caso H0 : µ ≤ µo 0.01 0 80 85 90 95 100 105 110 115 120 125 130 α H0 : µ > µo Figura. 106 .02 0. Sucesión de gráficas con media mayor a 100 que muestran el caso H0 : µ > µo El área sombreada para cada una de las gráficas de las dos figuras anteriores es cada vez más pequeña conforme la media se vuelve más pequeña (ó más grande).09 0.04 0.05 0. a) La hipótesis alternativa es H1: µ<200.02 0. y se rechaza H0 para algún valor de X lo suficientemente grande.1 0.03 0. 0.05 0.09 0.06 0.07 0.08 0. HIPOTESIS INEXACTA Las hipótesis se pueden clasificar como exactas e inexactas. H0 : µ= µo. por ejemplo. Por lo que los casos de hipótesis inexactas se trabajarán como hipótesis exactas µ = µo con probabilidad de rechazo α. b) La hipótesis alternativa es H1: µ≠ 200 y se rechaza H0 si X lo suficientemente grande o suficientemente pequeño. lo anterior implica que si se rechaza la hipótesis exacta µ = µo con probabilidad α entonces para todos los casos µ ≤ µo (ó µ > µo) se rechazara la hipótesis nula con una probabilidad menor a α.01 0 70 75 80 85 90 95 100 105 110 α 115 120 H0 : µ ≤ µo Figura. Una hipótesis es exacta si se especifica en la prueba un único valor.03 0.07 0.04 0.08 0. mientras que si especifica un conjunto de valores como H0 : µ ≤ µo ó H0 : µ > µo será una hipótesis inexacta. el nivel de significación es α=0.95. Se sabe que para todos los alumnos la media es 100 y la desviación típica es 15.05. medio de 104.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT PRUEBAS DE HIPÓTESIS PARA MUESTRAS GRANDES PRUEBA PARA LA MEDIA DE LA POBLACION Se utiliza la media muestral X como variable aleatoria obtenida a partir de una muestra de tamaño n la cual se obtiene de una población con media µ y desviación típica σ.645 Calculando el estadístico de prueba correspondiente a partir de la tipificación de la media muestral x 107 . Como ha sido mostrado anteriormente (distribución muestral de la media ó teorema del limite central) µX = µ y σX = σ n El estadístico de prueba Z para la prueba de una media con distribución normal es Z= ó X − µX σX (5.I. Tienen una distribución normal. el tamaño de la muestra es n = 25 y la media muestral es X = 104 Las Hipótesis correspondientes nula y alternativa son respectivamente H0: µ=100 H1: µ1=108 La prueba es de una cola derecha. Se supone que los C. Determínese también el valor de β.I. A partir del nivel de significancia α=0. Si la muestra es grande (teorema del limite central n>30) ó l la población tiene una distribución normal.2) n EJEMPLOS 5.95 este valor corresponde a Zα = 1.05 =. Considerando que los C.05.1) Z= X −µ σ (5.I. de los alumnos de cierto grupo étnico está en promedio ocho puntos por encima que el promedio de todos los alumnos en el país. Entonces. SOLUCION Los datos del problema son La media y desviación estándar son µ=100.05. entonces el valor crítico Zα se obtiene de la puntuación cuya área bajo la curva normal es igual a 0. se determina el área a la izquierda como A =1-0. pruébese la hipótesis H0 : µ = 100 en contra de la hipótesis alternativa H1: µ = 108 en α= 0. Pruebas aplicadas a una muestra de 25 alumnos seleccionados aleatóriamente entre el grupo étnico en cuestión proporcionan un C. la muestra tendrá una distribución normal. σ =15. 25 0.3 0.645(3)+100=104.15 0.935 X α = Zα σ 25 n La figura siguiente muestra la idea general para determinar el error tipo β.45 0.35 0.333 α -1 0 1 2 3 4 Región de aceptación Zα=1. Idea general para determinar el error tipo β. 0.1 0. ver grafica.4 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Z= 104 − 100 = 4/3=1.05 0 -4 -3 -2 el valor cae dentro de la región de aceptación por lo que no se H1: µ > µ0 1-α Z=1.333 15 25 Puesto que 1. x 108 .9 β µ =108 Figura.645 (Z< Zα) rechaza H0.333< 1.645 Región de rechazo b) Para determinar el error tipo II ó β.2 0. ( ) α µ = 100 x X α =104. se requiere determinar primero xα la cual se puede obtener despejando de la relación Z α = Xα − µ σ n + µ = 1.645 15 + 100 =1.5 0. 3 0.9 − 108 = P(Z < -1.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Entonces el error tipo β es igual de acuerdo a la figura anterior β = P(X < 104.02166)=1-0. σ=3)= P Z < 104. Una muestra aleatoria de 64 fibras proporciona una media de 38 lb.2.8461=0.1 0.25 0.99 lo cual corresponde a Zα= .4 0.α= 1 .1539 3 6. σ=8 promedio probables µ1=37.35 0. tamaño de la muestra n = 64 nivel de significación α=0.0.3226 El valor del estadístico de prueba es Z = X −µ σ n = 38 − 40 = −2 8 64 El cual es mayor que Zα .01. entonces. Un comprador sospecha que la resistencia media a la ruptura es de solamente 37 lb.2 0. media muestral x = 38 Las Hipótesis correspondientes nula y alternativa son respectivamente H0: µ=40 H1: µ1=37 La prueba es de una cola izquierda. Por lo tanto no se rechaza H0 0.3226 Región de aceptación 109 .01? SOLUCION Los datos del problema son Los parámetros poblacionales son µ=40.µ=108.05 0 -4 -3 Z=-2 α -2 -1 1-α 0 1 2 3 4 Región de rechazo Zα=-2.01=0. el área a la izquierda de la distribución debe ser A =1.45 0.5 0.15 0. ¿Deberá rechazar el comprador H0: µ=40 en favor de H1: µ = 37 si el nivel de significación es 0. Una compañía que procesa fibras naturales afirma que sus fibras tienen una resistencia media a la ruptura de 40 lb y una desviación típica de 8 lb.9. 6666 30 25 En este caso Zα < Z. media muestral X 310 La prueba de hipótesis se puede plantear como: H0: µ=300 H1: µ>300 Corresponde a una prueba de una cola derecha Utilizando la el nivel de significación α=0. el cual corresponde a una valor de puntuación crítico Zα=1.4 0.645 El valor del estadístico de prueba Z es Z= X −µ σ n = 310 − 300 = 1. con una desviación típica de 30 pares.05.05.6666 1-α α 2 3 4 Región de aceptación Zα=1.05.1 0. La vieja máquina produce cuando más.2 0. si el nivel de significación es de 0. desviación σ=30.α=1-0. un promedio de 300 pares de medias por hora.05 0 -4 -3 -2 -1 0 1 Z=1.645 Región de rechazo 110 .95.45 0.15 0. la hipótesis nula se rechaza.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 7. tamaño de la muestra n = 25. Un fabricante de medias está considerando reemplazar una vieja máquina de coser por una nueva.25 0.05=0.5 0. La nueva máquina se prueba durante un periodo de 25 h y se determina su producción promedio por hora como 310 pares. El vendedor de la nueva máquina afirma que su producción promedio por hora es de más de 300 pares.3 0. se determina el área a la izquierda de la distribución normal A =1. Se considera que la producción por hora de tales máquinas de coser tiene una distribución normal. nivel de significancia α =0.35 0. ¿debería rechazarse la hipótesis nula µ = 300? SOLUCION Los datos proporcionados por el problema son Media µ=300. Por lo tanto se rechaza H0 a favor de de la hipótesis H1 0. 95. 0. El tiempo de espera fue de al menos 30 min en el pasado y se sabia que la desviación típica era de 12 min. Una compañía de servicio público desea determinar si su nuevo horario de Trabajo ha reducido de manera importante el tiempo de espera de los clientes para servicio.45 0. el cual corresponde a una valor de puntuación crítico Zα= -1. media muestral x = 28 min La prueba de hipótesis nula es inexacta se puede plantear como: H0: µ≥30 H1: µ<30 Corresponde a una prueba de una cola izquierda Utilizando la el nivel de significación α=0.05.645 Región de aceptación 111 .05.4 0.15 0. tamaño de la muestra n = 144. Se selecciona aleatóriamente una muestra de 144 observaciones.25 0.05? SOLUCION Los datos proporcionados por el problema son Media µ=30 min. Se obtiene una media de 28 min.05=0.5 0. Por lo tanto se rechaza H0 a favor de de la hipótesis H1 Lo que se traduce en que el servicio al cliente ha mejorado.000 12 144 En este caso Z < Zα.645 El valor del estadístico de prueba Z es Z= X −µ σ n = 28 − 30 = -2. nivel de significancia α =0. desviación σ=12 min.2 0.α=1-0.35 0.05 0 -4 -3 -2 Z=-2 α -1 1-α 0 1 2 3 4 Región de rechazo Zα=-1. la hipótesis nula se rechaza.3 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 8.1 0. ¿Debería rechazarse la hipótesis nula µ ≥ 30 en favor de la hipótesis alternativa µ < 30 para α = 0. se determina el área a la izquierda de la distribución normal A =1. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 9. Los empleados que contraen cierta enfermedad y reciben tratamiento médico normal para ella permanecen ausentes del trabajo durante un promedio de 15 días. Un equipo médico de investigación afirma que se ha desarrollado un nuevo tratamiento que reduciría el periodo promedio de ausencia del trabajo. Considérese que el periodo de ausencia del trabajo tiene una distribución normal y una desviación típica de tres días. ¿Debería rechazarse la hipótesis nula µ = 15 para α= 0.1 si una muestra de 16 pacientes que han recibido el nuevo tratamiento tiene una ausencia promedio del trabajo de exactamente 13 días? SOLUCION Los datos proporcionados por el problema son µ=15 días, σ=3 días, n = 16, X = 13 y α =0.1 La prueba de hipótesis corresponde a una prueba de una cola izquierda con A =1- α=1-0.1=0.9 correspondiente a Zα= -1.282 El valor del estadístico de prueba Z es Z= X −µ σ n = 13 − 15 = -2.666 3 16 En este caso Z < Zα, la hipótesis nula se rechaza. Por lo tanto se rechaza H0 a favor de de la hipótesis H1, el tratamiento es mejor. PRUEBA DE LA DIFERENCIA DE MEDIAS En ocasiones se requiere indicar por parte de la estadística si la diferencia entre dos medias muestrales es lo suficientemente grande para asegurar que esas diferencias no se deben a efectos del azar, sino que las muestras tomadas provienen de dos poblaciones distintas. La siguiente figura muestra el caso de dos distribuciones normales con desviación típica σ =10 y medias µ1 = 100 y µ2 = 120 0.04 0.035 0.03 0.025 0.02 0.015 0.01 0.005 0 60 80 100 120 140 160 µ1 = 100 µ2 = 120 Figura. Representación de dos poblaciones con desviación típica σ =10 y medias µ1 = 100 y µ2 = 120 112 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Para probar la hipótesis acerca de la diferencia de medias se introduce la variable aleatoria D = X1 − X 2 Donde X 1 es una muestra tomada de una población con media (5.3) procede otra población con media µ 2 y desviación típica σ 2 . Los parámetros para variable aleatoria D se puede determinar aplicando las propiedades del valor esperado y varianza para muestras independientes µ1 y desviación típica σ1 y X2 δ = E ( D ) = E ( X 1 − X 2 ) = E ( X 1 ) + E ( X 2 ) = µ1 − µ 2 y la varianza 2 σ D = VAR( X 1 + X 2 ) = VAR( X 1 ) + VAR( X 1 ) = r (5.4) σ 12 n1 + 2 σ2 n2 (5.5) Entonces, la desviación típica es σD = σ 21 n1 + σ 22 n2 (5.6) a la que se denomina error típico de la diferencia entre dos medias muestrales. Si las muestras X 1 y X 2 provienen de distribuciones que son normales o si las muestras son grandes, esto es n1 y n2 >30 la distribución de la variable aleatoria D es normal. La prueba de hipótesis acerca de la diferencia de medias se puede llevar acabo bajo dos condiciones diferentes: 1) Cuando se conoce las varianzas poblacionales σ 1 y σ 2 ó 2) Cuando no se conocen las varianzas poblacionales y tienen que estimarse a partir de las varianzas 2 2 muestrales s1 y s 2 . Primeramente los problemas que se desarrollan continuación suponen conocidas las varianzas poblacionales 2 2 σ 12 y 2 σ2 . La hipótesis nula para la prueba de la diferencia de medias denotada por δ es H0: δ =0 ó µ1 = µ2 Para la hipótesis alternativa puede tomar cualquiera de las siguientes posibilidades H1: δ<0 Cola izquierda δ >0 Cola derecha δ ≠0 Dos colas El estadístico de prueba es µ1 < µ2 µ1 > µ2 µ1 ≠ µ2 Z= ( X 1 − X 2 ) − ( µ1 − µ 2 ) σD (5.7) 113 APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Recordando la hipótesis nula µ1 = µ2 y la definición de σD (5.8) Z= (X1 − X 2 ) σ 12 n1 + 2 σ2 n2 La prueba se realiza de manera semejante a la realizada anteriormente para la media, solamente que ahora para la prueba de dos medias se utiliza un estadístico diferente. EJEMPLOS 10. Se realizó un estudio para determinar si los alumnos pertenecientes a dos grupos étnicos, I y ll, tienen distintos CI., promedio. Se considera que las varianzas de los CI en los grupos I y ll son respectivamente, 2 σ 12 = 225 y σ 2 = 196. Se toma una muestra de 25 alumnos del grupo l (n1 = 25) y otra de 28 del grupo II (n2 = 28). En base a la diferencia entre las dos medias muestrales, X 1 = 102 y X 2 = 98. Pruébese la hipótesis nula de que los alumnos de los dos grupos étnicos tienen CI promedio idénticos con respecto a la hipótesis alternativa de que los dos promedios son diferentes en α = 0.05. SOLUCION La lista de datos proporcionados por el problema se resume a continuación X 1 = 102 X 2 = 98 σ 12 = 225 2 σ 2 = 196 n1=25 n2=28 Las hipótesis nulas y alternativas asociadas al problema son H0: µ1 = µ2 H1: µ1 ≠ µ2 La prueba es de dos colas por lo tanto Zα/2 = Z0.05/2 = Z0.025 El valor del área para la prueba es A= 1-0.025=0.975 Correspondiente de acuerdo a las tablas Z0.025=1.960 La regla de decisión es: Rechazar H0 si Z ≥ 1.960 ó Z ≤ 1.960 El estadístico de prueba Z es Z= X1 − X σ 2 1 n1 + σ 2 2 = n2 102 − 98 4 = =1 225 196 4 + 25 28 114 35 0.95 correspondiente al valor crítico Zα= -1.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Como es mayor a -1.05? (Considérese que las dos muestras son independientes.4 0. A = 1.960 11. Cierta gran compañía emplea tanto hombres como mujeres para realizar el mismo tipo de trabajo.5 2 n2 115 .1 0.960 y menor a 1.05. Supóngase que el equipo de investigación de la compañía proporciona la siguiente información. Hombres Mujeres n2 = 36 Tamaño de la muestra n1 = 36 X 1 = 150 y X 2 =153 Media muestral en unidades Varianza σ12 = 70 σ22 =74 ¿Es significativamente menor la producción promedio por hora de los hombre que la de las mujeres para α= 0.960 Región de aceptación Región de rechazo Zα/2 =1. Se tiene la hipótesis de que la producción promedio de los hombres es menor que la de las mujeres.960 no se rechaza H0.45 0.05 0 -4 -3 1-α Z =1 α/2 -2 -1 0 1 2 3 4 α/2 Región de rechazo Zα/2 =-1.645 El estadístico de prueba Z es Z= (X1 − X 2 ) σ 2 1 n1 + σ 2 2 = 150 − 153 70 74 + 36 36 =− 3 = −1.3 0.15 0.05=0.5 0. 0.2 0.) SOLUCION Las hipótesis nulas y alternativas son H0: µ1 = µ2 H1: µ1 < µ2 De acuerdo al nivel de significación α=0.α= 1-0.25 0. A = 1.2 0.1 0.326 El estadístico de prueba Z es Z= (X1 − X 2 ) σ 2 1 n1 + σ 2 2 = n2 105 − 101 4 = = 2.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Como Z es mayor a Zα=-1.35 0.α= 1-0. Dada la siguiente información: Tamaño de la muestra Resistencia promedio a la ruptura Varianzas Cordón de nylon n1 =36 X 1 =105 lb σ12 = 74 Cordón de algodón n2 = 36 X 2 = 101 lb σ22 =70 ¿Podría llegarse a la conclusión de que en realidad el cordón de nylon es más fuerte que el de algodón para α = 0.25 0.01=0.4 0.15 0.45 0.01.3 0.645 no se rechaza H0.Un fabricante afirma que el cordón nylon que su compañía produce es más fuerte que el cordón de algodón.5 0.645 Región de aceptación 12.05 0 -4 -3 -2 1-α Z=-1.01? SOLUCION Las hipótesis nulas y alternativas son H0: µ1 = µ2 H1: µ1 > µ2 De acuerdo al nivel de significación α=0.5 α -1 0 1 2 3 4 Región de rechazo Zα=-1.0 70 74 2 + 36 36 116 . 0.99 correspondiente al valor crítico Zα= 2. 9)=90 117 . SOLUCION Debido a que el tamaño de la muestra es grande n = 100. Utilizando la proporción como la probabilidad de éxito.3 0.45 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Como Z es menor a 2. que de acuerdo a los datos proporcionados la proporción p0 = 0.4 0.05 0 -4 -3 -2 -1 0 1 2 Z=2 1-α α 3 4 Región de aceptación Región de rechazo Zα=2.05. Un fabricante de drogas afirma que una medicina recientemente desarrollada tiene una efectividad de más del 90% en el alivio de dolores musculares.15 0.90. es recomendable utilizar la aproximación normal a la binomial.35 0.326 PUEBAS PARA LA PROPORCION DE EN LA POBLACION En ocasiones se requiere decidir si la proporción en la población denotada por p es igual a una proporción dada po. la proporción de la muestra es estimada es p = X ˆ n . Para probar a hipótesis con respecto a la proporción p resulta más conveniente utilizar la variable aleatoria binomial X que la misma proporción p. en donde. Pruébese la hipótesis nula de que la medicina tiene una efectividad de 90% contra la hipótesis alternativa de que la medicina tiene una efectividad de más del 90% para α = 0.326 no se rechaza H0.5 0. En una muestra de 100 personas que sufren de dolores musculares. Para valores pequeños de n (< 30) se puede utilizar las tablas binomiales acumuladas y para n grande se utilizar la aproximación normal a la binomial. se utiliza para realizar la inferencia. EJEMPLOS 13. fracción que puede utilizarse para estimar la proporción de la población o la probabilidad de éxito. la medicina proporcionó alivio a 95. 0.2 0.25 0. la proporción de la muestra o el número de éxitos en n ensayos. Si el evento ha ocurrido X veces en n intentos. entonces el promedio es µ = np =100(0.1 0. 9 H1: p > 0.95.0.5 o o µ= 15 µ > 15 Para el nivel de significancia α=0. si el nivel de significación es de 0. se tiene una proporción p0 = 0. buscando el la tabla para la distribución binomial acumulada para n =30 y p =0.04937 y considerando la prueba de cola derecha el área a la izquierda e la distribución binomial es A =1-α = 1 .9 o o µ = 90 µ > 90 Para el nivel de significancia α=0.645 El valor del estadístico de prueba Z es Z= X − µ 95 . Se entrevista a 30 amas de casa y 18 de ellas indican que prefieren el aceite I.05 y la prueba de cola derecha el área a la izquierda es A =1-α = 1-0. se debe utilizar preferentemente las tablas de la distribución binomial correspondientes.50. correspondiente a una valor crítico para la distribución normal Ζα= Ζ0.5)=15 Las hipótesis nulas y alternativas en competencia son H0: p = 0. entonces el número de éxitos esperado para esta proporción es µ = np = (30) (0. Un investigador de mercado desea determinar si las amas de casa prefieren el aceite de cocina I o el aceite de cocina II.90 = =1.1) = 3 Para p = 0. Como no existe preferencia previa con respecto a la elección de los tipos de aceite.04937? SOLUCION Debido a que el tamaño de la muestra es pequeña n = 30.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT y la desviación típica de la población es σ = npq = (100)(0.05=0.04937 =0. la medicina tiene una efectividad mayor que el 90 %. se rechaza la hipótesis nula H0 a favor de H1.6666 σ 3 como Z > Zα. 14.9)(0.95) (100) = 95 ˆ Las hipótesis nulas y alternativas del problema son H0: p = 0.05 = 1. ¿Puede llegarse a la conclusión de que las amas de casa en general prefieren el aceite I.5 H1: p > 0. el promedio estimado es entonces ˆ ˆ X = n p = (0.5 se encuentra que el número de éxitos crítico correspondiente es Xα= 19 118 .95063.95. esto es. Considérese p.0207 y considerando la prueba de cola derecha el área a la izquierda e la distribución binomial es A = 1-α = 1 .0207? SOLUCION Por el tamaño de la muestra es pequeña n = 20.5)=10 Las hipótesis nulas y alternativas en competencia son H0: p = 0. ¿Puede llegarse a la conclusión de que la verdadera proporción permanece sin cambio.12 0. para α = 0. buscando el la tabla para la distribución binomial l acumulada para n =20 y p =0. BINOMIAL 0. es decir sin haber aumentado.04 0.02 0 1-α ˆ X =18 α 0 5 10 15 20 25 30 Región de aceptación Xα=19 Región de rechazo 15.5 se encuentra que el número de éxitos crítico correspondiente es Xα= 14 De acuerdo a los datos la nueva proporción de votantes en contra de la pena capital es p =0.0207=.9793.50 lo cual corresponde a una media µ = np = (20)(0. Supóngase que en el pasado p ha sido igual a 50% menos. X < Xα y no debe rechazarse la hipótesis nula.08 0.16 0. Una muestra aleatoria de 20 votantes de una proporción en la muestra del 55 %.5 o o µ= 10 µ > 10 Para el nivel de significancia α=0.14 0.1 0. la verdadera proporción de los votantes registrados que están en contra de la pena capital.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT ˆ De acuerdo a los datos proporcionados la cantidad de éxitos ó preferencias por el aceite I es X =18. ˆ entonces.5 H1: p > 0.55 por lo ˆ que el valor esperado correspondiente a la cantidad de éxitos es 119 . La proporción previa en contra de la pena capital es p0 = 0. se debe utilizar las tablas de la distribución binomial correspondientes.06 0. Actualmente existen razones para creer que p ha aumentado.0. 01? SOLUCION La proporción previa de acuerdo a loa datos es p0 = 0. si el nivel de significación se especifica en 0. BINOMIAL 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT ˆ X = np = (20) (0.2) =40 ˆ El promedio obtenido del experimento es X = 8100 estudiantes Las hipótesis nulas y alternativas del problema son H0: p = 0.16 0.06 0.8)(0.80 o o µ = 8000 µ > 8000 120 . En el pasado.2 0.80)=8000 estudiantes y la desviación típica de la población es σ = npq = (10000)(0. Una encuesta de la clase más reciente de estudiantes universitarios de primer arto muestra que 8100 de los 10 000 estudiantes universitarios de primer año de la muestra recibieron calificaciones de C o mayores.02 0 0 2 4 6 8 10 12 14 1-α α 16 18 20 Región de aceptación ˆ X =11 Xα=14 Región de rechazo 16.80 El tamaño de la muestra es n = 1000. 80% de todos los estudiantes universitarios de primer año obtenían C o calificaciones superiores.55) = 11 ˆ ˆ Como X < Xα y no debe rechazarse la hipótesis nula. Utilizando los datos anteriores se tiene que el promedio es µ = np =10000(0.80 H1: p > 0.14 0.12 0.04 0. ¿Es verdadero que los profesores se han vuelto más despreocupados. Debido al tamaño de la muestra se utilizará la aproximación normal a la binomial.08 0.1 0. Se ha insinuado que los profesores se han vuelto más despreocupados al calificar a sus estudiantes.18 0. 4 0. la distribución de la media muestral puede aproximar mediante la distribución normal para el caso de muestras grandes. los profesores se han vuelto más despreocupados 0.326 ESTIMACION MATEMATICA El procedimiento para determinar un intervalo de valores entre los cuales se encuentre el de un parámetro de la población con una probabilidad 1-α se conoce como estimación del intervalo.25 0.45 0.01 = 2.45 0.05 0 -4 -3 -2 -1 1-α α/2 -Zα/2 < Z < Zα/2 0 1 2 α/2 3 4 .2 0. por lo que 1-α es la medida de la confianza para la media poblacional.05 0 -4 -3 -2 -1 0 1 2 1-α Z=2.1 0. ESTIMACION DE LA MEDIA POBLACIONAL Para mostrar como se obtiene el intervalo de confianza considérese a la media muestral X para estimar a la media poblacional µ .4 0.25 0.3 0. Como ha sido mostrado anteriormente.3 0.15 0.15 0.5 0. se rechaza la hipótesis nula H0 a favor de H1.1 0.01=0. El parámetro α se interpreta como la probabilidad de cometer un error en la estimación. correspondiente a una valor crítico para la distribución normal Ζα= Ζ0. 0.01 y la prueba de cola derecha el área a la izquierda es A =1-α = 1-0.35 0.326 El valor del estadístico de prueba Z es Z= X −µ σ = 8100 − 8000 = 2. ó equivalente a la probabilidad de que el parámetro poblacional estimado se encuentre dentro de intervalo adecuado.35 0.2 0. esto es.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Para el nivel de significancia α=0.5 0. entonces una proporción 1-α del área bajo la curva normal se encuentra entre el intervalo -Zα/2 < Z < Zα/2 (ver figura siguiente).99.5 40 como Z > Zα.Zα/2 Zα/2 121 .5 α 3 4 Región de aceptación Región de rechazo Zα=2. APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Garantizado así que Z se encuentra en el intervalo -Zα/2 < Z < Zα/2 con una probabilidad 1-α. entonces respectivamente D se distribuye normalmente.9) σX = σ n σ n X − Zα / 2 < µ < X + Zα / 2 σ n (5.10) ESTIMACION DE LA DIFIERENCIA ENTRE DOS MEDIAS Para obtener δ = µ1 − µ 2 un intervalo de confianza de la verdadera diferencia entre dos medias poblacionales se utiliza el estadístico D = X 1 − X 2 . se tiene que − Zα / 2 < X −µ σX < Zα / 2 Multiplicando por -1 Zα / 2 > −X +µ σX Z > −Zα / 2 Cambiando el orden de la desigualdad: − Zα / 2 < −X +µ σX < Zα / 2 Multiplicando por σ: − Zα / 2 σ X < µ − X < Zα / 2 σ X Sumando X X − Zα / 2 σ X < µ < X + Zα / 2 σ X Utilizando finalmente el resultado (5. el intervalo de confianza se puede obtener utilizado la ecuación (42) simplemente sustituyendo µ → δ . X → D y σ X → σ D 122 . n 2 > 30). Utilizando el hecho de que Z = X −µ σX . por otra parte su media y desviación típica son µ D = µ1 − µ 2 = δ y σD = σ 12 n1 + 2 σ2 n2 Considerando que D se distribuye normalmente. Si se considera que X 1 y X 2 son independientes y el tamaño de sus respectivas muestras es grande ( n1 . se distribuyen normalmente con desviación típica de 15. de alumno.960 Sustituyendo en la ecuación 43 123 .95=0. de cierto grupo étnico.I. entonces α/2=0.95 X = 105. pero cuando se cumple las condiciones de la aproximación normal ( np ≥ 5 y nq ≥ 5) se puede aplicar la ecuación (42) para obtener el intervalo de confianza para la proporción de la población. Constrúyase un intervalo de confianza del 95% para la media verdadera (µ) con base en una muestra de 25 alumnos con una media muestral de 105 SOLUCION Los datos proporcionados por le problema son Desviación típica σ=15. ˆ y σ X → np(1 − p ) ˆ ˆ donde p es la proporción estimada a ˆ partir de una muestra y s = Entonces np (1 − p ) es la desviación típica estimada de la variable aleatoria X. media muestral 1-α=0. Supóngase que un psicólogo desea realizar una estimación de intervalo de la media verdadera de los C. Se sabe que los C.I.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT D − Zα / 2 σ 12 n1 + 2 σ2 n2 < δ < D + Zα / 2 σ 12 n1 + 2 σ2 n2 (5. simplemente realizando los siguientes cambios µ → np .025 El área a la izquierda de la distribución normal es A = 1-(α/2)=0.11) ESTIMACION DE LA PROPORCION DE LA POBLACION Como se ha mencionado anteriormente la proporción p tiene una distribución binomial. ˆ ˆ X − Zα / 2 σ X < µ < X + Zα / 2 σ X n p − Zα / 2 ˆ np (1 − p ) < n p < n p + Z α / 2 ˆ ˆ ˆ np (1 − p ) ˆ ˆ Dividiendo entre n: p − Zα / 2 ˆ Finalmente ) np (1 − p) ˆ < p < p + Zα / 2 ˆ n ) np(1 − p) ˆ n ) p(1 − p) ˆ n p − Zα / 2 ˆ ) p(1 − p ) ˆ < p < p + Zα / 2 ˆ n (5. X → np . tamaño de la muestra n = 25 y intervalo de confianza A partir del intervalo de confianza α=1-0.05.12) EJEMPLOS 17.975. buscando en la tabla se obtiene que Zα/2=1. 01 El área a la izquierda de la distribución normal es A = 1-(α/2)=0. tamaño de la muestra n = 36 y intervalo de confianza 1-α=0.575 Sustituyendo en la ecuación 43 X − Zα / 2 σ n < µ ≤ X + Zα / 2 σ n 24. Obténgase el intervalo de confianza del 99 % para su verdadero peso medio de las bolsas de harina. Cada grupo se entrenó empleando un método diferente. Método 1 n1=24 X 1 =45 Método 2 n2=36 X 2 =55 2 σ 2 =276 σ 12 =200 Determínese el intervalo de confianza del 98% para la verdadera diferencia en la efectividad de los dos métodos de entrenamiento. Se desea estimar el verdadero peso medio de las bolsas.995.5 − 2.960 n 15 < µ ≤ X + Zα / 2 σ n 15 25 25 ≤ µ ≤ 105 + 1. buscando en la tabla se obtiene que Zα/2=2. La desviación típica es de 15 lb.5 + 2.575 36 36 18.5.99 A partir del intervalo de confianza α=1-0.326 124 .575 15 15 ≤ µ ≤ 24.005 El área a la izquierda de la distribución normal es A = 1-(α/2)=0.99.0625< µ < 30. entonces α/2=0.88 18. Una compañía fabricante de harina la empaca en bolsas de papel. media muestral X = 24.9375 19.01.02. por lo tanto α/2=0. El tiempo promedio para que cada grupo realice la operación después del entrenamiento y otros datos importantes se proporcionan a continuación. Una muestra de 36 bolsas da media muestral de 24.99=0.12< µ <110. SOLUCION Los datos proporcionados por le problema son Desviación típica σ=15. buscando en la tabla se obtiene que Zα/2=2. SOLUCION A partir del intervalo de confianza α=1-0.960 99.98=0. Se seleccionaron aleatóriamente dos grupos de empleados de una fábrica para entrenarlos a fin de que realicen cierta operación.5 lb.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT X − Zα / 2 σ 105 − 1. 05.696 20.55= -10 σD = σ 12 n1 + 2 σ2 n2 = 200 276 =4 + 24 36 Sustituyendo en la ecuación 44 D − Zα / 2 σ 12 n1 + 2 σ2 n2 < δ < D + Zα / 2 σ 12 n1 + 2 σ2 n2 -10-2.304< δ <-0.5 + 36 36 Sustituyendo en la ecuación 44 2 2 r r σ 12 σ 2 σ 12 σ 2 + < δ < D + Zα / 2 + D − Zα / 2 n1 n2 n1 n2 3-1.06 < δ < 5.5) 0.5)< δ <3+1.94 125 .X 2 = 38 . por lo tanto α/2=0.35=3 σD = σ 12 n1 + 2 σ2 n2 = 41 40 = 1.975.960 (1.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Utilizando los datos proporcionados se calcula D = X 1 .326(4) -19.960 (1. Con la siguiente información determínese el intervalo de confianza del 95% para la verdadera diferencia en la duración de las dos marcas de baterías para automóviles.025 El área a la izquierda de la distribución normal es A = 1-(α/2)= 1-0.0.95=0. Marca I Tamaño de la muestra n1 = 36 Duración promedio (meses) X 1 = 38 Varianza σ12 = 41 SOLUCION El intervalo de confianza es α=1-0. Se realiza un experimento para estimar la verdadera diferencia en la duración promedio de dos marcas de baterías para automóviles.326(4)< δ <-10+2.025 = 0.X 2 = 45 .960 Utilizando los datos proporcionados se calcula Marca II n2 = 36 X 2 = 35 σ22 = 40 D = X 1 . buscando en la tabla se obtiene que Zα/2= 1. Determínese el intervalo de confianza del 99% para la verdadera proporción de espectadores que ven este programa en particular.0.1656 < p < 0.2(1 − 0.025 y él área a la izquierda de la distribución normal es A = 1 . número de espectadores que ven el programa X = 180. En una muestra seleccionada aleatóriamente de 64 muchachas universitarias de primer año. A partir del intervalo de confianza α=1. 32 de ellas resultan ser casadas.99 =0. buscando en la tabla correspondiente se obtiene que Zα/2= 1.2 n 900 Sustituyendo los datos en la fórmula (45) p − Zα / 2 ˆ ) p (1 − p ) ˆ < p < p + Zα / 2 ˆ n ) p(1 − p) ˆ n 0.01 entonces α/2= 0.575 La proporción estimada por los datos p= ˆ X 180 = = 0. el número de ellos que veían un programa en particular fue de 180.2) 0.0. En una muestra de 900 espectadores. A partir del intervalo de confianza α=1.2343 22. intervalo de confianza es 1.99 Como el tamaño de la muestra es grande se utiliza la aproximación normal a la binomial.025 = 0. número de casadas X = 32.α = 0. verdadera proporción de todas las mujeres universitarias de primer año que están casadas.0.95 =0.005 = .95 Como el tamaño de la muestra es grande se utiliza la aproximación normal a la binomial.995.2) < p < 0.975.005 y él área a la izquierda de la distribución normal es A = 1-0.575 0.2 − 2.575 900 900 0. SOLUCION Tamaño de la muestra n = 64.05 entonces α/2= 0. SOLUCION Tamaño de la muestra n = 900.2 + 2. Determínese el intervalo de confianza del 95% para p.5 n 64 Sustituyendo los datos en la fórmula (45) 126 . intervalo de confianza es 1.960 La proporción estimada por los datos p= ˆ X 32 = = 0. buscando en la tabla correspondiente se obtiene que Zα/2= 2.α = 0.2(1 − 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 21 Se realizó una investigación de tele audiencia. 5 − 1. S: Gosset en 1908 al publicar una distribución de probabilidad la cual describe el comportamiento del estadístico dado por la ecuación (5. siempre y cuando la muestra sea obtenida a partir de una población con distribución de probabilidad normal.14) La probabilidad acumulada para la distribución para la distribución t-student es ν + 1 Γ 1 2 x P (−∞ < T < x) = ∫ −∞ νπ Γ ν 2 ( ) t2 1 + ν − (ν +1) 2 dt (5. La distribución t-student o simplemente distribución t es al igual que la distribución normal una distribución continua en forma de campana simétrica.13) Se utiliza como estadístico de prueba. cuyo estadístico de prueba es T= X −µ s n (5.5) 0.5 − 1. La solución del problema anterior de la inferencia estadística acerca de un parámetro de la población utilizando muestras pequeñas y desconociendo la varianza poblacional fue resuelto por W. de tal forma que la razón X −µ s n (5.5(1 − 0.960 64 64 p − Zα / 2 ˆ 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT ) ) p (1 − p ) p(1 − p) ˆ ˆ < p < p + Zα / 2 ˆ n n 0. La desviación típica de una población se puede estimar a partir de la desviación típica de una muestral.5(1 − 0.15) donde Γ(n ) = ∫ ∞ 0 t n −1e −t dt es la llamada función gamma.3775 < p < 0. 127 .960 < p < 0.5) = 0.13). Por lo anterior no es posible utilizar la distribución normal para el caso de muestras pequeñas.6225 DISTRIBUCIÓN DE PROBABILIDAD PARA MUESTRAS PEQUEÑAS En los problemas de hipótesis anteriores se supuso conocida la varianza poblacional. si la hipótesis anterior no se cumple será necesario utilizar los métodos no paramétricos para la prueba de hipótesis. DISTRIBUCION T-STUDENT La distribución t-Student se obtiene a partir de considerar que la muestra pequeña se obtiene a partir de una población con distribución normal. Sin embargo si la muestra es pequeña se tiene que la desviación típica muestra s es bastante distinta a la poblacional σ. situación que en la mayoría de los casos no se tiene. 4 0.05 0 -4 -3 -2 -1 0 1 2 3 4 Figura Comparación de la distribución t-student con ν = 4 (línea continua) y la distribución normal respectiva (línea discontinua). a diferencia de la distribución normal en la cual el estadístico Z depende de de µ y σ que son constantes e independientes del tamaño de la muestra n. pero en general para las pruebas de hipótesis respetivas solo son necesarios los valores críticos correspondientes a los valores de significación α más utilizados (10%.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Como se puede observar de la distribución t-student tiene una expresión matemática complicada.1 0.2 0. Las siguientes figuras muestran una distribución t student para ν =4 y su comparación con la distribución normal. y al igual que con la distribución normal recurriremos a las tablas respectivas para la solución de los problemas. 1%. T STUDENT 0.15 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 Figura Gráfica de la función t student con ν =4 0.16) Así se tiene que para cada grado de libertad ν se tendría que utilizar una tabla para la distribución tstudent.1 0.25 0.35 0.45 0. Por otra parte la distribución T-student converge o se aproxima a la normal cuando el número de datos tiende a infinito. 5%.3 0. La variabilidad de la distribución t-student se asocia con el concepto de grados de libertad.25 0. etc) los cuales son reportados en una sola tabla. 2.35 0.5 0.4 0. en consecuencia T es más variable que Z. Esto es.2 0. es cual es simplemente se define como ν = n −1 (5. en el estadístico T la desviación típica muestral s depende de el tamaño de la muestra n.5%. Por otra parte la distribución t student tiene más variabilidad que la distribución normal ya que depende del número de datos n. 128 .15 0.3 0. c.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT EJEMPLOS 23. obténgase el valor crítico t que corta cada una de las siguientes áreas bajo la curva.025 El 5% inferior El 0. Una prueba de una cola con la región de rechazo en el área de la cola inferior. Obténgase el valor crítico t bajo cada una de las siguientes condiciones y muéstrese gráficamente cada respuesta.1= .01 inferior T 10.5% superior b.10 y una muestra de 25 observaciones.764 24. a.01= -2.005 = 3.2 0. 0.005 superior d.05= 2.1 0.4 0.15 0.35 0.05 = -1. El 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 129 .35 0.15 0.3 0. Para una distribución con 10 grados de libertad.318 T STUDENT 0.2 0. El 0.228 T 10. Una prueba de dos colas.1 0. 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 b) El valor para el caso de cola inferior es igual al anterior pero negativo T 24.01 inferior SOLUCION Recurriendo directamente a la tabla correspondiente de la distribución t-student a) b) c) d) Superior = 0. 0.318 T STUDENT 0.25 0. b.1.3 0.25 0. a. 24 = 1.005 superior El 0. 0.0. Supóngase que cierta prueba implica un nivel de significación de 0. SOLUCION a) Recurriendo a la tabla de la distribución t-student para ν =n-1=25-1=24 y α=0.812 T 10. El 5% inferior c.1.4 0.1 se tiene T0.169 T 10. El 2. Una prueba de una cola con la región de rechazo en el área de la cola superior. Si los valores críticos t fueran 2. entonces v1 =14 por lo tanto n = v + 1 = 15 Tα =2. para α=0.2 0.1. y no es adecuado ni recomendable utilizar a la puntuación Z como estadístico de prueba. con una confianza 1. Siguiendo la idea anterior. ¿qué tan grande debería ser el tamaño de la muestra para una prueba de una cola? SOLUCION La prueba corresponde a una prueba de cola derecha o superior Ho: H1: µ=µ1 µ>µ1 Buscando en la tabla para la t – student.4 0. en este caso se debe utilizar a T como estadístico de prueba.1 0. siempre y cuando la distribución original de la variable aleatoria X sea normal. entonces v3 =40 por lo tanto n = 40 +1=41 PRUEBAS PARA LA MEDIA DE LA POBLACION CON MUESTRAS PEQUEÑAS Cuando la muestra es pequeña la varianza muestral s2 puede diferir demasiado de la poblacional σ2.35 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 25. esto es para obtener las fórmulas correspondientes a las pruebas de hipótesis y estimación simplemente se puede sustituir a Z por T en las fórmulas correspondientes y utilizar a la distribución t.711 T STUDENT 0.624.423.α para muestras pequeñas se tiene X − Tα / 2 s s < µ ≤ X + Tα / 2 n n (5.student en lugar de la normal.3 0.01 con H1 :µ > µ1. Sea X el salario por hora de cualquier minero seleccionado al azar y considérese que X se distribuye normalmente.25 0.492 y 2.1/2=0.14) T= X −µ s n Para la estimación de un intervalo para la verdadera media población µ. entonces v2 =24 por lo tanto n = 24 +1=25 Tα =2.05 lo cual corresponde a T0.624.01 y los valores de tα se obtienen directamente Tα =2.423 para α = 0.492. 2.15 0. el estadístico de prueba de la media poblacional es dado por la ecuación (5.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT c) En el caso de dos colas se tiene que α/2 = 0.17) 130 . 24 = 1. 35 0. El nivel de significación se especifica en 0.01? SOLUCION La hipótesis nula y alternativa de problema son Ho: H1: µ = 98. Se entiende que la temperatura del cuerpo humano se distribuye normalmente con una media de 98. La Federal Food and Drug Administration está realizando una prueba para determinar si una nueva medicina tiene el indeseable efecto lateral de elevar la temperatura del cuerpo.6 µ > 98.36. 0. Se considera que un proceso de producción está funcionando en forma adecuada cuando la cantidad promedio de café instantáneo que se empaca en un frasco es de 6 oz. por lo que los grados de libertad es ν = n .896 27. Considérese que la cantidad de café en cada frasco tiene una distribución normal.4 0. a.1 oz. Para el nivel de significancia α = 0.896 La media muestral y su respectiva desviación típica es X = 99.1 0.6 = = 3. ¿Está funcionando adecuadamente el proceso? b.36 n 9 Como T > Tα Se rechaza Ho ya que efectivamente aumenta la temperatura.01= 2.3 0. por lo que no debe salir al mercado 0.6 °F. ¿Cuáles son los límites de confianza del 95% para su promedio verdadero en vista de la información muestral? 131 . ¿Debería permitirse a la compañía poner a la venta la nueva droga si el nivel de significación se especifica en 0.25 0.36 °F.05 0 -5 1-α T=3.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT EJEMPLOS 26. s = 0. con una desviación típica de 0.2 0. se toman las temperaturas y se obtiene una media muestral de 99°F y una desviación típica de 0.6 El número de datos es n = 9.333 α -4 -3 -2 -1 0 1 2 3 4 5 Región de aceptación Región de rechazo Tα=2. entonces T= X − µ 99 − 98.333 s 0.01 y Tα = T8. se determina el promedio muestral como 6. Se selecciona una muestra aleatoria de 16 frascos.2 oz.15 0.05.1 = 8. Se administra la nueva medicina a nueve pacientes. 2 0. α =0.131.05 y prueba de dos colas Tα/2= T 15.2 n 16 Como -Tα/2 < T < Tα/2 No se rechaza Ho.95. µ = 6. s = 0. La maquinaria funciona adecuadamente.1. 0.20655 132 .05 0 -5 -Tα/2=-2.1 − 6 = =2 s 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT SOLUCION a) Los datos obtenidos del problema son n = 16.131 16 16 X − Tα / 2 5.35 0.2 0. Para el nivel de significancia α=0.131 6.1 = 16 -1 =15.131 α/2 1-α Tα/2=2.1 0.05 por lo tanto para dos colas Tα/2 =2.2 < µ < 6.131 α/2 T=2 -4 -3 -2 -1 0 1 2 3 4 5 Región de rechazo Región de aceptación Región de rechazo b) A partir del intervalo de confianza 1-α = 0.4 0.3 0.25 0.2 y α = 0.131 s s < µ ≤ X + Tα / 2 n n 0. 0.1 + 2.1 − 2. A partir de la media muestral y su respectiva desviación típica se tiene que T= X − µ 6.99345 < µ < 6.15 0. X = 6. Ho: H1: µ =6 µ ≠6 Los grados de libertad es ν = n . con las siguientes hipótesis nula y alternativa.05 El problema se puede plantear como una prueba de dos colas.025= 2. 492 s s < µ ≤ X + Tα / 2 n n 20 20 150 − 2.2 0.1 0. la media es 150 lb y la desviación típica es 20 lb. µ = 160. α =0. X = 150. Para el nivel de significancia α=0. En una muestra aleatoria de 25 reclutas.25 0. Pruébese la hipótesis nula contra la hipótesis alternativa de que el peso promedio de los reclutas más recientes del ejército es diferente de 160 lb para α = 0.032 < µ < 159.492 < µ < 150 + 2.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 28.02.492. Obténgase el intervalo de confianza del 98% para la media verdadera. b. 24 = 2.5 α/2 -4 -3 -2 -1 1-α Tα/2=2.35 0. SOLUCION a) Para este problema n = 25.986 133 .492 T = -2. s = 20 y α = 0. 0. Utilizando los valores de la media muestral y su respectiva desviación típica se tiene T= X − µ 150 − 160 = = -2.05 0 -5 -Tα/2=-2.1 = 25 -1 =24.02 El problema plantea una prueba de dos colas.01.5 s 20 n 25 Como T < -Tα/2. a. el peso de los reclutas es diferente.4 0.492 α/2 0 1 2 3 4 5 Región de rechazo Región de aceptación Región de rechazo b) A partir del intervalo de confianza 1-α = 0.98.492 25 25 X − Tα / 2 140.3 0. con las siguientes hipótesis nula y alternativa.02 y prueba de dos colas Tα/2= T 0.15 0. se rechaza Ho.02 por lo tanto para dos colas Tα/2 = 2. Ho: H1: µ =160 µ ≠160 Los grados de libertad es ν = n . Se considera que el peso promedio de los reclutas del ejército se distribuye normalmente con una media de 160 lb. entonces T= X − µ 42 − 40 = =2 s 4 16 n Como T < Tα No se rechaza Ho.35 0. con las siguientes hipótesis nula y alternativa. Ho: H1: µ=40 µ>40 Los grados de libertad es ν = n . considerando que los pesos de las maletas se distribuyen normalmente? a) Los datos obtenidos del problema son n = 16. 0.01 El problema se puede plantear como una prueba una cola derecha.15 0. s = 4 y α = 0. Para el nivel de significancia α=0.1 0. s = 4. Supóngase que en una línea aérea se desea determinar si el peso promedio de las maletas llevadas por los pasajeros entre Los Angeles y New York es de más de 40 lb. Cuando los patrones de distribución de las poblaciones se distribuyen normalmente o de manera casi normal.602. µ = 6.01.05 0 -5 1-α T=2 α -4 -3 -2 -1 0 1 2 3 4 5 Región de aceptación Región de rechazo Tα=2. y se tiene que las muestras son pequeñas (n<30).01= 2.602 PRUEBA PARA LA DIFERENCIA ENTRE DOS MEDIAS PARA MUESTRAS PEQUEÑAS. 134 .4 0. Pero el proceso es diferente para muestras que se consideren independientes y/o dependientes. X = 42. 0. se utiliza la prueba t de la distribución tstudent para tomar las decisiones.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 29.01 y prueba una cola Tα= T 15.1 = 16 -1 =15. ¿Puede llegarse a la conclusión de que el peso promedio es de más de 40 lb con α = 0.2 0.3 0. Se selecciona aleatóriamente una muestra de 16 pasajeros y se obtiene una media de 42 lb y una desviación típica de 4 lb.25 0. La media muestral y su respectiva desviación típica es X = 42. esto es.19) 135 .X 2 es σD = σ 21 n1 + σ 22 n2 considerando que σ1=σ2= σ se transforma en σ D2 = σ 2 1 1 + n1 n 2 La mejor estimación que se puede hacer de σD2 es S D 2 y el mejor estadístico para estimar σ2 es s2 . se deberá hacer la consideración adicional de que las muestras provienen de poblaciones con idéntica desviación típica con el fin de facilitar el procedimiento. σ1=σ2. Como se mencionó anteriormente la varianza de la diferencia muestral D = X 1 .APUNTES DE ESTADISTICA GONZALO GALVEZ COYT En el caso de muestras independientes de tal manera que ninguna se relacione con la otra. por lo tanto la expresión anterior se transforma en 1 1 2 sD = s 2 + n n 2 1 La mejor estimación de s se puede obtener al considerar que se mezclan los datos de ambas muestras. en tal caso se obtiene que 2 s2 = (n1 − 1)s1 2 + (n2 − 1)s 2 2 n1 + n 2 − 2 por lo que el error típico de la diferencia entre dos medias para muestras pequeñas es 2 (n − 1) s12 + (n 2 − 1) s 2 sD = 1 (n1 + n 2 − 2) 1 1 + n n 2 1 (5.18) La hipótesis nula para la prueba de la diferencia de medias denotada por δ es H0: δ =0 ó µ1 = µ2 Para la hipótesis alternativa puede tomar cualquiera de las siguientes posibilidades H1: δ<0 Cola izquierda δ >0 Cola derecha δ ≠0 Dos colas El estadístico de prueba es µ1 < µ2 µ1 > µ2 µ1 ≠ µ2 T= ( X 1 − X 2 ) − ( µ1 − µ 2 ) σD (5. se realiza la comparación con T y se concluye si se acepta o rechaza la hipótesis nula H0. para el caso de la diferencia de medias en muestras pequeñas independientes se puede determinar como D − Tα / 2 s D < δ ≤ D + Tα / 2 s D o utilizando la expresión (48) 2 (n − 1) s12 + (n 2 − 1) s 2 D − Tα / 2 1 (n1 + n 2 − 2) 1 1 + < δ < D + Tα / 2 n 1 n 2 2 (n 2 − 1) s12 + (n 2 − 1) s 2 (n1 + n 2 − 2) 1 1 + (5. las mediciones indican un índice promedio de contaminación de 55 y una desviación típica (s2) de 9. Se cree que las mediciones tienen una distribución normal y varianza idéntica.18) T= X1 − X 2 2 (n1 − 1) s + (n2 − 1) s 2 (n1 + n2 − 2) 2 1 1 1 + n n 2 1 (5. en una prueba de 16 días del Motor II. Se prueban dos motores distintos de automóvil para determinar si presentan diferencias en cuanto a control de contaminación. INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS PARA MUESTRAS PEQUEÑAS El respectivo intervalo de confianza 1. las medidas indican un índice promedio de contaminación de 60 y una desviación típica (s1) de 9. ¿Existe suficiente evidencia de que el Motor I y el Motor II tienen distinto control de contaminación para α = 0. En una prueba de 16 días del Motor I.21) n 1 n 2 EJEMPLOS 30. Desviación típica 1 s1=9 Tamaño de muestra 2 n2 =36 promedio 2 X 2 =55 Desviación típica 2 s2=9 nivel de significancia α=0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Recordando la hipótesis nula µ1 = µ2 y la definición de σD dada por la ecuación (5. y que las dos muestras son independientes.05? SOLUCION Los respectivos datos del problema son Tamaño de muestra 1 n1= 36 Promedio 1 X 1 =60.05 Los grados de libertad para el estadístico de prueba son ν =n1 + n2-2=16+16-2=30 La hipótesis nula y alternativa del problema son respectivamente Ho: H1: µ1=µ2 µ1≠µ2 136 .α.20) El valor crítico Tα se determina a partir de el nivel α de significancia. los grados de libertad ν = n1 + n2 – 2 Y buscando en la tabla de la distribución t-student. 5713 T= (16 − 1)9 2 + (16−)9 2 1 1 + (16 + 16 − 2) 16 16 Como Tα/2 < T <Tα/2 . 0.3 + 3.2 0.1 + 2.8 3.0 PPC para niñas: 3. Se considera que el PPC se distribuye normalmente con varianza idéntica para ambos sexos.042 Sustituyendo los datos en la ecuación T= X1 − X 2 2 (n1 − 1) s + (n2 − 1) s 2 (n1 + n2 − 2) 60 − 55 2 1 1 1 + n n 2 1 =1.6 3. b.35 0.9 3.25 0. contra la hipótesis alternativa de que las dos medias son diferentes.05 y los grados de libertad ν =30 y una prueba de dos colas Tα/2=2.2 2. Para los niños la media y la varianza son X1= 2.6 2.5713 Tα/2=2.0 =3 5 137 .042 1-α T = 1. no se rechaza H0. a) Para la solución de problema primero es necesario calcular la media y la desviación típica insesgada para cada uno de los datos dados. pruébese la hipótesis de que el PPC medio para niños es el mismo que el PPC medio para niñas. Se desea determinar si los promedios de puntos de calificación (PPC) son diferentes para niños y niñas.9 + 3.4 0. Utilizando α = 0.15 0.1 0.3 0.042 α/2 -4 -3 -2 -1 0 1 2 α/2 3 4 5 Región de rechazo Región de aceptación Región de rechazo 31. Dos muestras independientes de cinco estudiantes cada una proporcionan lo siguiente: PPC para niños: 2. SOLUCION.7 + 3.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Para el nivel de significancia α=0.3 3.05 0 -5 -Tα/2=-2.05. Obténganse los límites de confianza del 95% para la verdadera diferencia entre las dos medias poblaciones.8 a.1 2.7 3. 16) 1 + 1 = 0.2 + 2.6 + 3.2049)<δ<-0.4 0.3 − 3)2 + (3 − 3)2 5 −1 = 0.α = 0.2049) =-0.306)( 0.05 y los grados de libertad ν =8 y una prueba de dos colas Tα/2= 2.6 − 3.2 .27273 0. no se rechaza H0. b) Para el nivel de significancia 1.7 − 3)2 + (3.2 − 3.2 + (2.6 + 2.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT s1 = 2 (2.6 − 3.306)( 0.2)2 + (2.306 α/2 2 3 4 5 Región de rechazo Región de aceptación Región de rechazo 138 .05 y ν =8. se tiene que Tα/2= 2.1 − 3)2 + (2.2 0.2049 Como Tα/2 < T <Tα/2 .2)2 = 0.35 0.6666 0 1 Tα/2= 2.16 2 s2 = 5 −1 X2= Los grados de libertad para el estadístico de prueba son ν =n1 + n2-2=5+5-2=8 La hipótesis nula y alternativa del problema son respectivamente Ho: µ1=µ2 H1: µ1≠µ2 Para el nivel de significancia α=0.2)2 + (3.15 0.25 0.95 y una prueba de dos colas con α = 0.2)2 + (3.8 − 3.2 5 (3.8 − 3.2)2 + (2.4) 1 + 1 (5 + 5 − 2) 5 5 0.2 2 1 1 1 + n n 2 1 = − T= (5 − 1)(0.306 Sustituyendo los datos en la ecuación T= X1 − X 2 2 (n1 − 1) s + (n2 − 1) s 2 (n1 + n2 − 2) 3 − 3.9 − 3)2 + (3.05 0 -5 -Tα/2=-2.2 = -0.67273<δ<0.306 α/2 -4 -3 -2 -1 1-α T = 0.05 para las niñas 3.05) + (5 − 1)(0.8 = 3.1 0.8 + 3.9760 0.306 Conviene primero conviene evaluar sD = (5 − 1)(0.2049 (5 + 5 − 2) 5 5 Finalmente evaluado la expresión r D − Tα σ < δ < D + Tα σ -0.(2.3 0.05) + (5 − 1)(0. 15 0.2 0.05 0 -5 1-α T=-1.3 0.05 y ν = 40 y una prueba de cola izquierda Tν.35 0.05? (Considérese que las ganancias en peso se distribuyen normalmente.9518 Puesto que T < Tα no se rechaza Ho 0.) SOLUCION Las hipótesis respectivas del problema son: Ho: H1: µ1=µ2 µ2>µ1 El número de grados de libertad es ν =n1 + n2-2=21 + 21-2 =40 Para el nivel de significancia α = 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 32.9518 + = 40 21 + 21 − 2 21 21 21 El estadístico de prueba es T= X 1 − X 2 16 − 19 = =-1. se seleccionan aleatóriamente dos grupos independientes de cerditos.4 0. Las ganancias de peso para los dos grupos se registran un mes después de que se han estado utilizando las dietas respectivas.25 0.5370 sD 1.684 Región de aceptación 139 . a continuación se muestran los datos de importancia.1 0. Con este fin.α =-1. Supóngase que se desea determinar si una dieta completada con una hormona de crecimiento puede aumentar significativamente la ganancia en peso de los cerditos.684 (n1 − 1) s1 2 + (n2 − 1) s 2 2 sD = n1 + n2 − 2 1 + 1 n n 2 1 1 700 + 900 2 (21 − 1)35 + (21 − 1)45 1 sD = = 1.5370 α -4 -3 -2 -1 0 1 2 3 4 5 Región de rechazo Tα=1. Grupo 1 (Dieta acostumbrada) n1 = 21 X 1 = 16 2 s1 = 35 Grupo 11 (Dieta con hormonas) n2 = 21 X 2 = 19 2 s2 = 45 Tamaño de la muestra Media muestral (en libras) Varianza ¿Es posible que la dieta completada con una hormona de crecimiento aumente la ganancia en peso de los cerditos para α = 0. A un grupo se le alimenta con la dieta acostumbrada y al otro con una dieta con la hormona de crecimiento. varianza muestral s2 = 562500 y nivel de significancia α=0. Para la prueba de una media Z= X −µ s/ n Y para la de la diferencia de medias Z= X1 − X 2 s1 s + 2 n1 n2 2 2 EJEMPLOS 33. a. b. α = 0. Una muestra aleatoria de 900 observaciones para Y proporciona una media Y = 550 y una varianza s2 = 562 500. La aproximación se realiza simplemente sustituyendo en los estadísticos de prueba de las pruebas de hipótesis la desviación típica o desviaciones típicas por sus correspondientes desviaciones típicas muestrales.01.005 y A =1-α/2= 0. Pruébese la hipótesis de que la media de Y permanece siendo 500 contra la hipótesis alternativa de que es diferente de 500 con α = 0.01 La hipótesis nula y alternativa es Ho: H1: µ=500 µ≠500 Para la prueba de dos colas con α=0. Una forma de solventar esta carencia es observar que la distribución t-student tiende a la distribución normal cuando n es grande. SOLUCION a) Los datos que se tienen del problema son Media poblacional µ=500. y α/2 = 0. Sea Y una variable aleatoria que se sabe tiene una media de 500.005 por lo que A =1-α/2= 0.01. media muestral X =550. se tiene que.99.995 lo que corresponde Zα/2 = 2.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT APROXIMACIÓN NORMAL A LA DISTRIBUCIÓN T-STUEDENT En general en la mayoría de los casos no se conoce la desviación típica de la población.575 140 . b) A partir del intervalo de confianza solicitado 1-α = 0. la aproximación se puede aplicar a partir de que n ≥ 30.01se tiene que α/2=0. Determínese el intervalo de confianza del 99% para la verdadera media.995 lo que corresponde de acuerdo a la tabla respectiva de la distribución normal Zα/2 = 2. número de datos n = 900.575 El estadístico de prueba es Z= X − µ 550 − 500 = =2 s / n 750 / 900 Puesto que -Zα/2 < Z < Zα/2 No se rechaza H0. 575 900 900 X − Zα / 2 485.375 34.575 < µ < 550 + 2.5 / 49 Puesto que Z < Zα se rechaza H0. Con α = 0. Algunos clientes se han quejado de que las bolsas contienen solamente 9. ¿Deberá rechazarse la hipótesis nula de que el peso promedio es de 160 oz en oposición a la hipótesis alternativa a de que es de 152 oz para α = 0.625< µ<614. Una muestra aleatoria de 49 bolsas proporciona una media de 156 oz y una desviación típica (s) de 10. Se realiza una prueba para determinar si la queja es razonable.99.5 oz.10. Los siguientes datos se obtienen a partir de dos muestras independientes. Un nutriólogo desea comparar la efectividad de dos dietas para reducir de peso.01 La hipótesis nula y alternativa es Ho: H1: µ=160 µ<160 La prueba es de cola izquierda. Un productor de azúcar la empaca en bolsas de papel.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Utilizando la expresión siguiente s s < µ < X + Xα /2 n n 750 750 550 − 2. media muestral X =156.5 lb ó 152 oz.666 s / n 10. por lo que Zα= -2. 35.01 se tiene que A =1-α = 0. cada una de las cuales debe contener 10 lb ó 160 oz.01? SOLUCION Los datos que se tienen del problema son los siguientes Media poblacional µ=160. varianza muestral s2 = 10.326 El estadístico de prueba es Z= X − µ 156 − 160 = = -2. para α=0.5 y nivel de significancia α=0. ¿existe suficiente evidencia de que la Dicta I produce una pérdida menor de peso que la Dieta II? Dieta I Dieta II n2=60 Tamaño de la muestra n1=40 Pérdida promedio de peso en libras X 1 =9 X 2 =11 Varianza muestral s12=20 s22=30 SOLUCION La hipótesis nula y alternativa del problema son Ho: µ=µ H1: µ1<µ2 Correspondiendo a una prueba de una cola izquierda 141 . número de datos n = 49. 2 que es el número de grados de libertad (ν =n-1).22) De manera semejante a la distribución t-student. Gráfica de algunas funciones χ con ν =1.2 0. por ejemplo para la prueba de una sola varianza de la población.90 por lo que Zα=.1. 0.282 El estadístico de prueba es en este caso Z= X1 − X 2 s1 s + 2 n1 n2 2 2 = 9 − 11 20 30 + 40 60 = 9 − 11 1 = -2 Puesto que Z < Zα se rechaza Ho.5 0.4 0. La probabilidad acumulada para la distribución χ es 2 σ2 la cual es utilizada como estadístico de prueba P (0 < Χ 2 < x ) = 1 2 ν /2 Γν (2 )∫ x 0 t (ν − 2 ) 2 e −t / 2 dt 2 (5.10.15 0.45 0.05 0 0 5 10 15 Función χ 2 ν =1 ν =5 ν =10 ν =15 20 25 30 Figura.35 0. ν =5. La gráfica de χ para algunos grados de libertad es mostrada a continuación. ν =10 y ν =15 2 142 . la dieta I produce una perdida de peso que la dieta II DISTRIBUCION χ2 (chi cuadrada) La distribución χ (chi cuadrada) también es conocida como Ji – cuadrada y surge como distribución reprobabilidad de la variable aleatoria Χ = 2 2 (n − 1) s 2 para algunas pruebas de hipótesis. la distribución χ depende solamente de un parámetro.25 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Para el nivel de significancia α=0. se tiene que A = 1--α=0.1 0.3 0. 9403 y correspondiente valor 2 directamente χ 10.9403 χ 2 10 . el primer subíndice índica los grados de libertad y el segundo la significancia.07 0. Representación gráfica de los valores críticos para la distribución chi cuadrada para ν =10 y α = 0. obteniéndose un valor crítico para una significancia α = 0. PRUEBA PARA UNA SOLA VARIANZA Esta prueba permite comparar la varianza de una población que tiene una distribución normal.01 0 0 5 10 15 20 25 30 35 40 χ 210 . Por lo tanto se puede utilizar la expresión (53) como el estadístico de prueba para realizar la prueba de hipótesis para una sola varianza poblacional. 0.α .95 =3.23) tiene una distribución χ con ν = n-1 grados de libertad. 0.06 0. En la prueba de la varianza se considera que σ2 y n son constantes para cada problema particular. el 2 valor de χ nunca es negativo pudiendo tomar solamente valores positivos o cero. Al igual que para las anteriores distribuciones existen tablas de probabilidad acumulada para los valores de significación α más utilizados en la práctica que permiten localizar los valores críticos de χ2 denotados en ocasiones como χ ν .0. para una distribución 2 chi cuadrado con χ grados de libertad para una significancia α = 0. tendiendo a la simetría respecto a una recta perpendicular que pasa pos su valor máximo para valores grandes de ν.307 Figura. además.05 0. Como en todos los casos de prueba de hipótesis la hipótesis nula se define como 143 .02 0. esto es debido a que el área bajo la curva reportada en la tabla para la distribución chi cuadrada se calcula de manera inversa a la reportada en las anteriores 2 distribuciones de probabilidad.08 0. como la distribución no tiene valores negativos los valores de para una prueba de cola izquierda es totalmente diferente que el requerido de cola derecha.95 =3.05 de cola izquierda se localiza en la tabla respectiva el valor de ν =10 y α = 0.03 0. por ejemplo. La figura 0.04 0.95 de cola derecha se localiza siguiente muestra los valores críticos anteriores para la distribución chi cuadrada con ν =10.95.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Observándose que la distribución no tiene simetría para valores pequeños de ν.95. por lo que la distribución de s2 de acuerdo a la ecuación (53) tiene una distribución Χ2. con tales condiciones se puede mostrar que el estadístico Χ2 = 2 (n − 1) s 2 σ2 (5. χ 210. 0. para una prueba de cola izquierda y cola derecha.05 =18.09 0.05 =18.307.1 0. para la varianza poblacional se procede como en los casos anteriores utilizando el estadístico de prueba y los respectivos valores críticos χ2 α/2 inf y χ2 α/2 sup. Dada una distribución χ2con 20 grados de libertad.α / 2 inf > (n − 1) s 2 χ 2ν . Esto es χ 2ν . por ejemplo.α / 2 sup Finalmente (n − 1) s 2 χ 2ν . la hipótesis nula se rechazará solamente cuando Χ2 > χ2ν.α / 2 inf (n − 1) s σ2 1 2 χ 2 ν . α.5 superior d) 5% interior SOLUCION Buscando en la tabla ν = 20 y los correspondientes puntos porcentuales o noveles de significación b) e) 10% superior 1% interior c) 90% superior 144 . si H1: σ2 >σo2. DETERMINACION DEL INTERVALO DE CONFIANZA PARA POBLACIONAL LA VERDADERA VARIANZA Para obtener el respectivo intervalo de confianza 1.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Ho: σ2 = σo2 Y las correspondientes hipótesis alternativas H1: σ2 > σo2 σ2 ≠ σo2 σ2 < σo2 Dependiendo de la elección del la hipótesis alternativa y el nivel de significancia α se tomará la decisión.α / 2 inf < 1 (n − 1) s 2 σ 2 < χ 2ν . a) 2.α / 2 sup <σ2 < (n − 1) s 2 χ 2ν . obténgase el valor χ2 que corta cada una de las siguientes áreas bajo la curva.α / 2 sup Multiplicando por (n − 1)s χ (n − 1) s 2 > σ 2 2 ν .α / 2 sup > 2 Invirtiendo la desigualdad χ 2 > ν .α / 2 inf (5.α.24) EJEMPLOS 36. Cuando un proceso de producción está funcionando adecuadamente.5418 26. 9 10 12 13 12 8 6 11 9 a.01 → → → 10% 5% 1% 38.10. 0.9.9 A partir de los datos e tiene que el número de grados de libertad es ν =10 .99 37. 31.99.9999 SOLUCION Buscando en la tabla de la χ2 y en el número de grados de libertad ν =16 los respectivos valores de área se tiene directamente que a) b) c) 23. ¿Cuáles son los límites de confianza del 90% para la varianza de la población? SOLUCION Los datos proporcionados en el problema son Varianza muestral s2 =15 número de datos n = 10 1 .10.=28. 0.05 = 0.95.10 0.32511 Sustituyendo en la ecuación (54) (10 − 1) (15) < σ 2 < (10 − 1) (15) 3. el área a la derecha α/2=0.5418 b. Las medidas de las partes se distribuyen normalmente. Obténgase la varianza s2 b.=34. 0.=12. c. Se selecciona aleatóriamente una muestra de nueve partes producidas y se obtienen las siguientes medidas. con α = 0. Establézcase el intervalo de confianza del 90% para la verdadera varianza (s2.9190 39. de una población normal. 0.4426 χ210. Obténganse los puntos porcentuales bajo la cola superior de la distribución con 16 grados de libertad.8508 χ210.4120 χ210.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT a) b) c) d) e) χ210.999 → → → 0.90. 8. la varianza de las partes producidas es cuatro.95.2962 c. 23. procediendo como en el inciso anterior el área a la izquierda es 0.9190 χ2 α/2 inf = 3. buscando estos valores en la tabla correspondiente para ν =10 se tiene χ2 α/2 sup = 16. se encuentra que la varianza s2 es 15. 145 .1 = 9 Del intervalo de confianza 1 .05 0. 0.95 ya que el área a la izquierda es 0. y para el área a la izquierda de la distribución chi -cuadrado 1-0. con base en la información muestral.1696 χ210. 26.10.025.α= 0.05.32511 16.2962 31. Pruébese la hipótesis de que el proceso de producción sigue funcionando adecuadamente. que estén cortados por los siguientes valores chi cuadrada a. Se sugiere que el proceso de producción en la actualidad se encuentra fuera de control.2604 se busca el 0.05. En una muestra de 10 observaciones tornadas a partir.α= 0. 1 = 8 b) La varianza poblacional es σ2 = 4 y el número total de datos es n = 9.5073 χ28.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT SOLUCION a) se puede determinar la varianza muestral insesgada a partir de la ecuación s = 2 (∑ x ) ∑x − n 2 i i 2 n −1 total x x 2 9 81 10 100 12 144 13 169 12 144 8 64 6 36 11 121 9 81 ∑x ∑x i 2 i = 90 =940 sustituyendo s2 = 940 − (90 ) 9 −1 2 9 =5 El número de muestras es n = 9. por lo tanto el numero de grados de libertad es ν =9 .08 0.12 0.02 0 Región de rechazo Región de aceptación χ28. son χ2 8.0.9. la prueba de hipótesis es de dos colas. por lo que los valores críticos correspondientes para estos valores con ν = 8.5 sup = 15.95=2.06 1-α α/2 Χ2 =10 α/2 0 5 10 15 20 25 30 35 40 0. 0.95.04 0. entonces los grados de libertad son ν =9-1=8 Debido a que el proceso no funciona adecuadamente si la varianza es muy grande a pequeña.73264 χ2 8. 0.05 y el área a la izquierda 1. con las hipótesis nula y alternativa Ho: σ2=4 Hi: σ2≠4 Para el nivel de significancia α=0.1 0. el sistema funciona adecuadamente. no se rechaza H0.05=15.10 se tiene para el área a la derecha α/2=0.5073.73264 Región de rechazo 146 .5 inf = 2. 0.05 = 0.0.α/2=1.5073 Evaluando el estadístico de prueba Χ2 = (n − 1) s 2 σ 2 = (9 − 1)(5) = 10 4 puesto que 15. el tamaño de muestra es 30 y el nivel de significancia es α = 0. 0. Considérese que las producciones por hora se distribuyen normalmente.6378 40.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT c) Evaluando la ecuación (n − 1) s 2 χ 2ν . con α = 0.05 0.6250 80 Como Χ2 = 32. Las hipótesis de la prueba son Ho: σ2 = 80 Hi: σ2 > 80 Situación correspondiente a una de cola derecha. entonces los grados de libertad son ν =30 . Para estas condiciones el valor crítico es χ229.1 = 29.5570 147 .05=42.02 0. Se sabe que la varianza de las producciones por hora antes del contrato laboral era de σ2 = 80. la varianza muestral es s2 = 90.5570 y en valor del estadístico de prueba Χ2 = (n − 1) s 2 σ 2 = (30 − 1)(90) = 32. la producción por hora de los trabajadores mostrará una variación mayor que antes de firmar el contrato.6250 0 10 20 30 40 0.6250 < 32.06 0.α / 2 inf (9 − 1) (5) < σ 2 < (9 − 1) (5) 2.01 α 50 60 0 Región de aceptación Región de rechazo χ28. ¿Debe llegarse a la conclusión de que la dispersión de las producciones por hora ha aumentado significativamente.05 = 42.5073 2. Se sugiere que después de firmar un contrato laboral.04 0.5794<σ2<14.05? SOLUCION La varianza poblacional es σ2 = 80.6250 no se rechaza H0.α / 2 sup <σ2 < (n − 1) s 2 χ 2ν . Se encuentra que la varianza de la muestra es 90 (s2 = 90). 0.73264 15.03 1-α Χ2 =32.05. 0. Se selecciona una muestra aleatoria de 30 trabajadores y se obtienen sus producciones por hora después de la firma del contrato. Para probar si éste es o no en realidad el caso. 0. grados de libertad.05? SOLUCION El número de clases es J = 10.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT PRUEBA DE BONDAD DE AJUSTE Mediante esta prueba se puede verificar si los datos obtenidos de un experimento particular siguen alguna distribución particular. EJEMPLOS 41. etc. I II E1 O1 E2 O2 E3 O3 EJ OJ El estadístico de prueba Χ2 está definido como Χ =∑ 2 J (Ok − E k )2 Ek (5. se selecciona una muestra de 100 dígitos y se obtienen los siguientes resultados. las frecuencias observadas se denotan por la letra O y las correspondientes esperadas con la letra E tal como se muestra a continuación. distribución binomial. Cuando el tamaño de la muestra es grande de tal manera que ninguna frecuencia esperada es menor a 5. La prueba necesita la clasificación de los datos muestrales en una tabla de distribución de frecuencia denominada frecuencias observadas y esta se compara con las frecuencias esperadas obtenidas utilizando alguna distribución elegida. cada uno de los 10 dígitos debe tener la misma probabilidad de aparecer. Dígito: 0 1 2 3 4 5 6 7 8 9 Total Número de veces: que aparece 8 11 10 14 7 12 6 9 13 10 100 ¿Debería rechazarse la hipótesis de que los dígitos de la tabla están arreglados aleatóriamente. Por la definición dada al estadístico de prueba en la ecuación (55).05=16. Para el nivel de significancia α = 0. los grados de libertad son ν = J – 1 = 10 -9 = 9. pero cuando el valor de Χ2 es más grande que un valor especificado (valor crítico χ2ν.25) k =1 Donde la sumatoria se lleva a cabo sobre todas las frecuencias ó clases (J) en que han sido dividido los datos.05 y 9 grados de libertad el valor crítico es χ2v. por ejemplo. una distribución uniforme. que indica que el ajuste o comparación con la distribución esperada es bueno si la diferencia entre los valores observados son muy parecidos a los esperados dando por resultado un valor de Χ2 pequeño. por lo tanto.9190 Considerando la distribución uniforme. la hipótesis nula se rechaza indicando que no existe suficiente evidencia para decir que los datos propuestos tienen la distribución propuesta. esto es. la prueba de hipótesis es de una cola derecha.α= χ29. α). se tiene que el valor esperado correspondiente es Dígito: Frecuencia esperada 0 1 2 3 10 10 10 10 4 5 10 10 6 10 7 10 8 9 10 10 Total 100 148 . Se supone que una tabla de dígitos aleatorios es no sesgada. distribución normal. Χ2 se distribuye aproximadamente siguiendo un distribución chi cuadrada con ν = J – 1. con α = 0. por o que ν = J – 1 = 4. Número de caras: Frecuencia observada: 0 16 1 35 2 55 3 48 4 6 Total 160 Con α = 0.05=16. La distribución si es uniforme. el valor crítico es para el nivel de significancia α = 0. SOLUCION La distribución de probabilidad para el experimento de arrojar cuatro monedas balaceadas se muestra a continuación x f(x) : 0 1/16 1 4/16 2 6/16 3 4/16 4 1/16 Por lo que el las frecuencias esperadas para el experimento Número de caras: Frecuencia esperada: 0 10 1 40 2 60 3 40 4 10 Total 160 El número de clases es J = 5.08 0.05 es χ2v.1 0. A continuación se muestran los resultados.04 0.9190 no se rechaza Ho. 0.α= χ24.02 α 20 25 30 0 Región de aceptación χ 2 Región de rechazo 9.06 1-α Χ2 =6 0 5 10 15 0.05.48773. 0.9190 42. 0. Se arrojan simultáneamente cuatro monedas balanceadas 160 veces.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT A partir de las tablas anteriores se calcula el estadístico de prueba Χ =∑ 2 J (Ok − E k )2 Ek =(8-2)2/10+(11-10)2/10+(10-10)2/10+(14-10)2/10+(7-10)2/10+(8-10)2/10+ k =1 + (6-10)2/10+(9-10)2/10+(13-10)2/10+(10-10)2/10=6 Como 6 < 16.12 0.05=9. pruébese la hipótesis nula de que las cuatro monedas están todas bien balanceadas y fueron arrojadas aleatóriamente. 149 . 8417 < 9.16 0.8417 Como 7.01 es χ2v.02 0 0 2 4 6 8 10 1-α Χ2 =7.3449. 150 . De acuerdo a la teoría de la herencia de Mendel.48773 43.01=11. las monedas se encuentran bien balanceadas. de donde x = 1/16.05=9. y 14 bajas y sin color. por lo que las frecuencias esperadas son 9/16x320=180 Clases 3/16x320=60 Altas y color 3/16x320=60 1/16x320 Bajas sin color 20 Total 320 Altas sin color 60 Bajas con color 60 Frecuencia 180 esperada El número de clases es J = 4. sería de esperarse que las diferentes categorías tuvieran las siguientes proporciones: 9:3:3:1. 0.18 0.2 0. 54 bajas y coloridas. 66 altas y sin color. el valor crítico es para el nivel de significancia α = 0.06 0. ¿Existe suficiente evidencia para apoyar la teoría de Mendel. En un experimento con chícharos. lo cual se puede traducir en términos de la probabilidad en 9x + 3x + 3x +x = 1.8417 α 12 14 16 18 20 Región de aceptación Región de rechazo χ29.α= χ23.1 0. 0.01? SOLUCION La información de la frecuencia observada del experimento se resume en la siguiente tabla Clases Altas y color Altas sin color 66 Bajas con color 54 Bajas sin color 14 Total 320 Frecuencia 186 observada Las proporciones del problema son 9:3:3:1.04 0.48773 no se rechaza Ho. por o que ν = J – 1 = 3.14 0. un biólogo observa 186 plantas altas y coloridas.12 0. 0.08 0. al nivel de significación del 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT El estadístico de prueba es Χ2 = ∑ k =1 J (Ok − E k )2 Ek = (16 − 10)2 + (35 − 40)2 + (55 − 60)2 + (48 − 40)2 + (6 − 10)2 10 40 60 40 10 = 7. no se rechaza Ho el experimento cumple las leyes de Mendel.--. en la cual existe N clases o categorías de renglón y M clases o categorías de columna.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT El estadístico de prueba es Χ2 = ∑ k =1 J (Ok − E k )2 Ek = (186 − 180)2 + (66 − 60)2 + (54 − 60)2 + (14 − 20)2 180 60 60 20 = 3.3449. A continuación se muestra una tabla de contingencia general.----.25 0.C2k --.2 0. C11 C12 --.C1M C21 C22 --.01=11. por lo que es necesario calcular primero los valores esperados Ejk. Los datos se acomodan en una tabla llamada tabla de contingencia.2 Como 3.C2M C31 --------------Cjk ------.CNk --C1 C2 --Ci --.Ck El estadístico de prueba es una generalización del utilizado el la prueba de bondad de ajuste.1 0.3449 2 PRUEBA DE INDEPENDENCIA Otro tipo de prueba donde se puede aplicar la distribución chi cuadrado en la prueba de independencia donde se toma la decisión acerca de si una variable es independiente de la otra de otra variable. 0.------CjM --CNM CM R1 R2 --Rj --RN Cj1 Cj2 ----- CN1 CN2 --. los cuales se pueden obtener a partir de los 151 .2 0 2 4 6 8 10 12 α 14 16 18 20 0 Región de aceptación Región de rechazo χ 3.----.C1k --. 0. La hipótesis nula se establece suponiendo que son independientes. Al final de cada una de las filas o columnas se escriben los totales marginales de fila Rj o columna Ck.05 Χ2 =3.2 < 11.--.15 1-α 0. La intersección de cada columna y fila da una celda Cjk que es la frecuencia observada. E jk = R j ⋅ Ck n (5.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT totales marginales de fila Rj. Los resultados esperados son acomodados en la siguiente tabla Pref. con α = 0. mediante la siguiente ecuación. los totales marginales de columna Ck y el número total de datos n.5 192.5 357. Pref. en caso contrario serán independientes. Supóngase que la siguiente es la distribución de frecuencias observada de 1000 votantes clasificados según el partido al que están afiliados y su preferencia al votar con respecto a cierto asunto.5 350 Total 450 550 1000 A partir de las dos tablas anteriores se calcula el estadístico de prueba 152 .26) El estadístico de prueba para probar la independencia de dos variables es: Χ = ∑∑ 2 N M (C jk − E jk ) 2 E jk (5.05. EJEMPLOS 44.5 650 157. al votar En contra A favor Total Demócratas Republicanos 250 400 650 200 150 350 Total 450 550 1000 Pruébese la hipótesis de que la preferencia al votar no esta relacionada con la afiliación de partido.1) número de grados de libertad. El rechazo de la hipótesis nula implicará que las variables son dependientes. La prueba es una prueba de cola derecha.27) j =1 k =1 La cual tiene una distribución chi cuadrado con ν = (N – 1)(M . al votar En contra A favor Total Demócratas Republicanos 292. SOLUCION A partir de los totales marginales y el total de datos se obtienen los valores esperados Eij utilizando la ecuación E jk = R j ⋅ Ck n . y se rechazará la hipótesis nula H0 si el valor del estadístico de prueba es lo suficientemente grande para superar el valor crítico establecido a partir de la significancia α y de el número de grados de libertad ν. Se realiza una investigación para determinar si la calificación de desempeño en el trabajo es independiente de los logros académicos en universidad. por lo que si hay dependencia en las variables.5.1) = 1.5)2 + (150 − 192. 0.α= χ21.5 192.84146< 32.05=3. ¿debe llegarse a la conclusión de que la calificación de desempeño en el trabajo no está relacionada con los logros académicos en universidad? SOLUCION Primero se construye la tabla de continencia de los valores esperados utilizando la ecuación E jk = R j ⋅ Ck n Nivel académico en universidad Calificación de desempeño Excelente Promedio Malo Total A B C o menos Total 10 20 20 50 6 12 12 30 4 8 8 20 20 40 40 100 Procediendo a calcular el estadístico de prueba Χ = ∑∑ 2 j =1 k =1 N M (C jk − E jk ) 2 E jk = (10 − 10)2 + (20 − 20)2 + (20 − 20)2 + (5 − 6)2 + (12 − 12)2 10 20 20 6 12 + 153 . 45.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Χ 2 = ∑∑ j =1 k =1 N M (C jk − E jk ) 2 E jk = (250 − 292.5)2 + (400 − 357.079 se rechaza Ho.01.5 = 32.079 El número de grados de libertad para el problema es ν = (2 – 1)(2 .5)2 292. Se selecciona aleatóriamente una muestra de 100 empleados y su clasificación en una tabla de 3 por 3 se muestra a continuación.5)2 + (200 − 157. Nivel académico en universidad Calificación de desempeño Excelente Promedio Malo Total A B C o menos Total 10 20 20 50 5 12 13 30 5 8 7 20 20 40 40 100 Especificando el nivel de significación en 0. Por lo que el valor crítico es χ2v.5 157.84146 Puesto que 3.5 357. 01. Por lo que el valor crítico para ν = 4 y α= 0.01=13.5 15 20 7.5 10 7. 154 .5 10 7. Se están considerando tres métodos de enseñanza: I.1) = 4.α= χ2 4.5)2 + (15 − 10)2 + (5 − 7.5 25 Total 30 40 30 100 7.0.α= χ24.2767 Puesto que 8. B o C. y el desempeño de los estudiantes se clasifica como A.2767 Puesto que 0.5 10 7.5)2 15 El número de grados de libertad para el problema es ν = (3 – 1)(3 .5 10 7.5 25 Calculando el estadístico de prueba Χ 2 = ∑∑ j =1 k =1 N M (C jk − E jk ) 2 E jk + = (5 − 7.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT + (13 − 12)2 + (5 − 4)2 + (8 − 8)2 + (8 − 7 )2 12 4 8 8 = 0.54166 El número de grados de libertad para el problema es ν = (3 – 1)(3 . SOLUCION Construyendo primero la tabla de continencia de los valores esperados utilizando la ecuación E jk = R j ⋅ Ck n Desempeño I A B C Total METODOS DE ENSEÑANZA III III 15 20 15 50 7. Los resultados fueron los siguientes.2767 no se rechaza Ho. II. 46.01=13.73< 13. por lo que no hay dependencia en las variables. por lo que las variables son independencia.01es χ2v. Un psicólogo realizó un experimento para determinar si el desempeño de los estudiantes está relacionado con el método utilizado en cierto tema. Pruébese la hipótesis nula de que el desempeño de los estudiantes no está relacionado con el método de enseñanza.1) = 4.2767 no se rechaza Ho. Por lo que el valor crítico es χ2v. 0.5)2 (10 − 10)2 + (10 − 7.5)2 + (20 − 15)2 + (15 − 20)2 7.54166< 13.5 = 8. y III.73 + (15 − 15)2 + (5 − 7. con α = 0. Algunas gráficas de la distribución F se muestran a continuación. En general los valores críticos Fα.1 0 0 0. de ahí el nombre de la distribución. 1 0.5 5 F1. El estadístico de prueba para la prueba F es la razón de los estimadores insesgados de varianzas poblacionales de dos F= s1 s2 2 2 (5.5 2 2. La probabilidad acumulada para la distribución Fisher se obtiene de la siguiente ecuación (ν + ν 2 ) ν 1 / 2 ν 2 / 2 Γ 1 ν 1 ν 2 2 P (0 < F < x ) = Γν 1 Γν 2 2 2 ∫ x 0 t (ν 1 / 2 )−1 (ν 2 + ν 1t ) − (ν 1 +ν 2 ) / 2 dt (5. quien fue el primero en obtener la distribución y desarrollar la prueba. F1. ν 2 es diferente de Fα. si se intercambian los valores de ν1 y ν2 no se obtiene el mismo valor crítico.5 0.7 0.6 0. ν1. 8 y F8. 4 F3. 4.3 0. esto es. 10. Fisher. 155 . Gráfica de algunas de distribuciones Fisher. grados de libertad de la población 1 ν1= n1 . para cada pareja de valores ν1 y ν2 se tendrá una tabla correspondiente a los valores porcentuales de α más utilizados. ν1. A. por lo que hay que tener cuidado al utilizar las tablas y recordar que ν1 se asocia la población que tiene la mayor varianza y ν2. 8 F8.28) Se debe cumplir siempre que s12>s22 para que la razón sea mayor que uno (F ≥1).8 0. F3.1 grados de libertad de la población 2 ν2= n2 – 1 Entonces. procedimiento que comúnmente se denomina análisis de varianza (ANOVA).2 0. también se ha desarrollado un procedimiento basado en esta prueba para investigar la igualdad entre tres ó más medias poblacionales. La prueba f se utiliza principalmente para probar la igualdad entre dos varianzas poblacionales que provienen de poblaciones que tiene una distribución normal. Se observa que la distribución no tiene simetría en ningún caso mostrado.5 3 3.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT PRUEBA DE FISHER R.29) La distribución F tiene 2 variables ν1 y ν2 que son los grados de libertad de cada una de las poblaciones. 10 Figura.4 0.a la que tiene la menor varianza.5 1 1. ν 2.5 4 4.9 0. 05.76. Supóngase que se comparan las materias primas suministradas por dos proveedores.05. ν 2.025 El valor crítico para la prueba es F0. Por otra parte. ν1=21 – 1 = 20 y ν2=16 – 1 = 15. SOLUCION Los datos de cada un de los proveedores se resumen a continuación (reacuérdese que s12>s22) Proveedor I s22=150 n2 =16 Proveedor II s12=225 n1=21 La hipótesis nula y alternativa de problema son respectivamente Ho: H1: σ12=σ22 σ12≠σ22 Utilizando el número de datos de cada muestra. 156 . Una muestra de 16 lotes del Proveedor I proporciona una varianza de 150 (s12 = 150). 15 = 2.5 < 2. no se rechaza Ho. las varianzas son estadísticamente iguales. EL estadístico de prueba es F= s1 s2 2 2 = 225 =1. EJEMPLOS 47. el cual cumple con la distribución Fisher.025. α/2=0. ν1. una prueba de cola derecha y una prueba de dos colas Ho: H1: σ12=σ22 σ12>σ22 σ12≠σ22 El estadístico de prueba a utilizar es F = s1 s2 2 2 .5 150 Como 1. 20. la hipótesis nula H0 se asocia con la igualdad entre los estadísticos de prueba poblacionales y la hipótesis alternativa H1 solamente tiene dos posibles opciones. pero existe preocupación en cuanto a la variabilidad de los materiales. Pruébese la hipótesis nula de que sus varianzas verdaderas son iguales contra la hipótesis alternativas de que son diferentes. La hipótesis nula se rechazará si el valor de F es lo suficientemente grande para que sea mayor que el valor crítico Fα. puesto que la prueba es de dos colas y α=0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT PRUEBA DE LA DIFERENCIA DE DOS VARIANZAS Al igual que en las pruebas anteriores. con α= 0.76. En apariencia los dos proveedores proporcionan materiales distribuidos normalmente con el mismo promedio. mientras que una muestra de 21 lotes provenientes del Proveedor II proporciona una varianza de 225 (s22 = 225). 24.5 1 1.025. 20.025. ¿debería llegarse a la conclusión de que las puntuaciones de prueba de los dos grupos tienen la misma varianza poblacional? SOLUCION En este caso la hipótesis nula y alternativa de problema son Ho: σ12=σ22 H1: σ12≠σ22 Utilizando el número de datos de cada muestra.025 El valor crítico para la prueba es F0.6 0.4 0.5 2 2.1368 1 1. tienen la misma variabilidad.76 Región de rechazo 48. 15 = 2. las varianzas son estadísticamente iguales. no se rechaza Ho.5 0.4 0.15 157 .5 α/2 3 3.15.8 0.3 0. 20.1368 < 2. 29 = 2.9 0.5 F = 1.5 1-α α/2 F =1. Se desea determinar si los resultados de los dos métodos.15.05. α/2=0.2 α/2 0 0. La prueba es de dos colas.5 4 4.6 1-α 0.1 0 0 0.7 0.5 3 0 Región de rechazo Región de aceptación Región de rechazo F0. 1 0. en términos de las puntuaciones obtenidas en una prueba estándar de lectura.2 0.05.8 0.025. ν1=25 – 1 = 24 y ν2=30 – 1 = 29. Se emplean dos métodos de enseñanza de la lectura a dos grupos seleccionados aleatóriamente de niños de nueve años. por otra parte estadístico de prueba es F= s1 s2 2 2 = 108 =1.5 5 Región de rechazo Región de aceptación F0. Supóngase que se obtienen los siguientes datos de las dos poblaciones consideradas como normales: Método I Tamaño de la muestra Varianza muestral n1 = 25 s12 = 108 Método II n2 = 30 s22 = 95 Con un nivel de significación de 0. 15 = 2. entonces como α=0.1368 95 Como 1.5 2 α/2 2.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 1 0. 01.8 0. Supóngase que una muestra aleatoria de los C.4 1.01.8 1. de las niñas es igual que la de los niños. 60 = 1. pruébese la hipótesis nula de que la variabilidad de los C. 60 = 1. 60. Con α = 0. EL estadístico de prueba es F= s1 s2 2 2 = 240 =1. y una muestra aleatoria de los C. las varianzas son estadísticamente iguales.5 α 2 2.84 158 .01.4 0.2 0 1-α F =1.2 0 0.2 < 1. tanto de niños como de niñas se distribuyen normalmente.6 0.2 200 Como 1.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 49.84. no se rechaza Ho. contra la hipótesis alternativa de que la primera es mayor que la segunda.5 Región de aceptación Región de rechazo F0.6 1. de 61 niñas proporciona una varianza de s12 = 240.01. SOLUCION Los datos para el grupo de niños y niñas se resumen a continuación Niñas Niños s12=240 s22=200 n2=61 n1=61 La hipótesis nula y alternativa de problema son respectivamente Ho: H1: σ12=σ22 σ12 > σ22 Los grados de libertad para cada muestra son respectivamente ν1=n1-1 = 61 – 1 = 60 y ν2=n2-1 = 61 – 1 = 60 La prueba de hipótesis es de cola derecha con α=0.5 1 1.I. 60. de 61 niños proporciona una varianza de s22 = 200. Se sabe que los C. 1.I. Un psicólogo desea determinar si la inteligencia de las niñas más variable que la de los niños.I.2 1 0.84. El valor crítico para la prueba es F0.I. 6 0. contra la hipótesis alternativa de que tiene varianza diferente.5 Región de rechazo Región de aceptación F0. 40.6 1.5 2 α/2 2.59 Región de rechazo 159 .3.2 1 0. las varianzas son estadísticamente diferentes.2 0 1-α F = 1.3 n2=61 Para este problema la hipótesis nula y alternativa de problema son σ12=σ22 Ho: H1: σ12≠σ22 A partir del número de datos de cada muestra se determina los grados de libertad ν1=41 – 1 = 40 y ν2=61 – 1 = 60. El estadístico de prueba es F= s1 s2 2 2 = 108 =1. 40. 60 = 1.4 1. con α=0. I y II. se tiene que s.05 El valor crítico para la prueba es F0. para producir pernos idénticos cuyas longitudes se cree que se distribuyen normalmente.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 50.8 1.8 0.59.1 y la prueba es de dos colas. 1.66.4 0.5 1 1. una muestra de 61 pernos producidos por la máquina II da una s22 =0.05. Una muestra aleatoria de 41 pernos producidos por la máquina I da una s12=0.5. α/2=0.10. Pruebe la hipótesis nula de que pernos producidos por las dos máquinas tienen variabilidad idéntica.5 n1=41 Maquina II s22=0.66 α/2 0 0. Como α=0. Se emplean dos máquinas.59 < 1. 60 = 1. SOLUCION Las varianzas y número de datos se resumen a continuación para cada máquina Maquina I s12=0.66 95 Como 1. se rechaza Ho.05. µ3. pero si se desea generalizar el problema anterior. donde n es el número de datos en cada método o x1 = 370/5=74 x2 = 400/5=80 x3 = 430/5=86 Las respectivas varianzas insesgadas de cada método se pueden calcular aplicando s12= s2 = ∑ ( x i − x )2 n −1 (74 − 74) 2 + (78 − 74) + (73 − 74 ) + (73 − 74 ) + (72 − 74) =5. por lo que la hipótesis nula es que los tres métodos producen resultados idénticos y la hipótesis alternativa es que producen resultados diferentes. hay tres métodos diferentes. esto es. la distribución tstudent no sería el método más adecuado para llevar a cabo tal comparación. lo anterior se índica a continuación Ho: H1: µ1=µ2=µ3=…µk µ1≠µ2≠µ3≠…µk La descripción del método se realizará mediante el siguiente ejemplo. µ2. esta prueba utiliza a la distribución F o Fisher como base. Ho: H1: µ1=µ2=µ3 µ1≠µ2≠µ3 METODO I 74 78 73 73 72 Total 370 METODO II 84 77 79 79 81 400 METODO III 83 85 86 87 89 470 A partir de la suma total de cada método se determina las medias para cada uno de los métodos utilizando la fórmula para el promedio x = clase. comparar entre tres o más medias muestrales provenientes de poblaciones con distribución normal y varianza idéntica.5 5 −1 2 2 2 2 160 . más adelante se da una descripción del método utilizando un ejemplo numérico. ∑n xi . en donde cada columna muestra las calificaciones obtenidas al aplicar un método de aprendizaje. ya que el estadístico de prueba se define como la razón de dos cantidades positivas que se relacionan con la varianza total de los datos y con la varianza de las medias respecto de las media total. afortunadamente se ha desarrollado un método conocido como análisis de varianza (ANOVA) que permite de una manera directa realizar la comparación.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT ANALISIS DE VARIANZA (ANOVA) El análisis realizado mediante la distribución t-student permite entre otras cosas realizar la comparación entre dos medias muestrales que provienen de poblaciones con distribución normal y tiene la misma varianza. ya que esta prueba solo se aplica a parejas de medias. La prueba ANOVA tiene como hipótesis nula H0 de que todas las medias µ1. …µk son iguales y la hipótesis H1 que alguna de ellas es diferente. k para un caso general se puede obtener mediante Donde nk.83 K −1 3 −1 2 2 Los grados de libertad de sW ν 2 = n1 + n2+ nk – K = N . s22 y s32.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 5 −1 (83 − 86) + (85 − 86) + (86 − 86)2 + (87 − 86)2 + (89 − 86)2 =5 s32= 5 −1 2 2 s22= (84 − 80)2 + (77 − 80)2 + (79 − 80)2 + (79 − 80)2 + (81 − 80)2 =7 La media de las medias o media total es x= 370 + 400 + 470 = 80 15 La varianza de las medias muestrales se puede calcular como sx = 2 2 ∑ (x i − x)2 n −1 = (74 − 80)2 + (80 − 80)2 + (86 − 80)2 3 −1 2 = 36 s x (varianza de la media muestral) es un estimador de σ x (varianza de la media poblacional). sW = ∑ 2 K i =1 si 5. es el número de datos en la clase k y N es el número total de datos.5 + 7 + 5 = = 5. se tiene que σx = 2 σ2 n y tomando como n = 5 ya que es el σ 2 = nσ x 2 = 5(36) = 180 Lo anterior muestra como la varianza para las medias se transforma en un estimador de la varianza de una población. esto es σ x 2 = s x 2 =36 Por otra parte recordando el teorema del límite central número de datos en cada muestra. por lo que sus grados de libertad son ν1 = 3 -1 = 2. Para el presente ejemplo ν2 = 5+ 5+ 5 – 3 = 12 161 . Para un coso más general donde existan K clase se tendrá que los grados de libertad para σ2 son general. por lo que un mejor estimador sería el promedio de cada de las varianzas individuales s12. ν1 =K-1 La estimación de σ2 mejora si se utiliza toda la información disponible de las muestras. Como σ2 se obtiene a partir de las 3 medias que representan a cada uno de los métodos. .05. lo que se traduce en que los métodos de aprendizaje son diferentes.9 Se rechaza Ho.12 = 3.30) 162 .89 < 30. ν 2 = F0. xkn nk Tk Las siguientes definiciones permiten simplificar los resultados Total de la muestra k Suma total de la muestras Total de las observaciones TK = ∑ X i . x2n n2 T2 … xk1 xk2 . .89 Puesto que 3. .83 Para aceptar o rechazar la hipótesis nula.9 5. Método general En general si se tiene una tabla con K muestras o clases y cada muestra tiene nk datos como se muestra a continuación Muestra I Muestra II … Muestra K Tamaño de la muestra Total de la muestra x11 x12 . j j =1 i =1 K nk N = n1+ n2+…nk = ∑n i =1 k i Recordando que el estadístico de prueba se definió como la razón de la varianza entre las medias muestrales y la varianza dentro de cada una de las muestras. La suma externa de cuadrados se define como SSB = ∑ Tk T2 − N k =1 n k K 2 (5. se requiere de un valor crítico.2.05 Fα. para el ejemplo F= 180 = 30. k i =1 nk T = ∑∑ X i . ν1.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT El estadístico de prueba se define como F= 2 sx 2 sW por lo tanto. x1n n1 T1 x21 x22 . por ejemplo si si α=0. 32) SST = ∑∑ xi . La suma interna de cuadrados calcula la varianza dentro de cada una de las muestras.33) La varianza entre las medias muestrales se determina como 2 SB = SSB K −1 (5. j − 2 nk j =1 i =1 T2 N 163 .35) La razón o estadístico de prueba se define como F= 2 sB 2 sW (5.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT La cual tiene ν1 = K -1 grados de libertad. SSW = ∑∑ xi .K N-1 2 SW = SST = ∑∑ xi . j − 2 K nk j =1 i =1 T2 N (5. j − ∑ j =1 i =1 K Tk k =1 n k K ν2= N . La suma total de cuadrados se define como la suma SST = SSB + SSB Utilizando las definiciones anteriores.34) La varianza dentro de cada una de las muestras es 2 SW = SSW N−K (5.36) El procedimiento de análisis de varianza se resume en la siguiente tabla Fuentes de variación Entre grupos Dentro de los grupos Total Suma de cuadrados Grados de libertad ν1= K-1 2 Varianza 2 SB = Razón F SSB = ∑ K nk Tk T2 − N k =1 n k K 2 2 SSB K −1 SSW N−K F= 2 sB 2 sW SSW = ∑∑ xi .31) La cual tiene ν2 = N -K grados de libertad. la suma total de cuadrados es (5. j − ∑ 2 K nk j =1 i =1 Tk k =1 n k K 2 (5. SOLUCION Método I X1 74 78 73 73 72 370 Método II X2 84 77 79 79 81 400 K = 3. N = n1+ n2+…nk = 5 + 5+ 5 = 15 T1=370 T2=400 T3=430 Método III X3 83 85 86 87 89 470 Método I X12 5476 6084 5329 5329 5184 27402 Método II X22 7056 5929 6241 6241 6561 32028 Método III X32 6889 7225 7396 7589 7921 37000 Total Numero de clases Número total de datos La suma de cada muestra es Total de las observaciones Suma externa de cuadrados T = 370 + 400 + 430=1200 SSB = ∑ Tk T 2 370 2 400 2 430 2 1200 2 − = + + − = 360 N 5 5 5 15 k =1 n k K 2 Grados de libertad 2 SB = ν1 = K -1 = 3 -1 =2 SSB 360 = =180 K −1 3 −1 Suma interna de cuadrados SSW = ∑∑ xi . j j =1 i =1 K nk 2 370 2 400 2 430 2 T − ∑ k = 27402 + 32028 + 37000 − + + = 70 5 5 k =1 n k 5 K 2 Grados de libertad 2 SW = ν2 = N -K = 15 -3 =12 SSW 70 = = 5.833 N − K 15 − 3 El estadístico de prueba es F= 2 sB 180 = = 30.86 2 sW 5. 164 .833 Obteniéndose los mismos resultados descritos en el ejemplo anterior. Utilizando los datos del ejemplo anterior y las fórmulas (60) y (61) obtenga: SB2 y Sw2 y F.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT EJEMPLOS 51. A tres grupos de pollos seleccionados aleatóriamente se les alimenta con tres dietas diferentes.05.89 La suma de cada muestra es Total de las observaciones T1= -5 T = -5 . ν 2 = f0.05 el valor crítico para la prueba es fα.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 52. contra la hipótesis alternativa de que tienen distintos efectos. Sus aumentos de peso durante un periodo específico de tiempo son los siguientes: Dieta I 4 4 7 7 8 Dieta II 3 4 5 6 7 Dicta III 6 7 7 7 8 Utilícese α =0.ν1. SOLUCION Un resultado interesante es que la suma externa de cuadrados y la suma interna de cuadrados no se ven alteradas si a cada dato de la tabla se le suma o resta un número fijo.10 + 0=-15 T2= -10 T3=0 Calculando la suma externa de cuadrados SSB = ∑ 2 Tk (− 10)2 + 0 2 − (− 15)2 = 10 T 2 (− 5) = + − 5 5 5 15 N k =1 n k K 2 165 . Haciendo uso de la idea anterior conviene restarle a cada dato el número 7 Dieta I X1 -3 -3 0 0 1 -5 Dieta II X2 -4 -3 -2 -1 0 -10 Dieta III X3 -1 0 0 0 1 0 Dieta I X12 9 9 0 0 1 19 Dieta II X22 16 9 4 1 0 30 Dieta III X32 1 0 0 0 1 2 Total El número de clases es K = 3 y el número total de datos es N =15 La hipótesis nula y alternativa del problema es Ho:µ1=µ2=µ3 H1:µ1≠µ2≠µ3 Los respectivos grados de libertad son v1= K-1 = 3 -1 = 2 y v2 =N – K = 15 .2.3=12 Como α =0. Cada grupo consta de cinco pollos.12 = 3.05 para probar la hipótesis nula de que las tres dietas tienen el mismo efecto en el aumento de peso de los pollos. 1667 N − K 15 − 3 El estadístico de prueba es 2 sB 5 F= 2 = = 2. pruébese la hipótesis nula de que las máquinas producen el mismo promedio de partes defectuosas por hora.01.307 sW 2.307 <3. contra la hipótesis alternativa de que los cuatro promedios son diferentes. Los resultados son los siguientes: Máquina I 10 9 9 9 8 Máquina II 7 7 8 8 5 Máquina III 2 3 3 3 4 Máquina IV 3 3 6 6 7 Utilizando α = 0. 53.89. no se rechaza Ho. Una compañía manufacturera tiene cuatro máquinas idénticas en un proceso especifico de producción. Se toma de cada máquina una muestra de los productos obtenidos durante un periodo de cinco horas y se obtiene el número de partes defectuosas producidas cada hora. Cada máquina es operada por un trabajador distinto.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT por lo tanto 2 SB = SSB 10 = =5 K −1 3 −1 La suma interna de cuadrados es SSW = ∑∑ xi . las dietas son igualmente efectivas. SOLUCION Restando el numero 6 a cada elemento de tabla MI X1 4 3 3 3 2 15 M II X2 1 1 2 2 -1 5 M III X3 -4 -3 -3 -3 -2 -15 M IV X4 -3 -3 0 0 1 -5 MI X12 16 9 9 9 4 47 M II X22 1 1 4 4 1 11 M III X32 16 9 9 9 4 47 M IV X42 9 9 0 0 1 19 Total El número de clases es K = 4 y el número total de datos es N =20 166 . j j =1 i =1 K nk 2 2 − 5 2 (− 10)2 0 2 Tk + + = 26 −∑ = 19 + 30 + 2 − 5 5 5 k =1 n k K 2 SW = SSW 26 = = 13/6 = 2.1667 Como 2. 29 La suma de cada muestra es Total de las observaciones T1= 15 T = 15 + 5 .16 = 5.5 N − K 20 − 4 El estadístico de prueba es F= 2 s B 33.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT La hipótesis nula y alternativa del problema es Ho:µ1=µ2=µ3 H1:µ1≠µ2≠µ3 Los respectivos grados de libertad son v1= K-1 = 4 -1 = 3 y v2 =N – K = 20 .3.4=16 Como α =0.29 < 22.ν1. 167 .15 -5 = 0 T2= 7 T3=15 T4=47 Calculando la suma externa de cuadrados SSB = ∑ 2 Tk (5)2 + (− 15)2 + (− 5)2 − (0)2 = 100 T 2 (15) − = + N 5 5 5 5 20 k =1 n k K 2 por lo tanto 2 SB = SSB 100 = = 33.01 el valor crítico para la prueba es fα.222.3333 K −1 4 −1 La suma interna de cuadrados es SSW = ∑∑ xi .3333 = = 22. los promedios de producción son diferentes.01.222 2 1. se rechaza Ho. ν 2 = f0. j − ∑ 2 j =1 i =1 K nk 2 (15)2 (5)2 (− 15)2 (− 5)2 Tk = 47 + 11 + 47 + 19 − + + + = 24 5 5 5 k =1 n k 5 K 2 SW = 24 SSW = = 1.5 sW Como 5. En la figura A siguiente se muestran una tabla de datos y su respectivo diagrama de dispersión. La regresión múltiple involucra dos o más variables independientes y una variable dependiente. REGRESION LINEAL La regresión lineal se refiere a determinar la “mejor ecuación lineal” de la forma: y = m x + b que es posible establecer entre las variables X y Y. La fuerza de la relación entre las variables X y Y se determina mediante el coeficiente de correlación. Si en un problema se tienen solamente dos variables. En muchas ocasiones la relación entre las variables es no lineal lo cual complica el problema. El trabajo de aplicar la regresión lineal a un problema consiste en determinar los valores ó parámetros a y b de la recta y = m x + b a partir del conjunto de datos X y Y DIAGRAMA DE DISPERSIÓN Como primer paso para la obtención de una regresión primero se grafican los datos. mientras que la otra es conocida como variable dependiente y se denota por la letra Y. etc. por ejemplo se desea establecer la cantidad de lluvia (X) se relaciona con la producción de trigo (Y). Cuando existen más variables involucradas se dice que el problema es de regresión o correlación múltiple. o si la experiencia en años (X) se relaciona con las ventas obtenidas (Y). pero en muchos casos es posible determinar una relación entre las variables de la forma: y = f(x). Si la relación existe entonces se puede estimar que tan fuerte es esta relación o dependencia. 168 . En caso de regresión simple la variable que es utilizada para estimar a la otra se llama variable independiente y se denota por X. lo cual es conocido como diagrama de dispersión. mediante la técnica de regresión.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT UNIDAD VI Regresión y correlación REGRESIÓN Existen problemas experimentales en los cuales se trata de establecer si existe un relación entre dos conjuntos de datos X y Y. se dice que la técnica es una regresión o correlación simple. donde f(x) puede ser una relación polinomial. además es posible determinar el valor posible de una variable a partir del valor de la otra. Dependiendo del problema es posible determinar la relación entre las variables X y Y. exponencial. etc. potencial. . . El criterio que más se utiliza para determinar la mejor recta de ajuste se conoce como recta método de mínimos cuadrados. 3.Yi) donde i =1. 2. La figura siguiente muestra la idea general del método de mínimos cuadrados. Al sustituir el valor de la abscisa Xi de cada uno de los puntos en la ecuación de la recta y = m x + b se obtienen un conjunto de valores Yri = m X i + b . 35 30 25 20 Y Yi Yri y = mx+b 15 10 5 0 0 5 X 10 15 169 . . yn 25 20 Y 15 10 5 0 0 5 X 10 15 MÉTODO DE MÍNIMOS CUADRADOS Como se puede observar del diagrama de dispersión anterior los datos no se encuentran exactamente en una línea recta.n. . 2.…. xn Y y1 y2 . n.. consiste en buscar los parámetros a y b de la recta y = m x + b de tal manera que las suma de los cuadrados de las distancias verticales entre los puntos de la recta y del diagrama de dispersión sea lo más pequeña posible.…. donde i =1. cada uno de los 15 puntos graficados muestra representa a cada uno de los pares ordenados (Xi . 3. los cuales se encuentran sobre la recta.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT TABLA DE DATOS DIAGRAMA DE DISPERSION 35 30 X x1 x2 . esto es: ∂S =0 ∂m ∂S =0 ∂b Aplicando la condición dada por la ecuación (6.2) La función debe S(m.3) (6. b) tales que sean un mínimo de la función. b) = ∑ Di = ∑ (Yi − mX i − b) 2 2 i =1 i =1 n n (6. b) = ∑ Di = ∑ (Yi − Yri ) 2 2 i =1 i =1 n n (6.1) Para el caso de la línea recta la ecuación anterior toma la forma siguiente S (m.4) 170 . b) para tener un mínimo (o máximo) es que sus derivadas parciales con respecto a los parámetros m y b sean cero.3) (6.4) ∂S ∂ n n = (Yi − mX i − b) 2 = ∑ 2(Yi − mX i − b)(− X i ) ∑ ∂m ∂m i =1 i =1 Utilizando las propiedades de la sumatoria se tiene que n n n n 2 2 S (m. por lo que la idea básica del método de mínimos cuadrados se puede expresar matemáticamente como: S (m. b) = 2∑ (−Yi X i + mX i + bX i ) = 2 − ∑ Yi X i + m∑ X i + b∑ X i i =1 i =1 i =1 i =1 Posteriormente igualando a cero n n n 2 2− ∑ Yi X i + m∑ X i + b∑ X i = 0 i =1 i =1 i =1 Despejando se obtiene la ecuación m∑ X i + b∑ X i = + ∑ Yi X i 2 i =1 i =1 i =1 n n n (6.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT La diferencia Di = Yi − Yri se denomina desviación.5) Ahora si se aplica la condición dada por la ecuación (6. La condición que debe de cumplir la función S(m. b) se considera como una función de dos variables m y b para la cual debe de existir al menos un par de valores (m. b) = 2∑ (−Yi + mX i + b) = 2 − ∑ Yi + m∑ X i + b n i =1 i =1 i =1 Igualando a cero n n 2 − ∑ Yi + m∑ X i + b n = 0 i =1 i =1 Reacomodando términos se obtiene la ecuación m∑ X i + b∑ X i = + ∑ Yi X i 2 i =1 i =1 i =1 n n n (6. m∑ X i + b∑ X i =∑ X i Y i 2 n n n m∑ X i + b n =∑ Y i i =1 i =1 i =1 n i =1 i =1 n La solución del sistema de ecuaciones anterior se puede resolver mediante determinantes.41 y 5.7) 171 . m= ∆ 1 n∑ X i Yi − ∑ X i ∑ Yi = 2 2 ∆ n∑ X i − (∑ X i ) (6. a continuación se evalúan los determinantes requeridos para el cálculo ∑X ∆= ∑X ∆1 = 2 i i ∑X n Yi i = n∑ X i − (∑ X i ) 2 2 ∑X ∑Y i i ∑X n i = n∑ X i Yi − ∑ X i ∑ Yi ∆2 ∑X = ∑X 2 i i ∑X Y = X Y − X X ∑ ∑ ∑ ∑ ∑Y i i 2 i i i i i Yi De donde se obtiene las ecuaciones que permiten obtener los parámetros para la mejor recta de mínimos cuadrados.6) Las ecuaciones 5.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT n ∂S ∂ n 2 = ∑ (Yi − mX i − b) = ∑ 2(Yi − mX i − b)(−1) ∂b ∂m i =1 i =1 Aplicando nuevamente las propiedades de la sumatoria n n n S (m.42 forman un sistema de de ecuaciones donde m y b son las incógnitas. n.6667 3 (9)(285) − (45)2 2 2 x+ 3 3 Entonces. Estímese el volumen de ventas anuales para un vendedor que tiene una experiencia en ventas de diez años.8) Como se puede observarse de las ecuaciones anteriores.…. SOLUCION a) Es conveniente primero el fin de determinar las cálculo de m y b X 1 2 3 4 5 6 7 8 9 45 Y 2 1 3 3 4 5 6 5 7 36 X2 1 4 9 16 25 36 49 64 81 285 XY 2 2 9 12 20 30 42 40 63 220 construir la tabla siguiente. b. 3. 2.Yi) donde i =1. con sumatorias necesarias para el Σ Evaluando en las expresiones m= n∑ X i Yi − ∑ X i ∑ Yi n∑ X i − (∑ X i ) 2 2 i i i 2 2 = (9)(220) − (45)(36) = (9)(285) − (45)2 = 2 = 0. En una compañía de seguros se desea determinar la relación entre la experiencia en ventas y el volumen de las mismas.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT ∆ b= 2 = ∆ ∑ X ∑Y − ∑ X ∑ X Y n∑ X − (∑ X ) 2 i i i 2 2 i i i i (6. Constrúyase un diagrama de dispersión y trácese la recta de regresión de Y sobre X en el diagrama.6667 3 ∑ X ∑Y − ∑ X ∑ X Y b= n∑ X − (∑ X ) 2 i i i i (285)(36) − (45)(220) = 2 =0. Se selecciona una muestra aleatoria de nueve vendedores. Se encuentra que sus años de experiencia (X) y ventas anuales normales (Y) son los siguientes: X 1 2 3 Y: 2 1 3 4 3 5 4 6 5 7 6 8 5 9 7 (en $100 000) a. la recta de regresión tiene la ecuación y = El diagrama de dispersión y la recta de regresión se muestran el la siguiente gráfica 172 . EJEMPLOS 1. para obtener los parámetros m y b es necesario realizar las sumatorias indicadas a partir de los datos (Xi . X 2 1 3 2 1 3 Y $ 70 40 l00 80 30 100 Obténgase la ecuación de regresión con X como variable independiente y Y como variable dependiente.APUNTES DE ESTADISTICA 7 GONZALO GALVEZ COYT 6 5 4 Y 3 2 1 1 2 3 4 5 X 6 7 8 9 b) El volumen de ventas anuales para un vendedor que tiene una experiencia en venta de 10 años se obtiene al evaluar la recta de regresión obtenida para x =10. y= 2 2 2 2 x + = y = (10 ) + = 7.33 3 3 3 3 el resultado anterior se multiplica por 10 000 para obtener el total de ventas. Por parte de la gerencia se desea determinar si existe una relación funcional entre la edad de la máquina (X) y el costo de mantenimiento ( Y) Se obtienen los siguientes datos. Ventas = 7. 2. Se tiene un registro de los costos de mantenimiento para seis máquinas idénticas de distintas edades. ¿Cuál sería el costo de mantenimiento para una máquina de cuatro años? SOLUCION La tabla siguiente resume los cálculos necesarios para las sumatorias X 2 1 3 2 1 3 12 Y 70 40 100 80 30 100 420 XY 140 40 300 160 30 300 970 X2 4 1 9 4 1 9 28 Σ 173 . Máquina 1 2 3 4 5 6 .33(100000)=$ 733 000. la correlación es la fuerza de la relación entre las variables X y Y. Si Yr = m X + b (valor calculado a partir de la recta de regresión) y Y = separar de la forma. COEFICIENTE DE CORRELACIÓN A partir de la ecuación de mínimos cuadrados se puede realizar una predicción de el valor de Y sustituyendo el valor respectivo X.5)(4 ) + 5 =135 Por lo que el costo de reparación de la maquina de 4 años es $135. Cuando la correlación es pequeña se tiene poca precisión en la determinación del valor Y. normalmente denotado por r. y se determina mediante el coeficiente de correlación. 1 n ∑ Yi .5 x + 5 . Dividiendo ambos lados de la ecuación 68 entre ∑ (Y ∑ (Y i i − Y ) 2 = ∑ (Yr − Y ) 2 − Y )2 ∑ (Y i − Y )2 + ∑ (Y − Yr) ∑ (Y − Y ) i i ∑ (Y − Y ) 2 se obtiene 2 2 174 . pero cuando la correlación es grande se tiene una gran exactitud en la determinación del valor Y. entonces la variación total se puede n i =1 (6.9) ∑ (Y i − Y )2 = ∑ (Yr − Y ) 2 + ∑ (Y i − Yr ) 2 Variación total Variación eliminado por regresión Variación restante Mientras más variación se elimine mediante la recta de regresión más cercana será la relación entre X y Y y se volverá más precisa la estimación del valor Y. pero el grado de exactitud de la predicción depende de el grado de correlación entre las variables X y Y.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Evaluando en las expresiones para calcular m y b m= n∑ X i Yi − ∑ X i ∑ Yi n∑ X i − (∑ X i ) 2 2 i i i 2 2 = (6)(970) − (12)(420) = 32. Para determinar a r se considera primero que Y es una variable aleatoria cuya desviación respecto de la recta de mínimos cuadrados es la menor posible.5 (6)(28) − (12)2 = Así se tiene la recta de regresión y = 32. la primera es la eliminada por la recta de mínimos cuadrados y la cantidad que permanece a pesar de de la recta de regresión. CORRELACIÓN Como ya se ha señalado anteriormente. esto quiere decir que la variabilidad se divide en dos partes. La medida del grado de correlación utilizando los n pares de datos (Xi .Yi) es llamado coeficiente de correlación. evaluado para x = 4 ∑ X ∑Y − ∑ X ∑ X Y b= n∑ X − (∑ X ) 2 i i i i (28)(420) − (12)(970) = 5 (6)(28) − (12)2 y = (32. así se tiene que r= ∑ (Y − Yr) 1− ∑ (Y − Y ) i i 2 2 (6. se desea probar la hipótesis de que el coeficiente de correlación poblacional ρ es igual a cero contra la hipótesis alternativa de que no lo es.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT Entonces. Si r = 0. Por parte de una compañía de seguros se desea determinar la relación entre los años de experiencia en ventas de sus vendedores y su volumen de ventas. se dice que no existe correlación entre X y Y. PRUEBA DE HIPÓTESIS PARA EL COEFICIENTE DE CORRELACIÓN Existe una prueba de hipótesis para determinar si el un coeficiente de correlación (r) es lo suficientemente grande para afirmar que hay correlación entre los pares de valores X y Y. el estadístico de prueba T empleado se define como T =r n−2 1− r2 (6. 1= r 2 ∑ (Y − Yr) + ∑ (Y − Y ) i i 2 2 Donde r es el coeficiente de correlación. en particular se r = 1 o -1 se dirá que hay un ajuste perfecto a la recta.12) El cual se distribuye de acuerdo a una distribución T-Student con ν = n. Si no es clara la idea de que las variables se distribuyan normalmente se pueden aplicar métodos no paramétricos a la prueba de hipótesis como la prueba de correlación de rangos.2 grados de libertad. y cuando la correlación es débil su valor es cercano a 0. EJEMPLOS 4. la mayor parte de la variabilidad de Y puede atribuirse a la relación con X y r será cercana a 1 o -1. En general el valor de r varía de -1 a 1. o si el valor r corresponde al azar. Se selecciona una muestra aleatoria de nueve vendedores y se encuentra que sus años de experiencia (X) y ventas anuales actuales (Y) son los siguientes: 175 . Cuando r se encuentra entre 0 y 1 existe correlación positiva y cuando está entre -1 y 0 hay correlación negativa. la expresión anterior se puede escribir como.11) Si la correlación entre las variables X y Y es fuerte. Dicho de otra manera. Si la distribución de las dos variables involucradas es normal entonces.10) En lugar de usar la ecuación anterior para determinar el coeficiente de correlación se utiliza para el caso de la línea recta la fórmula siguiente r= n∑ X i − (∑ X i ) 2 n∑ X i Yi − ∑ X i ∑ Yi 2 2 n∑ Yi − (∑ Yi ) 2 (6. Se rechaza Ho.8721 = 4.8721 b) La prueba de hipótesis del problema se plantea como Ho: ρ =0 El estadístico de prueba es T =r 9−2 n−2 = 0. sí hay correlación Distribucion T-Student 0.7 (4.1 0.7153 -4 -3 -2 -1 0 1 2 3 4 5 Región de aceptación Región de rechazo 176 . El planteamiento de la Hipótesis conduce a una prueba de dos colas.15 0.05 0 -5 1-α T α/2.05 entonces Tα/2.2 0.365).4 0.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT X Y 1 2 3 2 1 3 4 5 4 3 6 5 7 6 8 7 9 5 (en $100 000) a.05.7153 >2.7153 2 1− r 1 − (0. b. SOLUCION a) La siguiente tabla muestra los cálculos requeridos para determinar las sumatorias que permiten determinar el coeficiente de correlación X 1 2 3 4 5 6 7 8 9 45 Y 2 1 3 4 3 5 6 7 5 36 X2 1 4 9 16 25 36 49 64 81 285 Y2 4 1 9 16 9 25 36 49 25 174 XY 2 2 9 16 15 30 42 56 45 217 Σ r= n∑ X i − (∑ X i ) 2 n∑ X i Yi − ∑ X i ∑ Yi 2 2 n∑ Yi − (∑ Yi ) 2 = 9(217) − (45)(36) 9(285) − (45) 2 9(174) − (36) 2 H1: ρ ≠ 0 = 0. Obténgase el coeficiente de correlación r.3 0.7 = 2.8721) 2 El cual tiene una distribución como T-student con v =n-2 = 9 – 2 = 7 grados de libertad.365 α T = 4. 7= 2. Pruébese la hipótesis de que el coeficiente de correlación de la población ρes cero con α = 0.25 0. como α = 0.365 Comparando el valor crítico con el estadístico de prueba se tiene que T > Tα/2.35 0. b. Se realiza un experimento para determinar la relación entre la precipitación pluvial y el rendimiento del trigo.9333 x + 0.05. con α = 0. Estímese el rendimiento de trigo si la precipitación pluvial es de 10 pulg. Ajústese una recta de mínimos cuadrados a los datos con X como variable independiente y grafíquese después la recta sobre un diagrama de dispersión.9333 (10)(310) − (50)2 = ∑ X ∑Y − ∑ X ∑ X Y b= n∑ X − (∑ X ) 2 2 i i i i (310)(50) − (50)(306) = 0. Supóngase que se obtienen los siguientes datos. Obténgase el coeficiente de correlación r. c.3333 =9.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 5.3333 .6667 bushel: c) El coeficiente de correlación es r= n∑ X i − (∑ X i ) 2 n∑ X i Yi − ∑ X i ∑ Yi 2 2 n∑ Yi − (∑ Yi ) 2 = (10)(306) − (50)(50) (10)(310) − (50)2 (10)(310) − (50)2 = 0. Pruébese la hipótesis nula de que no existe relación entre la precipitación pluvial y el rendimiento del trigo. Precipitación pluvial en pulgadas: Rendimiento de trigo en bushel: X1 2 3 4 5 5 6 7 8 9 Y 1 3 2 5 5 4 7 6 9 8 a.3333 (6)(28) − (12)2 Así se tiene la recta de regresión dispersión y la recta de regresión. d.9333 177 . y = 0. SOLUCION a) La siguiente tabla muestra los cálculos requeridos para determinar las sumatorias X 1 2 3 4 5 5 6 7 8 9 50 Y 1 3 2 5 5 4 7 6 9 8 50 XY 1 6 6 20 25 20 42 42 72 72 306 X2 1 4 9 16 25 25 36 49 64 81 310 Y2 1 9 4 25 25 16 49 36 81 64 310 Σ Evaluando en las expresiones para calcular m y b m= n∑ X i Yi − ∑ X i ∑ Yi n∑ X i − (∑ X i ) 2 2 i i i 2 = (10)(306) − (50)(50) = 0. la gráfica siguiente muestra el diagrama de b) Evaluado en la ecuación de regresión el valor de x = 10 pulg se obtiene y = (0.9333)(10 ) + 0. 15 0.05 entonces Tα/2. 8= 2.3532>2.3 0.3532 -4 -2 0 2 4 6 8 Región de aceptación Región de rechazo 178 . Se rechaza Ho.2 0.306).35 0.9333) 2 El cual tiene una distribución como T-student con v =n-2 = 10 – 2 = 8 grados de libertad.3532 2 1− r 1 − (0.25 0.1 0.8 (7.306 Comparando el valor crítico con el estadístico de prueba se tiene que T > Tα/2.7 = 2. El planteamiento de la Hipótesis conduce a una prueba de dos colas.9333 = 7.APUNTES DE ESTADISTICA GONZALO GALVEZ COYT 9 8 7 6 Y 5 4 3 2 1 1 2 3 4 5 X 6 7 8 9 Diagrama de dispersión y recta de mínimos cuadrados del problema d) La prueba de hipótesis del problema se plantea como Ho: ρ =0 El estadístico de prueba es H1: ρ ≠ 0 T =r 10 − 2 n−2 = 0. como α = 0.05 0 1-α T α/2.4 0. sí hay correlación 0.306 α T = 7.