105850471 Estadistica Inferencial II Libro

Estadística Inferencial IIRaúl Jiméne z González Instituto Tecnológico de Ensenada 2 0 0 0 1 9 9 5 1 9 9 0 1 9 8 5 1 9 8 0 1 9 7 5 9 , 5 9 , 0 8 , 5 8 , 0 7 , 5 7 , 0 6 , 5 6 , 0 A ñ o s Ventas Estadística Inferencial II Instituto Tecnológico de Ensenada Raúl Jiménez González Agosto de 2012 A mi esposa Leticia Flores Flores 2 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González Contenido CAPÍTULO 1. Regresión lineal simple y múltiple………………………………. 4 1.1. Regresión Lineal simple………………………………………………………. 4 1.1.1. Prueba de hipótesis en la regresión lineal simple…………...……………. 12 1.1.2. Calidad del ajuste en regresión lineal simple……………...……………. .. 19 1.1.3. Estimación y predicción por intervalo en regresión lineal simple……….... 23 1.1.4. Uso de software estadístico………………………………………....……... 25 1.2. Regresión lineal múltiple……………………………………………………… 30 1.2.1. Pruebas de hipótesis en regresión lineal múltiple…………………………. 34 1.2.2. Intervalos de confianza y predicción en regresión múltiple……………...... 37 1.2.3. Uso de un software estadístico………………………………………....….. 40 1.3. Regresión no lineal……………………………………………………………. 43 CAPÍTULO 2. Diseño de experimentos de un factor……………………….…. 45 2.1. Familia de diseños para comparar tratamientos………………………………. 49 2.2. El modelo de efectos fijos……………………………….……………………. 50 2.3. 2.4. 2.5. 2.6. Diseño completamente aleatorio y ANOVA…………………………………. 50 Comparaciones o pruebas de rangos múltiples……………………………….. 62 Verificación de los supuestos del Modelo……………………………………. 71 Uso de un software estadístico………………………………………….…….. 80 CAPÍTULO 3. Diseño de bloques………………………………………………. 84 3.1. Diseños en bloques completos al azar………………………………………… 85 3.2. Diseño en cuadrado latino…………………………………………………….. 95 3.3. Diseño en cuadrado grecolatino…………………………………..………..... 104 3.4. Uso de un software estadístico………………………………………………. 108 CAPÍTULO 4. Conceptos básicos en diseños factoriales………………….…. 112 4.1. Diseños factoriales con dos factores…………………………………………. 114 4.2. Diseños factoriales con tres factores…………………………………………. 123 4.3. Diseño factorial general……………………………………………………… 128 4.4. Modelos de efectos aleatorios………………………………………….…….. 130 4.5. Uso de un software estadístico ………………………………………….…… 134 CAPÍTULO 5. Series de tiempo………………………………………….…….. 138 5.1. Modelo clásico de series de tiempo……………………………………....…... 141 5.2. Análisis de fluctuaciones……………………………………………………... 143 5.3. Análisis de tendencia…………………………………………………………. 146 5.4. Análisis de variaciones cíclicas…………………………………… ……......147 5.5. Medición de variaciones estacionales e irregulares………………………….. 148 5.6. Aplicación de ajustes estacionales………………………………………......... 148 5.7. Pronósticos basados en factores de tendencia y estacionales……………........150 Apéndice. Tablas Estadísticas……………………………………………………..166 Bibliografía……………………………………………………………………....…174 CAPÍTULO 1 Regresión lineal simple y múltiple 1.1. Regresión Lineal simple 1.1.1. Prueba de hipótesis en la regresión lineal simple 1.1.2. Calidad del ajuste en regresión lineal simple 1.1.3. Estimación y predicción por intervalo en regresión lineal simple 1.1.4. Uso de software estadístico 4 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González 1.1. Regresión Lineal simple El análisis de regresión se usa con el propósito de predicción. La meta del análisis de regresión es desarrollar un modelo estadístico que se pueda usar para pre decir los valores de una variable dependiente o de respuesta basados en los valores de al menos una variable independiente o explicativa. Este capítulo se centra en un modelo de regresión lineal simple, que usa una variable numérica independiente para predecir la variable numérica dependiente . Para establecer una relación cuantitativa entre y es necesario dispo ner de cierta información muestral. Esta información consiste de un conjunto de p ares de observaciones de y , donde cada uno de estos pares pertenece a un a unidad elemental particular de la muestra. Por ejemplo, suponga que el rendim iento de un proceso químico está relacionado con la temperatura de operación, o la expe riencia profesional de los trabajadores y sus respectivos sueldos, las estatura s y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados, etc. Si mediante un modelo matemático es posible describir tal relación, entonces este modelo puede s er usado para propósitos de predicción, optimización o control Para ilustrar el concepto, considérense los datos de la tabla 1.1. En esta tabla, se relaciona la cantidad de fibra (madera) en la pulpa con la resistenci a del producto (papel). Tabla 1.1 Datos de resist encia de pulpa Porcentaje de fibra Resistencia 4 6 8 10 12 14 16 18 20 22 24 26 28 30 134 145 142 149 144 160 156 157 168 166 167 171 174 183 Es claro que la variable de respuesta o variable dependiente es la resistencia, por eso se denota con . Para tener una idea de la relación que existe en tre y , los 14 pares de datos son graficados en un diagrama de dispersión de la figur a 1.1. De la inspección de este diagrama de dispersión se ve que los puntos cercanos siguen una línea recta, lo que indica que la suposición de linealidad entre las dos variables parece ser razonable El diagrama de dispersión es una grafica en la que cada punto trazado representa un par de valores observados por las variables independiente y dependiente. El v alor de la variable independiente X, se traza en relación con el eje horizont al y el valor de la variable dependiente Y, en relación con el eje vertical. La naturaleza de la relac ión entre dos variables puede tomar muchas formas, que van desde algunas funcion es Regresión lineal simple 5 Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González matemáticas sencillas a otras en extremo complicadas. La relación más elemen tal consiste en una línea recta o relación lineal. 30 25 20 15 10 5 190 180 170 160 150 140 130 Porcentaje de fibra R e s i s t e n c i a Gráfica de dispersión de Resistencia vs. Porcentaje de fibra Figura 1.1 Diagrama de dispersión para los datos de resistencia de la pulpa La relación del modelo matemático adecuado tiene influencia de la distribución de los valores y en el diagrama de dispersión. Es sencillo ver esto s i se examinan las siguientes graficas (figura 1.2) Plan A Plan B Plan C Relación lineal negativa Relación lineal positiva No hay relación entre X y Y Plan D Relación curvilínea positiva ción curvilínea negativa Plan E Plan F Relación curvilínea en forma de U Rela Figura 1.2 Relación entre dos variables En la grafica A se observa que los valores de Y, en general, aumentan en forma lineal cuando se incrementa . En la grafica B es un ejemplo de una relación lineal negativa. Cuando crece, se observa que los valores de Y decrecen. Un ejemplo de este tipo de relación pued e ser el precio de un producto específico y la cantidad de ventas. 6 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González En la grafica C se muestra un conjunto de datos en el que existe muy poca o ninguna relación entre y Y. Para cada valor de aparecen valores altos y bajos d e Y. En la grafica D muestran una relación curvilínea entre y Y. Los valores de Y aumentan cuando crece, pero el incremento disminuye para valores altos de . un ejemplo de esta relación curvilínea puede ser la edad y el costo de man tenimiento de una maquina. Cuando la máquina tiene muchos años, el costo de mantenimien to se eleva con rapidez al principio, pero después de cierto número de años se nivela. En la grafica E muestra una relación parabólica o en forma de U entre y Y. Conforme aumenta, al principio Y disminuye; pero si aumenta más, Y no sólo deja de disminuir sino que aumenta después de su valor mínimo. Un ejemplo tipo de relación puede ser el número de errores por hora en una tarea y número de horas trabajadas. Por ultimo en la grafica F indica una relación exponencial o curvilínea negativa entre y Y. en este caso, Y disminuye con rapidez al principio del i ncremento de 93. El mejor ajuste puede definirse de varias maner as. 30 25 20 15 10 5 190 180 170 160 150 140 130 Porcentaje de fibra R e s i s t e n c i a S 3. Un ejemplo de esta relación exponencial puede ser el valor de reventa de un tipo da do de automóvil y los años que tiene. El análisis de regresión lineal simple se refiere a encontrar la línea recta que mejor se ajuste a los datos. cuando aumenta más.(ajustado) 92.pero después.3 Línea recta que mejor se ajusta a los da tos. la disminución es mucho más lenta en lo s años subsecuentes. El primer año el valor baja en forma drástica respet o a su precio original.87648 R-cuad.624 Porcentaje de fibra Figura 1. donde la distancia a los puntos es la más pequeña pos ible Suponga que valor de . Es cada de Y puede ser descrita por el modelo: .0% R-cuad. que observación las variables y Y están relacionadas linealmente y que para cada la variable dependiente. como estas diferencias son positivas pa ra algunas observaciones y negativas para otras. decir. sin embargo. en términos matemáticos se minimiza la su ma de los cuadrados de las diferencias. Sin embargo. Quizá la más sencilla sea encontrar la línea recta para la cual las diferencias entre los valor es reales y los valores pronosticados a partir de la recta ajustada de regresión se an tan pequeñas como sea posible. la velocidad de disminución es mucho menor.4% Gráfica de línea ajustada Resistencia = 130. es una variable aleatoria.7 + 1. Y. para estimar es mediante el método de mínimos cuadrados. . La ecuación (1. está dado por línea recta (1.(1. es decir. es la cantidad en que se incrementa o disminuye la variable por cada unidad que se incrementa Un procedimiento para ajustar la mejor recta y. los elevamos al cuadrado y los sum amos. para cada valor de . . para tener bien especificada la ecuación que relaciona las dos varia bles será necesario estimar los dos parámetros.Es la pendiente de la línea. Bajo el supuesto de que este modelo es adecuado y como el valor esperado del error es cero. el cual consiste en lo siguiente: si de la ecuación (1.1) Regresión lineal simple 7 Instituto Tecnológico de Ensenada Biol. obtendremos lo siguiente: . se puede ver que el valor esperad o de la variable Y.1) despejamos los errores. que tienen los siguientes significados: . por lo tanto. Raúl Jiménez González donde es un error aleatorio con media cero y varianza .1) es conocida como el modelo de regresión lineal simple.2) En donde son los parámetros del modelo y son constantes desconocidas. También suponga que los errores aleatorios no están correlacionados. Por lo tanto.Es el punto en el cual la línea recta intercepta o cruza el eje y. Es decir.3) De esta forma. como se ilustra en la figura 1. se obtiene: . se quieren encontrar los valores de que minimizan la suma de los errores cuadrados. consiste en derivar a con respecto a . El procedimiento matemático para minimizar los errores de la ecuación (1.3.(1. y derivar también a con respecto a . se busca ajustar la recta de manera que la suma de las distancias en forma vertical de los puntos a la recta se minimice.3) y así encontrar los estimadores de mínimos cuadrados de . Raúl Jiménez González .4) (1. se obtiene la solución única: (1.5) donde 8 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol.Al igualar a cero las dos ecuaciones y resolverlas en forma simultánea con respecto a las dos incógnitas ( ). es decir. .(1.7) son las medias muéstrales de las dos variables.6) (1. 4 6 8 10 12 14 16 18 20 22 24 26 28 30 134 145 .De esta forma. para obtener la recta ajustada es necesario aplicar las fórmulas anteriores. lo cual es muy sencillo. Tabla 1. como se muestra en la tabla 1.2 Procedimiento para realizar los cálculos para la regresión simple para lo s datos de la resistencia de la pulpa.2 para los da tos de la resistencia de la pulpa. 142 149 144 160 156 157 168 166 167 171 174 183 16 36 64 100 144 196 256 324 400 484 576 676 784 900 17 956 21 025 20 164 22 201 20 736 25 600 24 336 24 649 28 224 27 556 27 889 27 241 30 276 33 489 536 870 1 136 1 490 1 728 2 240 2 496 2 826 3 360 3 652 4 008 4 446 4 872 5 490 137.9 150.7 146.2 153.4 .2 140.4 143. 24 21.8 -0.29 3.4 -2.4 -3.96 Ʃ Ʃ Ʃ = 4 956 Ʃ = 353 342 Ʃ = 39 150 Ʃ .156.7 172.61 4.4 169.41 38.6 -1.7 159.2 179.2 3.49 8.04 0.6 10.2 6.6 -0.9 4.89 4.2 4.7 2.9 -2.84 12.7 -1.44 43.7 -2.9 176.41 23.16 2.56 0.2 166.9 163.16 7.1 -6. la línea recta que mejor explica la relación entre porcentaje de fibra y resistencia del papel. está dada por .6 Regresión lineal simple 9 Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González Por lo tanto.2216. De esta manera.70702E-08 Residuos 12 180.1285 12.1648352 -6.6681319 -1.3 se muestra el ajuste de esta línea.964432318 Coeficiente de determinación R^2 0.624175824 0.63909737 2.406813 Porcentaje de fibra 1.05 0. se manda cada pa r a memoria.531868 159.05975E-15 125. Utilizando un paquete computacional el resultado arrojado sería el siguiente: Resumen de Minitab Análisis de regresión: Resistencia vs.7467824 2. se procede a capturar por parejas (X.164835165 .4197802 4. por cada punto porcentual de incremento en el porcentaje de fibra.675 2.418 54.6747253 2.857143 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Intercepción 130. Y) corre spondientes sin olvidar separarlas por una coma entre ambos datos.3252747 15.6242 0.92430717 Error típico 3. un a vez activada esta función.1714286 -3.64 0.6242 en promedio.047173 1.000 Resumen de Excel Estadísticas de la regresión Coeficiente de correlación múltiple 0. trae la función de Regresión Lineal. La ecuación (1.668131868 4 146. Porcentaje de fibra La ecuación de regresión es Resistencia = 131 + 1.8) sirve para estimar la resistencia promedio esperada para cualquier porcentaje de fibra utilizada.876481166 Observaciones 14 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F Regresión 1 2400. se espera u n incremento de resistencia de 1.70702E-08 1. al finalizar la captura se obtienen los coeficientes correspondientes presionando l a inversa correspondiente de acuerdo al modelo de esta.930129695 R^2 ajustado 0.083516484 5 150. Nota: La calculadora científica.En la figura 1.000 Porcentaje de fibra 1.9164835 2.344189444 Análisis de los residuales Observación Pronóstico Resistencia Residuos 1 137.02710623 Total 13 2580. Predictor Coef de EE T P Constante 130.62 Porcentaje de fibra Coef.531868 2400.417790201 54.128504099 12.171428571 2 140.58021978 3 143. 66 -2.00 MC 2400.78 1.00 6.47 0.1516484 -2.0 157.661538462 8 159.151648352 14 179.41 -2.18 -0.11 1. Formulas básicas para el Análisis de regresión para el modelo Es el punto en el cual la línea recta intercepta o cruza el eje Y .55 1.0 145.66 159.22 1.91 4.4065934 -0.4 3.0 Ajuste 137.00 12.9 Porcentaje de fibra Resistencia 4.60 Residuo estándar -0.54 -0.15 179.0 183.08 Tabla 1.57 -1.65 -1.40 F 159.04 1.406593407 11 169.92 150.37 1.00 24.6615385 -0.0 168.41 156.17 4.75 Ajuste SE 1. Raúl Jiménez González Análisis de varianza Fuente GL Regresión 1 Error residual 12 Total 13 Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 SC 2400.0 167.08 -6.97 1.75 1.95 1.0 144.00 30.90 -2.0 160.90989011 9 163.4131868 6.17 140.55 1.0 171.1582418 4.67 146.90 176.77 -0.04 1.22 1.0 142.62 1.6 10 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol.42 143.00 22.6549451 -2.30 -0.0 166.37 1.0 174.00 14.0 134.000 Residuo -3.41 169.0 149.9032967 -1.5 180.75 1.67 2.00 16.00 18.3 2580.91 163.841758242 10 166.16 166.11 1.586813187 7 156.903296703 13 176.9098901 -2.73 -0.00 10.00 20.97 P 0.68 1.59 -0.0 156.00 8.4.00 26.32 -0.16 153.16 6.15 3.11 -0.654945055 12 172.5 15.84 -0.65 172.00 28.6 153.58 -1. es la cantidad en que se incrementa o disminuye la variable ad que se incrementa Ecuación de la regresión lineal estimada Sumatoria de XY por cada unid .Es la pendiente de la línea. es decir. Sumatoria de XX Variabilidad total Media de X Media de Y . Raúl Jiménez González = Error estándar de estimación 11 .Sumatoria de los cuadrados del error Suma de cuadrados de la regresión Estimador insesgado de la varianza Cuadrado medio del error Cuadrado medio total Regresión lineal simple Instituto Tecnológico de Ensenada Biol. Coeficiente de determinación en r egresión lineal simple Estadístico para prueba de hipótesis en regresión lineal simple . Estimación por intervalos para . en regresión lineal simple Estimación por intervalos para la pendiente en regresión lineal simple . 12 11 12 13 14 15 . Tienda Clientes Ventas ($000) Tienda Clientes Ventas ($000) 1 2 3 4 5 6 7 8 9 10 907 926 506 741 789 889 874 510 529 420 11.73 7.08 9.21 9.Estimación para la ordenada al origen en regresión lineal simple Ejemplo Suponga que el gerente de una cadena de servicios de entrega de paqu etería desea desarrollar un modelo para predecir las ventas semanales (en miles de dólares) p ara las tiendas individuales basado en el número de clientes que realizan compra s.45 6.42 10.24 6. Se seleccionó una muestra aleatoria entre todas las tiendas de la cadena con los s iguientes resultados.05 6.20 11.48 9. 92 8.43 9.23 11. (d) Pronostique las ventas semanales (en miles de dólares) para las tiendas que t ienen 600 clientes.77 7.63 9.46 7.16 17 18 19 20 679 872 924 607 452 729 794 844 1010 621 7.95 9. (e) ¿Qué otros factores además del número de clientes pueden afectar las ventas? 12 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González Respuestas a) 1000 900 800 700 600 500 400 12 11 10 9 8 7 6 Clientes V e n t a . Suponga una relación lineal y utilice el método de mínimos cuadrados pa encontrar coeficientes de regresión y (c) Interprete el significado de la pendiente.41 (a) (b) ra los Grafique el diagrama de dispersión.64 6.33 10. 486903934 4.1. se espera un incremento en las ventas de 0.0088 c) Por cada cliente más. En cualquier análisis de regresión no basta hacer los cálculos que se explicaron antes . Por lo general.1. Es usual suponer normalidad: se distribuye en forma normal. Resumen de Excel Coeficientes Error típico Estadístico t Probabilidad Intercepción 2. d) e) Factores tan variados como.308620077 0. Esto se logra al aprobar la siguiente hipóte sis .93374E-11 1. la hipótesis de mayor interés plantea que la pen diente es significativamente diferente de cero. Una primera forma de hacer esto es probar una serie hipótesi s sobre el modelo.3086 y = 0.741428269 0. independiente. etc. lejanía.. sino que es necesario evaluar qué tan bien el modelo (la línea recta) explica la rel ación entre y .000162977 Clientes 0. con media cero y varianza . Para ello es necesario suponer una distribución de probabilidad para el término de error. Prueba de hipótesis en la regresión lineal simple. Clientes b) Los coeficientes son = 2.68338889 5. falta de estacionamien to etc. atención al cliente.s Gráfica de dispersión de Ventas vs.0088612 de m iles de dólares en promedio.000647589 13.008861219 0. 9) Prue ba de hipótesis en regresión lineal simple 13 Instituto Tecnológico de Ensenada Biol. implica que no existe una relación lin eal significativa entre y . Se rechaza si el valor absoluto de este estadístico es mayor que el correspondiente valor crítico obtenido de tablas .(1.10) tiene una distribuc ión Student con grados de libertad. La suma de cuadrados de los residuos o suma de cuadrados del error ( y se utiliza para estimar la varianza del error de ajuste de un modelo.10) Si la hipótesis nula es verdadera él estadístico (1. es decir. no existe relación entre estas variables o ésta es de otro tipo. y está dada por : . No rechazar que . por tanto.11) En caso contrario no se rechaza . Raúl Jiménez González El estadístico de prueba es: (1. en el caso del modelo de regresión lineal simple. se rechaza si: (1. un estimador insesgado de está dado por: En el caso de los datos de la tabla 1. el planteamiento de hipótesis sería el siguiente: Aplicando el estadístico de prueba .12) se obtiene que el valor esperado de la suma de cuadrados .13) Por lo tanto. del error está dado por: (1.1. datos de resistencia de l a pulpa.A partir de la ecuación (1. puede ser de interés probar que es igual a cierta constante ( .El valor de -Student encontrado en tablas con grados de libertad y un 0. y el criterio de rechazo es el mismo. en este caso en el numerador del estadístico de la expresión (1. el estadístico queda de la siguiente manera . se rechaza la hipótesis nula valor-p .05 de nivel de significancia es 14 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol.05 concluimos que rechaz amos la hipótesis nula por lo tanto si existe una relación entre ambas variables. en lugar de probar que . . dado que el valor-p es menor que el nivel de significancia. En ocasiones. es decir. 0 bien.10) se resta . Raúl Jiménez González Se rechaza la Hipótesis nula Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0. con respecto del parámetro suele ser de interés probar la siguiente hipótesis: (1.15) El estadístico de prueba es el siguiente: El cual tiene una distribución -Student con grados de libertad. por lo que se rechaza si: o si se utiliza el criterio de la significancia observada se rechaza si el valor-p . Por otro lado. entonces se rechaza si el valor p . No rechazar que .Si se utiliza como criterio de rechazo la comparación de la significa ncia observada (p-value o valor p) contra la significancia predefinida (). Raúl Jiménez González Aplicando el estadístico de prueba 15 . el planteamiento de hipótesis sería el siguiente: Prue ba de hipótesis en regresión lineal simple Instituto Tecnológico de Ensenada Biol. el estadístico queda de la siguiente manera: (1. En el caso de los datos de la tabla 1. puede ser de interés probar que es igual a cierta constante .simplemente significa que el punto de corte de la línea recta pasa por el origen. es decir . es decir pasa por (0.16) se resta .17) y el criterio de rechazo es el mismo. En ocasiones. 0). en luga r de probar que .1. en el numerador del estadístico de la expresión (1. datos de resistencia de l a pulpa. en ese caso. El valor de -Student encontrado en tablas con de nivel de significancia es grados de libertad y un 0.05 concluimos que rechaz amos la hipótesis nula por lo tanto el punto de corte de la línea recta no pasa por el o rigen. dado que el valor-p es menor que el nivel de significancia. 0). es decir. La estimación de los parámetros del modelo y las pruebas de hipótesis sobre los mismos se sintetizan en la siguiente tabla: Parámetro Estimación Error estándar Estadístico Valor-p Intercepción . se rechaza la hipótesis nula valor-p .05 Se rechaza la Hipótesis nula Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0. no pasa por (0. O bien. Pendiente . 05 Se rechaza la Hipótesis nula 16 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. el resumen que nos arroja Excel y Minitab incluye el cálculo del valor de t y el valor-p. Raúl Jiménez González Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0. optando por cualesquiera de ambos estadísticos las hipótesis quedarían de la siguiente manera: El valor de -Student encontrado en tablas con de nivel de significancia es grados de libertad y un 0.Las pruebas de hipótesis para el ejemplo de las ventas contra clientes.05 concluimos que rechaz . . se presentaron los datos sobre la a la y la permeabilidad intrínseca de varias mezclas y curados de concreto .En el a de la superficie: resistencia compresión . 3.000647589 13. se rechaza la hipótesis nula valor-p . no pasa por (0. artículo de Concrete Research (Características del concreto cerc Permeabilidad intrínseca)..308620077 0.93374E-11 Ejercicios 1.¿Cuál es el propósito general del análisis de regresión? 2. dado que el valor-p es menor que el nivel de significancia.amos la hipótesis nula por lo tanto si existe una relación entre ambas variables. O bien.486903934 4. es decir.000162977 Clientes 0. Explique con sus palabras y a través de ejemplos. las característi cas de estos dos tipos de variables.008861219 0..68338889 5. Resumen de Excel Coeficientes Error típico Estadístico t Probabilidad Intercepción 2. en el caso de las hipótesis para la intercepción tenemos: Se rechaza la Hipótesis nula Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0.05 concluimos que rechaz amos la hipótesis nula por lo tanto el punto de corte de la línea recta no pasa por el o rigen. se rechaza la hipótesis nula valor-p . dado que el valor-p es menor que el nivel de significancia. 0).741428269 0. 0 bien.En el análisis de regresión intervienen dos tipos de variables: las independientes y las dependientes. Las cantidades resumidas son , Ʃ , Ʃ = 23 530, , Ʃ Ʃ = 157,42, y Ʃ = 1 697,80. Suponga que las dos variables se relacionan de acuerdo co n el modelo de regresión lineal simple. a) Calcule las estimaciones de mínimos cuadrados de la pendiente y la ordenada al origen b) Use la ecuación de la recta ajustada para predecir la permeabilidad que se obse rvaría cuando la resistencia a la compresión es = 4,3. c) Dé una estimación puntual de la permeabilidad media cuando la resisten cia a la compresión es = 3,7. d) Suponga que el valor observado de la permeabilidad para = 3,7 es = 46,1 Ejercicios 17 Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González 4.- Se utilizaron métodos de regresión para analizar los datos de un est udio para investigar la relación entre la temperatura superficial de una carretera (x) y la deflexión del pavimento (y). Las cantidades resumidas fueron , Ʃ , Ʃ = 8,86, Ʃ , Ʃ = 143 215,8, = 1 083,67. Ʃ a) Calcule las estimaciones de mínimos cuadrados de la pendiente y la ordenada al origen. Grafique la recta de regresión b) Use la ecuación de la recta ajustada para predecir la deflexión del pavimento que se observaría cuando la temperatura superficial es de 85. c) ¿Cuál es la deflexión media del pavimento cuando la temperatura superf icial es 90? d) ¿Qué cambio en la deflexión media del pavimento se esperaría para un cambio de 1 en la temperatura superficial? 5.- Se piensa que el número de libras de vapor consumidas mensualmente por una planta química se relaciona con la temperatura ambiente promedio (en ) d e ese mes. En la tabla siguiente se muestra la temperatura y el consumo anual: Mes Temperatura Consumo/1 000 Ene. Feb. Mar. Abr. May Jun. Jul. Ago. Sep. Oct. Nov. Dic. 21 24 32 47 50 59 68 74 62 50 41 30 185,79 214,47 288,03 424,84 454,58 539,03 621,55 675,06 562,03 452,93 369,95 273,98 a) Suponiendo que un modelo de regresión lineal simple es apropiado, aj uste el modelo de regresión que relacione el consumo de vapor () con la tempera tura promedio (). b) ¿Cuál es la estimación del consumo esperado de vapor cuando la temperat ura promedio es 55? c) ¿Qué cambio se espera en el consumo de vapor promedio cuando la temperatura mensual promedio cambia 1? d) Suponga que la temperatura mensual promedio es de 47. Calcule el vapor ajustado y el residual correspondiente. 18 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González 6.- En un artículo de Journal of Environmental Energineering se reportan los resultados de un estudio sobre la presencia de sodio y cloruros en corrientes superficiales de la parte central de Rhode Island. Los datos que se presentan a continuación corr esponden a la concentración de cloruros (en mg/l) y al área de carretera de la vertiente (en %). 4,4 6,6 9,7 10,6 10,8 10,9 11,8 12,1 14,3 14,7 15,0 17,3 19,2 2 3,1 27,4 27,7 31,8 39,5 0,19 0,15 0,57 0,70 0,67 0,63 0,47 0,70 0,60 0,78 0,81 0,78 0,69 1,30 1,05 1,06 1,74 1,62 a) Trace un diagrama de dispersión de los datos. ¿Parecería apropiado un modelo de regresión lineal simple en este caso? b) Ajuste el modelo de regresión lineal simple usando el método de mínimos cuadrados. c) Estime la concentración de cloruros media de una vertiente que tiene 1% del área de carretera. d) Encuentre el valor ajustado que corresponde a = 0,47 7.- Demuestre que en un modelo de regresión lineal simple el punto ( ) se localiza exactamente sobre la recta de regresión de mínimos cuadrados. 8.- En un artículo de Wear se presentan los datos del desgaste por rozamiento del acero dulce y la viscosidad del aceite. Los datos representativos, con = viscosidad d el aceite y = volumen del desgaste ( ), son: 240 181 193 1,6 9,4 15,5 155 20,0 172 22,0 110 113 35,5 75 43,0 94 40,5 33,0 a) Construya un diagrama de dispersión de los datos. ¿Parecería plausible u n modelo de regresión lineal simple? b) Ajuste el modelo de regresión lineal simple usando mínimos cuadrados. c) Estime el desgaste por rozamiento cuando la viscosidad es = 30. d) Obtenga el valor ajustado de cuando = 22,0 y calcule el resid ual correspondiente. 9.- Considérense los datos del ejercicio 4 para al de una carretera y = deflexión del pavimento. = temperatura superfici a) Pruebe la significación de la regresión utilizando esta prueba. ¿Qué conclusiones pueden sacarse? b) Estime . Encuentre el valor P para c) Estime los errores estándar de la pendiente y la ordenada al origen. 10.- En un proceso de extracción se estudia la relación entre tiempo de extracción y rendimiento. Los datos obtenidos se muestran en la siguiente tabla. Tiempo (minutos) 10 15 20 Rendimiento (%) 64 81,7 76,2 8 12 13 15 12 68,5 77,9 82,2 74,2 70 14 76 20 83,2 19 18 85,3 Ejercicios 1 9 Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González a) ¿En este problema cuál variable se considera independiente y cuál dependiente? b) Mediante un diagrama de dispersión analice la relación entre estas dos variables . c) Haga un análisis de regresión (ajuste una línea recta a estos datos, aplique pruebas de hipótesis y verifique residuos). d) ¿La calidad del ajuste es satisfactoria? Argumente e) Destaque el valor de la pendiente de la recta e interprételo en términos prácticos . f) Estime el rendimiento promedio que se espera a un tiempo de extracción de 25 minutos y obtenga un intervalo de confianza para esta estimación. 11.- Considere los datos del ejercicio 5 para = consumo de vapor y = temperatura promedio. a) Pruebe la significación de la regresión usando . ¿Cuál es el valor P para esta prueba? Enuncie las conclusiones que resultan de esta prueba. b) Estime c) Estime los errores estándar de la pendiente y la ordenada al origen. d) Pruebe la hipótesis contra usando . Encuentre el valor P para esta prueba. e) Pruebe la hipótesis contra usando . Encuentre el valor P para esta prueba y saque conclusiones. 12.- En el ejercicio 6 se presentan los datos e cloruros en corrientes superficiales y = área de carretera. a) Pruebe la hipótesis para = concentración d contra usando el procedimiento indicado con un nivel de significancia del 0,01 ( . 1.1.2. Calidad del ajuste en regresión lineal simple En la sección anterior estudiamos pruebas de hipótesis para verificar que hay una relación significativa entre y ; sin embargo, no hemos visto si tal rel ación permite hacer estimaciones con una precisión aceptable. Por ejemplo, es de interés saber qué tanta de la variabilidad presente en fue explicada por el modelo, además si se cu mplen los supuestos de los residuos. Coeficiente de determinación . Un primer criterio para evaluar la calidad del ajuste es observar la forma en que el modelo se ajustó a los datos. En el caso de la regresión lineal simple esto se distingue al observar si los puntos tie nden a ajustarse razonablemente bien a la línea recta (véase la figura 1.3). Pero otro cr iterio más cuantitativo es el que proporciona el coeficiente de determinación, el cual está def inido por: (1.17) Es claro que . En general se interpreta como la proporción de la variabilidad en los datos () que es explicada por el modelo. En el caso de los d atos de la resistencia de la pulpa (tabla 1.1) tenemos 20 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González = = 2580,86 = Por lo tanto, podemos decir que 93% de la variación observada en la resistencia es explicada por el modelo (línea recta), lo cual nos dice que la cal es descrita adecuadam Nota.idad del ajuste es satisfactorio. la relación entre ente por una línea recta. y que por ello. incluye el análisis de varianza para el modelo de regresión simple cuyo cuadro sintético es el siguiente: Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio Valor-p Regresión Error o residual Total 1 . El resultado arrojado por Excel o Minitab. Análisis de varianza en Minitab Fuente GL Regresión 1 Error residual 12 Total 13 S = 3.047173 1. = 93.531868 159.18) Resumen de Excel Estadísticas de la regresión Coeficiente de correlación múltiple 0.344189444 Análisis de los residuales Observación Pronóstico Resistencia Residuos .000 R-cuad.63909737 2.3252747 15.531868 2400.964432318 Coeficiente de determinación R^2 0.417790201 54.02710623 Total 13 2580.876481166 Observaciones 14 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F Regresión 1 2400.70702E-08 Residuos 12 180.624175824 0.857143 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Intercepción 130.75 P 0. Este coeficiente se calcula de la siguiente manera: (1.7467824 2.930129695 R^2 ajustado 0.92430717 Error típico 3.0 F 159.6747253 2.5 180.0% MC 2400.128504099 12.406813 Porcentaje de fibra 1.3 2580.70702E-08 1.4% Coeficiente de determinación ajustado .(ajustado) = 92.05975E-15 125.5 15.87648 SC 2400.9 R-cuad. 930129695 R^2 ajustado 0. Raúl Jiménez González donde el cuadrado medio total.624175824 0.661538462 8 159.841758242 10 166. se obtiene al dividir la suma de cuadrados total.654945055 12 172.531868 2400.1 137.668131868 4 146.9098901 -2.3252747 15.1714286 -3.58021978 3 143.4065934 -0. Cuando hay muchos términos en un modelo .1648352 -6.586813187 7 156. entre sus grados d libertad.1714286 -3.164835165 6 153.70702E-08 1.857143 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Intercepción 130.083516484 5 150.876481166 Observaciones 14 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F Regresión 1 2400.6747253 2.047173 1.02710623 Total 13 2580. el estadístico .6549451 -2.9164835 2.05975E-15 125.1516484 -2.1648352 -6.586813187 7 156.903296703 13 176.9098901 -2.417790201 54.63909737 2.90989011 9 163.661538462 8 159.70702E-08 Residuos 12 180.903296703 13 176.9032967 -1.841758242 10 166.4 3.1516484 -2.90989011 9 163.6681319 -1.668131868 4 146.171428571 2 140. .9032967 -1.6 Calidad de ajuste en regresión lineal simple 21 Instituto Tecnológico de Ensenada Biol.4065934 -0.654945055 12 172.92430717 Error típico 3.406593407 11 169.151648352 14 179.151648352 14 179.4131868 6.7467824 2. .964432318 Coeficiente de determinación R^2 0.171428571 2 140.406813 Porcentaje de fibra 1.531868 159.6615385 -0.6615385 -0.1582418 4.9164835 2.4197802 4.164835165 6 153.4 3.4131868 6.128504099 12.1582418 4.58021978 3 143.6681319 -1.344189444 Análisis de los residuales Observación Pronóstico Resistencia Residuos 1 137.6 Resumen de Excel Estadísticas de la regresión Coeficiente de correlación múltiple 0.083516484 5 150.406593407 11 169.6549451 -2.4197802 4. puesto que este último es engañoso al incrementarse en forma artificial con cada término que se agrega al modelo. Se cumple que . En el caso de los datos de la resistencia de la pulpa (tabla 1. En cambio.1). el coeficien te de determinación ajustado está dado por: Observe que estos coeficientes son arrojados automáticamente en Excel y Minitab. para fines de predicción se recomienda un coeficiente de determinación ajustado de al menos 0.7.se prefiere en lugar de . el incluso baja de valor cuando el término que se agrega no aporta nada. aunque sea un término que no contribuya en nada a la explicación de la respuesta. . En general. y si es próximo a cero.1). para los datos de la re sistencia de la pulpa (tabla 1. mide la intensidad de la relación lineal entre dos variables Si se tiene pares de datos de la forma ( . Por ejemplo. y finalmente se es próximo a . entonces tendremos una relación lineal negativa fuerte. Es bien conocido que el coeficiente de correlación. el coeficiente de correlación es. entonces este coeficiente se obtiene de la siguiente manera: (1. si es próximo a . . . entonces tendremos una relación lineal positiva fuerte.Coeficiente de correlación .19) Se puede ver que . entonces diremos que n o hay correlación lineal. lo cual habla de una correlación lineal positiva fuerte. 22 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. En el caso de la regresión lineal simple. que es una estimación de la desviación estándar del error . la . Raúl Jiménez González Error estándar de estimación . está dado por: = (1. Una medición sobre la calidad del ajuste de un modelo lo da el error estándar de estimación.20) Es claro que a medida que el modelo ajuste mejor. se const ruye la gráfica de probabilidad normal que se muestra en la figura 1.será menor y en consecuencia el error estándar de estimación también será menor. 10 5 0 -5 -10 99 95 90 80 70 60 50 40 30 20 10 5 1 Residuo P o r c e n t a j e Gráfica de probabilidad normal (la respuesta es Resistencia) Figura 1.2).4. por lo tanto. un análisis adecua do de los residuos proporciona información adicional sobre la calidad del ajuste de l modelo de regresión y de esa manera es posible verificar si el modelo es adecuad o. ya que los puntos en esta gráfica tienden a ajustarse a la línea recta. Por ejemplo.4 Gráfica de probabilidad normal para los residuos de la resistencia de l a pulpa A partir de la tabla 1. Si el modelo es adecuado se espera que en est a gráfica los puntos no sigan ningún patrón y que. estén distribuidos más o menos .5.2 es fácil obtener la gráfica de residuos contra predichos que se muestra en la figura 1. para los datos de la resistencia de la pulpa (tabla 1. Análisis gráfico de residuos. En ésta se apreci a que el supuesto de normalidad sobre los errores se cumple razonablemente bien. b) graficar los residuos contra los predichos. Como complemento a lo que se ha discutido hasta aquí. Las gráficas que suelen hacerse para completar el diagnóstico del modelo consisten en: a) graficar los residuos en papel de probabilidad normal. 0 -2. lo cual es una evidenci a más a favor del modelo de regresión simple para este ejemplo.0 Valor ajustado R e s i d u o vs. en ocasiones es de interés obtener una estimación por intervalos . Raúl Jiménez González 180 170 160 150 140 7. si se aprecia algún patrón habrá que ver cuál es el tipo de patrón que se observa en la gráfica y diagnosticar cuál es la falla que registra el modelo Estimación y predicción por intervalos en regr esión lineal simple 23 Instituto Tecnológico de Ensenada Biol.0 2.5 no muestra ninguna anomalía. sabemos que un estimador puntual de la respuest a media lo da la recta de regresión: Además de esto. ajustes (la respuesta es Resistencia) Figura 1.3.5 0.5 5. 1.aleatoriamente a lo largo y ancho de la gráfica. Cuando esto ocurre si gnifica que el modelo se ajusta de igual manera a lo largo de los valores de .5 -5. Estimación y predicción por intervalo en regresión lineal simple Una de las aplicaciones más importantes en un análisis de regresión es hac er estimaciones de la respuesta media para un valor dado de X.5 Gráfica de residuos contra estimados o predichos para la res istencia de la pulpa En particular la figura 1.1. Por el contra rio. En el caso particul ar de la regresión lineal simple. 21) A este intervalo se le conoce como intervalo para la recta de regresión. para lo cual aplicamos la siguiente ecua ción: (1. Not e que su amplitud depende del y de la distancia entre y = . y obtenemos el intervalo de confianza pa ra la respuesta media en = 12 (porcentaje de fibra) Primeramente calculemos el estimador puntual para cuando . La amplitud es mínima cuando y se incrementa conforme se hace más grande.1). Para ilustrar lo anterior consideremos el modelo ajustado a los datos del e jemplo de la resistencia de la pulpa (tabla 1.para a partir de cualquier valor de X. de la estimación puntual para la pendiente y la ordenada al o . está dado por y un intervalo de confianza al 95% para 24 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González De aquí que el intervalo de confianza para la respuesta media en = 12 está dada por: Además rigen.= 12. entonces tienen ambos una distribu ción igual a la de una variable aleatoria grados de libertad.22) . Esto l leva a la siguiente definición de los intervalos de confianza del % para la pendiente y la ordenada al origen. Si los términos del error. del modelo de regresión tienen una distribución normal e independiente. es posible obtener estimaciones de los intervalos de confianza par a estos parámetros.. (1. La anchura de estos intervalos de confianza es una medida d e la calidad global de la recta de regresión. (1.3442 y 1. y por intervalos con un 95% de nivel de confianza tenemos que esta se encuentra entre 1. y la producción de una máquina a tabla siguiente papelera (.1) tenemos Por lo que pendiente de forma puntual es 1..6242. Los datos se muestran en l Estimación y predicción por intervalo s en regresión lineal simple 25 Instituto Tecnológico de Ensenada Biol.23) En el caso del intervalo de confianza para la pendiente de los dat os del porcentaje de fibra (tabla 1. Raúl Jiménez González Número de .En un artículo se presentaron los datos de la concentración del licor verde (.9042 Ejercicios 1. observación Concentración Del licor verde Producción (tons 1 2 3 4 5 6 7 8 9 10 11 12 13 40 42 49 46 44 48 46 43 53 52 54 57 58 825 830 890 895 890 910 915 960 990 1010 1012 1030 1050 a) Encuentre un intervalo de confianza de 99% para b) La concentración media de cuando la producción es toneladas c) Encuentre un intervalo de predicción de 99% para la concentración de . Raúl Jiménez González Generalmente Excel no trae instalado la herramienta de análisis de dat os esta debe instalarse con la siguiente secuencia: 1. Encuentre un interval o de confianza de 99% para: a) la pendiente b) la ordenada al origen c) la deflexión media cuando la temperatura es d) Encuentre un intervalo de predicción de 99% para la deflexión del pavimento cuand o la temperatura es de .4..cuando 2.En el ejercicio 4 (de la sección anterior) se presentaron los datos de la temperatura superficial de una carretera y la deflexión del pavimento .De la ventana desplegada hacer clic en complementos ...En la hoja de cálculo de Excel (pantalla principal) hacer clic con el puntero en el símbolo del sistema localizado en el extremo superior izquierdo 2.1. 1. Encuentre un intervalo de confianza de 95% para: a) la pendiente b) la ordenada al origen c) la permeabilidad media cuando d) Encuentre un intervalo de predicción 95% para la permeabilidad cuando 3. para ello. Uso de un software estadístico Excel En la hoja de cálculo de Excel se incluye la regresión lineal simple y múltiple. es necesario realizar la siguiente secuencia de opciones: Datos 26 Análisis de datos CAPÍTULO 1 Regresión Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol.para toneladas Remítase a los datos del ejercicio 3 (de la sección anterior) intrínseca del concreto y a la compresión..De la ventana desplegada hacer clic en opciones de Excel (parte inferior) 3. En Minitab En Minitab la secuencia de captura para la regresión lineal simple o múltiple en la hoja de cálculo una vez capturada las columnas de datos seleccionamos Estadísti cas luego Regresión seguida de Regresión nuevamente . Raúl Jiménez González 4. poste riormente activamos Datos seguido de Análisis de datos y seleccionamos Regresión Datos 28 Análisis de datos CAPÍTULO 1 Regresión Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol..Uso de un software estadístico 27 Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González En la ventana de captura se solicitará el rango de celdas donde se encuentran los datos para la variable dependiente variable(s) regresora(s) Rango de entrada Rango de entrada y para la(s) Activamos la casilla de rótulos. primeramente capturamos los datos en la hoja de cálculo. Para capturar la tabla de datos para el análisis de regresión lineal sim ple o múltiple.De esta ventana activar la casilla de herramientas para análisis (p alomearla) y dar clic en aceptar. por default está indicado en una hoj a nueva. De esta manera hemos activado la opción de análisis de datos. y curva de regresión ajustada y aceptar.. grafica de residua les. seleccionamos además cualquiera de las opciones de residuos.De la ventana desplegada hacer clic en ir 5. y sea una variable de respuesta. terminando en aceptar. la temperatura promedio de la zona. Por ejemplo.2. Raúl Jiménez González 1. el número de pers onas que la habitan. etcétera. Nota: De la ventana de captura aparecen automáticamente en el cuadro de la izquierda la información de la tabla. se indica con un clic del ratón en res istencia y este automáticamente se manifiesta en el recuadro. en predictores de igual manera se da un clic en porcentaje de fibra y igualmente se manifiestan en el recuadro. en respuesta. y por lo tanto será necesario tomar en cuenta si se quiere predecir o entender mejor el comportamie nto de . entonces el modelo de regresión lineal múltiple con les independientes es el polinomio de primer orden:} variab . Raúl Jiménez González de la ventana desplegada en respuesta indicamos la variable de respues ta. en este caso es resistencia y en predictor indicamos porcentaje de fibra activando también cual quiera de las opciones posibles. 30 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. para explicar o predecir el consumo de electricidad en una casa habitación tal vez sea necesario considerar el tipo de residencia. Sea variables independientes o regresoras. Regresión lineal múltiple En muchas situaciones prácticas existen varias variables independientes que se cre e que influyen o están relacionadas con una variable de respuesta .Uso de un software estadístico 29 Instituto Tecnológico de Ensenada Biol. con media cero.22) representa un hiperplano en el espacio de dimensiones generado por la s variables { }. .22) . estamos en el caso de regresión lineal simple y el modelo es una línea recta. El término lineal del modelo de regresión se emplea debido a que la e cuación (1. En general.(1. la ecua ción (1. tal ecuación representa un plano. si . Para encontrar los coeficientes de regresión múltiple por el método de mínimos cuadrados aplicamos el siguiente sistema de ecuaciones normales: .22) Donde los son los parámetros del modelo que se conocen como coeficientes de regresión y es el error aleatorio. y mide el cambio esperado en por cambio unitario en cuando el resto de las variables regresoras se mantienen fijas o constantes.22) es función lineal de los parámetros desconocidos La interpretación de éstos es muy similar a lo ya explicado para el caso de regresión lineal simp le: es la ordenada al origen. Si en la ecuación (1. . (1. .23) Estas ecuaciones se pueden resolver para . Raúl Jiménez González Tabla 1.y mediante cualquier método apropiado para resolver sistemas de ecuaciones lineales Por ejemplo La siguiente tabla muestra los pesos Y a la libra más c ercana. las estaturas X 1 a la pulgada más cercana y las edades X 2 al año más cercano de 12 muchachos. estatura y edad Peso Estatura Edad 64 71 53 67 55 58 77 57 56 51 76 68 57 59 49 62 51 50 55 48 52 42 61 57 8 10 6 11 8 31 . Regresión lineal múltiple Instituto Tecnológico de Ensenada Biol.5 Peso. y ) múltiple mediante el método de mínimos cuadrados seria de la siguiente manera Tabla 1.6 Procedimiento para realizar los cálculos para la regresión múltiple Y 1 X 2 X 2 Y 2 1 X 2 2 X Y X 1 Y X 2 2 1 X X 64 71 53 67 55 58 77 57 56 51 76 68 57 59 49 62 51 .7 10 9 10 6 12 9 Para encontrar los coeficientes de regresión ( . 50 55 48 52 42 61 57 8 10 6 11 8 7 10 9 10 6 12 9 4096 5041 2809 4489 3025 3364 5929 3249 3136 2601 5776 4624 3249 3481 2401 3844 2601 2500 3025 2304 2704 1764 3721 3249 64 100 36 121 64 49 100 81 100 36 144 81 3648 4189 2597 4154 2805 . 139 = E 2 1 x 34.2900 4235 2736 2912 2142 4636 3876 512 710 318 737 440 406 770 513 560 306 912 612 456 590 294 682 408 350 550 432 520 252 732 513 = Ey 753 643 = E 2 x 106 = E 2 y 48.830 = E y x 2 .843 = E 2 2 x 976 = E y x 1 40. 6. Raúl Jiménez González Resolver este sistema de tres ecuaciones lineales para . El resultado seria el siguiente . es ta clase de cálculos son realizados por la computadora. Es común emplear matrices para simplificar el proceso.796 = E 2 1 x x 5. es por lo menos tedioso.779 Al sustituir las sumatorias calculadas en las ecuaciones normales. y . Hoy en día. se obtiene = E 1 x 32 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. . y por lo tanto la ecuación de regresión es La solución manual aplicando el sistema de tres ecuaciones lineales con tres incógnitas (3x3) pudiera ser aplicando el métodos de eliminación de Gauss o bien el método de Cramer. Para este tipo de planteamiento se recomienda el método de Cramer el cual consiste en la siguiente secuencia: Siguiendo la misma secuencia de la multiplicación para el denominador. así como para y . 796 12 643 106 (2.56070963x10 10 643 106 753 643 34.779 976 12 643 106 643 34. Raúl Jiménez González 753 40.843 5.779 40.779 643 34.779 .Sustituyendo los valores tendremos Regresión lineal múltiple 33 Instituto Tecnológico de Ensenada Biol.796 5.830 6.843 5.843 5.779 106 5.779 976 6.843 5.830 34. 855 Estatura + 1.(ajustado) = 64.4% .9% T 0.414 Predictor Coef Constante 3.4517 1. = 70.65 Estatura 0.51 Edad Coef.510006097x10 10 + 2.07 Análisis de varianza P 0.315 R-cuad.501139642x10 10 ) – (2.826 0.7 + 0.8546 Edad 1.091 0.562360144x10 10 ) ( 408081216 + 393885082 + 393885082 ) – ( 39 1495948 + 400762092 + 403526224 ) Siguiendo el mismo procedimiento correspondiente para y tenemos los coeficientes de regresión múltiple Análisis de regresión: Peso vs.525323601x10 10 + 2.506 S = 5.514782127x10 10 + 2. Edad en Minitab La ecuación de regresión es Peso = 3.23 1.89 1. de EE 16.17 0.36321 R-cuad. Estatura.+ 2. 69 10.88 888. con media cero y varianza .004 28. Una consecuencia de esta suposición es que las observaciones son: .76 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. pero ahora son más necesarias porque en regresión múltiple tenemos más parámetros en el modelo.25 CAPÍTULO 1 MC F P 314. sin embargo. También requerim os de la suposición de que los errores se distribuyen en forma normal. independie ntes.94 0. por lo general es necesario evalua r su verdadera contribución a la explicación de la respuesta.2. Pruebas de hipótesis en regresión lineal múltiple Las hipótesis sobre los parámetros del modelo son equivalentes a las real izadas para regresión lineal simple. Raúl Jiménez González Resultados en Excel 1.37 258. La hipótesis global más importante sobre un modelo de regresión múltiple consiste en ver si la regresión es significativa.1.Fuente GL Regresión 2 Error residual 9 Total 11 34 SC 629. Esto se logra proband o la siguiente hipótesis: . 154255319 10 48.892135824 0.76407182 Total 11 888.863475177 3 54.50633232 1.3733536 314.854609929 0.15425532 -7.28698075 -4.073961499 7 65.565096251 4 73. Mientras que rechazar implica que por lo menos un término en el modelo contribuye de manera significativa a explicar .9260385 1.71808511 11.56509625 -1.414640324 2 69.9402688 0.079027356 Pruebas de hipótes is en regresión lineal múltiple 35 .692959262 Análisis de los residuales Observación Pronóstico Peso Residuos 1 64.20668693 5 59.6866768 10.141590679 12 65.8766464 28.417173252 11 73.643788584 Error típico 5.82637676 -32.167125373 Edad 1.003895018 Residuos 9 258.Aceptar significa que ningún término o variable en el modelo tiene una contribución significativa al explicar la variable de respuesta .41464032 -0.13652482 1.85840932 2.363214691 Observaciones 12 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F Regresión 2 629.451664156 1.708554296 R^2 ajustado 0. El procedimiento para probar esta hipótesis es una generalización del procedimiento utilizado para probar la hipótesis equivale nte en regresión lineal simple.16780562 0.9229014 Estatura 0.841756673 Coeficiente de determinación R^2 0.414265835 1.20668693 -6.28698075 6 56.58282675 2.92097264 2.28191489 8 58.0910251 -0.06509843 0.22948328 -1.651215805 16.229483283 9 63.31457045 -1. Resumen Estadísticas de la regresión Coeficiente de correlación múltiple 0.25 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Intercepción 3.22583249 0. se rechaza si o también si Ejemplo Se probará la significación de la regresión (con los pesos . Así.24) que bajo tiene una distribución . Raúl Jiménez González El estadístico de prueba para la significancia del modelo de regresión li neal múltiple esta dado por: (1.5 El valor de utilizando los datos de . estaturas y edades de la tabla 1.Instituto Tecnológico de Ensenada Biol. 26 = = Se rechaza la Hipótesis nula Dado que el valor encontrado en formula es mayor al punto crítico en base al nivel de significancia por lo que rechazamos la hipótesis nula y aceptamos la alte rna lo cual implica que por lo menos un término en el modelo contribuye de m anera significativa a explicar Tabla 1.7 ANOVA para la significancia del modelo de regr esión lineal múltiple Fuente de variación Suma de cuadrados Grados de .9402 .por comodidad observamos el resumen arrojado por Excel y/o Minitab 10.94 En tanto que el valor de encontrado en tablas cuando tenemos un nive l de significancia de 0.05 y 2 grados de libertad en el numerador y 9 en el denominador el cual es igual a 4.calculado por formula nos da un valor de = 10. libertad Cuadrado medio Regresión Error o residuo Total K n-1 . 94 0.7 es muy sencillo calcular el coeficiente de determinac ión . y el coeficiente de determinación ajustado : (1.25) .69 10.25 MC F P 314. como las gráficas de residuales y el coeficiente de determinación.004 28.36 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol.88 888. Con la información del análisis de varia nza de la tabla 1.37 258. Raúl Jiménez González Análisis de varianza en Minitab Fuente GL Regresión 2 Error residual 9 Total 11 SC 629. Por ello es importan te tener mediciones adicionales de la calidad del ajuste del modelo.76 Coeficiente de determinación El que un modelo sea significativo no necesariamente implica que sea bueno en términos de que explique la variación de los datos. Para los datos de la tabla 1. Cuando en el modelo hay términos que no contribuyen de manera significativa a éste. en general.(1. para hablar de un modelo que tiene un ajuste satisfactorio es necesario que ambos coeficientes tenga n valores superiores a 0. es deseable depurar el modelo y para ello las siguientes pruebas de hipótesis son de mucha uti lidad.26) Ambos coeficientes se interpretan de forma similar al caso de regresión lineal simple.7. el tiende a ser menor que el . Se cumple que . es decir. como el porcentaje de variabilidad de los datos que son explic ados por el modelo. Por lo tanto.5 tenemos que . Resumen Estadísticas de la regresión Coeficiente de correlación múltiple 0,841756673 Coeficiente de determinación R^2 0,708554296 R^2 ajustado 0,643788584 Error típico 5,363214691 Observaciones 12 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018 Residuos 9 258,8766464 28,76407182 Total 11 888,25 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Intercepción 3,651215805 16,16780562 0,22583249 0,82637676 -32,9229014 Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125373 Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959262 Análisis de los residuales Observación Pronóstico Peso Residuos 1 64,41464032 -0,414640324 2 69,13652482 1,863475177 3 54,56509625 -1,565096251 4 73,20668693 -6,20668693 5 59,28698075 -4,28698075 6 56,9260385 1,073961499 7 65,71808511 11,28191489 8 58,22948328 -1,229483283 9 63,15425532 -7,154255319 10 48,58282675 2,417173252 11 73,85840932 2,141590679 12 65,92097264 2,079027356 Pruebas de hipótesi s en regresión lineal múltiple 37 Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González Coeficiente de correlación múltiple Es la raíz cuadrada del coeficiente de determinación (1.27) y es una medida de la intensidad de la relación entre la variable dependiente, , y el conjunto de variables o términos en el modelo Error estándar de estimación Al igual que en regresión lineal simple, el error estándar de estimación proporciona l a medida del error de ajuste de un modelo, éstas tienen una interpretación similar a l a que se dio para el caso de regresión lineal simple. En cuanto al cálculo en el caso múltip le, el error estándar de estimación, (1.28) En el caso del ejemplo de los pesos, estatura y edades tenemos 1.2.2. Intervalos de confianza y predicción en regresión múltiple En los modelos de regresión múltiple con frecuencia es conveniente constru ir estimaciones de intervalos de confianza para los coeficientes de regres ión . Por ejemplo, a partir de la tabla 1.6 es claro que un estimador por int ervalos de cada coeficiente en lo individual está dado por: (1.29) Tabla 1.8 Análisis de regresión múltiple Parámetro Estimación Error estándar Estadístico Intercepción Valor-p . . . . . . . . 38 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González También es posible obtener un intervalo de confianza con respecto a la respuesta media en un punto particular, digamos está dado por: Ejercicios de regresión lineal múltiple 13.- ¿Por qué se requiere la regresión lineal múltiple? 14.- Se realizo un estudio para investigar la relación de la resistencia al corte del terreno () con la profundidad en pies ( ) y el contenido de humedad . Se hicieron 10 observaciones, obteniéndose las siguientes cantidades resumidas , , , , , , , , y a) Establezca las ecuaciones normales de mínimos cuadrados para el model o b) Estime los parámetros del modelo del inciso a) c) ¿Cuál es la resistencia predicha cuando pies y ? 15.- En una empresa dedicada a anodizar artículos de aluminio (baterías de cocina), el anodizado se logra con una solución hecha a base de ácidos (sulfúrico, cítrico, bórico) y dicromato de aluminio. En este proceso se controla el pH de la solución, la temper atura, la corriente y el tiempo de permanencia. Debido al poco grosor del a nodizado, han aumentado las quejas por la escasa resistencia y durabilidad del producto. Para resolver este problema se decide estudiar, mediante un experimento, la relación d el pH y la temperatura con el grosor del anodizado. Los datos se muestran en la siguiente t abla: pH Temperatura Espesor 1,2 1,8 1,2 1,8 1,2 1,8 1,2 1,8 1,5 9402688 0. Raúl Jiménez González .073961499 7 65.854609929 0.3733536 314.28698075 6 56.92097264 2.71808511 11.5 -8 -8 8 8 -8 -8 8 8 0 0 9 14 10 19 8 12 11 20 14 13 a) ¿Cuáles son las variables independientes y cuál la dependiente? Argumente Resumen Estadísticas de la regresión Coeficiente de correlación múltiple 0.167125373 Edad 1.85840932 2.22948328 -1.708554296 R^2 ajustado 0.41464032 -0.76407182 Total 11 888.15425532 -7.25 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Intercepción 3.229483283 9 63.31457045 -1.20668693 5 59.141590679 12 65.003895018 Residuos 9 258.414640324 2 69.417173252 11 73.82637676 -32.13652482 1.651215805 16.841756673 Coeficiente de determinación R^2 0.06509843 0.565096251 4 73.643788584 Error típico 5.9229014 Estatura 0.414265835 1.892135824 0.0910251 -0.154255319 10 48.6866768 10.363214691 Observaciones 12 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F Regresión 2 629.20668693 -6.28191489 8 58.58282675 2.50633232 1.1.28698075 -4.692959262 Análisis de los residuales Observación Pronóstico Peso Residuos 1 64.56509625 -1.451664156 1.16780562 0.22583249 0.863475177 3 54.8766464 28.9260385 1.079027356 Intervalos de confianza y predicc ión en regresión múltiple 39 Instituto Tecnológico de Ensenada Biol. 3 0.5 5 5 0. ¿cuál es el espesor estimado cuando se utiliza un pH = 2 y una temperatura de 10 grados? d) ¿El modelo es adecuado? Argumente con base en graficas de residuos.387 0.5 4 4.67 7.33 7.213 0. pruebas de hipótesis y coeficientes de determinación. La variable de respuesta observada es e l sabor promedio reportado por un grupo de cinco panelistas que probaron todos los que sos y los calificaron en una escala hedónica..5 5.b) Ajuste un modelo del tipo y anote la ecuación del modelo ajustado c) A partir del modelo ajustado. Los datos obtenidos se muestran a continuación: Sal Cuajo Sabor 6 5.213 0.22 6.387 0.33 6.66 a) Ajuste el modelo .11 7.3 0.3 5. 16.33 6.3 0.5 4.44 7.Se realizó un experimento para estudiar el sabor del queso panela en función d e la cantidad del cuajo y la sal. Se piensa que la energía eléctrica consumida mensualmente por una planta química se relaciona con la temperatura ambiente promedio ( .b) ¿El modelo explica la variación observada en el sabor? Argumente con base en la significancia del modelo. el número de días laborales del mes ( . los residuales y el coeficiente de determinación. Se cuenta con los datos del último año. c) Ajuste un modelo que incluya términos cuadráticos y analice con detalle la c alidad del ajuste aplique las pruebas de hipótesis d) Compare el error estándar de estimación ( y los coeficientes de determinación ( ) para ambos modelos e) ¿Cuál modelo prefiere para explicar el sabor? 17. la pureza promedio del producto y las toneladas del producto producidas .. los cuales se presentan en l a tabla siguiente: 240 236 290 274 301 . 316 300 296 267 276 288 261 25 31 45 60 65 72 80 84 75 60 50 38 24 21 24 25 25 26 25 25 24 25 25 23 91 90 88 87 91 94 87 86 88 91 90 89 100 95 110 88 94 99 97 96 110 105 100 98 a) Ajuste un modelo de regresión lineal múltiple a estos datos 40 CAPÍTULO 1 Regresión lineal simple y múltiple . 3. primeramente capturamos los datos en la hoja de cálculo. y aceptar Datos Análisis de datos Regresión En la ventana de captura se solicitará el rango de celdas donde se encuentran los datos para la variable dependiente Rango de entrada y para la(s) variable(s) regresora(s) Rango de entrada (para los datos de X1 y X2.2. por default está indicado en una hoj a nueva. Interprete esta cantidad d) Grafique los residuales contra . y curva de regresión ajustada y aceptar y tendremos el resultado. Utilizando Minitab En Minitab la secuencia de captura para la regresión lineal simple o múltiple en la hoja de cálculo una vez capturada las columnas de datos seleccionamos Estadísti cas luego Regresión seguida de Regresión nuevamente . Raúl Jiménez González Activamos la casilla de rótulos. Uso de un software estadístico Para capturar la tabla de datos para el análisis de regresión lineal múl tiple. Interprete la grafica 1. se somb rean ambos simultáneamente con el ratón. Raúl Jiménez González b) Prediga el consumo de electricidad para un mes en el que . seleccionamos además cualquiera de las opciones de residuos. en este caso a partir de la columna 2) Uso de software estadístico 41 Instituto Tecnológico de Ensenada Biol. grafica de residua les. posteriormente activamos Datos seguido de Análisis de datos y seleccionamos Regresión. días y toneladas c) Calcule para este modelo.Instituto Tecnológico de Ensenada Biol. 414 1.708554296 R^2 ajustado 0.506 1.92290147 40.8766464 28.Estadísticas Regresión Regresión De la ventana desplegada en respuesta indicamos la variable de respues ta.841756673 Coeficiente de determinación R^2 0.167125376 1.315 .876345234 Edad 1.0% Intercepción 3.07 0. en este caso es resistencia y en predictor indicamos porcentaje de fibra activand o también cualquiera de las opciones posibles.0% Superior 95.855 Estatura + 1.92290147 40.2253330 8 -32.17 0.363214691 Observaciones 12 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F Regresión 2 629. terminando en aceptar.6866768 10.414265835 1.643788584 Error típico 5.9402688 0.22533308 Estatura 0.06509843 0. Edad La ecuación de regresión es Peso = 3.705623908 42 CAPÍTULO 1 Regresión lineal simple y múltiple Instituto Tecnológico de Ensenada Biol. Análisis de regresión: Peso vs.0910251 -0.705623908 -1.167125376 1.76407182 Total 11 888.876345234 -0.4517 1. Resumen Estadísticas de la regresión Coeficiente de correlación múltiple 0.651215805 16. Estatura.7 + 0.89 0.82637676 -32.8546 0.51 Edad Coef. Raúl Jiménez González Nota: De la ventana de captura aparecen automáticamente en el cuadro de la izquierda la información de la tabla. en respuesta .003895018 Residuos 9 258. en predictores de igual manera se da un clic a cada uno y estos se manifiestan en el recuadro.69 2959268 4.22583249 0.451664156 1.50633232 1.3733536 314.16780562 0.65 16.854609929 0. se indica con un clic del ratón en peso y este automáticamente se manifiesta.692959268 4.826 Estatura 0.31457045 -1.25 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Infer ior 95.091 Edad 1.23 0.892135824 0. Predictor Coef de EE T P Constante 3. debemos buscar la función que ha de describir la dependencia entre las dos variables.3. la exponencial y la potencial. Por tanto. pero desde luego. Nos limitaremos al estudio de las más utilizadas: la función parabólica.(ajustado) = 64.74 Edad 1 32. Regresión no lineal Si las dos variables X recta.26R R denota una observación con un residuo estandarizado grande. potencial etc. Aquí se puede distinguir entre regresión pa rabólica.37 314.25 Fuente GL SC sec. Se observa una clara re lación entre las dos variables. Regresión no lineal 43 Instituto Tecnológico de Ensenada Biol. se habla de regresión lineal simple y Y se relacionan según un modelo de línea Cuando las variables X y Y se relacionan según una línea curva.36321 R-cuad. Raúl Jiménez González 1. hemos obtenido la figura 6. Supongamos que al hacer la representación gráfica correspondiente la distribución bidimensional.63 Observaciones poco comunes Obs Estatura Peso Ajuste 7 55.72 Ajuste Residuo SE Residuo estándar 1.S = 5.4% Análisis de varianza Fuente GL SC MC F P Regresión 2 629.9% R-cuad. exponencial.96 11.94 0. esa relación no es lineal. la logarítmica. .69 10.1c.88 28. = 70. se habl a de regresión no lineal o curvilínea.28 2.0 77.004 Error residual 9 258.76 Total 11 888. Estatura 1 596.00 65. Parábola de Regresión En muchos casos. La expresión general de un polinomio de 2º grado es: donde a. b y c son los parámetros. por tanto. por tanto. e los valores estimados según el modelo. podemos escrib ir D de la forma: 44 CAPÍTULO 1 Regresión lineal simple y múltiple . un razonamiento similar al que hicimos en el caso del modelo de regresión lineal simple. Seguiremos para ello. El problema consiste. y i son los valores observados de la variable dependiente. siguiendo la notación habitual. haciendo que la suma de los cuadrados de las desviaci ones con respecto a la curva de regresión sea mínima: donde. utilizando el procedimiento de ajuste de los mínimos cuadrados. es una función de segundo grado la que se ajusta lo suficiente a la situación real dada. en determinar dichos parámetros para un a distribución dada. es decir. Instituto Tecnológico de Ensenada Biol. Las ecuaciones que ema se conocen como ecuaciones normales de Gauss (igual que en el ión lineal simple). deberemos igualar las derivadas parciales de D con respecto cero y resolver el sistema resultante. b y c que hacen nterior. Raúl Jiménez González Para encontrar los valores de a. mínima la expresión a a dichos parámetros a forman dicho sist caso de la regres . basta con hacer antilog(a). donde ahora . y el parámetro B se obtiene tomando antil og(b). está referida a y a Y. obtendremos: También se trata de la ecuación de una recta . obtendremos: Como vemos es la ecuación de una recta: . Modelo exponencial: Tomando logaritmos en la expresión de la función exponencial. de la forma y uno exponencial se reduce al de la función lineal. y A lo obtenemos mediante el antilog(a). pero en lugar de estar referida a las variables originales X e Y. De modo que el problema es sencillo. 45 . Hemos visto. estos tres últimos se reducen al modelo lineal s in más que transformar adecuadamente los datos de partida. de modo que. El parámetro b del model o potencial coincide con el coeficiente de regresión de la recta ajustada a los datos transfor mados. con solo tomar logaritmos.Función Exponencial. Potencial y Logarítmica El problema de ajustar un modelo potencial. Modelo potencial: Si tomamos logaritmos en la expresión de la función potencial. basta con transformar Y en y X en y ajustar una recta a los valores transformados. cómo. para obtener el parámetro A del m odelo exponencial. pero ahora ajustándola a y a X. a pesar de ser inicialmente modelos mucho más complejo s que el de una recta. Modelo logarítmico: La curva logarítmica Y = a + b es también una recta. Raúl Jiménez González Competencias 1. Identificar dentro de la familia de los diseños experimentales. . Verificar los supuestos del modelo estadístico en diseños con un solo factor. Raúl Jiménez González Capítulo 2 Diseño de experimentos de un factor 2. 3. Diferenciar los distintos modelos estadísticos y los análisis de varian zas en experimentos con un sólo factor. 2. Experimentos con un solo factor En este tipo de diseño de experimento se considera un sólo factor de interés y el objetivo es comparar más de dos tratamientos. 2.6. aquel los utilizados en la comparación de tratamientos. Realizar las diversas pruebas de rangos múltiples y la comparación por contrastes.3.1. 2.2. 4. con el fin de elegir la mejor alternativa entre las varias que existen.5. 2. 46 Familia de diseños para comparar tratamientos El modelo de efectos fijos Diseño completamente aleatorio y ANOVA Comparaciones o pruebas de rangos múltiples Verificación de los supuestos del Modelo Uso de un software estadístico CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. 2.Instituto Tecnológico de Ensenada Biol.4. 2. o por lo menos para tener una mejor comprensión del comportamiento de la variable de interés en cada uno de los distintos tratamientos. frente a la alternativa de que al menos dos de ellos son di ferentes. existe un interés y un objetivo clar o. en este caso. el interés del experimentador está centrado en comparar los tratamientos en cuanto a sus medias poblacionales.En esta unidad se presentan los diseños experimentales que se utilizan cuando el objetivo es comparar más de dos tratamientos. Por ejemplo. tres materiales. varios proveedores. etc. se hace con el fin de estudiar si alguna dieta que se propone es mejor o igual que las que ya existentes. cinco dosi s de un fármaco. cuatro procesos. Por lo general. la hipótesis fundamental a probar cuando se comparan varios t ratamientos es: (2. La estrategia natural para resolver este problema es obtener una mue stra representativa de mediciones en cada uno de los tratamientos.1) es mediante la prueba T de Student aplicadas a todos los posibles pares de me dias. al hacer tales comparaciones. la variable de interés es el peso promedio alcanzado por cada grupo de animales después de ser alimentado con la die ta que le toco. Puede ser de interés comparar tres o más máquinas. sin olvidar que tam bién es importante compararlos con respecto a sus varianzas. Así. sin embargo. esta manera de proceder incrementaría de manera considerable el error t ipo I . desde el punto de vista estadístico. Es obvio que. y construir un est adístico de prueba para decidir el resultado de dicha comparación Se podría pensar que una forma de probar la hipótesis nula de la expresión (2.1) Con la cual se quiere decidir si los tratamientos son iguales estadísticamente en cuanto a sus medias. una comparación de cuatro dietas de alimentación en la que se utilizan ratas de laboratorio. lotes. ya que al utilizar todos los operadores con todas las máquinas permite tener resultados de la comparación que son válidos para todos los operadores. día.(rechazar siendo verdadera). manejadas por operadores diferentes. Esta última de manera nulificar el efe cto de operadores.Cada operador trabaje durante el experimento con cada una de las máq uinas. Se controlan factores que por conocimiento del proceso o experiencia previa. etc. tipo de producto. Para evitar este sesgo habría dos maneras de anular el po sible efecto del factor operador: . entonces. lo que impide una comparación adecuada de los equipos. es pertinente incluir explícitamente al factor operadores (bloques) pa ra lograr el propósito del estudio. Son factores adicionales al factor de interés que se incorporan de mane ra explícita en un experimento comparativo. Un operador más hábil puede ver a su máquina (aunque ésta sea la peor) com o la que tiene el mejor desempeño. se sabe que pueden afectar en forma sensible el re sultado de la comparación . Raúl Jiménez González Ejemplo En el caso de comparar un operador diferente y se tado. Experimentos con un solo factor 47 Instituto Tecnológico de Ensenada Biol. pero restringe la validez de la comparación a dicho operador. ya que al utilizar el mismo operador. turno. Cuando se comparan varias máquinas. para estudiar de manera más adecuada y eficaz al factor de interés.Utilizando el mismo operador en las cuatro máquinas. esta estrategia es más recomendable. . También se podrían controlar el tipo de material. es claro que se quiere comparar a las máquinas de varias máquinas. si cada máquina es manejada por sabe que éste tiene una influencia en el resul el factor operador debe tomarse en cuenta si manera justa. se elimina el efec to del factor operador. Esta estrategia no es aconsejable. recibe el nombre de Bloqueo. Observación. Factores de bloqueo. y es posible que el resultado no se mantenga al utilizar o tros operadores. en lugar de seguir un plan experimental adecuado que garantice una buena respuesta a las interrogantes planteadas. El diseño de experimentos consiste en determinar cuáles pru ebas se deben realizar y de qué manera. resolver un problema o lograr mejoras. ¨intuitivo¨ Es tal el poder de la experimentación que. 2. Comparar a dos o más materiales con el fin de elegir al que mejor cumple los requerimientos. hipótes is). Determinar los factores (las x vitales) de un proceso que tienen . Sin embargo. 3. Algunos problemas típicos que pue den resolverse con el diseño y el análisis de experimentos son los siguientes: 1. por ejemplo. con base en el ensayo y error. en ocasiones. se realiza un análisis informal. al ser analiza dos estadísticamente. y de esa manera clarificar los aspectos inciertos de u n proceso.En el campo de la industria es frecuente hacer experimentos o pruebas con la intención de resolver un problema o comprobar una idea (conjetura. métodos o condiciones de operac ión de un proceso. Comparar varios instrumentos de medición para verificar si trabajan c on la misma precisión y exactitud. hacer algunos cambios en los materiales. para obtener datos que. por lo que es mejor proceder siempre en una forma eficaz que garantice la obtención de las respuestas a las interrogantes planteadas en un lapso corto de tiempo y utilizando pocos recursos . Raúl Jiménez González complejidad no es suficiente aplicar este tipo de experimentación. es común que estas pruebas o experimentos se hagan sobre la marcha. probar varias temperaturas en una máquina hasta encontrar la que de el mejor resultado o crear un nuevo material con la intención de lograr mejoras o eli minar algún problema. El diseño estadístico de experimentos es precisamente la forma más eficaz de hacer pruebas. Algo similar ocurre con el análisis de los dat os experimentales. apelando a la experiencia y a la intuición. proporcionen evidencias objetivas que permitan responder las interrogantes planteadas. Sin embargo. en situaciones d e cierta 48 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. se logra mejoras a p esar de que el experimento se hizo con base en el ensayo y error. donde más que hacer un análisis riguroso de toda la infor mación obtenida y tomar en cuenta la variación. 7. Ayudar a conocer y caracterizar nuevos materiales. Nota. hasta obtener señales útiles que permitan mejorarlo. En general. 4. El saber diseño de experimentos y otras técnicas estadísticas. en combinación con conocimientos del proceso. humedad . sino que éste se ¨manipulan¨ para que proporcione la información que se requiere para su mejoría. por ejemplo) donde se reduzcan los defectos o se logre un mejor desempeño del proceso. En este sentido.Observar o monitorear vía herramientas estadísticas. cuando se requiere mejorar un proceso existen dos maneras básicas de obtener la información necesaria para ello: . Hacer el proceso insensible o robusto a oscilaciones de variables ambientale s. Diseño en bloque completamente al azar (DBCA) 3. Encontrar las condiciones de operación (temperatura. . Los diseños experimentales más utilizados para comparar tratamientos son: 1. 6.La otra manera consiste en experimentar.1. velocidad. El diseño de experimentos es un conjunto de técnicas activa s.impacto sobre una o más características del producto final. sitúan al responsable del mismo como un observador perceptivo y proactivo que es capaz de proponer mejoras y de observar algo inter esante (oportunidades de mejora) en el proceso y en los datos donde otra persona no ve nada. que muchas veces se concretan en mejoras sustanciales del proceso. Reducir el tiempo de ciclo del proceso. Diseño en cuadro grecolatino (DCGL) . es decir. Raúl Jiménez González 2. hacer cambios estratégicos y deliberados al proceso para provocar dichas señales útiles. se dice que ésta es una estrategia pasiva. Familia de diseños para comparar tratamientos. Apoyar el diseño o rediseño de nuevos productos o procesos 8. Comentarles la anécdota de las naranjas Experimentos con un solo factor 49 Instituto Tecnológico de Ensenada Biol. Al analizar los resultados del experimento se obtienen las pautas a s eguir. Diseño completamente al azar (DCA) 2. Diseño en cuadro latino (DCL) 4. experimentar es mejor que sentarse a esperar a que el proceso nos in dique por sí solo cómo mejorarlo. 5. en el sentido de que no esperan que el proceso mande las señales útiles. Diseño Factores de bloqueo ANOVA con Modelo estadístico DCA 0 Un criterio DBCA 1 Dos criterios DCL 2 Tres criterios . dos.La diferencia fundamental entre estos diseños es el número de factores de bloque que incorporan o controlan de forma explícita durante el experimento. se hace mediante la hipótesis que se prueba con la técnica estadística llamada Análisis de Varianza (AN OVA) con uno. en cualqu iera de estos diseños. La com paración de los tratamientos en cuanto a la respuesta media que logran. dependiendo del número de factores de bloques incorporados al diseño. tres o cuatro criterios de clasificación. Se agrega una nueva fuente de variabil idad por cada factor de bloque que se controla directamente. para cada diseño comparativo se tienen al menos dos fuentes de variabilidad: los tratamientos o niveles del factor de interés y el error aleatorio. Se observa que los diseños sup onen que no hay efectos de interacción entre los factores. El modelo estadístico que describe el comportamiento de la variable obse rvada Y en cada diseño. incorpora un término adicional por cada factor de bloq ueo controlado. son los efectos de tres factores de bloqueo.DCGL 3 Cuatro criterios Y es la variable de salida. lo cual sería lo deseable que ocurra. Raúl Jiménez González . y . De acuerdo con los modelos dados en la tabla. de no ocurrir así. tal efecto se recarga al error y el p roblema de comparación no se resuelve con éxito. error aleatorio. el efecto del i-ésimo tratamiento. 50 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. Un efecto de interacción entre dos factores hace referencia a que el efecto de cada factor depende del nivel en que se encuentra el otro. la media global. es un síntoma de que existe un efecto de dicho tratamient o.2) donde es el parámetro de escala común a todos los tratamientos. La media global de la variable de respuesta no se considera una fuente de varia bilidad por ser una constante común a todos los tratamientos. Este modelo implica que en el diseño completamente al azar actuarían a lo más dos fuentes de variabilidad: Los tratamientos y el error ale atorio. Este modelo se supone cuando el investigador se interesa únicamente por los nivele s del factor presentes en el experimento. . cada uno de los cuales le afect a sólo a la media. La diferencia que debe tener las medias entre sí para concluir que hay un efecto (que los tratamientos son d iferentes). llamado media global. nos lo dice el análisis de varianza (ANOVA). En caso que los tratamientos tengan efecto. ya que como se verá más adelante. Cuando esto sucede es con veniente . El modelo de efectos fijos El modelo de efectos fijos (es cuando se estudian todos los posibles tratamientos) de análisis de la varianza se aplica a situaciones en las que el experimentador ha so metido al grupo o material analizado a varios factores.2.2. por lo que cualquier variación obser vada en las puntuaciones se deberá al error experimental. Si la respuesta media de un tratamiento particular es ¨muy diferente¨ de la respuesta media global . las observaciones se podrán describir con el modelo estadístico lineal dado por: (2. es un parámetro que mide el efecto del tratamiento y es el error atribuible a la medición . En la práctica puede suceder que los tratamientos que se desea compar ar sean demasiados como para experimentar con todos. . que hace las vec es de punto de referencia con respecto al cual se comparan las respuestas medias de los tratami entos. permaneciendo la "variable respuesta" con una distribución normal. B. si durante el estudio se hacen en total N pruebas. Los tiempos de ensamble obtenidos se muestran en la tabla 2.comparar sólo una muestra de la población de tratamientos. lo cual hace posible compararlos a todos. éstas se corren al azar. dado que sólo consideran dos fuente s de Diseños completamente al azar y ANOVA 51 Instituto Tecnológico de Ensenada Biol. En la siguiente u nidad veremos diseños que consideran la influencia de otras fuentes de variabilidad (bloques). Este diseño se llama completamente al azar porque todas las corridas experimentales se realizan en orden aleatorio completo. el modelo dado por la ecuación (2. se hacen con base en el diseño completamente al azar (DCA). 2) se llama modelo de efectos fijos. Un equipo de mejora investiga el efecto de cuatro métodos de ensamble A. se supone que. de modo que pasa a ser una variable aleatoria con su propia varianza que deberá estimarse a partir de los datos. En este caso. De esta manera. En este capítulo sólo se presenta el caso en que todos los trata mientos que se tienen se prueban. de manera que los po sibles efectos ambientales y temporales se vayan repartiendo equitativamente en tre los tratamientos. se supone una población pequeña de tratamien tos. En primera instancia. 2. C y D.1. es decir. como las antes mencionadas. la estrategia experimental es aplicar cuatro veces los cuatro métodos de ensamble en orden completamente aleatorio (las 16 pruebas en orden aleatorio). Diseño completamente al azar y ANOVA Muchas comparaciones.05. sobre el tiempo de ensamble en minutos con un nivel de significancia de 0. Raúl Jiménez González variabilidad: los tratamientos y el error aleatorio.3. Ejemplo 1 Comparación de cuatro métodos de ensamble. además del método de ensamble. no existe ningún otro factor que influya de manera significativa sobre la variable de respuesta (tiempo de ensamble) . Si se usa el diseño completamente al azar ( DCA). que es el más simple de todos los diseños que se utiliz an para comparar dos o más tratamientos. Los datos (en miligramos) sobre el desgaste de cada tipo de cuero se muestran en la tabla 2. C y D disponibles en el mercado.Tabla 2.7 Comparación de cuatro tipos de cuero (cuatro tratami Promedio 255 206 228 222 . Un fabricante de calzado desea me jorar la calidad de las suelas. sei s de cada tipo de cuero.2 Tabla 2. Para ello. B.8 220. las cuales se pueden hacer con uno de los cuatro tipos de cuero A.1 Diseño completamente al azar para el ejemplo 1 Método de ensamble A B C D 6 8 7 8 7 9 10 8 11 16 11 13 10 12 11 9 Ejemplo 2 Comparación de cuatro tipos de cuero. la suela de éstos se desgasta al pasarla por dicha superficie. Al hacer las pruebas en orden completamente al a zar se evitan sesgos y las mediciones en un tipo de cuero resultan independientes de las demás.8 230. Como criterio de desgaste se usa la pérdi da de peso después de un número fijo de ciclos.7 209. prueba los cueros con una máquin a que hace pasar los zapatos por una superficie abrasiva.2 entos) Tipo de cuero Observaciones A B C D 264 260 258 241 262 208 220 216 200 213 220 263 219 225 230 217 226 215 227 220 256. Se prueban en orden aleatorio 24 zapatos. así como su solución utilizando un paquete computacional. El objetivo del análisis de varianza en el DCA es probar las hipótesis de igualdad de los tratamientos con respecto a la media de la correspond iente variable de respuesta: Nota: Primeramente explicare el cálculo manual tradicional para ANOVA. Raúl Jiménez González El análisis de la varianza de un criterio (ANOVA de un criterio) es u na metodología para analizar la variación entre muestras y la variación al int erior de las mismas con varianzas. en lugar de rangos.52 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. Como tal. Estas dos estimaciones se denotan por y . Se denomina estimación de la varianza entre muestras (Método entre) . posteriormente el simplificado y más práctico. El método de ANOVA con un criterio requiere del cálculo de dos estimaciones independientes para . es un método estadístico útil par a comparar dos o más medias poblacionales. . la varianza poblacional común. Se denomina estimación de la varianza al interior de las muestras (Método dentro) El estadístico entonces resulta y tiene una distribución muestral que sigue una distribución F. si es pequeño se confirma la validez de Método dentro El método dentro de estimación de la varianza produce una estimación válida sin importar si la hipótesis nula de las medias poblacionales iguales es cierta. en cambio.. Esto se debe a que la variabilidad de los valores de la muestra se determina comparando cada el emento Diseños completamente al azar y ANOVA Instituto Tecnológico de Ensenada 53 .3) El cual se contrastara con el valor de encontrado en tablas en relac ión a los grados de libertad del numerador entre grados de libertad del denomina dor y con un nivel de significancia () prefijado. se contradice la hipótesis de que no hay efectos de tratamientos. Estadístico F para el ANOVA con un criterio (2. Se rechaza la si Se deduce que si es grande. = i-ésimo elemento de los datos de grupo j. La ecuación para c varianza con el método dentro es: = donde: (2.Biol. Cada valor de la muestra obtenido de la pobl la media muestral A. El número adecuado de grados de libertad para el método dentro se calcula como c(n-1) si el número de observaciones en cada grupo es igual.C = número de grupos . c se multiplica por (n-1) para obtener los grados de libertad para el método dentro. sólo (n-1) elementos de cada grupo pueden variar. cada elemento obtenido de la pob media muestral B.n = número de elementos de la muestra en cada grupo. y así sucesivamente. Como a cada elemento del grupo se le resta la media de ese grupo.4) = Estimación de la varianza muestral con el método entre. Además como se tienen c grupos. Grados de libertad para gl w = C(n – 1) Método entre . = media del grupo j . Raúl Jiménez González en los datos con ación A se compara con lación B se compara con la alcular la estimación de la la media muestral. La raíz cuadrada d e esta varianza es el error estándar de la media. la diferencia estándar entre una media muestral y la media poblacional. Si el error estándar de la media es o\n. La media de tod os los valores muestrales proporciona esa estimación. Este importante teorema en estadística esta blece que la distribución de las medias muestrales tiende a una distribución normal confor me crece el tamaño de la muestra. Esta suma se divide entonces entre el número adecuado de grados de libertad para obtener la estimación de la varianza de la distribución muestral. Para entender el método entre recuerde el teorema del límite central. se determina la diferencia entre la media de cada grupo y esta media poblacional estimada. para estimar la varianza de la distribución muestral de medias. con frecuencia se llama la suma de cuadrados entre (SC b ). Después. Esta varianza es una medida de las diferencias entre todas las medias muestral es que puedan obtenerse de la distribución y la media de la población. se debe estimar primero la media poblacional. o 2 \n. con una media µ y una desviación estándar o \n.El segundo método para estimar la varianza común de la población produce u na estimación válida sólo si la hipótesis nula es cierta. Este valor. entonces la varianza de la distribu ción es igual al error estándar al cuadrado. es decir. Raúl Jiménez González = . y estas diferencias se el evan al cuadrado y se suman. En ANOVA. La ecuación siguiente da el cálculo de la estimación de la varianza de la distribución muestral de las medias: 54 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. 5) = Estimación del método entre de la varianza poblacional común. = media del grupo j.C = número de grupos . Cada valor de los datos se compara con su propia media. usada como estimación de µ. . La siguiente tabla muestra la forma general de la tabla ANOVA. Fuf fFuente de variación SC GL Estimación de o 2 Coeficiente F Grupos Entre .donde: (2. y la sum a de las diferencias al cuadrado se divide entre los grados de libertad c(n-1). Grados de libertad para gl b = (C – 1) Tabla ANOVA Los resultados del análisis de varianza se presentan en una tabla ANOVA que resume los valores importantes de la prueba. Esta tabla tiene un form ato estándar que usan los libros y los problemas de computadora que ejecutan ANOVA. = media global (media de todos los valores). Primero se usa el método dentro pa ra estimar o 2 . En dicha tabla se resumen los cálculos necesarios para la prueba de igualdad de las medias poblacionales usando análisis de varianza.n = número de elementos de la muestra en cada grupo si el número de observaciones en cada uno es el mismo. sobre el tiempo de ensamble en minutos tenemos: Diseños completamente al azar y ANOVA Instituto Tecnológico de Ensenada Biol.1 / gl b S S / Grupos Dentro 2 c(n-1) / gl b Total ¿ ¿ ( x ij – x ) 2 donde: = . Raúl Jiménez González Método de ensamble 55 . las suma s de cuadrados.c = . C y D. Retomando el problema del efecto de cuatro métodos de ensamble A. las estimaciones de la varianza y el valor F para el procedimiento de análisis de varianza.i = .2 c . los grados de libertad. B.n = Número Número Número Número de de de de la columna la fila columnas (grupos) elementos en cada grupo (tamaño de la muestra) La tabla ANOVA contiene columnas con las fuentes de variación. 25 8.5 12.75 10.5 Media global : = 9. = 4 = + n = 4 .A B C D 6 8 7 8 7 9 10 8 11 16 11 13 10 12 11 9 Media ( i ) 7.73 C = 4. + + Completando la tabla ANOVA.49 3 69. quedando de la siguiente manera Fuente de Variación SC gl Estimación de o 2 Coeficiente F --------------------------------------------------------------------------------------------------------Grupos entre 69.75/3 = 23.25 23.42 Grupos dentro 29.45 = 9.48 12 29.25/2 .97 15 Como la hipótesis a probar es H 0 : 1 µ = µ 2 = µ 3 = µ 4 H 1 : No todas las poblaciones tienen la misma media El valor de F calculado por tabla cuando tenemos un nivel de signifi cancia de .---------------------------------------------TOTA 98.45 ----------------------------------------------------------.48/12 = 2. 05 (3. concluyend o que sí hay diferencia o efecto de los métodos de ensamble en cuanto a su tiempo promedio.42) excede el valor crítico tabul ado (3.05 y 3 grados de libertad en el numerador y 12 grados de libertad en el denom inador es F 0.49).49 Como nuestro estadístico de prueba F (9.0. rechazamos la hipótesis nula y aceptamos la alterna. 56 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. .3 Diseño completamente al azar (DC A) Tratamientos … . Raúl Jiménez González Ahora veremos el procedimiento y notación más comúnmente utilizado para la solución de ANOVA Tabla 2.12) = 3. . . .. con y . . … . Las cantidades de interés son las siguientes: - - - . … Notación de puntos Sirve para presentar de manera abreviada cantidades numéricas que se pueden calcul ar a partir de los datos experimentales donde representa la observación en el tratamiento . Así.- Note que el punto indica la suma sobre el correspondiente subíndice.6) donde es el total de observaciones. Para probar la hipótesis dada por la relación: . algunas relaciones válidas son: (2. ANOVA Como ya lo mencionamos el objetivo del análisis de varianza en el DCA es probar la hipótesis de igualdad de los tratamientos con respecto a la media de c orrespondiente variable de respuesta. 3 es la suma total de cuadrados ( ) dada por: Diseños completamente al azar y ANOVA Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González 57 .mediante la técnica de ANOVA. lo primero es descomponer la variabilidad total de los datos en sus dos componentes: la variabilidad debida a tratamientos y la que corresponde al error aleatorio (equivalente al método entre y método dentr o). como se hace a continuación. Una medida de la variabilidad total presente en las observaciones de la tabla 2. 8) donde apreciamos que la mide la variación o diferencias entre tratamientos. ya que si éstos son muy diferentes entre sí. y con ello también será grande la La suma de cuadrados del error ( ) ésta dado por: .7) donde es la suma de los datos en el experimento. entonces la diferencia tenderá a ser grande en valor absoluto.(2. La suma de cuadrados de tratamientos ( ) ésta dado por: (2. Los dos que más interesan son el cuadrado medi o de tratamientos ( ) y el cuadrado medio del error ( .9) donde la mide la variación dentro de tratamientos. esta descomposición de la suma total de cuadra dos se puede describir como: (2. que se denotan por: (2. por lo que .(2.12) Con base en este hecho se construye el estadístico de prueba como sigue: se sabe que y son independientes.10) La suma de cuadrados divididos entre sus respectivos grados de liber tad se llaman cuadrados medios. En forma abreviada.11) (2. ya que si hay mucha variación entre las observaciones de cada tratamiento entonces tenderá a ser grande en valor absoluto. en cambio . respectivamente. donde el valor-p es el área bajo la distribución a la derecha del estadístico . si 58 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. También se rechaza si el valor-p .13) sigue una distribución con ( grados de libertad en el numerador y ( ) grados de libertad en el denominador.y son dos variables son dos variables aleatorias independientes con distribución jicuadrada con y grados de libertad.13) se deduce que si es grande. De la ecuación (2. se rechaza si donde es el percentil ( ) x 100 de la distribución . el ) . Raúl Jiménez González es pequeño se confirma la validez de . Así para un nivel de significancia prefijado. es decir. el estadístico (2. se contradice la hipótesis de que no hay efecto de tratamientos. Entonces. bajo el supuesto de que la hipótesis es verdadera. Toda la información necesaria para calcular el estadístico hasta llegar al valor-p se escribe en la llamada tabla de análisis de varianza (ANOVA) que se mues tra en la tabla 2. En esta tabla. valor-p = significancia observada Tabla 2.4. suma de cuadrados.4 Tabla de ANOVA para DCA SC GL CM Valor-p Tratamientos Error Total . las abreviaturas significan lo siguiente: fuente de variabilidad (efecto). estadístico de prueba. cuadrado medio. grados de libertad. ) Análisis del ejemplo 1 (comparación de cuatro tipos de métodos de ensamble) . La interrogante que se planteó en el problema de la comparación entre los cuatro tipos de métodos de ensamble fue: ¿existen diferencias entre el tiempo promedio de los diferentes métodos de ensamble? La respuesta a esta pregunta es el resu ltado de contrastar las hipótesis: . Cálculos manuales Detalles de los cálculos para el ANOVA en DCA para el tiempo de ensamble Métodos de ensamble Operaciones básicas Observaciones A B C D 6 7 11 10 8 9 16 12 7 10 11 11 8 8 13 9 = Suma de los cuadrados de todas las observaciones o datos = suma de los datos total de mediciones . 75 10.25 3.50 12.50 -1.media global Total por Tratamiento ( 29 34 51 42 Numero de datos En cada tratamiento ( 4 4 4 Media muestral por Tratamiento ( 4 7.Suma total de cuadrados o variabilidad total de los datos: = 1620 - .. Raúl Jiménez González 1.25 8.50 Desviaciones respecto -2.75 A la media global ( Diseños completamente al azar y ANOVA 59 Instituto Tecnológico de Ensenada Biol.0 0. Cuadrados medios de tratamientos y del error (efecto ponderado de cada fuente de variación): ..2.Suma de cuadrados del error o variabilidad dentro de métodos de ensamble: 4...Suma de cuadrados de tratamientos o variabilidad debida a la dife rencia entre métodos de ensamble: 3. lo cual es difícil de calcular de forma manual.17 9. Como: entonces se rechaza . Sin embargo.49 .5 3 23.5. El val or de la significancia observada o valor-p es el área bajo la curva de la distr ibución a la derecha de . con lo cual se concluye que sí hay diferencias o efecto de los métodos de ensamble en cuanto a su tiempo promedio Tabla ANOVA Fuente de variaciones SC GL CM Valor crítico para F Tratamientos 69. En el caso de las tablas de la distribución . recordemos que otra forma de rechazar o no una hipótes is es comparar el estadístico de prueba contra un número crítico de tablas. en donde se lee que el valor crítico para es . cuando esto no sea posible.Estadístico de prueba: Con toda esta información se procede a llenar la tabla ANOVA..42 3. 0 Desv.46 Total 99.0 12. en general.500 1.250 0. B.568 Nivel A B C D R-cuad.5 15. agrupada --------+---------+---------+---------+(------*------) (------*------) (------*------) (------*------) --------+---------+---------+---------+7.00 S = 1. 4 7. tratamientos y. se observa un poco más de vari abilidad en el método C que en todos los demás.42 0. = 70.291 R-cuad.291 4 12. proveedores.0 15 Resultados arrojados en un paquete computacional (Excel y Minitab). Por otra parte.20% N Media Desv.Est.750 2. la media del método D también se ve diferente a la media del método A. par a el ejemplo 1 de los tiempos de ensamble para los cuatro métodos. 60 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol.1) que el método C parece d iferente al los métodos A y B en cuanto a sus medias. es necesario hacer pruebas estadísticas porque los datos que se analizan en los diagramas de cajas son muestras.500 1.50 2.5 10. para hacer análisis por estratos (lotes.363 4 10.Est. En el resultado arrojado por Minitab se observa en la figura (figura 2. Raúl Jiménez González ANOVA unidireccional: A.Error 29.5 12 2. C. agrupada = 1. y es de suma utilidad para comparar procesos.50 23.002 Error 12 29. .568 Diagrama de cajas simultáneos Los diagramas de cajas es una herramienta para describir el comporta miento e unos datos. D Minitab Fuente GL SC MC F P Factor 3 69. por lo tanto.957 4 8. turnos).(ajustado) = 62.46 Total 15 99.17 9.Est. Lo que sigue es verificar que lo que se observa en el diagrama de cajas implica diferencias significativas entre los distintos tratami entos.75% ICs de 95% individuales para la media basados en Desv. La interrogante que entre los cuatro tipos de cuero los diferentes tipos de cuer hipótesis: .Diseños completamente al azar y ANOVA 61 Instituto Tecnológico de Ensenada Biol.0 12. y en cualquier ca so es conveniente utilizar una prueba estadística para determinar cuáles diferencias son sign ificativas.5 15.0 7.0 D a t o s Gráfica de caja de A. y la probabilidad es ma yor en la medida que los diagramas están basados en más datos. D Figura 2.1 Diagrama de cajas para los métodos de ensamble Análisis del ejemplo 2 (comparación de cuatro se planteó en el problema de la comparación fue: ¿existen diferencias entre el desgaste promedio de o? La respuesta a esta pregunta es el resultado de contrastar las tipos de cuero). D C B A 17. C. Estas pruebas se verán en la siguiente sección.5 5. B. cuando los diagramas no se traslapan es probable que lo s tratamientos correspondientes sean diferentes entre sí. Raúl Jiménez González En general. Cuando se traslapan un poco puede ser que haya o no diferencias significativas.5 10. 29 (----*-----) 7.Est.825 Total 9075.1666667 22. Como el valor-p = 0.26 (-----*----) 16.5 20 102. se muestra el análisis de varianza para este ejemplo.9666667 ANÁLISIS DE VARIANZA Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los c uadrados F Probabilidad Valor crítico para F Entre grupos 7019.4.8333333 266.Est.098391224 Dentro de los grupos 2056.94% ICs de 95% individuales para la media basados en Desv. si rechazamos la hipótesis nula ( .000 2057 103 9076 R-cuad.458333 3 2339.34% Media 256.67 210. agrupada Desv.76 0. C.0000 es menor que la significancia prefijada .50 230. ----+---------+---------+---------+----8.17615E-06 3.5 52.79 (----*-----) ----+---------+---------+---------+----208 224 240 256 Desv. se rechaza y se acepta que al menos un par de tipos de cuero tiene un desgas te promedio diferente Análisis de varianza de un factor en Excel RESUMEN Grupos Cuenta Suma Promedio Varianza A 6 1540 256. = 77.17 R-cuad.Est.14 2. B.83 221.34 (----*-----) 4.(ajustado) = 73.7 C 6 1385 230.14 Nivel A B C D N 6 6 6 6 SC MC F P 7019 2340 22. Raúl Jiménez González ANOVA unidireccional: A. agrupada = 10.6666667 B 6 1263 210.6666667 68.966667 D 6 1327 221. Sin embargo.7553556 1. D Minitab Fuente GL Factor 3 Error 20 Total 23 S = 10.958333 23 62 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. Comparaciones o pruebas de rangos múltiples El análisis de varianza es un procedimiento poderoso para probar la hom ogeneidad de un conjunto de medias.819444 22.En el resultado arrojado por Excel. el problema es probar la igualdad de todos los posibles pares de medias con la hipótesis: Compara ción o pruebas de rangos múltiples Instituto Tecnológico de Ensenada Biol. Método de la diferencia mínima significativa de Fisher (método LSD). Estas interrogantes se responden probando la igualdad de todos los p osibles pares de medias. Comparación de parejas de medias de tratamientos. conocido s como métodos de comparaciones múltiples o pruebas de rango múltiple. Cuando no se rechaza la H 0 : µ 1 = µ 2 = µ 3 . La diferenci a primordial entre los métodos radica en la potencia que tienen para dete ctar las diferencias entre las medias. para lo cual se han propuesto varios métodos. Se dice que una prueba es más potente si es capaz de detectar diferencias más pequeñas. Una vez que se rechazo en el ANOVA. Raúl Jiménez González 63 . Hay varios métodos estándar para realizar comparaciones pareadas que apoyen la credibilidad de la tasa de error tipo I.) y aceptamos la alterna (que no todas las medias son iguales) aún no sabemos cuáles de las medias poblacionales son iguales y cuáles son diferentes. es necesario investigar cuáles tratamientos resultaron diferentes. o cuáles provocan la diferencia. Si por el con trario se rechaza H 0 . el objetivo del experimento está cubierto y la conclusión es que los tratamientos no son diferentes. y por consiguiente se acepta la H 1 : No todas las poblaciones tienen la misma media. El estadístico de prueba para cada una de las hipótesis dadas es la correspondiente diferencia e n valor absoluto entre sus medias muestrales . Se rechaza la hipótesis si ocurre que (2. el es el cuadrado medio del error y se obtiene de la tabla ANOVA. y . si existen posibles pares de medias. Por ejemplo.14) donde el valor de se lee en las tablas de la distribución T de student con grados de libertad que corresponde al error. Para tratamientos se tienen en total pares de medias.para toda . La LSD se llama diferencia mínima significativa de Fisher. El método LSD tiene una p otencia importante. en el cual. Para investigar cuáles pares de medias son estadísticamente diferentes se prueban los seis posibles pares de hipótesis: . Ilustremos esta prueba continuando con el ejemplo 1. cada diferencia de medias muestrales que si el diseño es balanceado. si . Así. la diferencia mínima significativa se reduce a: (2. con el ANOVA se rechazó la hipótesis nula y se aceptó que al menos un par de medias de tratamien tos (métodos de ensamble) son diferentes entre sí. respectivamente. ya que es la diferencia mínima que debe existir entre dos medias muestrale s para considerar que los tratamientos correspondientes son significativamente diferent es.15) En caso de rechazar se acepta la hipótesis alternativa la cual nos dice que las medias de los tratamientos son diferentes. es decir. por lo que en ocasiones declara significativas aun pequeñas diferencia s.son el número de observaciones para los tratamientos . . entonces La decisión sobre cada una de las seis hipótesis listadas arriba se ob tiene al comparar las correspondientes diferencias de medias muestrales en valor absoluto con el número LSD = 2. Como en cada tratamiento se hicieron pruebas. EN el ANOVA se observa que los grados de libertad del error son .16) Utilizando el método de LSD. y que el cuadrado medio del error es . de donde se concluye que mientras que . Raúl Jiménez González Student con 12 grados de libertad.(2. de la tabla de la distribución T de 64 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. .5. Se declaran significativas aquellas diferencias que s on mayores a este número.42. Los resultados se muestran en la tabla 2. Si usamos una significación predefinida de . se obtiene que . 50 – 10.50 = 2. Tabla 2.42 No significativo Significativo Significativo Significativo No significativo No significativo En el resultado de comparación de parejas arrojado por minitab.42 8. por el método .42 8.25 2.42 12..50 = 1.8.75 = 4.50 – 12.50 2.25 2.25 2.25 – 12.75 – 10.25 2.75 = 5.25 .50 = 3.50 = 2 2.42 7.25 – 10.5 Aplicación de la prueba LSD a métodos de ensamble Diferencia poblacional Diferencia muestral en valor absoluto Decisión 7.42 7. 084 5.17) donde .0 Se restó B a: Inferior Centro Superior -------+---------+---------+---------+-C 1. Es el método más conservador para comparar pares de medias de tratamientos.666 (-----*-----) -------+---------+---------+---------+--4.250 6. por unto medio de cada comparación (centro) y contrastarlo con e student obtenido en tablas (2.666 (-----*-----) D -0.666 (-----*-----) C 3.0 0.834 4.0 8.000 4.250 3.42) y tomar la decisión que intervalos de confianza pa lo que debemos tomar el p el valor del estadístico t d corresponda Intervalos de confianza individuales de Fisher(LSD) del 95% Todas las comparaciones en parejas en Minitab Se restó A a: Inferior Centro Superior -------+---------+---------+---------+-B -1.de LSD.416 (-----*-----) -------+---------+---------+---------+--4. Raúl Jiménez González Método de Tukey.166 (-----*-----) -------+---------+---------+---------+--4.0 Se restó C a: Inferior Centro Superior -------+---------+---------+---------+-D -4.0 0. el cu al consiste en comparar las diferencias entre medias muestrales con el va lor crítico dado por: (2.0 0.250 0.916 (-----*-----) D 0.0 4. observamos que este nos indica los ra las comparaciones de cada par de muestras.500 7.0 Compara ción o pruebas de rangos múltiples 65 Instituto Tecnológico de Ensenada Biol.0 8.166 1.0 4.0 8.0 4.666 -2.416 2.250 5.834 3. 45 4 4 12 0. muy cercano al declarado Ejemplo. Raúl Jiménez González sustituyendo en la ecuación tenemos .20 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol.Es el cuadrado medio del error ( / gl b ) Es el número de observaciones por tratamiento Es el número de tratamientos Es igual a los grados de libertad para el error Es el nivel de significancia prefijado Son puntos porcentuales de la distribución del rango estudentizado. A diferencia de los métodos LSD y Duncan.05 66 en tablas de rango estudentizado corresponde a 4. ( / gl b ) = 2. que se obtienen de la correspondiente tabla Se declaran significativamente diferentes los pares de medias cuya di ferencia muestral en valor absoluto sea mayor que . se toma la información pertine nte y de las tablas del rango estudentizado (tabla 1) dada en el apéndice. el método Tukey trabaja con un error por el experimentador. Al aplicar el método de Tukey al ejemplo 1 de los métodos de ensamble. a partir de la tabla ANOVA correspondiente. 00 2.27 3.27 3.25 2.25 5. los resultados sobre las hipótesis son: Diferencia poblacional Diferencia muestral 1.25 3.27 3.25 4.27 3.50 3.27 3.Que al compararlo con las diferencias de medias muestrales.27 . 043 3. la cual si se detecta por otros métodos.Decisión No significativo Significativo No significativo Significativo No significativo No significativo De esta tabla se concluye que . por lo que debemos tomar el p unto medio de cada comparación (centro) y contrastarlo con el valor del estadístico de rango estudentizado obtenido en tablas (4.0 10. por el método de Tukey. observamos que este nos indica los intervalos de confianza para las comparaciones de cada par de muestras.0 0.207 5.043 1. Esto es congruente con el hecho de que la prueba de Tukey es menos potente que la prueba LSD (diferencia mínima significativa) En el resultado de comparación de parejas arrojado por minitab. y .500 8.0 5.543 (------*-----) C 2.0 .250 6.793 (------*------) D -0.20) y sustituyendo en la formula obteniendo el valor de . .250 4. el cual se contrasta con la diferencia de medias y se tomar la decisión que corresponda Intervalos de confianza simultáneos de Tukey del 95% Todas las comparaciones en parejas en Minitab Se restó A a: Inferior Centro Superior -----+---------+---------+---------+---B -2. Observe que esta prueba no encuentra diferencias entre los métodos d ensamble A y D.543 (------*-----) -----+---------+---------+---------+----5. Este procedimiento también se basa en la notación general del ran go studentizado.0 10. Raúl Jiménez González Método de Duncan.0 0.0 0.293 (------*------) -----+---------+---------+---------+----5.043 (------*-----) -----+---------+---------+---------+----5. Este valor se llama rango de menor significancia para las medias y se denota como .0 10.0 Se restó C a: Inferior Centro Superior -----+---------+---------+---------+---D -5.18) Este procedimiento de Duncan también se llama prueba de rango múltiple de Duncan.543 -2.0 5. los promedios se acomodan en orden ascendente y el error estándar de los promedio s se estima con (2.543 (------*-----) D -1.0 Compara ción o pruebas de rangos múltiples 67 Instituto Tecnológico de Ensenada Biol.0 5.Se restó B a: Inferior Centro Superior -----+---------+---------+---------+---C 0. En este método para la comparación de medias.957 4.293 2.000 5. si las muestras son de igual tamaño.250 7. El rango de cualquier subconjunto de medias muestrales de be exceder cierto valor antes de que se encuentre que cualquiera de las medias es diferent e.250 1. Estas comparaciones continúan hasta que la media mayor se haya compar ado con todas las demás.Enseguida.Primero se comparan la diferencia entre la media más grande y la más pequeña con el rango .Luego. se compara la diferencia entre la segunda media más grande y la media menor con el rango . . que se denominan rango studentizado de menor significancia. la diferencia entre la media más grande y la segunda más pequeña se compara con el rango . dependen del nivel de significancia que se desea y el número de grados de libertad del cuadrado medio del error.Después la diferencia entre la segunda media más grande y la segunda más pequeña se compara con el valor de .(2. Estos valores se pueden obt ener de la tabla valores críticos para la prueba de Duncan (tabla 2) Las diferencias observadas entre las medias muestrales se comparan con los ra ngos (rango de menor significancia) de la siguiente manera: .19) ( = muestras) Grados de libertad para el error que corresponden a ( = ) = Cuadrado medio del error ( / gl b ) = Numero de observaciones por tratamiento = Valores críticos para la prueba de Duncan (obtenidos en tabla) Los valores de la cantidad . entonces esas dos medias poblacionales también se consideran estadísticamente iguales. Raúl Jiménez González medias caen entre otras dos que no son muy diferentes..78 = Estos valores se obtienen de la tabla correspondiente Substituyendo en la ecuación tenemos: .05 = 12 = 2.Y así sucesivamente hasta que se comparan los posibles con el rango que les corresponda pares de medias En las comparaciones donde la diferencia observada es mayor que el ra ngo respectivo.46 = = 0. Ejemplo. se concluye que esas medias son significativamente diferente s. Supongamos que nos interesa probar las seis hipótesis para los cuatro métodos de ensamble del problema anterior. = 0. Si dos 68 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. = (3.23)(0.78) = (3.78) Estos rangos se comparan con las diferencias de medias de acuerdo a l método descrito anteriormente.08)(0.78) = (3. En la siguiente tabla se resumen los resultados Diferencia poblacional .33)(0. Las cuatro medias muestrales acomodadas en orden ascendente son: de aquí se obtienen las diferencias en el orden dado por el método de Duncan y se van comparando con el rango correspondiente. 60 = 10.25 = 3.0 2.27 2.40 = Decisión Significativo Significativo No significativo Significativo No significativo No significativo Compara .40 = 8.5 2.25 = 1.25 2.Diferencia muestral Comparada con su rango 12.25 = 5.50 = 3.25 2.75 – 8.40 = 10.52 = 12.50 = 2.25 2.50 – 7.75 – 10.60 = 12.50 – 8.75 – 7.50 = 2.50 – 7. Por ejemplo. Hacer comparaciones con respecto al control implica probar las hipótesi s dadas por: . Un procedimiento de prueba desarrollado por C. Método de Dunnet (Comparación de tratamientos con un control). denotemos como tratamiento control al tratamiento. esto sirve como referencia para decidir la posible u tilidad de los medicamentos. Raúl Jiménez González De esta tabla se concluye que . Que son las mismas conclusiones que se obtuvieron con el método LSD. En general. Por facilidad. En su lugar. en un solo nivel de significancia.W. En muchos problemas científicos y de ingeniería no interesa extraer infere ncias con respecto a todas las posibles comparaciones entre las medias de los tratamientos . las pruebas de Duncan y LSD tienen un desempeño similar. y . Dunnett determina diferencias significativas entre cada media del tratamiento y el control.ción o pruebas de rangos múltiples 69 Instituto Tecnológico de Ensenada Biol. mientras que . al comparar varios medicamentos pa ra el resfriado es conveniente que uno de los tratamientos sea que los paci entes no utilicen ningún medicamento. y . el experimento a menudo dicta la necesidad de comparar de mane ra simultánea cada tratamiento con un control. son los grados de libertad del cuadrado medio de l error. donde es el tratamiento control. . .con si. a fin de estimar su media con mayor precisión. Se recomienda que el tamaño de muestra del tratamiento control sea grande. La hipótesis nula se rechaza donde = Media del tratamiento = Media del tratamiento control Valor encontrado en tablas de Dunnett = Grados de libertad del cuadrado medio del error = Cuadrado medio del error Donde se encuentra en las tablas (tabla 3) valores críticos para la prueba de Dunnett. 5 53. sin ningún catalizador.38 = 51.1 52. se utiliza como control.0 52.2 50.0 47. Para ilustrar el procedimiento de Dunnett .04 49.8 53.7 54. como es prueba bilateral = .8 49.5 54.1 52.44 = = = 2.5 54.0 53.7 54. consideremos los datos experimentales de la siguiente tabla para la clasificación unilateral don de se estudia el efecto de tres catalizadores sobre el rendimiento de una reacción. Un cuarto trata miento.1 57.5 51.7 48. Raúl Jiménez González Rendimiento de la reacción Control r 3 Catalizador 1 Catalizador 2 Catalizado 50.59 = grados de libertad del erros medio .1 52.2 53.7 51.2 = 53.Ejemplo. 70 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol.9 49. 60 2.38 – 51.5 – 51.9593) = 2.48 Se acepta la hipótesis nula. no hay diferencia significativa de la mues tra 1 con la patrón 2.6 = 49.= 53.44 = 2.04 – 51.06 = 54.44 = 2.48 Se acepta la hipótesis nula RESUMEN .06 2.06 = 2.44 = 2.48 Se rechaza la nula y se acepta la alterna 2.06 2.59 = 2.48 2.59(0. 786 3 22.600 5.2 54.5 0.682 Catalizador 2 5 54. Catalizador 1.44 2.59 Control = Control Intervalos para media de tratamientos menos media de control Nivel Inferior Centro Superior Catalizador 1 -0.79 22.500 0.9 49.59533333 9.040 1.087 Catalizador 3 -4.82085552 0.440 1.2 51.427 Nivel --------+---------+---------+---------+Catalizador 1 (---------*---------) Catalizador 2 (---------*---------) Catalizador 3 (---------*---------) --------+---------+---------+---------+-2.113 2. Control 5 51.81 2.30075 Total 104.238 Catalizador 3 5 246.04 3.465 Catalizador 2 5 270.598 19 Análisis de varianza de un factor (Resultado de Excel) Compara ción o pruebas de rangos múltiples 71 Instituto Tecnológico de Ensenada Biol.05 nivel de significancia individual = 0.380 1.238871522 Dentro de los grupos 36.Grupos Cuenta Suma Promedio Varianza Control 5 257. Estos supuestos son: .812 16 2.060 0.060 4.547 Catalizador 2 0.5 53. Verificación de los supuestos del modelo La validez de los resultados obtenidos en cualquier análisis de varianza queda supeditada a que los supuestos del modelo se cumplan.0196 Valor crítico = 2. Catalizador 2.022 ANÁLISIS DE VARIANZA Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los c uadrados F Probabilidad Valor crítico para F Entre grupos 67. Raúl Jiménez González ANOVA unidireccional: Control.5 0.001 Error 16 36.Est.000651134 3. Catalizador 3 Fuente GL SC MC F P Factor 3 67.427 2.478 Catalizador 1 5 267.547 -2.60 Nivel N Media Desv.799 Catalizador 3 5 49.30 Total 19 104.5.60 9.38 3.0 2.738 Comparación de Dunnett con un control nivel de significancia de la familia = 0.82 0.574 Catalizador 1 5 53.5 5.0 2. A) Normalidad B) Varianza constante (igual varianza de los tratamientos) C) Independencia Esto es. con la misma vari anza en cada tratamiento y las mediciones deben ser independientes. = 1.2. Estos supuestos s obre Y se traducen en supuestos sobre el termino error () en el modelo Es una práctica común utilizar la muestra de residuos para comprobar lo s supuestos del modelo. se definen como la diferencia entre la respuesta observada ( ) y la respuesta predicha por el modelo ( ).2. ya que su magnitud señala qué tan bien describe a los datos del modelo. los residuos o residuales se pueden ver como una muestra aleatoria de una distribución normal con media cero y varianza constante. la respuesta (Y) se debe distribuir de manera normal. …. ) Es el ésimo dato en el tratamiento Es la media global .…. Veamos Recordemos que el modelo que se espera describa los datos en el DCA está dada por: donde ( = 1. lo cual permite hacer un diagnóstico más directo de la calidad del modelo. Raúl Jiménez González Los residuos. 72 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. ya que si los supuestos se cumplen. . y el efecto del tratamiento con . p or el hecho de que su valor esperado es igual a cero ( Como la media global se estima con . es decir. y sólo cuando éste resulta significativo. valores calculados a partir de los datos del experimento. entonces se procede a estimar el modelo ajustado o modelo de trabajo dado por: donde Es la respuesta predicha Es la media global estimada Es el efecto estimado del tratamiento Los gorros indican que son estimadores.. el modelo ajustado del DCA se puede escribir como: Para comprobar cada supuesto existen pruebas analíticas y gráficas que veremos ..Es el efecto del tratamiento Representa al error asociado con la observación Cuando se realiza el ANOVA. El término del error desaparece del modelo estimado. 2 Grafica de normalidad para los cu atro tipos de cuero Varianza constante Una forma de verificar el supuesto de varianza constante (o que los tratamientos tienen la misma varianza) es graficado los predichos contra residuos ( ). Éstas tienen el inconveniente de que no son exactas. entonces es señal de . pero aun así . dado que el análisis de varianza resiste pequeñas y moderadas desviaci ones al supuesto de normalidad. por lo tanto. Por sencillez. entonces es señal d que se cumple el supuesto de que l os tratamientos tienen igual varianza. Cabe enfatizar el hecho de que el ajuste de los puntos a una recta no tiene que ser perfecto. Esta gráfica del tipo ti ene Ver ificación de los supuestos del modelo 73 Instituto Tecnológico de Ensenada Biol. si se distribuyen con algún pa trón claro y contundente. muchas veces se prefieren las pruebas gráfi cas. como por ejemplo una forma de corneta o embudo. al graficarlos tienden a quedar alineados en una línea recta. Raúl Jiménez González las escalas de tal manera que si los residuos siguen una distribución normal.a continuación. por lo general va en el eje horizontal y los residuos en el eje vertical. Normalidad Un procedimiento gráfico para verificar el cumplimiento del supuesto de normalida d de los residuos consiste en graficar los residuos en papel o en la gráfica de probabi lidad normal que se incluye casi en todos los paquetes estadísticos. Figura 2. Por el contrario. Si los puntos en esta gráfica se distribuyen de manera aleatoria en una banda horizontal (sin ningún patrón claro y contundente). si clara mente no se alinean se concluye que el supuesto de normalidad no es correcto. en la mayoría de las situaciones prácticas proporcionan la evidencia suficiente en contra o a favor de los supuestos. Figura 2.3 Grafica de la varianza constante para lo s cuatro tipos de cuero Independencia La suposición de independencia en los residuos puede verificarse si se grafica el orden en que se colectó un dato contra el residuo correspondiente.que no se está cumpliendo el supuesto de varianza constante. si al graficar en el eje horizontal el tiempo (orden de corrida) y en el eje vertical los residuos. 40 20 0 -20 99 90 50 10 1 Residuo P o r c e n t a j e 250 240 230 220 210 30 20 10 0 -10 Valor ajustado R e s i d u o 30 20 10 0 -10 8 6 4 2 0 Residuo F r e c u e n . De esta m anera. ajustes Histograma Gráficas de residuos para A. C. C. B. D 40 20 0 -20 99 90 50 10 1 Residuo P o r c e n t a j e 250 240 230 220 210 30 20 10 0 -10 Valor ajustado R e s i d u o 30 20 10 0 -10 8 6 4 2 0 Residuo F r e c u e n c i a Gráfica de probabilidad normal vs. ajustes Histograma Gráficas de residuos para A. D 74 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada .c i a Gráfica de probabilidad normal vs. B. A menor diferencia que se espera en los tratamientos. en algún caso puede llegar hasta 30. las gráficas resultantes figuras 2. asimismo. esto es eviden cia de que existe una correlación entre los errores y. sin embargo. el supuesto de indep endencia no se cumple.3. o de que conforme se fueron realiza ndo las pruebas experimentales aparecieron factores que afectaron la respuesta o bservada. incluso. de acuerdo con las s iguientes consideraciones: . La violación de este supuesto generalmente indica deficiencias en la planeación y ejecución del experimento. el supuesto se está cumpliendo. el cual es un punto aberrante cuyo origen debe investigarse Elección del tamaño de la muestra Una decisión importante en cualquier diseño de experimentos es decidir el número de replicas que se hará por cada tratamiento (tamaño de muestra). es deci r. si se esperan diferencias pequeñas entre tratamientos será necesario un mayor tam año de muestra. En el ejemplo para comparar los cuatro tipos de cuero.2 y 2. a fin de reconsiderar la situación. por lo tanto. Si recurrimos a la experiencia vemos que el número de réplicas en la mayoría de las situaciones experimentales en las que se involucra un factor varía entre cinco y diez. si . Por ello. muchas vece s tienen poca aplicabilidad porque requieren cierto conocimiento previo sobre la v arianza del error experimental. en caso de tener problemas con este supuesto. Por lo ge neral. Raúl Jiménez González se detecta una tendencia o patrón no aleatorio claramente definido.Biol. Se observa el cumplimiento de los supuestos de normalidad y varianza constante. en las dos gráficas es notorio un punto que se aleja basta nte del resto. Si el comportamiento de los puntos es aleatorio dentro de una banda horizontal. La tendencia podría inclina rse por un extremo de este rango e incluso salirse de éste. mayor será la cantidad de réplicas si se quieren detectar diferencias significativas. las conclusiones que se obti enen del análisis son endebles y por ello es mejor revisar lo hecho y tratar de investi gar por qué no se cumplió con ese supuesto de independencia. y viceversa. Aunque existen varios métodos para estimar el tamaño muestral. puede ser un indicador de que no se aplico en forma correcta el principio de aleatorización. entre un método y otro. esto debido a factor es no controlados (habilidad del operador. La formula que tentativamente debemos usar para la elección del tamaño de muestra es: . supongamos que en el caso de los tiempos promedio de los s de ensamble (del ejemplo 1). debido a la variación de fuentes no controladas como métodos de medición. .Si son varios tratamientos (cuatro o más). y espera que cada método tenga una variabilidad intrínseca de = 1. tiene idea realizar = 4 método = 5 pruebas.Si se espera mucha variación dentro de cada tratamiento. También tiene una idea aproximada del valor de (la desviación estándar del error aleatorio). Por ejemplo. y que tomando en cuenta las consideraciones antes citadas tiene una pro puesta inicial del número de réplicas por tratamiento que va a utilizar. variabilidad de las part es a ensamblar. medio ambiente. le interesa detectar 2 minutos. entonces éste es un punto favorable para reducir el número de réplicas. .. Además de lo anterior. etc.se esperan grandes diferencias quizá con pocas replicas sea suficiente . entre tratamientos que le interesa detectar. cansancio. en cuanto a las diferencias. Raúl Jiménez González Supongamos que el experimentador ya tiene el número de tratamientos que desea probar. De aquí que si toman en cuenta las consideraciones antes e xpuestas se podrá establecer el tamaño de muestra que permita responder en una primer a fase las preguntas más importantes que se plantearon con el experimento Elección del tamaño de la muestra 75 Instituto Tecnológico de Ensenada Biol. entonces se necesitarán más réplicas .5. error de medición del tiempo de ensamble. etcétera). así como u na idea de la magnitud de las diferencias. materia prima. es preciso considerar los costos y el tiempo gl obal del experimento. 05: = 4 = 5 = 1.5 = 2 = 0. que es lo que muchas veces interesa más al experimentador debido a los costos y tiempos. de acuerdo con las consideraciones iniciales que se reflej an a través de .1 Por lo tanto se debería utilizar como tamaño de muestra (número de pruebas por tratamiento).El valor de arrojado por esta fórmula dará una idea del número de réplicas por tratamiento. y sobre todo por el número total de corridas experimentales. . Al aplicar esta expresión al caso de los cuatro métodos del ensamble obtenemos con un nivel se significancia del 0. Ejercicios. x .05 = = 5. Si está fuera del presupuesto se podrán revisar algunas considera ciones y quizá pensar en un número menor de tratamientos. 05 15.92 14. Se hacen seis réplicas y los resultados obtenidos se muestran a continuación Número de replicas Marca de spray 1 2 3 4 5 6 1 2 3 72 55 64 65 59 74 67 68 61 75 70 58 62 . es decir la gerencia del supermercado. Haga las pruebas ne cesarias con un nivel de significancia de 0.94 18. Tabla número 1 Datos maestrales para ANOVA (en dólares) para el ejercicio Tienda 1 Tienda 2 Tienda 3 --------------------------------------------------------------------------12.92 3. Y concluya con un reporte de todo lo analizado a lo largo 76 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. Se hace un estudio sobre la efectividad de tres marcas de spray para matar moscas.01. Para ello. quiere saber si las tres tiendas tienen el mismo promedio en dólares por compra. en este reporte usted como analista deberá de incluir y describir todo lo que considere importante para el cliente.1 Explique en qué consiste y cuándo se debe aplicar el diseño completament e al azar con un solo criterio de clasificación.63 17. 2 Una analista de una cadena de supermercados.57 5.40 7. Raúl Jiménez González de la unidad.52 6.48 23.47 25.63 19. Se elige una muestra aleatoria de seis compr as en cada tienda.57 10.78 21.17 9. En la siguiente tabla se presenta los datos recolectados de est a muestra junto con las medias maestrales para cada tienda.59 11.45 20.90 18.52 13. y se cuentan el númer o de moscas muertas expresando en porcentajes. cada producto se aplica a un grupo de 100 moscas. b) Realice el análisis de varianza para estos datos. c) Hay algún spray mejor. se someten a un envejecimiento acelerado durante 100 horas a determinada temperatu ra. aplique los métodos de comparación o pruebas de ran gos múltiples. Argumente su respuesta. a fin de estudiar si la temperatura afecta la intensidad de corriente promedio. Se probaron 20 módulos repartidos de mane ra equitativamente en cinco temperaturas y los resultados obtenidos fueron los sigu ientes: 15 18 13 12 17 21 11 16 23 19 25 22 28 32 34 31 45 51 57 48 a) Formule la hipótesis y el modelo estadístico para el problema. Raúl Jiménez González 77 . b) Existe diferencia entre la efectividad promedio de los productos en spray.53 51 73 50 69 a) Formule la hipótesis adecuada y aplique el método estadístico. d) Dé un intervalo al 95% de confianza para la efectividad promedio (p orcentaje) de cada una de las marcas e) De ser necesario. Ejercicios Instituto Tecnológico de Ensenada Biol. y como variables de interés se mide la intensidad de corriente que circula ent re dos puntos. cuyos valores aumentan con el deterioro. 4. Para estudiar la confiabilidad de ciertos tableros electrónicos para carros. 2 7. 5% y 10%.9 8.205 0.8 4.612 0. Aglutinante % de friabilidad PVP CMC Gre 0.137 a) Especifique el nombre del diseño experimental b) ¿Sospecha que hay algún efecto significativo del tipo de aglutinante s obre la variable de respuesta? c) Escriba las hipótesis para probar la igualdad de medias y el modelo estadístico.64 9.8 6. 5. c) Si se desea maximizar la dureza de las tabletas.152 0.5 9.79 0. e) Revise los supuestos.3 6.. Se decidió producir lotes con una cantidad determ inada de almidón. se eligen los sig uientes aglutinantes: polivinilpirrolidona (PVP).37 9. La variable d e respuesta sería el promedio de la dureza de 20 tabletas de cada lote. ¿qué recomendaría al fabricante? d) Verifique los supuestos del modelo 6. b) Realice los análisis complementarios necesarios.c) ¿La temperatura afecta la variabilidad de las intensidades? Es decir.275 0. carboximetilcelulosa sódica (CMC) y grenetina (Gre).0 almidón Dureza 5.5 4. verifi que si hay igual varianza entre los diferentes tratamientos.3 7. Se hicieron 4 réplicas por tratamiento y se obtuvieron los siguientes resultados: % de 2 5 10 4. y que las cantidades de almidón a probar fueron 2%. para ello.073 0. Una compañía farmacéutica desea evaluar el efecto que tiene la cantidad de almidón en la dureza de las tabletas.1 8.Un químico del departamento de desarrollo de un laboratorio farmacéutico desea conocer cómo influye el tipo de aglutinante utilizado en tabletas de am picilina de 500 mg en el porcentaje de friabilidad. d) Realice el análisis adecuado para probar las hipótesis e intérprete los resultados .250 0.1 a) ¿Hay evidencia suficiente de que el almidón influye en la dureza de las tabletas ? Halle el ANOVA. Los resultados del diseño experimental son los siguientes.0161 9. ¿hay algún problema? 7.289 0.5 6.53 9. En el siguiente experimento biológico se usan cuatro concentraciones de cierto químico para reforzar el crecimiento en centímetros de cierto tipo de pla .86 9.485 0. 9 5.9 6.0 6.6 7. 8.1 6. Los datos del experimento se presentan en la siguiente tabla. Se toman los siguientes datos de crecimiento.1 8.51 .37 0.05 para comparar de manera simultánea las concentraciones con el control.7 6.nta con el tiempo.2 8.2 8. También se aplica un co ntrol (ningún químico) 78 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González concentración Control 1 2 3 4 6.9 7. En un experimento en el que se investigó la cantidad de radón li berado en las duchas.4 5.3 6.8 7.6 8.3 6.8 7. Se usó agua enriquecida con radón. Diámetro de Los orificios Radón liberado (%) 0.1 Utilice la prueba bilateral de Duncan en el nivel de significancia de 0.8 7.4 9.1 8.7 9.9 5.2 6. y se probaron seis diámetros di ferentes de los orificios de las regaderas. Se utilizan cinco plantas en cada concentración y se mide e l crecimiento de cada planta.7 8.4 8. 71 1.0. L os datos se presentan en la tabla siguiente: Nivel del vacío de aire Resistencia conservada (%) Bajo Medio Alto 106 90 103 90 79 88 92 95 80 69 94 91 70 83 87 83 78 80 62 69 76 85 69 85 a) ¿Los diferentes niveles de los vacíos de aire afectan de manera significativa a la resistencia conservada promedio? Use . Usando tratamientos son diferentes? . Raúl Jiménez González e) Aplique el método de la LSD. d) Encuentre un intervalo de confianza de 95% para el porcentaje promedio de radón liberado cuando el diámetro de los orificios es 1.. 9.Se investigaron cuatro métodos diferentes para preparar el compues to superconductor . l os vacíos de aire se controlan en tres niveles: bajo (2-4%). d) Encuentre un intervalo de confianza del 95% para la resistencia conservada promedio cuando hay un nivel alto de vacíos de aire. ¿cuáles medias de los 10. medio (4-6%) y alto (6-8%). b) Encuentre el valor P para el estadístico F del inciso a) c) Analice los residuales de este experimento.40 f) Use los diversos métodos de comparación o pruebas de rangos múltiples.40 1.99 80 75 74 67 62 60 83 75 73 72 62 61 83 79 76 74 67 64 85 79 77 74 69 66 a) ¿El tamaño de los orificios afecta el porcentaje promedio de radón liberado? Use b) Encuentre el valor P para el estadístico F del inciso a) c) Analice los residuales de este experimento.02 1. Los autores sostienen que la presencia de oxígeno durante el .Se describe un experimento para determinar el efecto de los vacíos de aire so bre la resistencia porcentual conservada del asfalto. Para los fines del experimento. Ejercicios 79 Instituto Tecnológico de Ensenada Biol. 1 59.3 60.9 63.6 12. y los resultados son los siguientes: Método de preparación Temperatura de transición ( ) 1 2 3 4 14.3 C 55.4 14.8 15. d) Aplique el método de la LSD en el experimento.2 14.7 62.7 14.7 12. ¿Qué métodos de preparación difieren se ? 11.5 60.01.0 11.7 60.4 14.4 62. Mues tras del mismo material se mandan a los laboratorios para su análisis como parte del es tudio para determinar si.7 14.3 Realice una prueba de rango múltiple de LSD. mientras que los métodos 3 y 4 permiten la presenc ia de oxígeno.4 14.7 61.9 61.8 12.2 58. b) ¿Cuál es el valor P para la prueba F del inciso anterior c) Analice los residuales de este experimento. Ejercicio. Se hicieron cinco observaciones de (en ) para cada método.9 12.4 64.1 11.7 12.05 y 0.9 14.8 14. en promedio. Los resultados analíti cos para los cuatro laboratorios son los siguientes: Laboratorios A B 58. en sus análisis .9 56. dan los mismos resultados. en pr omedio.6 14.proceso de preparación afecta la temperatura de transición de superconducción del material. para determinar cuáles laboratorios difieren.8 14. Se utilizan cuatro laboratorios para realizar análisis químicos.1 D 60.2 14. Tukey y Duncan con un ni vel de significancia de 0.1 57.3 55.1 59.2 60. Los métodos de preparación 1 y 2 usan técnicas que están diseñadas para eliminar la presencia de oxígeno.7 a) ¿Hay evidencia que apoye la afirmación de que la presencia de oxígeno durante la preparación afecta la temperatura de transición media? Use .2 58. automáticamente se incluyen. e indicar que los resultados los arroje en una hoja nueva Uso de software estadístico 81 Instituto Tecnológico de Ensenada Biol. y la instalara en u n par de minutos. incluyendo su rótulo (sombrearlos con el mouse).Nota como no está instalada esta herramienta el sistema nos preguntar a si queremos instalarla a lo que indicaremos que si. luego Análisis de datos c) Seleccionar análisis de varianza de un factor en la ventana desplegada d) En rango de entrada (en ventana de captura) seleccionar todos los grupos.80 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González 2.En la ventana desplegada seleccionar opciones de Excel en la parte inferior dando un clic.De la ventana desplegada señalar en el menú del lado izquierdo complementos . . y aceptar . Raúl Jiménez González Nota: Si no aparece Análisis de datos en la parte superior derecha de la hoja de cál culo.6.De la ventana desplegada en el lado derecho. .En el símbolo del sistema en la parte superior izquierda de los encabezados da r clic. además indicar si tenemos rótulos en los encabezados. e) En el siguiente recuadro seleccionar si nuestros datos están ordenados en fi lia o columnas. .De la ventana desplegada palomear el recuadro de herramientas para análisis. señalar en la parte in ferior de la misma ir con un clic. se deberá de activar de la siguiente manera: . . Uso de un software estadístico Excel a) En una hoja de Excel capturar primeramente la tabla de datos b) En la misma hoja de cálculo seleccionar del cintillo superior Datos. .Señalar Aceptar y nos arrojara el resultado ANOVA rior de la hoja de calculo en la parte supe .En el cintillo superior indicar con el mouse Estadísticas . Raúl Jiménez González .En ventana de captura desplegada (Análisis de varianza. y damos clic en aceptar Uso de software estadístico 83 Instituto Tecnológico de Ensenada Biol. en la parte izquierda aparecerán automáticamente los grupos de tabla de datos .Un solo facto r).En nivel de confianza por default es 95% 82 CAPÍTULO 2 Diseño de experimentos de un factor Instituto Tecnológico de Ensenada Biol. esto también se logra dando doble clic en cada letra del cuadro de la izquierda.En el cuadro superior derecho (Respuestas (en columnas separadas)) i ndicar separando por un espacio (sin comas) los nombres de las columnas que generalmente son letras. en el menú desplegado seleccionar Un solo factor (Desapilado) y dar clic con el mouse .Si queremos hacer comparaciones de rango múltiples.Minitab . damos clic a gráficas (antepenúltima ventana) y señalamos tres en uno y damos clic en aceptar . automáticamente son capturadas . Raúl Jiménez González . y en control nivel del grupo indicamos la A.Si queremos las graficas del supuesto del modelo entonces. entonces señalamos de la ventana anterior comparaciones dando un clic.Del menú desplegado seleccionar ANOVA.En la ventana desplegada señalaremos las comparaciones que queramos.En la hoja de cálculo que despliega Minitab capturar nuestra tabla d e datos indicando sus correspondientes rótulos en la primer fila que no está numerada . 3. latino. Cuando se quieren comparar ciertos tratamientos o estudiar el efecto d e un factor.2. . . 1.4.Explicar la definición del diseño en bloques completos al azar. 3. así como su hipótesis.Identificar las características generales y los usos que se le dan a los dis eños en bloques. Raúl Jiménez González Competencias a desarrollar . 3. grecolatino. Diseños en bloques completos al azar.1.Describir la selección y la aleatorización del diseño en cuadro latino y su diferencia con el diseño en cuadro grecolatino 3.84 Capítulo 3 Diseño de bloques 3. Diseños en bloques Diseño en cuadrado Diseño en cuadrado Uso de un software completos al azar. estadístico. 3. modelo estadístico y análisis de varianza. es deseable que las posibles diferencias se deban principalmente al factor de interés y no a . Diseño en bloques completos al azar 85 Instituto Tecnológico de Ensenada Biol. sino como un medio para estudiar de manera adecuada y eficaz al factor de interés. las conclusiones podrían ser afectadas sensiblemente. entonces es claro que el factor operador debe tomarse en cue nta si se quiere comparar a las máquinas de manera justa. Raúl Jiménez González En un diseño en bloques completos al azar (DBCA) se consideran tres fu . tal estrategia no siempre es aconsejable. ya que utilizar a todos los operadore s con todas las máquinas permite tener resultados de la comparación que son válidos para to dos los operadores. porque es uno el factor de interés. Factores de bloque A los factores adicionales al factor de interés que se incorporan de manera e xplícita en un experimento comparativo se les llama factores de bloque. supongamos que se quieren comparar varias máquinas. Esta forma de nulificar el efecto de operadores. Los factores de bloque entran al estudio en un nivel de importancia secundaria con respecto al factor de interés y. Esta estrategia es la más recomendable. si cada máquina es manejada por un operador diferente y se sabe que éste tiene una influe ncia en el resultado. sin embargo. Para evitar este sesgo hay dos maneras de anular el posible efect o del factor operador: la manera lógica es utilizar el mismo operador en las cuatro maquinas. recibe el nombre de bloqueo. ya que utilizar el mismo sujeto elimina el efecto del factor operador pero restringe la validez de la comparación con dicho operador. 86 CAPÍTULO 3 Diseño de bloques Instituto Tecnológico de Ensenada Biol. en este sentido. Por ejemplo. se puede afirmar que se estudia un solo factor. Un operador más hábil puede hacer ver a su máquina (aunque ésta sea la p eor) como la que tiene el mejor desempeño. lo cual impide hacer una comparación adecuada de los equipos. La otra forma de anular el efecto operador en la comparac ión consiste en que cada operador trabaje durante el experimento con cada una de las máquinas. Éstos tienen la particularidad de que no se incluyen en el experimento porque interese analizar su efecto.otros factores que no se consideran en el estudio. y es posible que el resultado no se mantenga al util izar a otros operadores. Cuando esto no ocurre y exist en otros factores que no se controlan o nulifican para hacer la comparación. por lo tanto. lote. etc. La aleatoriz ación se hace dentro de cada bloque.1 Arreglo de los datos en un diseño en bloques completos al azar Tratamiento Bloque … 1 2 3 . los bloques están completos. C Tabla 3. no se realiza de manera total como en el diseño completamente al azar. k .entes de variabilidad: . tipo de material. método. Supongamos una situación experimental con k tratamientos y b bloques.El factor de tratamientos . maquina. tabla 3.1. Los factores de bloqueo que aparecen en la práctica son: Turno. . línea de producción. El aspecto de los datos para este caso se muestra en la onsiderando una repetición en cada combinación de tratamiento y bloque.El error aleatorio es decir.El factor de bloque . La palabra completo en el nombre del diseño se debe a que en cada bloque se prueban todos los tratamientos. se tienen tres posibles ¨culpables¨ de la variabilidad presente en los datos. día. o sea. operador. … . el experimentador piensa que cada medición será el resultado del efecto del tratamiento donde se encuentre.. . del efecto al que pertenece y de cierto error que se espera sea aleatorio. . . … Modelo estadístico Cuando se decide utilizar un DBCA. . El modelo estadístico para este diseño está dado por: . y está pada por: que también se puede expresar como . Raúl Jiménez González Hipótesis a probar La hipótesis de interés es la misma para todos los diseños comparativos.donde Es la medición que corresponde al tratamiento y al bloque Es la media global poblacional Es el efecto debido al tratamiento Es el efecto debido al bloque Es el error aleatorio atribuible a la medición Diseño en bloques completos al azar 87 Instituto Tecnológico de Ensenada Biol. es posible afirmar que todos los efectos de tratamiento sobre la variable de respuesta son nulos.En cualquiera de estas hipótesis la afirmación a probar es que la respuesta media poblacional lograda con cada tratamiento es la misma para los tratamientos y qu e. En la tabla 3.2 se muestra el aspecto del ANOVA para diseño DBC A. entonces necesariamente la respuesta media del tratamiento es igual a la media global ( ). De manera alternativa. por lo tanto. porque cuando el efecto . cada respuesta media es igual a la media global poblacional . Análisis de varianza La hipótesis dada se prueba con un análisis de varianza con dos criterio s de clasificación.2 ANOVA para un diseño en bloques completos al azar Fuentes de variabilidad Suma de cuadrados Grado de libertad Cuadrado medio Valor-p Tratamientos Bloques Error . Tabla 3. porque se controlan dos fuentes de variación: el factor de tratamient os y el factor de bloque. 1 CM TRAT CM B CM E .Total SC TRAT SC B SC E SC T K – 1 b – 1 (k – 1)(b – 1) N . porque además proporciona muchas otras opcione s gráficas y tabulares útiles (no sólo el ANOVA).Los cálculos necesarios pueden ser manuales. las fórmulas más prácticas para calcular las sumas de cuadrados son: 88 CAPÍTULO 3 Diseño de bloques Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González . pero siempre es más práctico hacerlos con un software estadístico. Utilizando la notación de pu ntos. lo que da lugar al siguiente diseño en bloques completamente al azar. Para comparar los cuatro métodos se plantea la hipótesis: = . Método Operador 1 2 3 4 A B C D 6 7 10 10 9 10 16 13 7 11 11 11 8 8 14 9 Recordemos que la variable de respuesta son los minutos en que se realiza el ensamble. ahora se va a controlar activamente en el experimento a los operadores que reali zaran el ensamble.y la del error se obtiene por sustracción como: Ejemplo En el ejemplo donde se planteo la comparación de los cuatro métodos de ensamble. y se acepta que al menos dos de los métodos son diferentes en cuanto al tiempo medio que se requiere.5 3 20.75 8.91666667 Operador 4 33 8.75 7.5 3 9.030 . por lo que se rechaza la de que el tiempo medio poblacional de los métodos de ensamble son iguales.25 ANÁLISIS DE VARIANZA Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los c uadrados F Probabilidad Valor crítico para F Filas 61. el factor de bloque (operadores) también afecta. en la herramienta de Análisis de varianza de dos factores con una sola muestra por grupo) RESUMEN Cuenta Suma Promedio Varianza A 4 30 7. existen diferenci as entre los operadores en cuanto al tiempo promedio.5 10.862548358 Columnas 28.003 . De la misma manera para operadores.5 4.la cual se prueba mediante el análisis de varianza dado en la siguiente tabla( Ex cel y Minitab) Nota: para capturar la tabla en Excel se sombrea totalmente.029845948 3. tal y como está indic ada la tabla anterior.25 4.75 0. es decir.66666667 B 4 36 9 3.33333333 C 4 51 12.002919257 3. como su valor-p = 0.25 0. .25 4 48 12 10 4 40 10 4 4 39 9.862548358 Error 18 9 2 Total 108 15 Análisis de varianza de dos factores con una sola muestra por grupo Diseño en bloques completos al azar 89 Instituto Tecnológico de Ensenada Biol.75 2. Raúl Jiménez González De esta tabla se observa que para los métodos se obtuvo un valor-p = 0.58333333 D 4 43 10.5 1. 003 0. Operador Fuente Método Operador Error Total GL SC MC F 61. Método.Resultados arrojados en Minitab 15 ANOVA de dos factores: Dato vs.0 15 108.33% R-cuad.75 9 18.5 10.5 20.25 3 28.5 4.030 .414 3 R-cuad.0 S = 1.0 2. = 83.22% Calculo manual para Diseño de bloque ANOVA para el diseño bloque Fuente de variaciones SC GL CM F Valor crítico para F Tratamientos Bloque P 0.(ajustado) = 72.5 9. Error Total . Raúl Jiménez González 1.90 CAPÍTULO 3 Diseño de bloques Instituto Tecnológico de Ensenada Biol.Suma de cuadrados de tratamientos o variabilidad debida a la dife rencia entre las marcas de llantas. bloque 1 y bloque 2 .. .2.Suma total de cuadrados o variabilidad total de los datos . 3. y del error 5. del bloque.Cuadrados medios de tratamientos.Suma de cuadrados del error o variabilidad dentro de métodos de ensamble 4...Estadístico de prueba . Por ejemplo.Concentrado en tabla ANOVA Suma de cuadrados Grados de libertad Promedio de los cuadrados F Valor crítico para F 61.5 10.8625486 18 9 2 108 15 Diseño en bloques completos al azar 91 Instituto Tecnológico de Ensenada Biol.8625483 28. Cuando se rechaza la hipótesis de igualdad de los cuatro tratamientos. en un DCA está dada por . es natural preguntarse cuáles de ellos son diferentes entre sí. Raúl Jiménez González Comparación de parejas de medias de tratamiento en el DBCA.5 4.5 3 9.75 3.5 3 20. recordemos que la Diferencia mínima significativa (LSD) para dos tratamientos.25 3. Para averiguarlo se utiliza alg una de las pruebas que se estudiaron en la sección ¨Comparaciones o pruebas de rangos múltiples¨ del capítulo anterior. 26 (valor buscado en tablas de T de estudent) Al comparar esta diferencia mínima significativa con los datos se obtien e la siguiente tabla: Diferencia poblacional . en bloque esta expresión se transforma en donde b es el número de bloques. y (k-1)(b-1 ) son los grados de libertad del De aquí que en el ejemplo de los cuatro métodos de ensamble tenemos que = = 2.Entonces. que hace las veces de número de réplicas. 92 CAPÍTULO 3 Diseño de bloques Instituto Tecnológico de Ensenada Biol.26 2. Los datos obtenidos se muestran a continuación.75 2. Se hicieron seis r eplicas..25 -3.5 -5.26 2. por ello.Se hace un estudio sobre la efectividad de tres marcas de atomiz ador para matar moscas.26 2. pero en días diferentes. Para ello.¿En qué situaciones se aplica un diseño en bloques completos al azar? ¿En qué diferentes los factores de tratamiento y de bloque? 2.. se sospecha que puede haber algún efecto importante de bido a esta fuente de variación. cada producto se aplica a un grupo de 100 moscas.26 Decisión No significativo Significativo Significativo Significativo No significativo No significativo Ejercicios 1.26 2. Raúl Jiménez González Marca del atomizador Número de replicas (día) A B C 72 55 64 65 59 74 .25 -3. y se cuenta el número de moscas muertas expresando en porcentajes.26 2.75 -1.00 2.Diferencia muestral -1. replicas Minitab Fuente Spray replicas Error Total GL 2 5 10 17 SC 296.09 P 0.00 MC 148.103 0.433 F 2.67 68 61 75 70 58 62 53 51 73 50 69 a) b) c) d) Suponiendo un DBCA.33 514.267 51. formule las hipótesis adecuadas y el modelo estadístico.167 56.33 1092.88 1. Spray.421 a) = a) No existe diferencias entre la efectividad de los spray b) No existe evidencia estadísticas para suponer lo que existe algún spray mejor que el otro c) = . ¿Existe diferencia entre la efectividad promedio de los atomizadores? ¿Hay algún atomizador mejor? Argumente su respuesta ¿Hay diferencias significativas en los resultados de diferentes días en que se realizó el experimento? Argumente su respuesta ANOVA de dos factores: datos vs.33 281. 43333333 Total 1092 17 Diseño en bloques completos al azar 93 Instituto Tecnológico de Ensenada Biol.102821015 Columnas 281. es decir existe diferencia entre los tratamientos valor-p = 0.En el ANOVA para los diferentes días de los spray se acepta la hipótesis nula de que no importa el día. a) valor-p = 0.3333333 5 56. por lo que se rechaza la . existen diferencias entre el bloque. por lo que se rechaza la .325834529 Error 514..1666667 2.0057 . es decir. Raúl Jiménez González a) Obtenga la tabla de análisis de varianza y anote los principales conclusiones b) Obtenga la diferencia mínima significativa (LSD) para comparar tratamientos en este diseño en bloque.88075178 0. el factor de bloque (tratamientos) también af ecta.09397278 0.102804418 4.A continuación se muestran los datos para un diseño en bloque al azar Tratamiento Bloque 1 2 3 4 A B C 3 7 4 4 9 6 2 3 3 6 10 7 ANÁLISIS DE VARIANZA Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los c uadrados F Probabilidad Valor crítico para F Filas 296.3333333 10 51.420717751 3.0032 . es decir son iguales 3.3333333 2 148.26666667 1. En una empresa lechera se tienen varios silos para almacenar leche (ciste rnas de 60 000 L).65 Decisión Significativo No Significativo Significativo 5.65 2. Un aspecto crítico para que se conserve la leche es la temper atura de almacenamiento. por el lo.25 1.5 1. Obvi amente la .b) = = c) = Diferencia poblacional Diferencia muestral -3.25 1.. durante cinco días se decide registrar la temperatura a cierta hora crítica. Se sospecha que en algunos silos hay problemas.65 -1. 757062664 Error 5.333333333 6.583333333 C 4 20 5 3.0 2.5 4.0 4.5 6 0.0 4.14325285 Columnas 42 3 14 15.5 2.5 3.0 4.333333333 ANÁLISIS DE VARIANZA Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los c uadrados F Probabilidad Valor crítico para F Filas 25.66666667 11 Análisis de varianza de dos factores con una sola muestra por grupo 94 CAPÍTULO 3 Diseño de bloques Instituto Tecnológico de Ensenada Biol. RESUMEN Cuenta Suma Promedio Varianza A 4 15 3.916666667 B 4 29 7.0 a) En este problema.0 6.5 2.0 3.0 4. ¿cuál es el factor de tratamiento u cuál el factor de bloque? b) Suponga un DBCA.0 2.333333333 3 19 6. .58333333 13.666666667 4.27272727 0.0 4.0 4.0 3.temperatura de un día a otro es una fuente de variabilidad que podría i mpactar la variabilidad total.666666667 0. formule las hipótesis adecuadas y el modelo estadístico.0 4.0 5.0 4.0 4.16666667 2 12.5 6.333333333 3 8 2.003244859 4.72727273 0.5 4.333333333 3 23 7.75 2.005768838 5.0 5.916666667 Total 72. Raúl Jiménez González Día Silo Lunes Martes Miércoles Jueves Viernes A B C D E 4.333333333 Tratamiento 3 14 4.666666667 4.5 0.0 3.25 9. 3 2. distribuidas en tres modelos de lavadoras: Detergente Lavadora 1 Lavadora 2 Lavadora 3 A B C D 45 47 50 42 43 44 49 37 51 52 57 49 a) Señale el nombre del diseño experimental utilizado b) Formule la hipótesis que se quiere probar en este problema c) Realice el análisis estadístico más apropiado para estos datos y obtenga conclusiones. Se pro barán las diferencias de las medias utilizadas en el análisis de varianza con Muestra de tela Sustancia Química 1 2 3 4 5 1 2 3 4 1.8 3.9 1.2 1.4 . Las siguientes lecturas de ¨blancura¨ se obtuvieron con un equipo especial diseñado para 1 2 cargas de lavado.. 7.c) ¿Hay diferencia entre los silos? d) ¿La temperatura de un día a otro es diferente? e) Revise residuos.Se diseño un experimento para estudiar el rendimiento de cuatro det ergentes. Estas sustancias químicas se usan com o parte del proceso de acabado del planchado permanente. y se corrió un diseño de bloques completos aleatorizados para probar cada ti po de sustancia química sobre cada muestra de tela en orden aleatorio..6 2. ¿hay algún problema evidente? 6. Se seleccionaron cinco muestra s de tela.Se realizo un experimento para determinar el efecto de cuatro sus tancias químicas diferentes sobre la resistencia de una tela. Bloque II (columnas) 1 2 3 … k Bloque I (renglones) 1 2 .1 1.5 4.4 0. por lo tanto ambos factores de bloques tienen también k niveles cada uno . C.8 1. estas son: - Los tratamientos El factor de bloque I (renglones) El factor de bloque II (columnas) El error aleatorio Se llama cuadro latino por dos razones: es un cuadro debido a que t iene la restricción adicional de que los tres factores involucrados se prueban e n la misma cantidad de niveles. K.4 0.7 4.4 a) Señale el nombre del diseño experimental utilizado b) Formule la hipótesis que se quiere probar en este problema c) Realice el análisis estadístico más apropiado para estos datos y obtenga conclusiones.2.1 1. Sean A. los k tratamientos a comparar. Diseño en bloques completos al azar 95 Instituto Tecnológico de Ensenada Biol.0 1. por lo que se tienen cuatro fuentes de variab ilidad que pueden afectar la respuesta observada.0 1.1. El aspecto de los datos se muestra en la siguiente tabla.2 2.3 3.5 0. Raúl Jiménez González 3. B.6 2. …. Diseño en cuadrado latino En el diseño en cuadro latino (DCL) se controlan dos factores de bloque y se estud ia un factor de tratamientos. y es latino porque se utilizan letras latinas pa ra denotar a los tratamientos o niveles del factor de interés. k A = Y 111 B = Y 221 C = Y 331 . . .3 . B = Y 2k3 … … … … K = Y K1K A = Y 12K B = Y 23K . . A = Y 1k2 C = Y 313 D = Y 423 E = Y 533 . . K = Y kk1 B = Y 212 C = Y 322 D = Y 432 . De acuerdo con este modelo.. en el primer nivel del factor renglón y en el tercer nivel del factor columna. en el nivel .4. del factor renglón y en el nivel del factor columna. es el error atribuible a dicha observación. El modelo estadístico para describir el comportamiento de las observaciones está dado por donde es la observación del tratamiento . J = Y JkK Ahora se necesitan al menos tres subíndices. la respuesta Y 313 se generó en el tratamiento tres (C). . En él se prueba la hipótesis sobre los efectos de tratamiento del factor renglón . por ejemplo. la variabilidad total presente en los datos se puede descompone r como y los grados de libertad correspondientes son El ANOVA para el diseño en cuadro latino se muestra en la tabla 3. Tabla 3. Raúl Jiménez González columna.4 ANOVA para el cuadro latino Fuentes de variabilidad Suma de cuadrados Grado de libertad Cuadrado medio Valor-p Tratamientos Renglones Columnas Error Total SC TRAT SC B1 SC B2 SC E SC T k – 1 k – 1 . la hipótesis fundamental es la de los tratamientos. Otra vez.y del factor 96 CAPÍTULO 3 Diseño de bloques Instituto Tecnológico de Ensenada Biol. las otras dos proporcionan un adicional al objetivo inicial y permiten comprobar la relevancia de controlar los factores de bloque. 1 CM TRAT CM B1 CM B2 CM E .k – 1 (k – 2)(k – 1) k 2 . Sin embargo. ocurre que dado un cuadro latin o. Por ejemplo. la regla fundamental es que cad a letra debe aparecer sólo una vez en cada renglón y en cada columna. un cuadro latino estándar de tamaño cuatro está dado por: A B C D B C D A C D A B D A B C Existen además los siguientes tres cuadros latinos de dimensión cuatro: y Para cuatro tratamientos se pueden construir un total de 576 cuadros latinos de los cuales cuatro son estándar. cualquier intercambio de columnas o de renglones es también cuadro latino. No cualquier arreglo de letras lati nas en forma de cuadro es cuadro latino. es prácticamente imposible construirlos a todos para seleccionar uno al azar. por eso la estrat egia de selección y aleatorización recomendada en la práctica es la siguiente: A B C D A B C D B A D C B D A C C D B A C A D B D C A B D C B A A B C D B A D C C D A B D C B A Diseño en cuadro latino 97 . La selección del diseño debería ser elegir uno al azar d e los 576 posibles.Selección y aleatorización de un cuadro latino. no obstante. Un cuadro latino estándar es aquel en el que en la primera columna y en el primer renglón aparecen las letras en orden alfabético. utilizando cuatro diferentes tipos de auto y las cuatro posiciones posibles de las llantas en el auto. Es decir. las diferentes marcas de llantas se asignan de manera aleatoria a las letras latinas que denotan los niveles del factor de interés Posición Carro 1 2 3 4 1 2 3 4 C = 12 B = 14 A = 17 . a partir de un cuadro latino inicial se aleatorizan las colum nas y los renglones. Raúl Jiménez González . y se controlan dos factores de bloque: el tipo de carro y la posición de la llanta en el auto. en el que se comp aran las cuatro marcas de llantas sometiéndolas a una prueba de 32 000 kilómetros de recorrid o. Comparación de cuatro marcas de llantas. y así sucesivamente. Para ello. Una compañía de mensajería está interesada en determinar cuál marca de llantas tiene mayor duración en térm inos del desgaste.Se construye el cuadro latino estándar más sencillo. puesto que se puede introducir ruido adicional debido a factores no controlables que cambian con el tiempo. Así.Por último. . El cuadro latino tiene dos restricciones a la aleatorización debido a l os dos factores de bloque.Se aleatoriza el orden de los renglones (o columnas) y posteriormente se aleatoriza el orden de las columnas (o renglones). Para ello se planea un experimento en cuadro latino. y luego todas las de otro. La elección del cuadro latino a utilizar se hace antes de obtener los datos. Ejemplo. por experiencia. Lo que no es correcto es hacer todas las pruebas de un tra tamiento. . después. Estos factores de bloque se controlan ya que.Instituto Tecnológico de Ensenada Biol. los tratamientos a comparar se asignan en forma aleatoria a las letras latinas. el factor de interés es el tipo de llantas o marca. lo que implica que a la hora de correr el experimento no hay ningún margen de aleatorización. se sabe que el tipo de carro y l a posición de la llanta tienen efecto en el desgaste de la misma. se puede correr por columna o por renglón según convenga. 8958 6. el tipo de carro y las marcas es de 4.6875 3 12.375 6 0. El diseño y los datos observados se muestran en la tabla anterior. a mayor diferencia en gros or mayor desgaste. el conductor y el tipo de terreno podrían i nfluir.6875 3 10 0.9375 15 Se observa que nuestro punto critico tanto para la posición.431 Carro 103.76.37 0.76 0. Se mide la diferencia máxima entre el grosor de la llanta nueva y el gro sor de la llanta después de recorrido los 32 000 kilómetros.07 0.775 4. Al hacer las pruebas de los cuatro autos al mismo tiempo se evita el efecto del ambiente en el desgaste.83 Error 30. asimismo.1875 3 2.76 Posición 16.76 Total 155.895833 4. Raúl Jiménez González ANOVA resultante Fuente de variabilidad Suma de cuadrados Grados de libertad Promedio de los cuadrados F Valor-p Valor crítico para F Marca 5. Las unidades de medición son milésimas de pulgada 98 CAPÍTULO 3 Diseño de bloques Instituto Tecnológico de Ensenada Biol. Obviamente. pero se considera suficiente mantenerlos lo más homogéneo posible durante el experimento.0625 1.023 4. a quienes se les instruye para que manejen de manera similar sobre el mismo terreno para los cuatro automóviles.D D C B A A D C B B A D C = = = = = = = = = = = = = 13 11 12 14 14 13 11 10 13 8 3 9 9 Las pruebas se hacen al mismo tiempo con choferes. Concluimos que en las marcas y posición no existe evidencia de que esta influya por lo que se acepta la hipótesis nula de que son iguale . 375 155.37 0 . Marcas Factor Posición Carro Marcas Fuente P Posición .687 6 15 30. 3 3 3 Valores 1. 4 1. En cuanto al tipo de carro observamos que este si inf luye en el desgaste de las llantas por lo que rechazamos la hipótesis nula Resultado arrojado en Minitab Modelo lineal general: Desgaste vs. B.05.83 0.687 30.688 103.938 Calculo manual para ANOVA de cuadro latino Fuente de variaciones SC GL CM F Valor crítico para F Tratamientos MC ajust. D SC ajust.s a un nivel de significancia de = 0.062 1.023 Marcas 0. Posición. 2. Carro.188 16.563 1. 4 A.396 34. 5. 16.187 103. 2.688 5. 3.896 5.431 Carro 0. 3.775 Error Total Tipo fijo fijo fijo GL Niveles 4 4 4 SC sec.375 F 5. C.07 6. Bloque 1 (filas) Bloque 2 (columnas) . Error Total Diseño en cuadro latino Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González 99 . carro y marca Operaciones básicas C B A D = = = = 12 14 17 13 D C B A = = = = 11 12 14 14 A D C B = = = = 13 11 10 13 B A D C = = = = 8 3 9 9 Suma de los cuadrados de los tratamientos Suma de los cuadrados de filas (bloque 1) .Sumas básicas para el cálculo manual Posición. B.Suma de los cuadrados de las columnas (bloque 2) suma de los datos total de medición media global Suma total por Tratamiento ( Sumatoria de las letras A.C y D correspondientes 47 49 43 44 Suma total por fila Bloque 1 ( 44 Suma total por 40 50 columna Bloque II 49 . . bloque 1 y bloque 2 .( 56 51 47 29 1.Suma de cuadrados de tratamientos o variabilidad debida a la dife rencia entre las marcas de llantas. Suma total de cuadrados o variabilidad total de los datos ..2. .. del bloque 1.Suma de cuadrados del error o variabilidad dentro de métodos de ensamble 4.Cuadrados medios de tratamientos. Raúl Jiménez González . del bloque 2 y del error 100 CAPÍTULO 3 Diseño de bloques Instituto Tecnológico de Ensenada Biol.3. 83 4.76 Renglones (Bloque 1) 16.39 1.06 .19 3 5.68 3 1.5.06 4.76 Columnas (Bloque2) 103.76 Error 30.37 6 5.Estadístico de prueba ANOVA para el diseño del cuadro latino Fuente de variaciones SC GL CM F Valor crítico para F Tratamientos 5.69 3 34.56 6.37 4.89 0. el supuesto de normalidad se cumple al caer los residuos o punt os ¨más o menos en línea recta¨ (Grafica de probabilidad normal).Varianza constante .5 5. No se comprobó el supuesto de independencia porq ue no se conoce el orden en que se realizaron las mediciones del desgaste. Figura 3. su dispersión vertical es la misma a lo Diseño en cuadro latino 101 Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González largo de los gráficos. en la que los residuos se ubican aleatoriamente dentro de una banda horizontal.Normalidad .Comprobación de supuestos. También se cumple el supuesto de varianza constante de acuerdo a la grafica de residuos vs valor a justado.5 10.Independencia de los residuos Además de la ausencia de observaciones atípicas o aberrantes. Como se observa en la figura 3.6.0 7. la validez del análisis d e varianza recae en tres supuestos que siempre deben verificarse: . Como se comentó antes. y en la grafica de residuos vs orden de observación.0 1 0 -1 -2 -3 Valor ajustado R e s i .6 Gráficas de residuos para la verificación de supuestos 4 2 0 -2 -4 99 90 50 10 1 Residuo P o r c e n t a j e 15.0 12. ajustes Histograma vs. Utilice un nivel de significancia de 0. no hay diferencia en los rendimientos promedio de las cuatro variedades de trigo Rendimiento del trigo (kg por parcela) . Los datos de la siguiente tabla son los rendimientos para las cuatro variedades de trigo. B.05 para probar la . medidas en kilogramos por parcela. C y D representan cuatro variedades de trigo. orden Gráficas de residuos para Desgaste Ejercicios 1. Se supone que las diversas fuentes de vari ación no interactúan.Las letras A.. y las columnas 4 anos dife rentes.d u o 1 0 -1 -2 -3 4 3 2 1 0 Residuo F r e c u e n c i a 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 1 0 -1 -2 -3 Orden de observación R e s i d u o Gráfica de probabilidad normal vs. los renglones representan cuatro diferentes fertilizantes. B.02 0 . C. 105 Trigo 3 263.90 2. 2. SC ajust.69 139. 3.69 87. 3.69 417. La = 2.20 0. 4 1. 4 A.2 es en realidad . Fertilizantes 1981 1982 1983 1984 Fertilizante 1 A 70 B 75 C 68 D 81 Fertilizante 2 D 66 A 59 B 55 C 63 Fertilizante 3 C 59 D 66 A 39 B 42 Fertilizante 4 B 41 C 57 D 39 A 55 102 CAPÍTULO 3 Diseño de bloques MC ajust. F P Instituto Tecnológico de Ensenada Biol.19 519.56 Total 15 2499.92 0.06 11. D Fuente GL SC sec. Trigo Factor Fertilizante Ano Trigo Tipo fijo fijo fijo Niveles 4 4 4 Valores 1.006 Ano 3 417. años y tipos de tratamiento.213 Error 6 261.69 263. Fertilizante.37 43.Modelo lineal general: Rendimiento vs.94 La variabilidad debida al fertilizante.02 es sobre 3 y 6 grados de libertad El valor p de aproximadamente 0. Ano. 2.19 1557.23 3. Raúl Jiménez González Fertilizante 3 1557.37 261. D y E representan los cinco aditivos. C y D representan a los cuatro diferentes profesores. Los guado. Las n el tiempo de fraguado se pueden esperar de los cambios diarios en la humedad y también de los diferentes trabajadores que preparan los moldes de minar estas fuentes externas de variación se utiliza un diseño de 5 x 5 en el que las letras A. A fin de eliminar cualquier efecto d ebido a los diferentes cursos de matemáticas y los diferentes horarios. se decide re alizar un experimento con el uso de un diseño de cuadros latinos en que las let ras A. Utilice un nivel de sig nificancia de 0.05 para probar la hipótesis de que los diferentes profesores no tiene n efecto en las calificaciones. en aditivos de co variaciones e temperatura y prueba.El departamento de matemáticas de una universidad desea evaluar las capacidades de enseñanza de cuatro profesores. B. Cada profesor ensena una sección d e cada de cuatro diferentes cursos programados en cada uno de los cuatro dif erentes horarios durante el día. Para eli de cuadro latino tiempos de fra . C. B. 2. Los datos muestran las calificaciones asignadas por estos profesor es a 16 estudiantes de aproximadamente igual capacidad.demasiado grande para concluir que las variedades de trigo afectan de manera significativa el rendimiento. Horario Curso Álgebra Geometría Estadística Cálculo 1 2 3 4 A 84 B 91 C 59 D 75 B 79 C 82 D 70 A 91 C 63 D 80 A 77 B 75 D 97 A 93 B 80 C 68 3.Una empresa fabricante quiere investigar los efectos de cinco lor en el tiempo de fraguado de una mezcla de concreto nueva... L os datos obtenidos son: Día Lote 1 2 3 4 5 1 2 .6 D 11.9 A 11.7 E 11.3 C 10. C. Raúl Jiménez González corridas y cada corrida requiere aproximadamente 1.8 B 14.5 D 11.7 C 10.5 B 11.05. Cada lote de material sólo permite cinc o Diseño en cuadro latino 103 Instituto Tecnológico de Ensenada Biol.5 B 10.Se quiere estudiar el efecto de cinco diferentes catalizadores (A.5 E 10. D y E) sobre el tiempo de reacción de un proceso químico. B.3 E 7.0 A 11.0 C 10.horas.5 D 11.1 C 14.5 B 10.9 4.2 D 12. para los 25 moldes.5 E 11. ¿Podemos decir que los aditivos de color tienen algún efecto en el tiempo de fraguado de la mezcla de con creto? Día Trabajador 1 2 3 4 5 1 2 3 4 5 D 10.3 C 11.5 A 10.9 B 11.3 A 11.5 horas por lo que sólo se pueden realizar cinco corridas diarias. El nivel de significancia de 0. El experimentador decide correr los experimento s con un diseño en cuadro latino para controlar activamente a los lotes y días.7 E 12.5 A 10.. 3 4 5 A C B D E B E A C D D A C E B C D E B A E B D A C 8 11 4 6 4 7 2 9 8 2 1 7 10 6 3 7 3 1 6 8 3 8 5 10 8 a) ¿Cómo se aleatoriza el experimento? b) Anote la ecuación del modelo y las hipótesis estadísticas correspondientes c) ¿Existen diferencias entre los tratamientos? ¿Cuáles tratamientos son diferentes entre si? d) Verifique los supuestos del modelo.Se comprueba el peso en gramos de un material de tres proveedores: A. El experimento se lleva a cabo como el siguiente cuadro latino: Escala Inspector 1 2 3 I II III A 16 B 15 C 13 B 10 C 9 A 11 C 11 A 14 B 13 a) ¿Hay diferencias entre los proveedores? b) ¿Hay diferencias entre los inspectores y entre las escalas? . considerando que los datos se obtuvieron columna por columna. B y C. día a día 5.. II y III. por tres diferentes inspectores: I. 2 y 3. utilizando tres diferentes escalas: 1. 475 A 1.640 C 1. Raúl Jiménez González RenCol 1 2 3 4 1 2 3 4 B 1.400 B 1. en cuanto a rendimiento en toneladas por hectárea. Gómez y Gómez (1984) plantean un experimento en cuadro latino p ara comparar. se utiliz a un campo agrícola cuadrado de 16 hectáreas. Para ello.565 D 1.c) Si el peso debe ser 15 g.670 D 1.210 A 1.660 a) ¿Existen diferencias en los rendimientos de las diferentes variedades de maíz? b) ¿Cuál de los factores de bloque tuvo efectos? c) ¿Se habrían detectado las mismas diferencias en los tratamientos con un diseño completamente al azar? d) ¿Y con un diseño en bloques completos al azar? 3. B.665 A 1.655 A 1. elimínelo y haga el análisis adecuado 6. dividido en parcelas de una hectárea.185 C 0..290 C 1. Considerando esto s factores de bloque.3.425 D 1.345 B 1.Cuando se comparan varios fertilizantes o diferentes variedades de cierto cu ltivo.290 D 1. tres varied ades de maíz hibrido (A. ¿cuál proveedor es mejor? d) Si algún factor de bloque es no significativo. Los datos de rendimiento obtenidos en cada parcela se muestran a continuación: 104 CAPÍTULO 3 Diseño de bloques Instituto Tecnológico de Ensenada Biol.180 C 0. es típico que se deba considerar el gradiente de fertilidad del suelo (factor column a) o los efectos residuales de cultivos previos (factor renglón). C) y una variedad control (D). Diseño en cuadrado grecolatino .710 B 1. Con el diseño en cuadro grecolatino (DCGL) se controlan tres factores d e bloque, además del factor de tratamiento. Se llama cuadro grecolatino porque los cuatro fa ctores involucrados se prueban en la misma cantidad de niveles, de aquí que se pueda escr ibir como un cuadro (ver tabla 3.5); además, se utilizan letras latinas para denotar a los tratamientos y letras griegas para nombrar a los niveles del tercer factor de bl oque. Tabla 3.5 Diseño en cuadro grec olatino Columnas 1 2 3 4 R e n g l o n e s 1 2 3 4 A B C D B A D C C D A B D C B A Al igual que en el cuadro latino, cada letra (latinas y griegas) debe aparecer sól o una vez en cada renglón y en cada columna. Además, cada par de letras debe apar ecer sólo una vez en todo el arreglo. El modelo estadístico que describe a las med iciones en un cuadro grecolatino está dado por donde es la observación o respuesta que se encuentra en el tratamiento (-ésima letra latina), en el renglón , en la columna y en la -ésima letra griega; es el efecto del tratamiento , es el efecto del renglón , representa el efecto de la columna y representa el efecto de la -ésima letra griega, que son los niveles del tercer f actor de bloque; el término representa el error aleatorio atribuible a la medición . Es importante no confundir las letras griegas del modelo que represent an efectos, con las letras griegas en el diseño que simbolizan a los niveles del terce r factor de bloque. La variabilidad total presente en los datos se puede partir de la manera usual c omo Diseño en cuadro grecolatino Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González donde las sumas 105 , miden la variabilidad debida a los factores de bloque renglón, columna y de letras griegas, respectivamente. Para tratam ientos, los grados de libertad correspondientes a cada suma son Un bosquejo del análisis de varianza se muestra en la tabla 3.6, en l a cual se prueban las hipótesis de igualdad de letras latinas (tratamientos), de r englones, de columnas y de letras griegas Tabla 3.6 ANOVA para el diseño en cuadro grecolatino Fuente de variabilidad Suma de cuadrados Grados de libertad Tratamientos (letras latinas) Factor de bloque I (renglones) Factor de bloque II (columnas) Factor d bloque III (letras griegas) Error Total k-1 k-1 k-1 k-1 (k-3)(k-1) Ejemplo En el caso del ejemplo donde se comparan los cuatro métodos de ensamble y se tiene el factor de bloque operador, se podrían tener dos factores de bloque adicionales: - Orden en el que se hace el ensamble - Lugar donde se hace De acuerdo con esto, el diseño en cuadro grecolatino se observa en la siguiente tabla. 106 CAPÍTULO 3 Diseño de bloques Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González Tabla 3.7 Diseño en cuadro grecolatino para métodos de ensamble Operador 1 2 3 4 O r d e n d e l e n s a m b l e 1 2 3 4 C = 10 B A D B C D A D A B C A D C B Tabla 3,8 ANOVA para el diseño en cuadro grecolatino Fuente Suma de cuadrados Gl Cuadrado medio Razón F Valor-p F critica Método Operador Orden Lugar Residual Total 2.04% El análisis de varianza para el ejemplo se aprecia que el único efecto significativo son los tratamientos (métodos).167 2.86 5. sin emba .000 S = 1. 3.014 0. operador. = 97.500 3.500 9.5 9.0 3 3 3 3 3 15 27.08012 R-cuad.29 2.83.500 lugar 3 2. 3. 2.500 83.000 Error 3 3.500 operador 3 18.0 3.5 2. 3.71 6.28 Resultado arrojado en Minitab Modelo lineal general: promedio vs. Método.500 Total 15 117.16667 3. 4 fijo 4 1.0135 0. lo cual indica que podría tener un efecto significativo. 2.29 27.16667 23.102 0.8333 6.833 23. 4 Fuente GL SC sec. 3.16667 0.217 0. 2.167 5.666667 1.667 0.500 orden 3 83.000 2.5 117. 4 fijo 4 1.2170 0.5 18. Método 3 9.86 0.6714 9.57 0. F 3. orden. y ninguno de los factores de bloque tiene un efecto significativo sobre el tiempo de ensamble.1024 0. 4 fijo 4 1.01% MC ajust.671 R-cuad.167 P 0.71 0. El factor operador tiene un valor-p bajo.500 18.(ajustado) = 85.57 1. SC ajust. lugar Factor Método operador orden lugar Tipo Niveles Valores fijo 4 1. Lo s costos observados en pesos se muestran en la siguiente tabla: Chofer/día Lunes Martes Miércoles Jueves Carlos Enrique Genaro Luis 825. 550 670. El experimento se repite en dos semanas diferentes. 610 540. en el otro extremo de la ciudad. 770 450. Diseño en cuadro grecolatino 107 Instituto Tecnológico de Ensenada Biol. en cuanto para operador.28. más importante para ellos. Deciden correr un experimento en cuadro grecolatino controlando los factores de bloque c hofer. marca de vehículo ( ) y día de la semana.. C. 615 550. B. 540 650. en este experimento fue imposible detectarlo. 675 475. D) que llegan a la zona comercial. 560 650. 750 650. por lo cual se rechaza la hipótesis nula para método. 635 635.Una compañía distribuidora ubicada en los suburbios está interesada en estudiar la diferencia en costos (tiempo y gasolina) entre las cuatro rutas (A. 1. Raúl Jiménez González Ejercicios. 580 580. 650 850. 740 560. orden y lugar se acepta. Si contrastamos con respecto a F critica para los cuatro casos F en tablas es F = 9.rgo. en las cuales no hay días festivos ni quincenas. 480 585. 730 a) Haga el análisis de varianza de este experimento b) Realice las pruebas de comparaciones múltiples para los factores significativo s c) Represente los tratamientos y factores de bloque usando gráficas de . 725 700. 725 580. d) ¿Cuál es la mejor ruta? ¿Cuál es la peor? e) ¿Hay diferencias significativas entre los choferes? ¿Y entre el tipo o marca de unidad? 2. 10 B.El rendimiento de un proceso químico se midió utilizando cinco lote s de materia prima. 18 E 16 A 22 B. 16 C 21 D. C. D y E) y cinco concentraciones del catalizador ( . 17 E. 19 D. 12 E 15 A.medias y diagrama de dispersión. cinco tiempos de procesamiento (A. 24 C. Concentración de ácido Lote 1 2 3 4 5 1 2 3 4 5 A 26 B 18 C.4. Analizar los datos de este experimento (utilizar y sacar conclusiones. ). 21 B 13 C 17 D. 25 B 14 C. 13 A. 20 D 15 E. 11 A. B. 14 108 CAPÍTULO 3 Diseño de bloques Instituto Tecnológico de Ensenada Biol. Uso de un software estadístico = 0. Raúl Jiménez González 3.05) . 17 D 16 E. cinco concentraciones del ácido. Se usó el cuadrado grecolatino siguiente. 4. 3. 4. 3. 10. 1. en la ventana de captura se anotara en Respuestas el nombre de la tercer columna. se capturan los datos e n las columnas uno dos tres y cuatro de la siguiente manera: Uso de software estadístico 109 Instituto Tecnológico de Ensenada Biol. 2. 2. 3. es decir el tiempo promedio para este caso. se captura la posición (para el problema de comparación de llantas) indicando cuantas repeticiones hay de ese número repitiendo el mismo número 1. 11. 1. 4. 1. 14. 2. 4. 3. 11. 1. . en este caso dato. 10. 8. 3. 9. 2. 1. 1. 3. 3. 3. 2. 4. 4. 7. en el factor columna s e anota el nombre del factor bloque que en este caso es operador Nota. 3. 11. 4. tal y como se indica en el diseño del cuadro. 2. 8. 1. 1. 1. 10. 1.Para capturar los datos ente secuencia: en Minitab para el diseño de bloques se sigue la sigui Primeramente en la hoja de cálculo de Minitab. Para capturar los datos en Minitab para el e dos factores) se sigue la siguiente secuencia: cuadro latino (ANOVA d Primeramente en la hoja de cálculo de Minitab. recordar que esto se hace en el cuadro principal de la izquier da dando dos clics con el ratón. 2. 7. 2. 4 b) En la segunda columna se anota el operador. 1. 2. 4 h) En la tercera columna se anota la letra que corresponde a la mar ca de las llantas en la secuencia que le corresponda según los números de la columna anterior. 3. 16. 9 d) En el cuadro de captura será en ANOVA de dos factores. 2. 3. 2. 2. 4. 2. 4. se capturan los datos en las columnas uno dos y tres de la siguiente manera: a) En la columna uno se captura el método u tratamiento indicando de que método se trata y cuantas repeticiones hay del mismo. 2. 1. 2. repitiendo el mis mo número 1. 4 c) En la tercera columna se anota el dato numérico de la tabla de datos. 4. 4 g) En la segunda columna se anota el carro. 1. 2. 6. 3. e) Indicar aceptar y obtendremos el resultado. en la posición que le corresponde. 3. 13. 3. 3. 4. 3. 1. Raúl Jiménez González f) En la columna uno. en el cuadro del factor fila se anota el nombre de la primera columna que corresponde al método o tratamiento. 14. pero con su espacio de separación) l) En factores aleatorios se deja en blanco. 2. B = 2. e s decir. 4 segunda columna se anota el operador (para el ejemplo de r es repetición 1. 4. siendo: 10. . 2. 13. 7. D. 8. 3. B. 3. 3. 4. C. A.4. 3. 4. 2. 3. 14. 12. cuatro y cinco de la siguiente manera: a) En la columna uno se captura la tratamiento o método. D = 3 y A = 4)). 8. 8 f) Ahora en Estadísticas de Minitab. 6. seleccionar ANOVA. 3. 4 CAPÍTULO 3 Diseño de bloques Instituto Tecnológico de Ensenada Biol. 1. 11. 2. 11. 1. 3. 4. y obtendr emos el resultado Para capturar los datos en Minitab para el cuadro grecolatino (ANOVA de tres factores de bloque) se sigue la siguiente secuencia: Primeramente en la hoja de cálculo de Minitab. 1. 2. el desgaste. 3 . 4. 1. 1. es decir. C. seleccionar ANOVA. 2. 14. 4. 1. 1. repitiendo el mismo número 1. A. el tiempo o promedio (para este ejemplo). 14. A. Anotand o el número que represente a cada letra indicada en el cuadro. D. 3. 10. luego Modelo l inear general. 3 e) En la quinta columna se anota los valores correspondientes a la respuesta. 2 d) En la cuarta columna se anota el número que representa a la letra griega como se colocaron el diseño del cuadro (para este caso el orden de las c uatro letras iníciales fue . Anotando el número que represente a cada letra indicada en el cuadro. B. decir si es 110 1. 4. 12. 1. D. 3. 11. k) En respuesta seleccionar la columna cuatro (desgaste) dando dos clic con el ratón. 4. 2. = 2. 13. y A (C = 1. 1. 11. 4. 4. indicar con dos clic del ratón. 17. 3. 2. carro. 1. 3. 14. 3. 3. . D. 2. 4. 9. 3. D. 13. 1. 2. 13. 2. B. Raúl Jiménez González c) En la tercera columna se anota el número que representa a la letra latin a como se colocaron el diseño del cuadro (para este caso el orden de las c uatro letras iníciales fue C. y ( = 1. luego Modelo linear general. b) En la eferencia). indicando con un número cuantas repeticiones hay de ese tratamiento. marca y desgaste (recordar que esto se hace en el cuadro principal de la izq uierda quedando de manera continua sin comas. C i) En la cuarta columna se anota los valores correspondientes a la respuesta. 8. se capturan los datos e n las columnas uno dos tres. y se indica aceptar. 1. = 3 y = 4)). 1. 7. 2. luego en Modelo. B. 10. 2. 4. 2. . 12. 9 j) Ahora en Estadísticas de Minitab. 10.C. B. 2. . 3. 15. 4. A. g) En respuesta seleccionar la columna quinta (tiempo o promedio) dando dos cli c con el ratón.000 3.102 0.500 18. orden y lugar (recordar que esto se hace en el cuadro principal de la izquierda ) h) En factores aleatorios se deja en blanco.167 6.014 0.167 P 0. método.08012 R-cuad. 2. lugar Factor Metodo operador orden lugar Tipo Niveles Valores fijo 4 1.500 MC ajust. Raúl Jiménez González CAPÍTULO 4 F 2. 4 fijo 4 1.71 5.167 27. 3. operador. = 97. Método. 4 fijo 4 1.04% Diseños factoriales Instituto Tecnológico de Ensenada Biol.500 2. utilizando SC ajustada para pruebas Fuente GL Metodo 3 operador 3 orden 3 lugar 3 Error 3 Total 15 SC sec. y se indica aceptar.000 S = 1.667 1. 4 Análisis de varianza para promedio.500 2.500 117.500 83. 9. Raúl Jiménez González ———— 15/11/2011 11:26:49 ———————————————————— Modelo lineal general: promedio vs. y obtendremos el resultado Uso de software estadístico 111 Instituto Tecnológico de Ensenada Biol. indicar con dos clic del ratón. operador.000 3.671 R-cuad.29 23. 3.86 0. 4 fijo 4 1. 2.217 0. 3. 9.01% 112 CAPÍTULO 4 SC ajust. 3.500 83. 2. 2. orden.57 . luego en Modelo.(ajustado) = 85. 3.500 18.833 0. Interpretar correctamente los análisis gráficos y el análisis de varianza en los diseños factoriales. y es poco justificable suponer de antemano que los factore s no interactúan entre sí. Conocer el diseño factorial general y diferenciar los modelos de efectos fijos con los modelos de efectos al eatorios. Desarrollar los diseños factoriales de dos y tres factores.3.2. 4. donde cada factor tiene la misma importancia a priori desde el momento que se decide estudiarlo. Conceptos básicos en diseños factoriales Es frecuente que en muchos procesos existan varios factores de los qu e es necesario investigar de manera simultánea su influencia sobre una o varias variables de resp uesta. describi endo los conceptos básicos que estos involucran y mostrado cómo se hace tal experimentación. Raúl Jiménez González Competencias Explicar cuando un diseño de experimentos es un diseño factorial. Los diseños experimentales que permiten estudiar de manera simul tánea el efecto de varios factores son los llamados diseños factoriales.1.5. 4.4. 4.Conceptos básicos en diseños factoriales 4. El objetivo de un diseño factorial es estudiar el efecto de varios fac . 4. Diseños factoriales con dos factores Diseños factoriales con tres factores Diseño factorial general Modelos de efectos aleatorios Uso de un software estadístico Diseños factoriales 113 Instituto Tecnológico de Ensenada Biol. todos con dos niveles de prueba. dos operadores. etc. encontrar nuevas condiciones de opera ción del proceso que eliminen o disminuyan ciertos problema de calidad en la variable de salida. Es claro que si los k factores . donde una réplica se lleva a cabo cada vez que se repite el arreglo completo. humedad. la familia de diseños factoriales consiste de k factores. Más en general. y la familia de diseños factoriales consiste de k factores 114 CAPÍTULO 4 Diseños factoriales Instituto Tecnológico de Ensenada Biol.). etc. Los factores pueden ser de tipo cualitativo (máquinas. o de t ipo cuantitativo (temperatura. Un diseño de experimentos factorial o arreglo factorial es el conjunto de puntos experimentales o tratamientos que pueden formarse considerando todas las posibles combinaciones de los niveles de los factores. etc. es necesario elegir al menos do s niveles de prueba para cada uno de ellos (tres máquinas. Raúl Jiménez González cada uno con tres niveles de prueba. Considerando otra vez k = 2 factores.). presión. pero ahora uno con tres niveles y el otro con dos niveles. dos temperaturas. Para obtener el número de corridas experim entales se multiplica el número de tratamientos por el número de réplicas. velocidad. se pueden construir 3 x 2 combinaciones que dan lug ar al diseño factorial 3 x 2. ambos con dos niveles de prueba.). Observe que en el nombre del diseño factorial va implícita el número de tratamientos que lo componen. Por ejemplo. tres ve locidades. es decir. Con el diseño factorial completa se corren aleatoria mente en el proceso todas las posibles combinaciones que pueden formarse con los n iveles seleccionados. con k = 2 factores. tipos de material . se forma el diseño factorial . que consiste de cuatro combinaciones o puntos experimentales. Para poder estudiar la m anera en que incluye cada factor sobre la variable respuesta. operador. la presencia o ausencia de una operación previa.tores sobre una o varias respuestas o características de calidad y determinar una c ombinación de niveles de los factores en la cual el desempeño del proceso sea mejor que en las condiciones de operación actuales. Con ellos se puede construir el arreglo o diseño factor ial . cada uno con dos niveles deno tados por . que consiste de 16 combinaciones de niveles diferentes. de tal forma que si se hacen réplicas. Se llama réplica cada repetición completa del arreglo factorial. y la respuesta media observada cuando el factor estuvo en su segundo nive l. 4. los efectos principa les son los cambios en la media de la variable de respuesta que se deben a la acción ind ividual de cada factor. se tiene el diseño factor . el número total de corridas experimentales es ( ). por ejemplo. En particular. el efecto principal de un factor con dos nivel es es la diferencia entre la respuesta media observada cuando tal factor est uvo en su primer nivel. En términos matemáticos. El experi mento tiene réplicas y cada réplica contiene todas las combinaciones de tratamientos . A y B. Diseños factoriales con dos factores El experimento factorial más sencillo es en el que intervienen solamente dos factores. Suponga que en un proceso de fermentación tequilera.1. entonces no se puede factorizar de esta forma. y debe es manera más explícita: por ejemplo con k = 3 factores. se tienen dos factores A: tipo de levadura y B: temperatura. Considere los factores A y B con y ( ) niveles de prueba.no tienen cantidad de cribirse el producto de tro niveles y ial la misma niveles. Hay niveles del factor A y niveles del factor B. Ejemplo Diseño factorial . que consiste de tratamientos. el primero con cua los dos restantes con dos niveles. Efecto principal y efecto de interacción El efecto de un factor se define como el cambio observado en la var iable de respuesta debido a un cambio de nivel de tal factor. respectivamente. Los diseños factoriales que involucran menos de cuatro factore s se corren replicados para poder tener la potencia necesaria en las pruebas estadís ticas sobre los efecto de interés. En la tabla 4.1.1 se muestran lo s cuatro tratamientos o puntos del diseño factorial .1 Diseño factorial A: Levadura B: Temperatura Y: Rendimiento 28 41 63 45 Para los datos de la tabla 4. En el experimento original cada tratamiento se co rrió tres veces (tres réplicas). y entre paréntesis se ha indicado cada nivel con los códigos (1. Raúl Jiménez González Efecto A = 115 . lo cual da un total de 12 corridas del proceso pero. los efectos principales están dados por Diseños factoriales con dos factores Instituto Tecnológico de Ensenada Biol. por si mplicidad. Tabla 4.respectivamente.1 sólo se anotaron los resultados de la primera réplica. La respuesta de interés es el rendimiento del proceso de fermentación. en la última columna de la tabla 4. -1). los factores A y B interactúan si el efecto de A es muy diferente en cada nivel de B. y viceversa. -1). que se denotan por AB y se calculan como la diferencia entre la respuesta media cuando ambos factores se encuentran en el m ismo nivel: (-1. y más bien se calcula el efecto global de la interacción de los dos factores.Efecto B = por lo que en términos absolutos el efecto principal de B es mayor. Por ejemplo. Es decir. (1. -1).1: el efecto de A cuando B es baja está determinado por Efecto A (con B bajo) = 41 . o viceversa. y la respuesta media cuando los factores se encuentran en niveles opuestos: (-1. 1) (1. el efecto de interacción levadura x temperatura está dado por Los valores absolutos (sin importar el signo) de los efectos princip ales y del efecto de interacción son una medida de importancia de su efecto sobre la variable de . entonces es evidencia de que la elección más conveniente del nivel de A depende del nivel en que esté B. P or otra parte. eso es evidencia de que los factores d e A y B interactúan sobre Y. 1). el cálculo del efecto A en cada nive l de B no se hace. En la práctica. Ahora veamos esto con los datos de la tabla 4. cuando el efecto de un factor depende del nive l en que se encuentra el otro. el efecto de A es Efecto A (con B alta) = 45 .63 = 13 Como estos dos efectos de A en función del nivel de B son muy dife rentes. se dice que dos factores interactúan entre sí o tienen un efecto de interac ción sobre la variable de respuesta.28 = 13 y cuando la temperatura es alta. Para el ejemplo . lo que se afirm a es que el comportamiento de la respuesta Y en el experimento con k réplicas se p odría describir mediante el modelo de efectos: donde es la media general. Modelo estadístico Con un diseño factorial se pueden estudiar los dos efectos individuales y el ef ecto de interacción de ambos factores. Raúl Jiménez González combinación es el error aleatorio que supone sigue una distribución con media cero y varianza constante y son independientes entre sí. Sin embargo. como se tienen estimaciones muestrales. Para que la estimación de los parámetros en este modelo sea única. En términos estadísticos. se introducen las restricciones : .respuesta. para sa ber si los efectos son estadísticamente significativos (diferentes de coro) se requiere el anál isis de varianza (ANOVA). representa al efecto de interacción en la 116 CAPÍTULO 4 Diseños factoriales Instituto Tecnológico de Ensenada Biol. es el efecto debido al i-ésimo nivel del factor es el efecto del j-ésimo nivel del factor B. las hipótesis de interés para los tres efectos son: Estas hipótesis se prueban mediante la técnica de análisis de varianza qu e para un diseño factorial con réplicas resulta de descomponer la variación total como. donde los respectivos grados de libertad de cada una de ellas son: El factor ror ( en los grados de libertad de la suma de cuadrados del er . En este modelo. Puede usarse el análisis de varianza para probar hipótesis relativas a los efectos principales de los factores A y B y la interacción AB. los efectos dados en el modelo son desviaciones respecto de la media global.Es decir. por ende. Recordemos que las sumas de cuadrados divididas entre sus correspondientes grados de liber tad se llama cuadrados medios .) señala que se necesitan al menos dos réplicas del experimento para cal cular ese componente y. para construir una tabla de ANOVA. Toda esta se sintetiza en la siguiente tabla: ANOVA para el diseño factorial FV SC GL CM Valor-p Efecto A Efecto B Efecto AB Error Total información . Al dividir éstos entre el cuadrado medio del error se obtienen estadísticos de prueba con distribución F. Raúl Jiménez González Recordemos la notación de puntos para representar sumas y medias: . Diseños factoriales con dos factores 117 Instituto Tecnológico de Ensenada Biol.Si el valor-p es menor al nivel de significancia prefijado. se recha za la hipótesis nula y se concluye que el correspondiente efecto está activo o influye en la variable de respuesta. . Las sumas de cuadrado s de efectos son: .Con esta notación la suma de cuadrados totales es: donde N = es el total de observaciones en el experimento. respectivamente. al restar éstas del total. Por ello. en este proceso sólo se puede trabajar en 4 y 3 niveles. Aunque los factores son de naturaleza continua. se decide correr un factorial compl eto 4 x 3 con tres réplicas.y al final. Raúl Jiménez González . Al aleatorizar las 36 prueb as se obtienen los datos de la siguiente tabla: 118 CAPÍTULO 4 Diseños factoriales Instituto Tecnológico de Ensenada Biol. se obtiene la suma de cuadrados del error c omo: Ejemplo Consideremos un experimento en el que se quiere estudiar el efecto de los factores A: profundidad de corte sobre el acabado de un metal y B: velocidad de alimentación. que permitirá obtener toda la información relevante en r elación al efecto de esos factores sobre el acabado. 21 88 92 99 108 95 108 110 99 74 198 266 299 79 220 290 298 82 262 302 317 881 0.Datos del experimento factorial 4 x 3 B: velocidad A : P r o f u n d i d a d 0.18 68 73 98 104 88 104 99 95 808 0.15 64 60 92 86 88 99 98 102 763 0.20 0.30 Total 0.24 99 104 299 96 104 .25 0. calculemos los totales necesarios. De donde: .110 99 114 111 107 313 332 944 Total 979 1 171 1 246 El acabado () está en unidades de gramos e interesa minimizar su valor De acuerdo a esto para obtener el ANOVA para el ejemplo. . La suma de cuadrados totales y la suma de cuadrados del error están dadas por . se observa que a mayor velocidad y profundid ad hay una tendencia a obtener peores acabados. prácticamente toda la información relevante del experimento se apreci a en su representación gráfica (figura 4. Por lo tanto. Del ANOVA se concluye que los tres efectos A: velocidad.1).Con esta información se construye el análisis de varianza de la tabla 4. Dado que el efecto de integración AB resulta significativo. las condiciones de . La significancia de la interacción detectada por el ANOVA se observa en el hecho de que las líneas en la figura 5.2. Nótese que aparecen tantas líneas como niveles tenga el factor que se dibuja en la parte de arriba.1 tienen pendientes relativamente diferentes. Raúl Jiménez González alta ( ) el efecto de profundidad es menor (véase la dispersión de las líneas en la figura cuando la velocidad es alta). que en este c aso es la profundidad con sus cuatro niveles que se denotan con la escala de -1 a 1. Además se ve que cuando se tiene veloci dad Diseños factoriales con dos factores 119 Instituto Tecnológico de Ensenada Biol. Como lo que inte resa es minimizar la variable de respuesta. B: profundidad y AB están activos o influyen en el acabado. Tabla 5.66 3.10 557.25 708.02 24.0000 0. el ANOVA se puede desglosar para estudiar con mayor detalle en el efecto de tal factor.0180 El planteamiento de hipótesis quedaría de la siguiente manera: Con su nivel de significancia como con sus grados de libertad respect ivamente tenemos que el valor de F crítica es: y Se concluye que Se rechaza . El ANOVA de la tabla 5.72 55.0000 0.84 28. ya que cuando en un experimento hay factores cuantitativos con más de dos niveles.33 6 532.37 92.operación o tratamiento que convienen es profundidad y velocidad bajas ( ).0 2 3 6 24 35 1 580.07 689.5 2 125.23 0.2 ANOVA para el ejemplo FV SC GL CM Valor-p B: velocidad A: profundidad AB Error Total 3 160.2 se dice que no está desglosado. 50 1580.Se rechaza Se acepta Resultado arrojado en Minitab para el ejemplo anterior Factores: 2 Corridas base: 12 Bloques base: 1 Réplicas: 3 Total de corridas: 36 Total de bloques: 1 Número de niveles: 4. 0. pero no dice .30 Análisis de varianza para RESPUESTA.18. 0.37 3160. SC ajust. AB Error Total 120 CAPÍTULO GL 3 2 6 24 35 4 SC sec.06 557.72 6532.23 P 0. para después de un ANOVA en el que se rechaza .33 28. MC ajust. 2125. 0.25.00 Diseños factoriales F 24.000 0.15.02 3.24 0. PRFUNDIDAD.018 Instituto Tecnológico de Ensenada Biol.21. investigar cuáles medias causa las diferencias detectadas.06 92.66 55.50 3160.*VEL. Raúl Jiménez González Comparación de medias Las comparaciones de medias se introdujeron en la sección ´´Diseño completamente al azar y ANOVA´´ del capítulo 2.33 689. 3 Modelo lineal general: RESPUESTA vs.11 708.25 557.11 2125.84 689.20. El ANOVA sólo indica que al menos un par de niveles del factor significativo son diferentes entre sí. 0. 0.000 0. utilizando SC ajustada para pruebas Fuente PRFUNDIDAD A VELOCIDAD B PRF. VELOCIDAD Factor Tipo PRFUNDIDAD A fijo VELOCIDAD B fijo Niveles 4 3 Valores 0. Por facilidad. los seis pares de hipótesis para comparar las medias del factor A son: .cuáles son. denotemos los cuatro niveles de la profundida d (A) del ejemplo anterior como así como los tres niveles de la velocidad (B) como Entonces es. . .mientras que para el factor B se tienen los tres pares de hipótesis. Cabe aclarar que este análisis es engañoso cuando el efecto de intera cción es significativo. La diferencia mínima si gnificativa para comparar los niveles del factor A. está dada por: . se prueban la s hipótesis del factor A ignorando por el momento la interacción. Por ello. y sólo por ilustrar el método.Para probar estas hipótesis con el método LSD habría que calcular las diferencias muestrales en el valor absoluto y compararlas con la difer encia mínima significativa. Raúl Jiménez González De los totales marginales dados en el renglón inferior de la tabla d onde se representan los datos del experimento factorial 4 x 3. los grados de libertad del cuadrado medio del error.Donde es el punto porcentual 100( de la distribución T de Student. entonces. y son el total de observaciones en los niveles del factor A. Así. como es un diseño balanceado = = 9. que están compara ndo. al dividir entre 9. De esta manera. Comparación de medias 121 Instituto Tecnológico de Ensenada Biol. las seis posibles diferencias muestrales en valor absoluto resultan ser: . que son el número de mediciones involucradas en cada total . en el ejemplo. se obtienen las medi as del factor A. donde sólo la primer diferencia resulta no significativa. es decir. se acepta . 4. 5. se aplico la pintura final.0 5.3 5. 5.6.9 11.3 5.La pintura tapaporo de aviones se aplica en superficies de alumin io utilizando dos métodos: por inmersión y por aspersión.7.2 49. Se realizó un experimento factorial para investigar el efecto que tien e el tipo de pintura tapaporo y el método de aplicación sobre la adherencia de la pintura.4 4. en las cinco comparaciones restantes se rechaza .8 = Resultado en Minitab .. 5.5 40.1 27..8 15. 6.6 6. y en algunas partes puede aplicarse utilizando cualqui era de los dos métodos.5. Al grupo de ingenieros responsable del proceso de esta ope ración le interesa saber si tres pinturas tapaporo diferentes difieren en sus pr opiedades de adherencia.9.7 34.1. 5.0. 4.8.0 12.5 4.9. y se midió la fuerza de adherencia. 3.2 15.9 18. Se pintaron tres ejemplares de prueba con cada pintura utilizando cada uno de los métodos de aplicación. en cambio. El objeto de la pintura tapaporo es mejorar la adherencia de la pintura.4. 3.0. Probe mos la hipótesis apropiada y saquemos conclusiones Tipo de tapaporo Inmersión Aspersión 1 2 3 4. Ejercicios 1.5 15. 5.8.6 89. 28.0 4. Diseño factorial de múltiples niveles Factores: 2 Corridas base: 6 Bloques base: 1 Réplicas: 3 Total de corridas: 18 Total de bloques: 1 Número de niveles: 3.7178 S = 0. Además . Se rechaza . utilizando SC ajustada para pruebas Fuente GL SC sec. no hay indicios de interacción entre estos factores.9089 0.9867 Total 17 10. 4. Aspersión Análisis de varianza para Respuesta.9867 0.5811 Adherencia 1 4.2411 Error 12 0. puesto que 1.9089 4.5811 2. En la última columna del ANOVA se muestra el valor P para cada cociente F. Tapaporo. Adherencia Factor Tapaporo 122 Tipo Niveles Valores fijo 3 1.70 0.000 1. Raúl Jiménez González Adherencia fijo 2 Inmersión.96% Dado que utilizamos un = 0.2411 0. 3 CAPÍTULO 4 Diseños factoriales Instituto Tecnológico de Ensenada Biol.05 mientras que el valor P para el es tadístico de prueba de la interacción es mayor que 0.79% SC ajust. = 90. 2.(ajustado) = 86.2906 4. con su nivel de significancia como con sus grados de libertad respectivamente tenemos y .05 y puesto que el valor de tanto para el factor A (tipo de pintura) como para el factor B(tipo de aplicación).05.000 59.86 0. Obsérvese que los valores P de los dos estadísticos de prueba para los efectos princ ipales son considerablemente menores que 0. 2 Modelo lineal general: Respuesta vs.9089 Tapaporo*Adherencia 2 0.47 0. MC ajust. Se concluye que los efectos principales del tipo de pintura tapaporo y del método de aplicación afectan la fuerza de adherencia.1206 0.5 .286744 R-cuad.269 R-cuad. Tapaporo 2 4.0822 F P 27. Pueden usarse tres tipos de materiales para hacer l as placas de la batería. Los datos son los siguientes: Material Temperatura ( Baja Media Alta 1 130 74 155 180 34 80 40 75 20 82 70 58 2 150 159 188 126 136 106 122 115 25 58 70 45 3 138 168 ..Se presentan los resultados de un experimento en el que intervien e una batería de almacenamiento usada en el mecanismo de lanzamiento de un misil tierra -aire para cargar al hombro.Se rechaza Se acepta 2. El objetivo es diseñar una batería que se mantenga relativamente s in alteraciones por la temperatura ambiente. La respuesta de salida de la batería es la vida efectiva en horas. Se seleccionan tres niveles de temperatura y se corre un expe rimento factorial con cuatro replicas. En un artículo se describe un experimento para investigar el efecto de dos fac tores (tipo de cristal y tipo de fósforo) sobre la brillantez de un cinescopio.05 c) Analice gráficamente la interacción d) Analice los residuales de este experimento 3. La varia ble de respuesta media es la corriente (en microamperes) necesaria para obtener un nive l especifico de brillantez.Se condujo un experimento para determinar si la temperatura del fuego o la p osición .. Raúl Jiménez González b) varianza con = 0.110 160 174 150 120 139 96 82 104 60 a) Pruebe las hipótesis apropiadas y saque conclusiones utilizando el análisis de Ejercicios 123 Instituto Tecnológico de Ensenada Biol.05 c) Analice los residuales de este experimento 4. Los datos se presentan en la siguiente tabla: Tipo de cristal Tipo de fósforo 1 2 3 1 280 290 285 300 310 295 290 285 290 2 230 235 240 260 240 235 220 225 230 a) Enuncie las hipótesis de interés en este experimento b) Pruebe las hipótesis anteriores y saque conclusiones utilizando análisis de varianza con = 0.. B. por mencionar dos de ellos. Hipótesis de interés El estudio factorial de tres factores (A. b y c. B y C ) sobre una o más variables de respuesta. y el número de niveles de prueba en cada uno de los factor es es a. Raúl Jiménez González factorial y los factoriales mixtos con no más de cuatro niveles en dos de los factores. Entre los arreglos de este tipo qu e se utilizan con frecuencia en aplicaciones diversas se encuentran: el fact orial . donde el nivel de desglose o detalle con el que pueden estudi . C. por ejemplo. Los dato s son los siguientes: Posición Temperatura () 800 825 850 1 570 565 583 1 063 1 080 1 043 565 510 590 2 528 547 521 988 1 026 1 004 526 538 532 a) Enuncie las hipótesis de interés b) Pruebe las hipótesis anteriores utilizando el análisis de varianza con = 0. se puede construir el arreglo factorial .2. B y C) permite investigar l os efectos: A. ¿A qué conclusiones se llega? c) Utilizando el método de la LSD de Fisher. el 124 CAPÍTULO 4 Diseños factoriales Instituto Tecnológico de Ensenada Biol. Diseños factoriales con tres factores Cuando se quiere investigar la influencia de tres factores (A. investigar las diferencias entre la media de la densidad del endurecimiento de los ánodos en los tres diferentes niveles de temperatura 4. respectivamente. que co nsiste de tratamientos o puntos experimentales.05. BC y ABC.en el horno afectan la densidad de endurecimiento de un ánodo de carbono. AC. AB. el factorial 4 x 3 x 2 y el factorial 4 x 4 x 2. s i un factor se prueba en dos niveles. pero. o sea que su efecto individual no se puede descomponer. se tienen siete efectos de interés sin considerar desglose. y con el los se pueden plantar las siete hipótesis nulas cada una aparejada con su correspondiente hipótesis alternativa.arse depende del número de niveles utilizando en cada factor. si tuviera tres niveles su efecto mar ginal se puede descomponer en una parte lineal y otra cuadrática pura. Por ejemplo. El ANOVA para pro bar estas hipótesis se muestran en la siguiente tabla. todo su efecto marginal (individual) es lineal. En resumen. ANOVA para el diseño a x b x c FV SC GL CM Valor-p Efecto A Efecto B Efecto C Efecto AB Efecto AC Efecto BC Efecto ABC Error Total . . Al efecto cuyo valor-p sea menor al valor especificado para alfa. Las sumas de cu adrados son muy similares a las obtenidas para dos factores. s e declara estadísticamente significativo o se dice que está activo. habrá que considerar u . n subíndice adicional para el tercer factor. y comenzando otra vea. éstas resultan ser: donde N = es el total de observaciones en el experimento. Las sumas de cuadrado s Diseños factoriales con tres factores Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González de efectos son: 125 . por la suma t otal de cuadrados. . Al restar éstas del total. la suma de cuadrados del error resulta ser . 68. 75. 73. Para ello se decide correr un experimento factorial 3 x 2 x 2 con seis réplicas. Una vez hecho el ANOVA.cuyos respectivos grados de libertad se dan en la tabla anterior. abertura de malla (B) y temperatura de ciclaje (C) en el volumen de sedimentación Y(%) de una suspensión. 65 . y luego (aunque no necesariamente después) a diagnosticar la calidad del modelo. Se desea investigar el efecto del tipo de suspensión (A ). 70. 75 86. 68 62. Ejemplo El experimento. se procede a interpretar los efectos activos. 70 67. y las observaciones obtenidas en las 72 corridas experimentales se muest ran en la siguiente tabla: 60. 68. 73 67. 71. 60. 70. codificadas Bajo Medio Alto Bajo Medio Alto A: Tipo de suspensión B: Abertura de malla C: Temperatura 40 0 - 60 30 -1 -1 -1 0 1 1 . 57 59. 51. 68. 45 60. 80. 52. 44. 65 80 80 75 73 75 77 55. 65. Raúl Jiménez González Factor U. 54 44. se muestran en la siguiente tabla 126 CAPÍTULO 4 Diseños factoriales Instituto Tecnológico de Ensenada Biol. 55 Los niveles de prueba para cada factor. 54 56. tanto en unidades originales como en unidades codificadas. originales U. 53. 75. 75. 48. 54. 57 52. 76. 60 67. 50. 48. 65 52. 72.76. 55. 80. 45 48. 55 52. 50 52. 55. 75. 67. 53 55. 71. 75. 51 1.67 Total 71 8339. utilizando SC ajustada para pruebas Fuente GL SC sec.06% Observaciones inusuales de Respuesta Residuo 0. Suspensión. se encuentran activos los efectos B. Abertura de malla.03 15. MC ajust.86 480. B2 temperatura fijo 2 C1.06 0. En general se recomienda interpretar sólo los efectos significa tivos.25 40.46 0.11 0.25 Suspensión*temperatura 2 40.25 0. F 13.50 6.89 28.50 6086.74537 R-cuad. De aquí se concluye su valor-p es mayor que .00 433.000 1.43 56. .78 S = 3.72 0 Suspensión*Abertura de malla 2 788..00 .72 788. C.10 0.93 480. A3 Abertura de malla fijo 2 B1. se pueden eliminar mandándolos al término error. Factor Tipo Niveles Valores Suspensión fijo 3 A1. Los efectos que no influyeron VA simplificado.03 R-cuad. Por AB y en menor medida BC. A2.13 20.. 2.86 Abertura de malla*temperatura 1 56.67 14.04 31.91% SC ajust.241 4.72 6086. P Suspensión 2 13. C2 Análisis de varianza para Respuesta. pero varianza para este ejemplo se muestra en la siguiente que no influyen los efectos ABC.86 56.89 394. dado que otra parte.338 841. 2 Modelo lineal general: Respuesta vs.613 34.50 0 temperatura 1 6086. El ANO con el efecto A note que el en ambos ANOVAS es prácticamente igual. Éstos son los cuatro efectos que se deben interpretar.1 El análisis de tabla.49 0.89 9 Suspensión*Abertura de malla* 2 31. Diseño factorial de múltiples niveles Factores: 3 Corridas base: 12 Bloques base: 1 Réplicas: 6 Total de corridas: 72 Total de bloques: 1 Número de niveles: 3.86 Abertura de malla 1 480.03 temperatura Error 60 841. = 89.90 0.(ajustado) = 88. AC ni A. Se rechaza .Obs Respuesta Ajuste Ajuste SE Residuo estándar 23 60.70 R 36 76.6 97.8333 1.0000 72. y el tiempo de cocción de la pulpa en cuanto a sus efectos sobre la resistencia del papel. la libertad de orientación de la fibra o lof. Raúl Jiménez González Dado que utilizamos un = 0.5290 13.6667 1. Se rechaza .Se investigan el porcentaje de la concentración de madera dura en la pulpa cru da.05 y puesto que el valor de . Porcentaje de la tiempo de cocción Concentración de 1.0000 72.0000 66. Se rechaza Ejercicios 1. Se acepta . Se acepta . .4 2.68 R 52 86. En la siguiente tabla se muestran lo s datos de un experimento factorial con tres factores.5290 9. Diseños factoriales con tres factores 127 Instituto Tecnológico de Ensenada Biol.3333 3. con su nivel de significancia como con sus grados de libertad en tablas respectivamente tenemos y .9 99.0 horas de .5 horas de tiempo de cocción lof lof Madera dura 350 500 10 350 500 650 650 96. Se rechaza .90 R R denota una observación con un residuo estandarizado grande.6667 -3.6667 1..5290 -12.1667 2. 0 15 98.0 20 97.4 99.6 1000.4 97..6 100.6 99.5 97.4 96.9 97.8 100.0 97.4 98.7 96.8 97.6 96. Raúl Jiménez González 1 24 36 CAPÍTULO 4 Oper . Se seleccionan tres operadores.0 96.2 98. tres dura ciones del ciclo y dos temperaturas.8 a) Analice los datos usando el análisis de varianza bajo el supuesto d e que todos los factores son fijos.0 98.6 98.El departamento de control de calidad de una planta de acabados textiles est udia los efectos de varios factores sobre el teñido de una tela combinada de algodón y fibra sintética que se usa para hacer camisas. Use b) Encuentre los valores de P de los cocientes F del inciso a 2.0 95.4 99.6 97.98.1 99.5 98. La tela terminada se comparó con un patrón y se asigno una puntuación numérica.5 97.1 99.6 98. Los resultados se presentan en la tabla siguiente Temperatura 300 350 Operador ador Duración del ciclo 3 40 34 36 36 35 39 50 34 38 36 36 31 60 28 37 26 34 34 128 1 2 23 3 27 31 2 24 38 28 32 23 25 26 28 28 34 33 37 34 35 38 34 39 36 39 35 35 28 35 26 26 36 24 35 27 29 27 34 25 25 Diseños factoriales Instituto Tecnológico de Ensenada Biol.5 96.9 96.0 96.2 98. y tres ejemplares de prueba pequeños de tela se tiñeron bajo cada conjunto de condiciones. interacciones dobles. K con niveles respectivamente. Con estos niveles y factores se puede construi r el diseño factorial general que consiste de tratamientos o puntos de prueba. interacciones triples. donde la letra K denota al -ésimo o últim o factor del conjunto a estudiar. B. Con este diseño se pueden estudiar efectos principales. no necesariamente el undécimo. C.a) Enuncie y pruebe las hipótesis apropiadas usando el análisis de varian za con 3. la profundidad del corte (B) y el ángulo de la herramienta (C). Son de interés tres factores: la rapidez de aliment ación (A). El cálculo del número de interaccion es . Use b) Encuentre los valores de P de los cocientes F del inciso a 4.025 pulgada 0. Diseño factorial general Lo que se ha dicho para los dos diseños factoriales con 2 y 3 factores puede exten derse fácilmente para cuando se tienen más factores. A los tres fa ctores se les ha asignado dos niveles.….3. que es e l lugar de esta letra en el alfabeto. Considerarse factores A.Un ingeniero mecánico estudia la rugosidad superficial de una pieza producida en una operación de corte de metal. y se corren dos réplicas de un diseño factorial Rapidez de alimentación Profundidad del corte 0.. y así sucesivamente hasta la única interacción de los factores (ABC…K).04 pulgada Ángulo de la herramienta 15 25 15 25 30 pulg/min 9 7 11 10 9 11 10 8 30 pulg/min 10 12 10 13 12 15 16 14 a) Analice los datos usando el análisis de varianza bajo el supuesto d e que todos los factores son fijos. el factorial tiene 243. Por su parte. además. el diseño factorial tiene cinco efectos principales. Cabe destacar que mientras el diseño factorial tiene 32 tratamientos. Las primeras tres columnas de este ANOVA se muestran en la siguiente tab la ANOVA para el diseño factorial general FV SC GL . una cantidad de tratamientos difícil de manejar. Si se tienen réplicas. el factorial también tiene este mismo número de efectos. Raúl Jiménez González De acuerdo con lo antes dicho. en el factorial general se pueden plantear hipótesis que se prueban mediante el análisis de varianza. 10 interacciones dobles.de cierta cantidad de factores se hace mediante la operación ¨combinaciones de e n ¨ que cuenta el número de diferentes maneras de seleccionar factores de los . cada efecto principal se puede descomponer en su parte lineal y cuadrática . rep resenta una opción muy ineficaz. lo cual da un total de 31 efectos. 10 interacciones triples. existen arreglos experimentales más pequeños y eficientes. cinco interacciones cuádrup les y una interacción quíntuple. Aun si pudiera correrse. Diseño factorial general 129 Instituto Tecnológico de Ensenada Biol. pero al contar con tres nive les en cada factor. donde = Por ejemplo. Error Total La suma de cuadrados totales está dada por: donde N = es el total de observaciones en el experimento. Las sumas de cuadrados de efectos son: 130 CAPÍTULO 4 Diseños factoriales Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González Al final, la suma de cuadrados del error se calcula por sustracción, En el ANOVA para el factorial general se observa la necesidad de contar con al menos dos réplicas del experimento para calcular la suma de cuadrado s del error ( ), y completar toda la tabla ANOVA. Sin embargo, esta necesidad de réplicas ( , que se ha mencionado,. Es para el caso irreal de que interesan los efectos. Pero resulta que, con excepción del factorial , en un factorial completo prácticamente nunca interesan todos sus posibles efectos, puesto que en términos generales sólo algunos de ellos están activos. El principio de Pareto, que en este contexto también se llama principio de esparcidad de efectos, dice que la mayoría de la variabilidad observada se debe a unos pocos de los efectos posibles; por lo común se debe a algunos efectos principales e interacciones dobles. 4.4. Modelos de efectos aleatorios Hasta aquí los modelos de efectos que se han utilizado son modelos de efectos o factores fijos, lo cual significa que todos los niveles de prueba en cada factor son todos los disponibles para ese factor, o bien, se estudian todos los nivele s de interés en ese factor; es en este sentido que los niveles están fijos. Éste es el caso, por ejemplo , cuando en el factor operador se toman los tres únicos operadores como los niveles de prue ba, o cuando los niveles del factor máquinas son las cuatro máquinas existentes. O bien, cuando se comparan tres tipos de material porque son los que interesa comprar a unque existan otros materiales de ese tipo. Con factores fijos, las conclusiones obt enidas sólo son validas para los niveles de prueba que se estudian en el experimento. En ocasiones, los niveles de prueba son una muestra aleatoria de la población de niveles posibles. En este caso es más apropiado utilizar un modelo de efectos o fa ctores aleatorios. Un ejemplo de esta situación es cuando se prueban cinco ins trumentos de medición, pero la población de los mismos es de 100 instrumentos; obviame nte, no es posible experimentar con todos los equipos. Entonces se experimenta sólo con cinco de ellos elegidos al azar, y las conclusiones obtenidas se infieren como válidas para la población entera de instrumentos. La aplicación de un modelo de efectos aleatorios conlleva la necesidad de considerar la incertidumbre asociada con la elección aleatoria de los niveles d e prueba. Es decir, ya no tiene sentido, para un factor A, preocuparse por el efecto del nivel Modelo de efectos aleatorios 131 Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González como en efectos fijos. Lo que ahora (con efectos aleatorios) tiene sentido es ha blar de la varianza con la que el factor aleatorio contribuye a la variación total; es decir, es preciso estimar dicha varianza y probar si su contribución a la variabilidad total es sign ificativa. El caso de dos factores aleatorios. Si se consideran dos factores aleatorios A y B, de los cuales se prueban niveles elegidos de una población grande de niveles, entonces si los tratamie ntos se replican veces, el modelo de efectos aleatorios es Para ello. De esta manera. sino que ahora el interés se enfoca en estudiar la varianza de dichos efectos. nivel del factor B. representa al efecto de interacción en la combinación y es el error aleatorio que se supone sigue una distribución normal con media cero y varianza constante. si se calcula la varianza en ambos lados del modelo anterior. pero el hecho de que los ef ectos sean aleatorios implica que no tiene sentido probar hipótesis directamente sobre tales efectos (medidas). . El aspecto de este modelo es igual al de efectos fijos. . y . y son independientes entre sí. es el efecto debido al es el efecto del nivel del factor A. respectivamente. se supone que los términos son variables aleatorias independientes normales.donde es la media general. con media cero y varianzas . se obtiene el modelo de componentes de varianza dado por: + + . son las contribuciones de cada efecto a la variación total y se llaman componentes de varianza. .+ donde . Las hipótesis de interés son Los cálculos necesarios para probar estas hipótesis involucran las mismas sumas de cuadrados del modelo de efectos fijos (diseños factoriales con dos f actores). Para obtener los estadís ticos de prueba apropiados debe tomarse en cuenta que los valores esperados de los cuadrados medios son . de las cuales se obtienen los correspondientes cuadrados medios. es el componente de varianza debido al error aleatorio. los estadísticos d e prueba apropiados en el ANOVA son . Raúl Jiménez González de tal forma que para probar la hipótesis mencionadas.132 CAPÍTULO 4 Diseños factoriales Instituto Tecnológico de Ensenada Biol. esto es. como se hace en el modelo de efectos fijos. En caso de rechazar alguna de las hipótesis sobre las varianzas. se concluye que e l efecto correspondiente contribuye de manera significativa a la variación de la respuesta. Al resolver las ecuaciones dadas por los valores esperados de cuadrados medios para los componentes de varianza. y no con el cuadrado medio del error. se obtienen estimadores de éstos en f unción de los cuadrados medios del error. . Observe que en el modelo de efectos aleatorios los cuadrados medios de los efectos principales se comparan con el cuadrado medio de la i nteracción. La conclusión práctica no consiste en determinar el mejor tratamiento.respectivamente. sino que generalmente se traduce en tomar medidas para que la contribución del componente de varianza se reduzca. 4mm. Sean los inspect ores el factor A y las piezas el factor B.58 69. cuyas especificaciones son 69 0. el primero con dos niveles y el .46 69.50 69.50 69.90 69. El ancho de una pieza particular es una cara cterística de calidad crítica.92 69.90 70.38 69. Se eligen dos i nspectores al azar y siete piezas para correr un experimento. Raúl Jiménez González Número de piezas Inspector Z Inspector W 1 2 1 1 2 3 4 5 6 7 69.02 69.50 69.56 69.94 69. De aquí que sea necesario estimar el error de medición con el fin de ver la posibilidad de reducir lo para cumplir con las especificaciones.64 69.50 69.88 2 Nótese que cada inspector mide dos veces cada pieza.42 69.68 69. algunos componentes críticos tienen tolerancias muy estrechas que son difíciles de cumplir. El experimento utilizado se muestra en la siguiente tabla: Modelo de efectos aleatorios 133 Instituto Tecnológico de Ensenada Biol. a fin de estimar la contribución de los inspectores.70 69.70 69.52 69.60 39.40 69.78 69.Ejemplo En una compañía dedicada a la fabricación de bombas y válvulas.80 69.62 69. de las piezas y del error aleatorio (repetibilidad) en la variabilidad total observada.72 69.48 69.40 69. 00036 0. FV SC GL CM Valor-p A: Insp.097 0. El ANOVA para probar estas hipótesis se muestran en la siguiente tabla. El modelo de componente s de varianza propuesto para describir estos datos es donde es el componente de varianza de los inspectores. Interesa probar las hipótesis: y estimar los componentes de varianza.0313 0.1252 . es el componente debido a las piezas. es el componente de interacción de ambos factores y es el componente aleatorio.7516 0.8803 1 6 6 14 27 0. B: Pieza AB Error Total 0.00036 0.segundo con siete niveles. en ambos casos seleccionados al azar. los inspectores no afectan el proceso de medición.069 24. De sde el punto de vista del objetivo del experimento.0.07 0.6169 Las tres primeras columnas se obtienen igual que el modelo de efectos fijos. los resultados del ANOVA son los deseados: la reproducibilidad ( + ) es estadísticamente igual a cero. La estimación de los componentes de varianza. Los valor-p indican que la variabilidad de las piezas es estadísticamente diferente a cero.0000 0.0069 0. a part ir de los cuadros medios.8043 0.75 0.0052 0. pero las dos últimas deben corregirse de acuerdo con el estadístico de prueba apropi ado para un modelo de efectos aleatorios ( y ). mientras que la variabilidad de los inspectores y de la interacción inspector x pieza no es significativa (es igual a cero). es decir. queda como: . 15 es igual a 0. seleccionar la opción DOE luego Factoria . 4. El primer paso consisten en seleccionar la opción Estadísticas del Menú Principal de Minitab y.428. Raúl Jiménez González De aquí se concluye que la reproducibilidad ( + ) no tiene contribución y la repetibilidad expresada como 5. cuando lo deseable es que este porcentaje sea menor al 10%. se encuentra que ocupa 53% de ésta. dentro de esa opción. Si este valor se compara con la tolerancia de 0.134 CAPÍTULO 4 Diseños factoriales Instituto Tecnológico de Ensenada Biol. por lo que el i nstrumento es inadecuado para discriminar entre piezas buenas y malas. Uso de un software estadístico Utilizando Minitab 1.8.5. 5. además de indicar el numero de niveles para ambos (4 y 3 respectivamente). Como consecuencia de la acción anterior le debe aparecer la siguie nte pantalla <<Crear diseño factorial>>. 2. Minitab crea las columnas de los tratamientos. para esto en la casil la <<Número de replicas>>. En la casilla <<Tipo>> seleccionar texto para ambos factores. Proceda entonces a ingresar los datos en la columna C7 . indicar los valores correspondientes tanto para el factor A así como pa ra el factor B. De vuelta en la pantalla <<Crear diseño factorial>>. De vuelta a la pantalla <<Crear diseño factorial>> oprima <<Aceptar >>. número de repeticiones y otras opciones. lo único que usted tiene que ingresar a MINITAB es una columna con la respuesta del experimento. por tanto en la casilla <<Número de factores>> usted deberá tener el número 2. <<Valores de nive l>> . MINITAB le creará la siguiente pantalla. usted deberá tener el valor de 3. Luego Uso de software 135 Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González debe oprimir el botón de la opción <<Diseños>> para poder escoger su diseño. En la siguiente ventana escribir el nombre de nuestros factores A y B. Seleccionar fa ctores y aparecerá una siguiente ventana. Finalice esta pantalla oprimiendo <<Aceptar>>. luego indicar aceptar. 4. Esto lo devolverá a la pantalla anterior <<Crear diseño factorial>>. lo que lo llevara nuevamente a la pantalla <<C rear diseño factorial>>. también indicará q ue realizamos tres repeticiones por tratamiento.l y Crear diseño factorial como se presenta en la siguiente Figura. 3. El paso en esta pantalla será seleccionar en Tipo de diseño la casilla de Diseño factorial completo general luego escoger el núm ero de factores considerados en el experimento (en nuestro ejemplo son dos factores: A y B). es idéntico al d e dos factores. Modelo clásico de series de tiempo . Raúl Jiménez González CAPÍTULO 5 Series de tiempo 5. Para capturar los datos en Minitab. Uso de software 137 Instituto Tecnológico de Ensenada Biol. El siguiente paso es regresar al paso 1. Raúl Jiménez González 6. 138 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada Biol.1. sólo que esta vez seleccionaría la secuencia: <<Estadísticas>> seguida de <<DOE>>. Raúl Jiménez González Esta acción resultará en la pantalla donde sólo es necesario indicar la columna de la variable de respuesta <<Respuesta>> seguido de aceptar y MINITAB le ofrecerá el resultado correspondiente. Una vez capturados los datos (estos datos deberán corresponder al fa ctor A con respecto a factor B de acuerdo a la tabla original) en su correspond iente renglón. de tres factores.136 CAPÍTULO 4 Diseños factoriales Instituto Tecnológico de Ensenada Biol. solo que en la ventana correspondiente indicar que se trata de tres factores. <<Factorial>> y <<Analizar diseño factorial>>. y se aplica la misma secuencia. 4.6.7. en consecuencia. 5. los líderes de los negocios deben encontrar formas de mantenerse al día respe cto a los efectos que esos cambios tendrán en sus operaciones.3. Debido a que las condiciones económicas y comerciales varían en el tiempo. predecir los eventos futuros de maner a que las proyecciones se puedan incorporar en el proceso de toma de decisiones. los malos pronósticos darán como resultado una mala planeación y. Análisis de fluctuaciones Análisis de tendencia Análisis de variaciones cíclicas Medición de variaciones estacionales e irregulares Aplicación de ajustes estacionales Pronósticos basados en factores de tendencia y estacionales. Aunque se han desarrollado numerosos métodos pa ra pronosticar. Entonces. las políticas de inventarios y las cuotas de venta serán afectados. prever o prevenir. la empresa o el gobierno. 5. 5. 5. todos. tienen q ue hacer planes para el futuro si ha de sobrevivir y progresar.2. Raúl Jiménez González Series de tiempo oda institución. todos tienen un objetivo común. ya sea la familia. ¿Cómo se hace para elaborar los pronósticos trimestrales del volumen de ventas? . Suponga que necesitamos hacer pronósticos trimestrales para el volumen de ventas de determinado producto durante el próximo año.5. 5. por esos pronósticos. Una técnica que pued en usar los líderes de negocios como ayuda en la planeación de las necesidades operat ivas en lo futuro es el pronóstico. aumentarán los costos de la empres a. Series de tiempo 139 Instituto Tecnológico de Ensenada Biol.5. las compras de materias primas. Los programas de producción. Hoy en día diversas i nstituciones requieren conocer el comportamiento futuro de ciertos fenómenos con el f in de planificar. En forma normal. como aumento o disminución en el volumen a través del tiempo. como el de los picos que se presentan en el tercer tr imestre de cada año y los mínimos durante el primer trimestre. Las ventas históricas forman una serie de tiempo que es un conjunto de observaciones de una variable medida en puntos o periodos sucesivos en el tiempo . desarrollado en principio por un grupo de investigación de la Rand Corporation. El método délfico. Los métodos de pronóstico cualitativos son importantes en especial cuando no se dispone de datos históricos. Al repasar los datos históricos se puede. adquirir una mejor comprensión de la tendencia de las venta s en el pasado para poder pronosticar las ventas del producto en el futuro de una mejor manera. se les pide contestar una serie de cuestionarios. existen dos enfoques de pronósticos: cualitativo y cuantitativo. Raúl Jiménez González Este proceso continua hasta que el coordinador siente que ha alcanza do cierto nivel de consenso. Trata de determinar pronósticos media nte ¨consenso de grupo¨. Los métodos de pronósti co cualitativos se consideran altamente subjetivos o basados en la opinión. El objetivo del método délfico no es llegar al resultado d e una sola respuesta. a los miembros de un equipo de expertos. posiblemente. A continuación se pide a cada encuestado reconsiderar y. Método Delphi. todos ellos separados físicamente y desconocidos entre sí. .Desde luego que se deben considerar los datos reales de ventas del producto en periodos pasados. la opinión de expertos y la técnica Delphi. En esencia. Se tabulan las respuestas del primer cuestionario y éstas se usan para preparar un segundo cuestionario que contiene la información y las opiniones de to do el grupo. Incluyen el método de elaboración de escenarios. Con tales datos históricos podemos identificar el nivel general de ventas y cualquier tendencia. sino producir un conjunto compacto de opiniones dentro del cual esté la mayoría de los expertos. corr egir sus respuestas anteriores a la vista de la información obtenida con el grupo. T 140 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada Biol. con frecuencia. Por ejemplo. como sería el caso de un departamento de finanzas que desea pronosticar los ingresos de una compañía nueva. un examen más detallado de los datos puede revelar un comportamiento estacional. los pronósticos se basan en el juicio de un solo experto. los expertos se basan. Los métodos de pronóstico de series de tiempo implican la proyección de los valores futuros de una variable basada por completo en las observacion es pasadas y presentes de esa variable. modelado econométrico. y es improbabl e que dos expertos cualesquiera visualicen de la misma forma la misma observación. a continuación combinan sus conclusiones en forma de un pronóstico. a continua ción. Con frecuencia. Series de tiempo. Una serie de tiempo es un conjunto de valores numéri cos obtenidos en periodos iguales en el tiempo Los métodos de pronóstico causales comprenden la determinación de factores relacionados con la variable que se predice. los métodos de pronóstico cuantitativo utilizan los datos históricos. el juicio experto ha pro ducido buenos pronósticos en muchos casos. Por ejemplo. Elaboración de escenarios. índice de difusión y otros medidores económicos más allá del alcance de este libro. Los métodos de pronóstico cuantitativos se dividen en dos tipos: series de tiempo y causales. La meta es estudiar lo que ocurrió en el pasado para entende r mejor la estructura fundamental de los datos y proporcionar los medios necesarios para predecir los sucesos futuros. Los distintos conjuntos de supuestos producen diferentes escenarios. ca da año se reúne un grupo de expertos en Merrill Lynch con el fin de pronosti car el nivel del promedio industrial Dow Jones y la tasa prima para el siguiente año. e incluyen análisis con variables ret rasadas. o representan el consenso de un grupo de expertos.1 rep resenta una . análisis de indicador líder. Este método consiste en desarrollar un escenario conceptual del futuro. tomar las decisiones pertinentes. Aunque no se usa modelo cuantitativo formal. basado en un conjunto bien definido de supuesto s. La tarea de quie n toma decisiones es decidir lo probable que es cada escenario y. La figura 5. Por otro lado.Opinión de expertos. A l hacerlo. de manera individual en información que cree que inf luye en el mercado accionario y las tasas de interés. La opinión de expertos es un método de pronóstico que se recomienda normalmente cuando es probable que las condiciones en el pasado no rijan en el f uturo. No se usa modelo formal alguno. Para conseguir estas metas. Si se intenta observar las características de esta serie de tiempo. En principio. Entonces la meta principal del análisis de series de tiempo es: identificar y aislar estos factores de influencia con el f in de realizar predicciones (pronosticar).1. Modelo clásico de series de tiempo La suposición fundamental del análisis de series de tiempo es que los factores q ue han influido en los patrones de actividad en el pasado y el presente tendrán más o menos la misma influencia en lo futuro. es evidente que los ingresos reales muestran una propensión a aumentar en este periodo de 2 4 años. las aplicaciones de la descomposición de una serie de tiempo están fuera de los objetivos de este libro. Tal vez el más esencial sea el modelo multiplicativo clásico para datos regis trados cada año. Series de tiempo 141 Instituto Tecnológico de Ensenada Biol.perspectiva de los métodos de pronóstico. Esta inclinación global a largo plazo o impresión de un movimiento hacia arrib a o hacia abajo se conoce como tendencia . en la figura 5. Por eje mplo. se han desarrollado muchos modelos matemáti cos que exploran las fluctuaciones entre los factores que componen una serie de tiem po. Para exponer el modelo multiplicativo clásico de series de tiempo. Otras aplicaciones incluyen un análisis detallado de los com ponentes particulares mediante la descomposición de las series de tiempo. No obstante. trimestre o mes. así como fines administrativos de planeación y control.2 se presentan los ingresos brutos reales de Eastman Kodak Company de 1975 a 1 998. con frecuencia los economistas estudian una serie de tiempo anual. el modelo multiplicativo clásico se u sará para pronosticar. trimestr al o mensual para filtrar el componente cíclico y evaluar su movimiento respecto a l a actividad económica general.1 Clasificación de los métodos de pronósticos 5. Raúl Jiménez González Figura 5. la tendencia no es el único factor componente que influye en estos datos en particular o en otra serie de tiempo anual. están en o cerca del fondo o depresión de un ci clo). y a menudo se relacio nan con los ciclos de los negocios. difieren en intensidad o amplitud. es decir. Los movimientos cíclicos varían en longitud. Raúl Jiménez González Figura 5. Cualquier dato observado que no siga la tendencia curva modificada por el compon ente cíclico es un indicio del componente aleatorio o irregular. están presentes en los datos. Cuando los datos se registran por mes o trimestre. cíclico e irregular.Método de pronostico Cuantitativos Causales Serie temporal Suavizamiento Proyección de tendencia Proyección de tendencia ajustada por influencia estacional Cualitativos 142 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada Biol. En algunos años los valores serán más altos q ue los pronosticados por una sencilla recta de tendencia lineal (es decir. se considera un componente adicional ll amado factor estacional junto con los componentes de tendencia. Otros dos facto res.2 Gráfica de ingresos netos reales (en miles de millones de dólares) de Eas tman Kodak Company (1975-1998) Sin embargo. en gener al. Los tres o cuatro componentes que influyen en una serie de tiempo económica o de negocios se resumen en la tabla 5. duran de 2 a 10 años. cuando los datos se obtienen cada año. el componente cíclico y el componente irregular. se encuentran en o cerca de un pico) de un ciclo). El componente cíclico describe la oscilación o movimiento hacia arriba o hacia abajo en una serie de tiempo. una observación registrada en el año se puede expresar por la ecuación (5. en otros años los valores serán menores que el pronóst ico de una recta de tendencia (esto es.1) Modelo multiplicativo clásico de series de tiempo para datos anuales . El modelo multiplicativo clásic o de series de tiempo establece que todo valor observado en una serie de tiempo es el producto de estos factores de influencia.1. 1) donde. Componentes Clasificación del componente Definición Razón de la influencia Duración Tendencias Estacional Cíclico Irregular Sistemático . en el año i = valor del componente de tendencia = valor del componente cíclico = valor del componente irregular Modelo clásico 143 Instituto Tecnológico de Ensenada Biol.2) Tabla 5. una observación registrada en el periodo puede estar dada por la ecuación (5.1 Factores que influyen en datos de series de tiempo. Raúl Jiménez González Cuando los datos se obtienen por trimestre o por mes.(5. Varios años . población. estacional y cíclica) Cambios en tecnología. huracanes. tec. Fluctuación más o menos regular que ocurre en cada periodo de 12 meses cada año. a largo plazo hacia arriba o hacia abajo. Valores. asesinatos políticos. Oscilación o movimiento repetitivo arriba o abajo en cuatro 4 etapas. riqueza. contracción (recesión). Condiciones de clima. Interacción de numerosas combinaciones de factores que influyen en la economía Variaciones aleatorias en los datos o debidas a eventos no previstos como huelgas. costumbres sociales y religiosas. inundaciones. fondo (depresión) y expansión (recuperación) Fluctuación errática o residual en una serie que está presente después de tomar en cuenta los efectos sistemáticos (de tendencia.Sistemático Sistemático No sistemático Patrón de movimiento global o persistente. pico(prosperidad). Primero debe determinarse si par ece haber un movimiento hacia arriba o hacia abajo a largo plazo en la serie (una tendencia) o si la serie parece oscilar alrededor de una recta horizontal en el tiempo. consiste en grafica r los datos y observar sus tendencias en el tiempo. cíclico e irregular en el periodo = valor del componente estacional en el periodo .Dentro de 12 meses (o datos menstruales o trimestrales). Análisis de fluctuaciones El primer paso en un análisis de series de tiempo. puede emplearse el mét odo de promedios móviles o el de suavización exponencial para “emparejar” la serie y Modelo multiplicativo clásico de series de tiempo para datos con Componente estacional (5. De 2 a 10 años con diferente intensidad en el ciclo completo Corta duración y sin repetición. 5. no hay tendencia positiva o negativa a largo plazo).2.2) donde = valores respectivos del componente de tendencia. En este caso (es decir. Raúl Jiménez González proporcionar un panorama global a largo plazo. La duración de la unidad del periodo es generalmente menor qu e un Análisis de fluctuaciones Instituto Tecnológico de Ensenada Biol. El gráfico de la serie permitirá: a) Detectar Outlier: se refiere a puntos de la serie que se escapan de lo normal. y otro método para los datos de series de tiemp o mensual o trimestral. Por ejemplo. Si se concluye que lo es. Esta puede ser definida vagamente como el cambio de la media a lo largo de un periodo. Se debe determinar desde fuera si un punto dado es outlier o no. El problema fue solucionado eliminando las observaciones e interpolando. el estacional y el irregular para definir valores específicos de la serie de tiempo. se pueden aplicar varios métodos de pronóstico de series de tiempo al manejar datos anuales.3: Figura 5. Al investigar estos dos puntos se vio que correspondían a dos días de paro. se debe omitir o reemplazar por otro valor antes de analizar la serie. Examinaremos cada uno de estos componentes.3 Producción diaria Los dos puntos enmarcados en una flecha parecen corresponder a un comportamiento anormal de la serie. El patrón o comportamiento de los datos en una serie de tiempo tiene diversos componentes. lo que naturalmente afectó la producción en esos días. en un estudio de la producción diaria en una fábrica se presentó la siguiente situación ver figura 5. b) Permite detectar tendencia: la tendencia representa el comportamiento predominante de la serie. el cíclico.144 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada Biol. si de hecho existe una tendencia. Un outliers es una observación de la serie que corresponde a un comportami ento anormal del fenómeno (sin incidencias futuras) o a un error de medición. Raúl Jiménez González 145 . c) Variación estacional: la variación estacional representa un movimiento periódico d e la serie de tiempo. El supuesto usual es que se combinan cuatro componentes s eparados: la tendencia. Por otro lado. estacionalidad y un término de error aleatorio. Puede ser un trimestre. Un modelo aditivo (1). Es claro que el modelo 2 puede ser transformado en aditivo. x(n ) puede ser expresada como suma o producto de tres componentes: tendenci a. variaciones estacionales y fluctuaciones cíclicas. Mixto: X(t) = T(t) · E(t) + A(t) donde: X(t) serie observada en instante t T(t) componente de tendencia E(t) componente estacional A(t) componente aleatoria (accidental) Una suposición usual es que A(t) sea una componente aleatoria o ruido blanco con media cero y varianza constante.. un mes o un día. El problema qu e se presenta. Existen tres modelos de series de tiempos. Las principales fuerzas que causan una variación estacional son las condiciones del tiempo. es adecuado. como T(t). cuando E(t) no depen de de otras componentes. semanal.) d) Variaciones irregulares (componente aleatoria): los movimientos irregu lares (al azar) representan todos los tipos de movimientos de una serie de tiem po que no sea tendencia.año.. Un modelo clásico para una serie de tiempo. Matemáticamente. etc. . el modelo más adecuado es un modelo multiplicativo (2). como por ejemplo: 1) en invierno las ventas de helado 2) en verano la venta de lana 3) exportación de fruta en marzo. Aditivo: X(t) = T(t) + E(t) + A(t) 2. es modelar adecuadamente las componentes de la serie. 146 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada . Todos estos fenómenos presentan un comportamiento estacional (anual. etc. podemos decir que la serie representa variación estacional si existe un número s tal que x(t) = x(t + k·s). sí por el contrario la estacionalidad varía con la tendencia.. que generalmente se aceptan como buenas aproximaciones a las verdaderas relaciones. tomando logaritmos. Estos son: 1. por ejemplo. supone que una serie x(1). entre l os componentes de los datos observados. Multiplicativo: X(t) = T(t) · E(t) · A(t) 3. día. en la cantidad de bicicletas vendidas. al revisa r las ventas durante los últimos 10 años. .6 1 3 Este crecimiento anual de las ventas a través del tiempo muestra una t endencia creciente de la serie de tiempo. entonces estaremos en la posición de pronosticar con un buen nivel de confianza. fluctuaciones aleatorias.5 8 31.7 9 28. el resultado de factores a largo plazo. co mo cambios en la población. La sección A representa una tendencia no lineal. luego tiene un crecimiento rápido y. en una serie de tiempo. semana. es ta serie puede mostrar también desplazamientos o movimientos graduales hacia valores relativame nte mayores o menores a lo largo de un lapso importante de tiempo. un fabricante de bicicletas podría detectar cierta variabi lidad. Por ejemplo. Aunque los datos de serie de tiempo presentan. la serie de tiempo crece poco al principio.6 1. mes o año o en cualquier otro intervalo regular periódico. Raúl Jiménez González 5. Aunque esa tendencia pare ce ser lineal y aumentar con el tiempo a veces.5 5 21.4 Tendencia lineal de las ventas de bicicletas Si al graficar nuestros datos observamos de manera clara la tendencia lineal a largo plazo (no importando si es positiva o negativa).9 25. La figura 5.4 presenta una recta que puede ser una buena aproximación a la tendencia de las ventas de bicicletas.9 6 23. de año a año. Figura 5. finalmente. Análisis de tendencia En el análisis de serie de tiempo. El d esplazamiento gradual de la serie de tiempo se llama tendencia de esa serie. características demográficas de la misma. este desplazamiento o tendencia es. la tendencia s e puede describir mejor mediante otros patrones.4 3 4 22. puede encontrar que hay un aumento gradual en el volume n anual de ventas. La figura 5. la tecnología y/o las pre ferencias del consumidor. las mediciones pueden efectuarse cad a hora.5 muestra otros patrones posibles de tendencia.3. por lo general.5 29.9 7 27. Suponga que sus ventas fueron: Año 1 2 0 Ventas (miles) 21. Sin embargo. por lo común. en este caso. se nivela.Biol. con alguno de los métod os que se indicaran más adelante. De hech o. desde su introducción. La recta horizontal de la sección C representa una serie de tiempo que no tie ne aumento o disminución consistentes a través del tiempo y que. Figura 5. pasando por un periodo de crecimiento y llegando a una etap a de saturación del mercado.5 Ejemplos de algunos posibles patrones de tendencia en series de tiem po A B C 5. La tendencia lineal decreciente en la sección B se aplica a una serie de tiempo que tenga una disminución continua a través del tiempo.4.0 5 10 15 20 25 30 35 0 2 4 6 8 10 12 V e n t a ( m i l e s ) Año Análisis de tendencia 147 Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González Esa tendencia podría ser una buena aproximación de las ventas de un producto. sus valores no caerán con exactitud sobre la línea de tendencia. en consecuencia. no tiene tenden cia. Análisis de variaciones cíclicas Aunque una serie de tiempo puede presentar una tendencia a través de periodos gran des. con frecuencia estas series temporales presentan secuencias alternas de puntos abajo . un fabricante de albercas inflables espera poca activi dad de ventas durante los meses de otoño e invierno. Las observaciones se hicieron con recurrente de puntos arriba y debajo de l puede atribuir a un componente cíclico de l de una serie de tiempo con un com intervalos de un año. La figura 5.y arriba de la línea de tendencia. hay muchas series de tiempo que muestran un patrón regular dentro de un pe riodo de un año. este comportamiento de la serie se debe a movimientos cíclicos de la economía a través de varios años. Figura 5. Por ejemplo. Toda secuencia a línea de tendencia. Raúl Jiménez González inflación rápida pueden determinar series de tiempo que se alternan abajo y arriba de una línea de tendencia ascendente en general (como la serie de tiempo de los cos tos de vivienda). se a serie. En general. Medición de variaciones estacionales e irregulares Mientras que la tendencia y los componentes cíclicos de una serie de t iempo se identifican analizando los movimientos de datos históricos a través de varios años. y ventas máximas en los de primavera y verano . Por ejemplo. los periodos de inflación moderada seguidos de periodos de 148 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada Biol. Diversas series de tiempo de principios de la década de los ochenta presentaron este comportamiento 5.6 Componente de tendencia y cíclico de una serie de tiempo con datos anua les V Los ciclos aparecen como series de Observaciones sobre y debajo de la línea de tendencia o l u m e n Líne a de tendencia Ti empo Muchas series se tiempo presentan comportamiento cíclico con tramos regulares de observaciones abajo y arriba de la línea de tendencia.5. que dura más de un año.6 es la gráfica ponente cíclico obvio. El componente irregular de la serie de tiempo es el factor residual. también se puede usar para representar cualquier patrón regularmente repetitivo cuya duración sea menor de un año. No es de sorprender que el componen te de la serie de tiempo que representa la variabilidad en los datos. así se tiene que el flujo máximo se presenta durante las horas de aglomeración. “mil usos”. imprevisibles y no recurrentes que afecta a la serie de tiempo. Para ilustrar el proce . Aplicación de ajustes estacionales Una aplicación frecuente de índices estacionales es la de ajustar datos de serie de tiempo observados para eliminar la influencia del componente estacional en ell os.6. La serie que re sultante se llama ventas desestacionalizadas o ventas ajustadas estacionalmente. es impredecible. se llaman datos con ajuste estacional. y el mínimo a partir de la medianoche hasta temprano por la mañana.. Los ajustes estacionales son particularmente pertinente s cuando se desea comparar datos de diferentes meses para determinar si ha tenido lugar un incremento (o decremento) en relación con las expectativas estacionales. Como este componente explica la variabilidad aleatoria de la s erie. Por ejemplo. Suavización 149 Instituto Tecnológico de Ensenada Biol. Los fabricantes de equipo para la nieve y de ropa de abrigo esperan un comportam iento anual opuesto al del fabricante de albercas. Los valores de serie de tiempo mensuales (o trimestrales) observados se ajustan respecto de la influen cia estacional dividiendo cada valor entre el índice mensual (o trimestral) de ese mes. Se debe a factores a corto plazo. El resultado se mult iplica luego por 100 para mantener la posición decimal de los datos originales. los datos diarios de intensidad de tráfico muestran un comportamiento “estacional” dentro del mismo día. debida a influencias de las estaciones. no se puede esperar predecir su impacto sobre la s erie de tiempo 5. de esta manera. el moderado durante el resto del día y al caer la noche. Aunque uno suele imaginarse que un movimiento estacional de una serie de tiempo sucede dentro de un año. Raúl Jiménez González La razón para desestacionalizar las series de ventas es similar las flu ctuaciones estaciónales a fin de estudiar la tendencia y el ciclo. que explica las desviaciones de la serie de tiempo real respecto a l os factores determinados por los efectos de la tendencia y los componentes cíclicos y estac ionales. se llama componente estacional. 519 9.765 0.141 1.765 0.6 9.141 1.8 13.0 .36 1997 Invierno Primavera Verano Otoño 6.00 8.575 1. los totales trimestrales de ventas de la empresa Tabla 5.5 4.4 14.59 8.765 0.11 9.519 8.6 10.1 0.6 0.50 8.76 8.95 1998 Invierno Primavera Verano Otoño 6.575 1.7 4.9 5.00 8.141 1.0 12.dimiento.519 8.76 8.02 8.2 Ajuste para datos trimestrales Año Trimestre Ventas Índice estacional Ventas desestacionalizadas 1996 Invierno Primavera Verano Otoño 6.70 9.7 0.0 10.28 1999 Invierno Primavera Verano Otoño 7.575 1. el índice estacional par el trimestre de invierno es 76.55 2001 Invierno Primavera Verano Otoño 8. TSCI/S.5 el índice 76.519 9.5 10.575 1.79 9.5 indica que las ventas en el primer trimestre normalmente se encu entran 23. Por ejemplo.46 10.5.72 9.765 0. cíclicos.141 1.141 1.7 millones de dólares.5 0.765 0.99 9.1 14.141 1.765 0.46 9. Dividiendo las ventas reale s $6.28 9.5% abajo del promedio de un trimestre normal.92 9. la cantidad es tacional.81 A fin de eliminar el efecto de la variación estacional. esto es.0 0.88 2000 Invierno Primavera Verano Otoño 7. irregulares y estaciónales) se divide entre el índice estacional de ese t rimestre.0 6. la cantidad de ventas para cada trimestre (que contiene efectos de tenden cia.519 9.15 9.57 9.4 14.2 11.9 0.7 11. las ventas reales para el primer trimestre de 1996 fuero n 6.8 15.1 5.7 millones .575 1.519 10.575 1. Al revisar las ventas desestacionalizadas. de 1975 a 1998. En este caso (es decir.7 es una gráfica de serie de t iempo de estos datos. El valor es $8758170 que se obtuvo de ($6700000/76. Al examinar este tipo de datos anuales.5)100. Es claro que la eliminación del factor estaci onal permite considerar la tendencia general a largo plazo de las ventas. camiones y autobuses hechos por General Motors Corporation (GM). Puesto que la componente estacionali zadas contiene solo las componentes de tendencia (T). consiste en graficar los datos y observar sus tendencias en el tiempo .2 y los resultados se dan en millones de dólares. y la figura 5. Pronósticos basados en factores de tendencia y estacionales. si de hecho existe una tendencia. ciclo © e irregular (I) . También se podrá determ inar la ecuación de regresión de los datos de tendencia y usarla para pronost icar ventas futuras. se recomienda antes de aplicar alguno de los métodos de pronostico ¨suavizar¨ nuestros datos a fin de que la tendencia se observe de manera clara. Los métodos que pueden emplearse para suavizar nuestros datos usualmente son: a) El método de promedios móviles b) El método de suavización exponencial El objetivo de ambos métodos es el de “emparejar” la serie y proporciona r un panorama global a largo plazo. y otro método para los datos de series de tiempo mensual o t rimestral. Primero debe determinarse si parece haber un movimiento hacia arriba o hacia abajo a largo pl azo en la serie (una tendencia) o si la serie parece oscilar alrededor de una recta hor izontal en el tiempo. Como lo indicamos anteriormente el primer pasó en un análisis de series de tiempo. la impresión v . se pueden aplicar varios métodos de pronóstico de series de tiempo al mane jar datos anuales. 150 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada Biol. Por otro lado.entre 76. Suavización de una serie de tiempo anual La tabla 5. Raúl Jiménez González 5.5 y multiplicando el resultado por 100 se encuentra el valor de las ventas desestacionalizadas del primer trimestre de 1996. no hay tendencia positiva o negativa a largo plazo).7. Este proceso se repite con los demás trimestres en la columna 3 de la tabla 5. Para un periodo de 24 años. los cuales se verán posteriormente.3 presenta las ventas mundiales de una fábrica (en millones de unida des) de automóviles. 5 1986 8.8 1978 1994 8.1 1985 9.2 1990 7.0 1987 7.3 9.5 7.6 9.1 En situaciones como éstas.3 Ventas de fábrica (en millones de unidades) Para la General Motors Co rporation (1975-1998) Año Ventas de fábrica Año Ventas de fábrica Año Ventas de fábr ica 1975 1991 1976 1992 1983 7.6 7. la longitud del periodo seleccionado para calcular los promedi os.4 1979 1995 8.8 1982 1998 6.3 1980 1996 8. Entonces se vuelve difícil juzgar si en esta serie en realidad existe un efecto de tendencia positivo o negativo a largo plaz o.8 1989 7.7 Gráfica de las ventas de fábrica (en millones de unidades) Para la General Motors Corporation (1975-1998) Promedios móviles El método de promedios móviles para suavizar una serie de tiempo es muy subjetivo y dependiente de L.8 7.4 1981 1997 8. Raúl Jiménez González Figura 5. Para eliminar las fluctuaciones cíclicas.3 9. el periodo elegido debe ser un valo r entero que corresponda a (o sea múltiplo de) la longitud promedio estimada de un ciclo en una . Tabla 5.1 1988 8.isual de las tendencias globales a largo plazo o movimientos de tendencia en la serie quedan veladas por la cantidad de variación de un año a otro.4 8.6 1984 8. Suavización 151 Instituto Tecnológico de Ensenada Biol.9 6.7 1977 1993 7. se pueden usar el método de promedios móviles o la suavización exponencial para suavizar o emparejar la serie de tiempo y proporcionar un panorama global del patrón de movimiento de los datos en el tiempo.1 6.8 8. debe ser un número de años impar. PM (5) = 5 11 10 9 8 7 Y Y Y Y Y + + + + Cuando se trata de una serie de tiempo anual. suponga que se desea calcular promedios móviles de 5 años de una serie que contiene n = 11 años. PM (5) = 5 5 4 3 2 1 Y Y Y Y Y + + + + El segundo promedio móvil de 5 años se calcula con la suma de los valores de los años 2 a 6 en la serie. la longitud del periodo elegi do para construir los promedios móviles. dividida entre 5 PM (5) = 5 6 5 4 3 2 Y Y Y Y Y + + + + Este proceso continúa hasta calcular el último promedio móvil de 5 años con la suma de los valores de los últimos 5 años en la serie (años del 7 al 11). Los promedios móviles para un promedio determinado de longitud L consiste en una serie de promedios aritméticos en el tiempo tales que cada uno se calcula a pa rtir de una secuencia de L valores observados. Estos promedios móviles se repres entan por el símbolo PM (L) A manera de ejemplo. El primer promedio móvil de 5 años se calcula con la suma de los valores para los primeros 5 años en la serie. dividida entre 5.serie. Al seguir esta regla se observa que no se pueden obtener promedios móviles para los p rimeros (L – Ventas de fabrica para General Motors 0 2 4 6 8 10 1970 1980 1990 2000 Año U n i d a d . los promedios móviles de 5 años consisten en una serie de medidas obtenidas en el tiempo al promediar secuencias consecutivas de cinco valores observados. Como L = 5. dividida entre 5. L. 5 0 . Solución El primer promedio móvil de 5 años es PM (5) = 0 . para calcular un promedio móvil de 5 años. 35 . 6 5 0 . primero se obtiene la suma de l os cinco años y se divide entre 5.0 5. 4 = = + + + + Es decir. Después el promedio se centra en el va lor medio. 30 5 0 . Entonces. el segundo promedio móvil se c entra en el cuarto año y el último en el noveno año. Esto se ilustra en el siguiente ejemplo: Suponga que los siguientes datos representan los ingresos totales (en millones de dólares constantes de 1995) de una agencia donde se rentan automóviles.0 8.0 7. Al graficar los promedios móviles.0 5. Los siguientes valores quedan de la siguiente manera: PM (5) = 0 .0 3. 6 0 . el tercer año de esta serie de tiempo. no es posible hacer cálculos para los primeros 2 años o los últimos 2 años de la serie. Si n = 11 y L = 5. 7 0 . en un interv alo de 11 años de 1987 a 1997: 4. el primer promedio móvil se centra en el tercer año.e s ( m i l l o n e s ) 152 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada Biol.5 Calcule los promedios móviles de 5 años para esta serie de tiempo anual. 7 5 0 . para un promedio móvil de 5 años.0 9.5 6. cada valor calculado se coloca en el año a la mitad de la secuencia de años usada para calcularlos. 8 0 .0 6.0 2. Raúl Jiménez González 1)/2 años o los últimos (L -1)/2 años en la serie.5 5. 22 5 5 . 6 5 0 . 2 0 . 27 5 5 . 6 0 . el quinto. 2 0 . Suavización 153 Instituto Tecnológico de Ensenada Biol. 9 0 . 7 0 . 6 5 . 5 0 . 9 0 . no se pueden calcular los valores para los primeros dos y los últimos dos v alores de la serie de tiempo. 3 0 . sexto y séptimo años de la serie de tiempo. 5 0 . 5 5 . 9 0 .5 0 . 5 = = + + + + PM (5) = 0 . 2 0 . al obtener promedios móviles se debe usar un programa de computadora . 5 = = + + + + Estos promedios móviles se centran en sus respectivos valores medios. 6 0 . 5 5 5 . Raúl Jiménez González En la práctica. 5 0 . 5 5 . Se observa que al obtener promedios móviles de 5 años. 5 0 . 7 5 0 . 7 = = + + + + PM (5) = 0 . 8 0 . 5 5 0 . 4 5 5 . 8 0 . 9 = = + + + + PM (5) = 5 . 8 = = + + + + PM (5) = 0 . 35 5 0 . 8 0 . 2 0 . 3 0 . 3 0 . 9 0 . 25 5 5 . 30 5 0 . 6 = = + + + + PM (5) = 5 . 1 7.1 #N/A #N/A .53333333 8.1 #N/A 9.21428571 8.85714286 7.1 7.21428571 8.93333333 8.9 con l os datos originales.5 9.46666667 7.5 7.16666667 8.36666667 8.74285714 7.6 8.01428571 8.4 que al obtener los promedios móviles de 3 años.11428571 8.93333333 7.8 Gráfica de promedios móviles de 3 y 7 año Año 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 0 2 4 6 8 10 1 9 7 5 Ventas PM 3 años PM 7 años 6.81428571 6.72857143 8.92857143 8.85714286 7.56666667 8. Tabla 5.4 y 5.5 #N/A 8.7 7.4 8.8 6.7 7.83333333 7.2 6.6 #N/A #N/A 8.82857143 7.82857143 9.63333333 7.8 y 5. Se observa en la tabla 5.08571429 7.3 8.4 8.92857143 6.43333333 #N/A 8.63333333 7.6 8.53333333 7.16666667 8. La gráfica de las dos series construidas se presenta en la figura 5.8 7.4 7.8 8.04285714 7.6 7.1 9 8.96666667 7. La ta bla 5.1 9.9 7.5 presenta las ventas anuales de la fábrica (General Motors) que ampara el periodo de 24 años de 1975 a 1998 junto con los cálculos para los promedios móviles de 3 y 7 años. no se pue den calcular valores para el primero o el último valor en la serie de tiempo.8 8.43333333 7.3 8.8 7.2 8.73333333 8.3 8.78571429 7.4 promedios móviles de 3 y 7 años obtenida con Microsof t Excel Figura 5.como Microsoft Excel o Minitab para evitar los cálculos tediosos.25714286 7.06666667 #N/A 9. 9 7.0 8.3 8.8 7.60000 7.25714 1987 7.82857 1992 7.85714 1993 7.10000 1979 9.92857 1994 8.74286 1991 7.7 7.16667 8.1 7.82857 1985 9.6 8.81429 1982 6.43333 7.4 7.8 8.3 8.5 7.72857 1984 8.5 9.63333 7.06667 * 1978 9.83333 7.1 7.43333 * .73333 8.53333 7.78571 1983 7.5 promedios móviles de 3 y 7 años obtenida con Minitab Tiempo Ventas MA 3 años MA 7 años 1975 6.6 8.93333 8.56667 8.96667 7.8 7.04286 1980 7.16667 8.1 9.85714 1990 7.08571 1989 7.53333 8.2 6.3 8.21429 1996 8.92857 1981 6.11429 1995 8.4 8.46667 7.63333 7.20000 8.10000 * 1977 9.01429 1986 8.36667 8.6 * * 1976 8.21429 1988 8.8 8.70000 7.1 9 7 8 1 9 8 1 1 9 8 4 1 9 8 7 1 9 9 0 1 9 9 3 1 9 9 6 VENTAS PM 3 años PM 7 años 154 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González Tabla 5.4 8.8 6.93333 7.50000 * 1997 8. En toda la serie. la suavizac ión .5 7.5 8. se puede usar el método de suavización exponencial para obtener pronósticos a corto plazo (un periodo futuro) para series de tiempo. los pesos asignados a los valores observados dec recen en el tiempo. de manera que al hacer un cálculo.5 9.5 6. Además. Con la Suavización 155 Instituto Tecnológico de Ensenada Biol.0 Año D a t o s Y Ventas PM 3 Años PM 7 Años Variable Gráfica de dispersión de Ventas. Año Suavización exponencial La suavización exponencial es otra técnica que se usa para alisar una serie de tiemp o y proporcionar una visualización global de los movimientos a largo plazo d e los datos. Raúl Jiménez González suavización exponencial. cada cálculo de suavización o pronóstico depende de todos lo s valores observados anteriores. el valor observado más recien te recibe el peso más alto.0 6.1998 8. y así sucesivamente.9 Gráfica de promedios móviles de 3 y 7 años en Minitab 2000 1995 1990 1985 1980 1975 9. Ésta es otra ventaja respecto al método de pronósticos móviles.1 * * Figura 5.0 7. PM 7 Años vs. Aunque la magnitud de los cálculos involucrados puede parecer enorme. por lo que el valor observado inicial tiene la menor p onderación. que no toma en cuenta todos los valores observados de esta ma nera. PM 3 Años. el valor observado anterior tiene el siguiente peso más alto. El método de suavización exponencial obtiene su nombre del hecho de que proporciona un promedio móvil con ponderación exponencial a través de la se rie de tiempo.0 8. debe elegirse un valor pequeño para W (c ercano a 0). Obtención de un valor que tiene suavización exponencial en el periodo donde E I = valor de la serie suavizada exponencialmente que se calcula en el periodo E I – 1 = valor de la serie suavizada exponencialmente que se calcula en el periodo – 1 Y i = valor observado de la serie de tiempo en el periodo W = peso subjetivo asignado o coeficiente de suavización (donde 0 < W < 1) E 1 = Y 1 La elección del coeficiente de suavización o peso que se asigna a la serie de tiempo es crítica porque afectará en forma directa los resultados. las fórmulas desarrolladas para suavizar expone ncialmente una serie en un periodo dado i se basa en sólo tres términos: el valor observado actual en la serie de tiempo . Así. si la meta es pronosticar. valor con suavización exponencial calculado anterior 1 ÷ i E y un peso subjetivo asignado o coeficiente de suavización W. Si se desea sólo suavizar una serie con la eliminación d e la variación cíclica y la irregular. es posible predecir direcciones futuras a corto plazo de manera más adecuada. en el último caso. Si se centra la atención en los aspectos de suavización de la técnica (más que en el aspecto del pronóstico). Los cálculos de la suavización exponencial se ilustra para un coeficiente de . debe elegirse un valor gra nde para W (más cercano a 1). En el primer caso. se tiene la siguiente expresión. Es desafortunad o que esta selección sea subjetiva. Por otro lado. para alisar una serie en cualquier periodo . se podrán observar las tendencias globales a larg o plazo de la serie.exponencial al igual que los métodos de promedios móviles está disponible e ntre los procedimientos de Microsoft Excel y Minitab. con el valor observado de la serie de tiempo para el año 1976 (Y 1976 = 8.6 E 1978 = WY 1978 + (1 – W)E 1977 = (0.6 Serie suavizada exponencialmente de las ventas de GM obtenida con Microsoft Excel Año Ventas SE (W=0.25)(9. se utiliza el valor o bservado inicial (tabla 5.6 y 5.08 156 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González Este proceso continúa hasta obtener los valores de la suavización exponencial para los 24 años en la serie de las ventas anuales de la fábrica (General Motors). se suaviza la serie para el año de 1976 con el cálculo 1 ) 1 ( ÷ ÷ + = i i i E W Y W E E 1976 = WY 1976 + (1 – W)E 1975 = (0.25.75)(7.suavización de W = 0.25)(8.25) .11 Tabla 5. Como punto de partida.6) = 7.6) = 8.1) + (0.25)(9.10 y 5.6) Después. y las figuras 5.1) = 7.6) + (0.7.10 millones E 1977 = WY 1977 + (1 – W)E 1976 = (0.6 como el primer valor de suavización (E 1975 = 6.6).3). Y 1975 = 6.75)(6.75)(7.5) + (0. como se muestra en la tabla 5. 35000 8.60000 7.8 8.9 8.80195313 9.60000 7.9625 7.6 8.50 .32764 7.02194 Suavizar 0.30390625 8.70352 7.76365568 7.925 9 8.44572754 7.5 7.6 6.60000 8.3 7.720121 8.6 8.5 9.14387 8.640242 7.41563 6.57549 8.6 9.6 9.6 8.96250 8.05088754 8.54500756 8.1 8.65929565 7.18003025 8.8 7.9 Ventas 6.80781 7.3 8.18774414 8.2 7.14387207 7.0600605 8.70351563 7.77274176 7.8 6.03125 7.30625 8.92500 8.25 6.11662543 8.10000 7.92955632 8.2 7.05089 Suavizar 0.8 8.8 7.80195 8.58048401 7.8 8.10118339 8.10157785 8.10118 8.35 9.06947 8.6 7.1 9.30391 7.3 8.32763672 6.00469 7.28746907 8.6 8.4 7.20210 8.8 8.76096802 7.60000 8.18774 8.1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 SE (W=0.55098 8.02193604 7.50) 6.4 8.1 Figura 5.3 9.4 7.6 6.7 Serie suavizada exponencialmente de las ventas de GM obtenida con Minitab Año 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 6.78487424 7.415625 6.1 7.1 8.10158 8.1 7.6 7.65930 8.44573 7.03125 6.91316566 7.29001513 8.02216724 8.1 7.20210381 8.30625 8.7 7.8 7.0046875 8.50 y W = 0.3 8. Raúl Jiménez González Tabla 5.8078125 7.5 8.25) para las ventas de GM Suavización 157 Instituto Tecnológico de Ensenada Biol.0 7.57548828 7.07500 8.06947174 8.1 6.075 8.55097656 8.10 Gráfica de una serie suavizada exponencial mente (W = 0. 72012 8.11 Gráfica de una serie suavizada exponencialmente 5) para las ventas de GM en Minitab (W = 0. y no es establ e como para aplicar los métodos de suavizamiento analizados en la sección anterior.0 8.2 2000 1995 1990 1985 1980 1975 9.3 8.0 7.8 8. Suavizar 0.50 vs.8 8. en el segundo. Año Proyección de tendencias Para pronosticar una serie de tiempo que tiene una tendencia lineal a largo plaz o.92956 8.5 7.0 Año D a t o s Y Ventas Suavizar 0.12.76097 7.91317 7. 158 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada Biol.8 y en la figura 5.4 7.24060 7.7 7.50 y W = 0.5 6. Raúl Jiménez González Veamos la serie de tiempo de ventas de bicicletas de determinado fa bricante durante los últimos 10 años.78487 7.58048 7.32250 Figura 5.5 7.64024 7. que se muestran en la tabla 5.25 Suavizar 0.1 7.29002 8.5 9.06006 8.5 8. y así .4 8.76366 7. El tipo de serie de tiempo para el cual se aplica el método de proyección de tendencias pres enta un aumento o disminución consistentes a través del tiempo.77274 7. 2 2 900.11663 8.54501 8.50 Variable Gráfica de dispersión de Ventas.18003 8.0 6.28747 8.4 8. Ob serve que en el primer año se vendieron 21 600 bicicletas. Suavizar 0.25.1990 1991 1992 1993 1994 1995 1996 1997 1998 7.02217 8. 9 23.5 29. se vendieron 31 400 bici cletas.sucesivamente.5 21.8 Serie de tiempo de venta de bi cicletas Año (t) Ventas (miles) 1 2 3 4 5 6 7 8 9 10 21. que para este caso es el crecimiento.6 22.9 25. el más reciente.9 27. Aunque la figura 5. En el décimo año.6 31. de los valores de la serie de tiempo.5 31.12 Serie de tiempo de venta de bicicletas En este caso no se trata de que el componente de tendencia de una serie de tiempo siga cada aumento y disminución. 10 9 8 7 6 5 4 3 2 1 .7 28.4 Figura 5. parece que la serie de tiempo tiene una tendencia general de aumento o crecimiento Tabla 5. más bien ese componente debe refl ejar el desplazamiento gradual.12 muestra algo de movimiento hacia arriba y hacia abajo durante los 10 años. En forma específica. aplicaremos el análisis de regresión para estimar la relación entre el tiempo y el volumen de ventas. se obtiene una descripción razonable del movimiento en la serie a largo plazo.32 30 28 26 24 22 Año v e n t a s Gráfica de series de tiempo de ventas Proyección de tendencias 159 Instituto Tecnológico de Ensenada Biol. Recuerde que en la descripción de la regresión lineal simple.13 Tendencias de las ventas de bicicletas.06814 . como la que muestra la figura 5. Raúl Jiménez González Después de examinar los datos de la serie de tiempo en la tabla 5.13. tal metodología es la que usaremos para definir la línea de tendencia para la serie de t iempo de ventas de bicicletas.8 y en la gráfica de la figura 5. describimos cómo se aplica el méto do de mínimos cuadrados para determinar la mejor relación lineal entre dos varia bles. a fin de identificar una tendencia lineal.12 concordamos que con una tendencia líneas. Figura 5. representada por una función lineal 10 9 8 7 6 5 4 3 2 1 32 30 28 26 24 22 20 Año v e n t a s MAPE 5. Vamos a emplear los datos de ventas de bicicletas para ilustrar los cálculos del análisis de regresión. 07000 Medidas de exactitud Actual Ajustes Variable Gráfica de análisis de tendencia de ventas Modelo de tendencia lineal Yt = 20. 160 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada Biol. . = 1 cor respondiente al valor más antiguo de esa serie y = 10 al más reciente. usaremos en lugar de . . es Para enfatizar que el tiempo es la variable independiente en los pronós ticos. el volumen estimado de ventas.MAD 1. Raúl Jiménez González Observe que. = 2 para el tiempo del segundo dato y así sucesivamen te. y una variable dependiente.32000 MSD 3. además. para la serie de tiempo de ventas de bicicletas.10*t La ecuación de regresión que describe una relación lineal entre una varia ble independiente.40 + 1. Así para una tendencia lineal. expresado en función del t iempo. se puede escribir como sigue: donde = valor de la tendencia de la serie de tiempo en el periodo = ordenada al origen e la línea de tendencia = pendiente de la línea de tendencia = tiempo En esta ecuación igualaremos = 1 para el tiempo en que se obtiene e l primer dato de la serie de tiempo. . usaremos en la ecuación en lugar de . y .8 podemos calcular como sigue: t . donde = valor de la serie de tiempo en el periodo = número de periodos = valor promedio de la serie de tiempo.Las fórmulas para calcular los coeficientes estimados de regresión. = valor promedio de Con las ecuaciones anteriores y los datos de las ventas de bicicletas de la ta bla 5. en la ecuación que se muestra a continuación. 0 1 4 9 16 25 36 49 64 81 100 55 264.5 385 = = .5 29.6 45.8 76.5 1545.6 22.5 237.4 21.9 25.9 23.9 27.6 31.6 119.5 31.1 2 3 4 5 6 7 8 9 10 21.5 165.0 220.7 28.5 21.6 257.5 87.4 314. 83. Utilice Microsoft Excel o Minitab para resolver los siguientes problemas Ejercicios 1.En la compañía Pérez.Por consiguiente. Así sólo con el componente de tendencia pronosticaríamos ventas de 32 500 bicicletas para el próximo año. 85. aproximadamente .1 indica que. Si suponemos que la tendencia en los 10 años pasados es un buen indicador del futuro.. 84. Proyección de tendencias 161 Instituto Tecnológico de Ensenada Biol. se obtiene la proyección de tenencia para el año próximo. 84 y 83 a) Compare el pronóstico con promedios móviles de tres meses con e suavizamiento exponencial con ¿Con cuál se obtienen mejores pronósticos? uno d . la empresa ha tenido un crecimiento promedio de ventas igual a 1100 unidades anuales. 84. los porcentajes mensuales de los embarques recibidos durante los últimos 12 meses fueron 80. La pendiente 1. Por ejemplo. durante los últimos 10 años. 82. 83. 82. aplicamos la ecuación para proyectar el componente de tendencia de la serie de tie mpo. al sustituir = 11 en esa ecuación. 84. Raúl Jiménez González Es la ecuación del componente de tendencia lineal para la serie de tie mpo de ventas de bicicletas. 83. Mes 1 2 3 4 5 6 7 8 9 10 Ventas 10535 120 105 90 120 145 140 100 80 100 110 11 12 a) Use con para calcular los valores de suavizamiento exponencial de la serie de tiempo b) Use una constante de suavizamiento igual a 0.338220211 15.825 26..5.1 0.00092951 0.4 1.3999E-07 17.90 1997 1984 1.764796016 R^2 ajustado 0.5 para calcular los valores de suavizamiento exponencial.215673715 5.88 Número Año Número Año 1. Raúl Jiménez González 3.74 1989 1.958953802 Observaciones 10 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F Regresión 1 99.65 1979 1.06 1993 1.04 1992 1.874526167 Coeficiente de determinación R^2 0.Los datos que siguen representan el número anual de empleados (en miles) de una compañía petrolera para los años 1978 a 1997.La siguiente serie de tiempo representa las ventas de un producto durante lo s últimos 12 meses.7 3.61 1987 1.735395518 Error típico 1.55 1986 2.602655521 162 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada Biol.82 .88 1981 2. ¿Cuál de las constantes 0.525 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Intercepción 20.000929509 Residuos 8 30.92 1990 1.73 1995 1.08 1983 1. Número de empleados (en miles) Año Número 1978 1.2. parece produ cir los mejores pronósticos Resumen de Excel donde observamos los coeficientes Estadísticas de la regresión Coeficiente de correlación múltiple 0.31405866 Año 1.24412786 3.00 1982 2..100296983 0.77 1996 1.80 1994 1.73 1980 1.60 1988 1.95 a) Grafique los datos en un diagrama 1991 1.8375 Total 9 130.0130293 0.3 o 0.825 99.45 1985 2. aplique la suavización exponencia l a la serie y grafique los resultados en el diagrama 4.8 1976 28.Los siguientes datos representan las ventas anuales (en millones de dólares) d e una compañía que procesa alimentos para los años 1972 a 1997 Ventas anuales (millones de dólares) Año Ventas Año Ventas Año Ventas 1990 1991 1992 1993 1994 1995 1996 1997 1972 36. en miles.6 1981 53. aplique la suavización exponencia l a la serie y grafique los resultados en el diagrama Ejercicios 163 Instituto Tecnológico de Ensenada Biol.1 6 18.8 1979 42.8 1988 41.4 1974 42.25.4 1977 23.2 48.3 1989 38.6 57..7 1983 51. Haga comentarios acerca de lo que sucede con la inscripción en esta instit ución.8 Deduzca una ecuación del componente de tendencia lineal en esta serie d e tiempo.0 5 19. .3 64.5 19.8 60.3 51.b) Ajuste un promedio móvil de 3 años a los datos y grafique los resultados en el diagrama c) Utilice un coeficiente de suavización W = 0.2 4 19.4 1987 43.Los datos de inscripciones..0 1982 53.3 a) Grafique los datos en un diagrama b) Ajuste un promedio móvil de 7 años a los datos y grafique los resul tados en el diagrama c) Utilice un coeficiente de suavización W = 0.4 1973 38.6 1975 34.0 51.50.9 1984 49.1 1980 41. en una universidad estatal durante lo s últimos seis años son los siguientes: Año 1 2 Inscripción 20.7 56. Raúl Jiménez González 5.8 1985 38.0 1986 37.6 55.5 3 20.9 1978 27. 9 a) Deduzca una ecuación de tendencia lineal para esta serie de tiempo b) ¿Cuál es el aumento promedio de ventas anuales en esta empresa c) Use la ecuación de tendencia para pronosticar las ventas en 1998 Caso a resolver 1 Pronóstico de ventas de alimentos y bebidas El restaurante Vintage está en la isla Captiva. muchas empresas trataron de reducir su t amaño para disminuir sus costos. Los siguientes datos corresponden al porcentaje de mujeres gerentes. acaba de completa r su tercer año de funcionamiento. Karen ve que. Karen. El restaurante. Florida. durante ese lapso. fabrica y vende productos para acc eso a redes de banda ancha.. Inc. para planear el crecimiento futuro del restaurante. desarrolla. Los siguientes datos son las ventas anuales de 1992 a 1997 Año 1992 1993 1994 1995 Ventas (millones) 5.ACT Networks. Sus esfuerzos han tenido éxito y su restaurante ha llegado a ser uno de l os mejores y de mayor crecimiento en la isla.52 7.2 12. hasta con un año de anticipación.6 1996 1997 28. 164 CAPÍTULO 5 Series de tiempo Instituto Tecnológico de Ensenada Biol.. Uno de los resultados de esas medidas de recorte de costos fue una disminución en el porcentaje de empleos gerenciales en la industria privad a..53 7.4 6.65 7.Al final de la década de los noventa.62 7.6.45 7. Cuenta con los siguientes datos sobre las ven tas totales de alimentos y bebidas (en miles de dólares) durante los tres años de funcionamiento. b) Use la ecuación de la tendencia para estimar el porcentaje de mujer es gerentes para 1996 y 1997 7. ne cesita desarrollar un sistema que le permita pronosticar las ventas de alimentos y bebi das cada mes. Raúl Jiménez González .73 a) Deduzca una ecuación de tendencia lineal para esta serie de tiempo.4 44. cuya dueña y operadora es Karen Payne. de 1990 1 1995 Año 1990 1991 1992 1993 1994 1995 Porcentaje 7. ha tratado de g anarse una reputación como establecimiento de alta calidad que se especializa en ma riscos.7 20. lugar de descanso cerca de Fort Myers. sus pronósticos y recomendaciones. Indique los índices estacionales para cada mes y haga comentarios acerca de los meses con ventas altas y bajas. Prepare un informe a Karen que conte nga lo que encontró. Dicho informe debe incluir: a) Una gráfica de la serie de tiempo b) Un análisis de influencias estacionales sobre los datos.Mes Primer año Segundo año Tercer año Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre 242 235 232 178 184 140 145 152 110 130 152 206 263 238 247 193 193 149 157 161 122 130 167 230 282 255 265 205 210 160 166 174 126 148 173 235 Analice los datos de ventas del restaurant. ¿Tiene sentido intuitivo esos índices estacionales? Describa . ¿Qué puede hacer para resolver la incertidumbre en el procedimiento de pronóstico? Caso a resolver 2 Pronóstico de ventas perdidas La tienda de departamentos Carlson sufrió graves daños cuando pasó un huracán el 31 de agosto de 2000. Si se puede presentar ese argumento. ¿Cuál fue su error de pronóstico? Si es grande. Suponga que las ventas en enero del cuarto año fueron de 295 000 dólare s. Estuvo cerrada durante cuatro meses (de septiembre a diciembr e de 2000). para tomar en cuenta nuevos datos de ventas e) Todos los cálculos detallados de su análisis aparecen en el apéndice de su informe. La siguiente tabla muestra los datos del departamento de comercio de Estados Unidos sobre las ventas totales durante los 48 meses anteriores a la tormenta. durante el mismo periodo. y ahora tiene una dificultad con su aseguradora acerca de la cantidad de ventas perdidas. Raúl Jiménez González analizar estos datos y preparar estimados de las ventas perdidas en s us almacenes durante los meses de septiembre a diciembre de 2000. Los administradores de Carlson le pi dieron Ejercicios 165 Instituto Tecnológico de Ensenada Biol. lo cual ocasionó un aumento en las ventas de las tiendas de departamento y de muchos otros negocios. mientras estuvo cerrada. También le pidieron determina r si es posible alegar exceso de ventas relacionado con el huracán. y también las ventas totale s durante los cuatro meses en que Carlson estuvo cerrada.por qué. A su condado llegaron más de 8000 millones de dólares en fondo s federales para desastres y seguros. Carlson tiene derecho a compensaci . Se deben resolver dos asuntos clave: 1) la ca ntidad de ventas de Carlson si no la hubiera dañado el huracán. c) Un pronóstico de ventas desde enero hasta diciembre del cuarto año. Karen se quedará confundida por la difere ncia entre su pronóstico y el valor real de las ventas. en todas las tiendas de departamentos en el condado. d) Recomendaciones sobre cuándo se debe actualizar el sistema que ha preparado. y 2) si Carlson tiene derecho a una compensación por ventas adicionales a causa de mayor actividad después de la tormenta. 03 1.83 4. Mes 1996 1997 1998 1999 2000 Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre 1.20 1.23 2.45 1.50 .56 4.90 2.02 2.13 2.57 2.31 1.32 2.89 2.16 2.42 2.39 2.ones por exceso sobre las ventas ordinarias.74 4.13 2.45 2.27 2.04 2.99 2.21 1.20 1.80 2.42 2.89 2.31 1.71 1.43 1.29 2.40 2.90 2.99 2.14 2. 73 2. de septiembre a diciembre de 200 166 Instituto Tecnológico de Ensenada Biol.37 2. si no c) hubiera habido huracán Un estimado de ventas perdidas de Carlson. sus pronósticos y recomendaciones. Éste debe incluir: a) Un estimado de ventas si no hubiera habido huracán.31 2.35 2.2.69 2. b) Un estimado de ventas en tiendas de departamentos de todo el condado. Raúl Jiménez González Apéndice Tablas .54 2.48 2.23 Prepare un informe a los gerentes de Carlson que resuma lo que encon tró.56 2.97 4.09 2.28 2. 167 Instituto Tecnológico de Ensenada Biol.1 0.01 1 2 3 4 5 6 7 8 9 10 11 12 0.25 0. Raúl Jiménez González Distribución T de Student Grados de libertad 0.005 0.025 .2 0.05 0.15 0. 694 3.182 4.134 1.093 1.571 3.350 1.106 0.831 1.841 0.080 2.690 2.156 1.906 1.687 2.718 0.386 3.328 1.920 12.700 3.941 1.688 2.695 3.688 2.873 1.067 1.015 2.306 2.689 2.440 1.250 1.886 6.729 2.356 1.101 2.086 2.143 0.921 0.064 1.721 2.978 1.012 0.821 0.071 1.860 2.711 3.925 0.656 0.604 0.499 0.866 1.376 1.965 0.345 1.110 2.862 1.816 9.602 0.119 1.686 2.337 1.776 3.314 2.032 0.761 2.883 1.879 1.796 2.100 1.624 0.262 2.000 63.076 1.160 2.120 2.741 4.943 2.397 1.341 1.169 0.228 2.734 2.898 0.706 4.753 2.638 2.179 2.920 1.365 0.764 0.476 2.861 0.365 2.190 1.650 0.066 1.747 0.718 3.069 1.325 1.063 1.821 6.863 1.740 2.355 0.372 1.896 0.055 0.518 .533 2.132 2.681 0.692 2.782 2.861 1.771 2.845 0.812 2.706 3.727 4.074 1.363 1.093 2.947 0.876 1.250 0.353 3.201 2.567 0.415 1.583 0.878 0.707 0.323 1.870 1.833 2.703 3.447 3.333 1.539 0.860 1.383 1.725 2.977 0.895 2.868 1.697 3.746 2.765 5.108 1.330 1.303 31.079 1.061 1.889 1.691 2.088 1.145 2.131 2.528 0.541 0.083 1.865 1.078 1.859 1.13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1.963 1.896 1.998 0.552 0. 779 0.055 1.819 0.7 0.683 2.685 2.0 0.03 0.048 2.485 0.074 2.858 1.683 2.1 2.01 0.479 0.056 2.06 .319 1.854 1.711 2.316 1.310 1.708 2.8 1.467 0.0.09 0.321 1.473 0.313 1.858 1.6 1.314 1.3 1.2 0.9 1.058 1.854 1.045 2.714 2.0 1.1 0.797 0.683 2.2 2.8 0.500 0.706 2.856 1.055 1.6 0.04 0.061 1.787 0.4 0.686 2.052 2.3 2.857 1.042 2.056 1.064 2.4 1.697 2.750 0.059 1.4 0.699 2.069 2.855 1.701 2.057 1.684 2.315 1.00 0.763 0.462 0.060 1.08 0.058 1.807 0.9 2.856 1.07 0.318 1.3 0.756 0.855 1.5 0.1 1.2 1.703 2.7 1.311 1.02 0.771 0.685 2. Raúl Jiménez González Distribución normal estándar 0 Z Z 0.5 1.05 0.492 0.684 2.684 2.0 2.508 0.717 2.060 2.457 168 Instituto Tecnológico de Ensenada Biol. 4463 0.3980 0.4713 0.0948 0.3023 0.4131 0.2389 0.3621 0.2190 0.4418 0.0987 0.4706 0.3925 0.1141 0.2580 0.4147 0.3289 0.9 3.1985 0.3485 0.4664 0.2422 0.4656 0.5 2.0199 0.0517 0.0478 0.1985 0.3810 0.2123 0.3315 0.2357 0.4505 0.1255 0.3365 0.4484 0.4633 0.0871 0.4573 0.4783 0.0080 0.2549 0.4808 .2910 0.4608 0.4049 0.4693 0.3830 0.4591 0.4066 0.5 3.3729 0.4115 0.4082 0.4686 0.0557 0.0120 0.9 0.0636 0.2 3.3790 0.4441 0.2088 0.0910 0.1915 0.2794 0.4699 0.3389 0.3643 0.3577 0.3849 0.0040 0.4099 0.2454 0.2123 0.0359 0.3907 0.0753 0.2939 0.4756 0.7 2.4671 0.3686 0.3599 0.1026 0.4032 0.1331 0.3531 0.4515 0.1443 0.3438 0.4319 0.1517 0.1950 0.3997 0.4192 0.3186 0.4495 0.2224 0.4 3.3708 0.2190 0.4357 0.3238 0.4162 0.4345 0.4382 0.2823 0.2612 0.2734 0.2852 0.4370 0.2486 0.6 3.0596 0.2019 0.6 2.0160 0.1217 0.1480 0.2054 0.0675 0.4803 0.4236 0.1103 0.2088 0.8 3.3944 0.4306 0.0398 0.4641 0.3749 0.4798 0.0793 0.4744 0.4564 0.4429 0.3264 0.3413 0.4177 0.0239 0.2518 0.4732 0.4554 0.0714 0.0438 0.4616 0.4292 0.4678 0.4812 0.2673 0.0 3.4778 0.4582 0.4649 0.2881 0.1179 0.4545 0.4015 0.2157 0.4525 0.3508 0.0319 0.1 3.3869 0.3770 0.3133 0.4207 0.3888 0.4738 0.4222 0.2257 0.4394 0.3554 0.2704 0.4535 0.2291 0.3665 0.0832 0.4719 0.0000 0.4750 0.0279 0.2324 0.4817 0.2764 0.1406 0.4793 0.7 3.3212 0.2019 0.2054 0.1850 0.3106 0.1915 0.4332 0.1368 0.4265 0.4788 0.4761 0.4772 0.4251 0.2.4279 0.3 3.4474 0.3340 0.2157 0.3461 0.4767 0.4406 0.4625 0.1293 0.1064 0.2642 0.4452 0.8 2.2224 0.3078 0.4599 0.3051 0.3159 0.4726 0.3962 3.2995 0.2967 0. 4991 0.4999 0.4941 0.4904 0.4992 0.4945 0.4830 0.0 0.4999 0.4999 0.4989 0.4999 0.4999 0.4980 0.4999 0.4982 0.4893 0.4998 0.4952 0.4995 0.06 .4987 0.4979 0.4878 0.3 0.4956 0.4955 0.4998 0.4986 0.4938 0.4990 0.4957 0.4936 0.03 0.4997 0.4997 0.4996 0.4999 0.4948 0.4998 0.4995 0.4920 0.0.4974 0.4834 0.4981 0.4 0.4979 0.4998 0.4977 0.4999 0.4999 0.4931 0.4999 0.4986 0.4922 0.4842 0.4999 0.4999 0.4999 0.4966 0.4961 0.4884 0.4998 0.4998 0.4995 0.4985 0.4999 0.4993 0.4971 0.4868 0.4969 0.4977 0.2 0.4997 0.4990 0.4838 0.4984 0.4991 0.4934 0.4956 0.4854 0.4929 0.4992 0.4946 0.4913 0.4993 0.4984 0.4846 0.4981 0.4998 0.4974 0.00 0.4999 0.4998 0.4997 0.4998 0.4951 0.4999 0.4925 0.4949 0.4988 0.4918 0.4998 0.4972 0.4994 0.4996 0.4997 0.4996 0.4987 0.4962 0.4985 0.4964 0.4959 0.4999 0. Raúl Jiménez González Distribución normal para una cola Z 0.4998 0.4995 0.4997 0.4978 0.4999 0.09 0.4996 0.08 0.4960 0.4992 0.4821 0.4901 0.4975 0.4988 0.4909 0.4861 0.4994 0.05 0.4890 0.4996 0.4911 0.4996 0.4998 0.4996 0.4940 0.4999 0.4999 0.4994 0.4932 0.4990 0.4998 0.04 0.4999 169 Instituto Tecnológico de Ensenada Biol.4970 0.4857 0.4976 0.4881 0.4896 0.4898 0.4826 0.4982 0.4997 0.4875 0.4989 0.4943 0.4999 0.4967 0.4986 0.4887 0.4906 0.4997 0.4992 0.4993 0.4994 0.01 0.4864 0.4973 0.4850 0.07 0.1 0.4991 0.4996 0.4999 0.4871 0.4991 0.4963 0.4968 0.4999 0.4994 0.02 0.4999 0.4986 0.4916 0.4997 0.4998 0.4983 0.4999 0.4993 0.4999 0.4999 0.4995 0.4997 0.4953 0.4927 0.4998 0.4997 0.4999 0.4988 0.4998 0.4995 0.4998 0. 7881 .6700 0.7642 0.9278 0.5318 0.8023 0.9535 0.6984 0.8599 0.7673 0.9098 0.8051 0.9382 0.5199 0.6217 0.5831 0.6879 0.5870 0.9318 0.5714 0.2 1.8849 .3 2.8665 0.8943 0.5792 .7389 0.8576 0 0.9 1.9515 0.8078 0 0.8829 0.8790 0 0.9264 0.7257 .9032 .9207 0.6443 0 0.1 1.7224 0.7019 0.9525 0 .5239 0.6064 0 0.5517 0.7793 0 0.6627 0.8643 .8437 0.5556 0.6554 .8185 0.5674 0 0.6808 0 0.4 1.5437 0.8314 0.9357 0.9221 0.9544 0.8769 0.6664 0.5635 0.8238 0.0 0.6405 0.7156 0 0.5159 0.0.6 0.6590 0.8 0.6736 0.8461 0.7088 0.7190 0.9292 0 0.6 1.8484 0.9 2.9452 .5039 0.9406 0.5279 0 0.6368 0.9250 0.6843 0.6179 .7580 .4 2.6772 0.6255 0.5477 0.7938 0.9305 0.9331 .7323 0.7995 0.8621 0.5948 0.2 2.8132 0.8728 0.0 2.7356 0.7 2.7703 0.8906 0.8508 0.9162 0.7290 0.9369 0.5596 0.9236 0.7967 0.7421 0.5 2.6914 .1 2.6949 0.5987 0.3 1.5000 .5119 0.7122 0.0 1.9014 0.5079 0.9177 0.8413 .8868 0.8749 0.6480 0.8810 0.5753 0.7 0.7823 0.8339 0 0.8105 0.7910 0.8289 0.9192 .7054 0.9065 0.9130 0.6025 0.5398 .7763 0.8531 0.9049 0.6293 0.9114 0.8887 0.9505 0.7549 0.8997 0.8159 .9484 0.6517 0.9417 0 0.9463 0.9473 0.8707 0.7517 0.7485 0 0.8212 0.8979 0 0.9082 0.9344 0.7852 0.6102 0.7611 0.8961 0.7733 0.5358 0.8389 0.9429 0.8554 0.9440 0.6 2.8925 0.8686 0.8263 0.8 1.8364 0.9394 0.7453 0.6140 0.7 1.5909 0.8 2.5 1.9494 0.9146 0 0.9 3.6330 0.5 0. 9989 0 170 Instituto Tecnológico de Ensenada Biol.9934 0.9744 0. Raúl Jiménez González Valores Críticos de la Distribución Chi-Cuadrado.025 0.9877 0.9986 0.9986 0.9911 0 0.9936 0.9900 0.050 0.9798 0.9821 .9632 0.9952 0.9777 0.9953 .9563 0.9965 .9731 0.9947 0.9949 0 0.9989 0.9640 .9941 0.9939 0.9928 0.9990 0.9678 0.9648 0.005 0.9692 0 0.9572 0.0.9853 0.9616 0 0.9599 0.9971 0.9860 .995 0.9761 0.100 0.9981 .9976 0.9874 0.9984 0.9849 0 0.9842 0.975 .9974 .990 G R A D O S D 0.9926 0.9895 0.9867 0.9959 0.9772 .9607 0.9581 0.9960 0.9834 0.9918 .9685 0.9944 0.9967 0.9883 0 0.9825 0.9920 0.9554 .9987 0.9987 0.9750 0.9981 0.9970 0.9978 0.9812 0.9924 0.9922 0.9829 0.9755 0 0.9950 0.9903 0.9712 .9964 0. FUNCION DE DISTRIBUCION 0.950 0.9871 0.9915 0.9671 0.9706 0.9975 0.9985 0.9783 0.9864 0.9962 0 0.9590 0.9932 0 0.9807 0 0.9956 0.9971 0 0.9978 0.9738 0.9973 0.9898 0.9838 0.9983 0.9913 0.9969 0.9958 0.9966 0.9988 0.9982 0.9624 0.9963 0.9980 0.9983 0.9880 0.9889 0.9892 .9942 0.9886 0.9656 0.9793 0.9663 0.9979 0 0.9930 0.9954 0.9988 0.9719 0.9908 0.9946 0.9980 0.9857 0.9788 0.9906 0.9986 .900 0.010 0.9972 0.9699 0.9803 0.9984 0.9846 0.9977 0.9957 0.9767 0.9937 .9816 0.9975 0.9988 0.9968 0.9985 0 0.9725 0. 88 2.84 5.63 7.000982 0.71 3.02 .000039 0.E L I B E R T A D 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.0158 6.003932 0.000157 0. 94 37.02 3.40 5.57 28.82 4.85 12.81 9.21 0.62 32.80 9.77 39.72 6.61 16.36 42 13.59 14.84 15.65 27.12 14.10 0.35 9.14 5.25 3.85 32.26 9.43 8.53 2.29 42.73 21.40 8.48 13.78 4 11.01 35.58 3.39 10.81 0.30 28.19 8.55 0.91 10.56 25.12 11.72 3.89 41.03 8.65 21.28 11.14 4.64 12.34 44.24 5.00 34.71 1.23 6.64 2.99 28.34 20.75 0.31 20.0717 0.46 48.16 23.58 17.31 16.34 14.84 7.41 33.46 13.17 2.86 0.31 25.85 15.21 10.11 43.72 49.44 28.24 20.32 5.57 16.68 26.20 36.99 13.67 35.52 11.07 26.58 7.69 4.61 6.59 13.84 0.12 14.25 0.06 7.23 32.94 4.56 38.07 11.31 23.69 13.07 16.01 34. 15.18 9.04 19.28 1.24 29.63 6.74 40.92 45.80 3.36 15.99 18.05 26.53 8.57 27.92 41.0.06 23.18 2.59 2.29 35.56 45.30 18.19 46.64 44.86 25.09 42.14 32.92 26.60 30.90 8.99 7.79 21.49 13. .28 14.65 44.57 7.78 1.22 3.67 2.71 19.22 11.36 24.56 28 50.54 21.93 18.45 1.48 3 10.77 27.92 36.92 19.89 7.20 64 48.30 0.0100 0.00 6.85 10.0201 0.05 17.69 2.17 8.41 35.26 7.68 4.60 24.82 4.21 0.34 12.51 17.96 7.48 1.88 96 49.38 37.56 8.57 5.49 11.20 10.59 10.41 34.16 6.11 29.17 38.30 4.63 36.81 22.29 11.38 17.98 45.68 16.03 23.54 0.83 0.21 0.64 9.00 27.11 0.16 12.93 11.41 0.81 12.26 37.38 7.70 6.24 1.81 33.49 5.65 40.73 3.26 8.57 40.07 29.81 32.12 6.58 4.86 .95 2.02 14.70 3.59 30.81 37.11 36.93 41.19 1. 13.89 10.01 2.41 31.42 39.52 31 46.09 14.99 18.66 31.28 19.56 10.01 5.33 4.87 15.15 1.35 0.55 22.04 30.74 5.09 16.08 41 12.67 10.23 9.40 13. 16.98 12. 14.15 18.47 34.55 21.17 14.60 0.85 9.09 24.34 5.19 38.83 15.20 .26 10.91 7.09 1.55 1.87 18.68 16.76 3.48 2.66 33.09 23.26 7.83 12.14 12.61 9.0506 9.27 5.64 12.87 31.20 30. Función de Distribución = 0.34 13. 171 Instituto Tecnológico de Ensenada Biol.26 43.67 16.79 18.95 89 53.98 50.60 40.77 46.59 52. Raúl Jiménez González Valores Críticos de la Distribución F .49 20.90.79 14. GRADOS DE LIBERTAD DEL NUMERADOR 1 2 3 4 9 10 1 G 2 R 3 A 4 D 5 O S 6 7 D 8 E 9 10 L I 11 B 12 E 13 R 14 T 15 A D 16 17 D 18 E 19 L 20 D E N O M I 21 22 23 24 25 5 6 7 8 . 27 2.61 2.20 2.35 2.24 58.16 2.57 2.67 2.32 3.03 2.38 2.35 9.29 2.03 3.05 3.56 2.35 2.54 2.09 3.07 2.46 3.19 9.67 2.42 3.99 1.62 2.45 3.73 2.86 2.98 1.98 1.26 3.29 2.36 2.83 57.44 59.35 3.81 2.24 2.00 1.52 2.59 2.44 2.05 4.61 2.53 9.94 1.13 2.97 1.28 5.24 2.12 2.33 2.92 2.48 2.19 3.96 1.A D O R 26 27 28 29 30 40 60 90 120 39.01 2.70 2.75 2.24 4.23 4.81 2.11 2.94 3.99 1.96 2.55 2.13 2.61 2.54 5.36 2.64 2.98 3.10 2.39 5.33 2.61 2.41 2.45 2.46 5.18 2.04 2.56 3.10 3.18 2.01 1.59 55.05 1.44 2.21 2.39 2.94 3.91 59.49 2.00 9.21 2.24 2.02 1.95 1.59 2.40 3.39 5.38 5.62 2.91 2.00 3.23 2.50 8.90 2.09 2.28 2.19 2.00 2.54 4.10 2.51 2.96 3.96 2.98 2.09 2.11 2.34 5.52 3.31 2.08 2.29 9.94 2.02 1.98 2.73 2.14 2.56 2.46 2.89 2.95 1.93 2.11 3.06 2.03 2.23 2.54 2.92 2.23 2.11 2.25 2.70 3.20 2.25 5.19 2.76 2.62 3.32 3.16 9.78 2.37 60.18 2.22 2.34 2.59 2.88 2.01 1.46 2.95 2.36 2.34 3.13 2.31 5.27 5.43 2.01 2.86 49.20 58.69 2.25 3.72 3.24 9.29 3.78 3.06 2.15 2.32 3.93 2.54 3.37 3.46 2.06 3.18 3.05 2.92 4.97 1.27 2.52 2.39 2.31 2.16 2.33 9.27 2.06 .11 4.12 2.06 2.39 2.92 1.21 2.06 2.10 2.42 2.66 2.30 53.16 2.92 2.38 2.95 3.96 2.04 2.14 2.73 2.30 2.14 3.81 2.07 2.34 2.08 2.01 3.15 2.47 2.83 2.19 4.98 2.22 2.28 2.94 1.55 2.78 2.40 2.33 2.04 2.86 9. 88 1.70 2.91 1.76 2.88 1.65 2.14 2.18 2.82 1.95.06 1.09 2.93 1.31 2.07 2.98 1. GRADOS DE LIBERTAD DEL NUMERADOR 1 2 3 8 9 10 1 G 2 R 3 A 4 D 5 O S 6 7 D 8 E 9 10 L I 11 B 12 E 13 R 14 T 15 A D 16 17 D 18 E 19 4 5 6 7 .04 1.49 2.68 172 Instituto Tecnológico de Ensenada Biol.30 2.77 1.36 2.95 1.32 2.Función de Distribución = 0.35 2.77 1.67 2.28 2.90 1.06 2.76 1.50 2.51 2.94 1.92 1.01 1.02 1.28 2.92 1.89 2.08 2.86 2.93 1. Raúl Jiménez González Valores Críticos de la Distribución F .23 2.72 1.90 1.00 1.89 1.15 2.85 2.39 2.91 1.00 1.53 2.89 1.79 1.88 2.83 1.00 1.87 2.97 1.87 2.17 2.78 1.01 1.99 1.95 1.96 1.85 2.99 1.1.13 1.84 2.71 2.75 1.86 2.44 2.15 2.93 1.82 2.79 2.82 1.50 2.05 1.16 2.88 2.87 2.89 1.91 1.87 1.83 2.93 1.29 2.90 1.09 2.17 2.52 2.18 2.87 1.74 1.84 1.84 1.74 2. 09 0 5.99 236.04 6.61 5.51 19.14 4.L 20 D E N O M I A D O R 21 22 23 24 25 26 27 28 29 30 40 60 90 120 161.5 3.20 2.16 233.48 3.05 4.16 2.60 5 4.67 3.41 3.41 3.01 2.45 2.09 3.87 2.74 2.28 9.48 2.35 4. 3.92 2.29 3.35 19.79 7.26 6.95 4.45 4.54 4.18 3.51 .06 4.85 2.81 2.14 3.38 8.07 3.54 2.90 2.39 4.7 4.13 9.6 4.87 3.34 3.30 19.59 2.41 5.01 2.64 2.64 4.41 4.90 2.84 0 4.75 3.42 3.32 39 5.38 3.0 4.86 3.54 9 3.79 5.39 6.77 238.49 2.45 199.88 7 4.11 2.67 1 4.00 19.01 8.61 2.29 3.10 2.66 2.22 3.96 02 5.96 2.71 6.74 2.85 3.46 3.13 2.71 2.77 2.26 3.85 2.12 9.66 2.49 4.24 3.03 2.39 2.58 2.51 2.54 3.00 2.63 4.70 2.93 2.15 4.60 2.74 5.9 3.26 3.79 2.96 2.52 2.85 8.55 2.36 3.25 19.74 2.83 2.69 3.53 4.35 3.71 2.94 6.19 5.49 3.77 2.38 4.79 3.60 3.63 3.98 2.98 4.81 6.91 2.99 0 5.58 3.49 3.58 230.81 2. 19.55 9.85 2.75 0 4.55 2.7 3.6 3.71 224.8 3.94 8.16 6.96 6.06 2.84 3.63 2.45 3.23 3.50 215.48 3.76 2.73 3.40 10.10 2.46 3.59 8 5.16 19.95 2.68 2.70 2.21 240.76 4.37 19.59 2.82 4.49 3.14 4.59 3.37 3. 3.11 3.1 4.20 3.74 3.35 4.28 4.33 3.97 3.54 241.12 3.12 18 4.50 3. 3.88 88 18.59 6.44 3.89 2.07 3.33 19.71 3.89 8. 47 2.03 2.33 2.91 173 Instituto Tecnológico de Ensenada Biol.40 2.25 2.46 2.25 4.44 2.46 2.45 2.27 4.93 2.35 4.23 3.18 2.32 4. Raúl Jiménez González Valores Críticos de la Distribución F .57 2.68 2.47 2.05 2.66 2.12 2.84 2.22 2.45 2.10 2.28 2.18 3.16 4.30 4.99 3.08 4.20 4.99 2.24 4.11 2.94 3.17 3.37 2.99.27 2.62 2.53 2.37 3.32 2.59 2.25 2.34 2.26 3.69 2.84 2.04 1.33 2.01 2.35 2.30 2.07 2.23 2.29 2.36 2.17 2.09 2.95 2.96 2.56 2.42 2.10 1.49 2.30 3.78 2.80 2.31 2.76 2.99 2.71 2.34 2.32 2.92 3.51 2.00 3.08 3.53 2.40 2.24 3.55 2.70 2.98 2.22 4.55 2.21 2.68 2.32 2.49 2.24 2.37 2.25 2.15 1.28 3.53 2.92 2.43 2. GRADOS DE LIBERTAD DEL NUMERADOR 1 2 3 8 9 10 G R A D O S D E 4 5 6 7 .39 2.42 2.34 2.07 1.42 2.20 2.64 2.71 2.44 2.37 2.60 2.95 3.21 3.32 3.04 2.36 2.45 2.35 2.29 2.76 2.02 1.28 2.34 3.27 2.18 4.37 2.39 2.73 2.19 4.40 2.42 2.2.96 2.20 3.18 2.61 2.82 2.32 3.47 3.Función de Distribución = 0.74 2.57 2. L I B E R T A D D E L D E N O M I A D O R 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 . 00 16.23 3.59 8.65 7.50 4.26 4.43 8.70 3.40 6.92 28.30 4.53 3.88 5.56 4.10 3.06 5.42 4.09 4.07 4.18 4.00 99.98 8.43 4.04 4.21 7.29 6.78 3.71 3.26 3.78 9.68 5.14 3.25 4.56 8.06 4.29 4.03 5.74 5.59 3.42 3.80 5.44 4.47 5.19 6.64 3.74 4.35 5.14 4.99 6.31 7.64 4.37 8.41 3.22 3.46 28.85 4.52 14.41 5.85 3.64 4.13 7.07 6.86 6.17 7.84 3.94 3.04 3.78 5.37 4.32 3.26 7.84 6.56 5.21 6.01 3.19 5.34 4.94 4.51 3.40 60 90 120 4052 98.12 30.75 10.77 3.52 4.46 7.72 3.85 7.18 3.01 4.95 5.32 5.67 4.16 10.61 5.26 10.75 8.82 5.89 4.66 14.24 27.62 11.63 3.95 5.51 8.55 16.99 6.10 3.30 9.32 4.63 6.35 27.72 4.33 6.99 4.36 3.70 4.72 5.90 3.46 4.29 3.18 .11 3.93 4.06 4.87 12.53 6.55 6.29 10.77 5.56 6.99 3.26 13.50 3.80 14.67 9.62 4.18 5.36 5981 99.79 3.63 5.36 3.28 4.22 3.60 5.59 7.68 4.25 9.93 3.57 3.56 3.10 7.86 4.23 21.89 4.10 5.77 4.21 4.94 3.82 4.26 8.72 7.20 5.21 10.25 99.67 5.03 5.64 5.67 27.35 4.30 4.42 5.30 99.98 14.47 8.46 3.39 6056 99.87 4.39 5.65 5.97 10.10 8.39 10.33 5928 99.89 5.81 10.26 8.01 6.46 10.01 3.03 3.76 3.67 3.91 15.14 4.49 27.05 13.31 3.69 4.76 4.85 9.63 3.04 7.20 18.50 5000 5403 5625 5764 5859 99.94 7.17 99.40 4.37 6022 99.02 5.40 34.87 3.68 6.00 3.58 4.89 3.54 9.69 15.66 3.54 3.17 3.61 3.82 4.15 8.44 4.45 3.18 6.37 6.50 4.39 5.82 4.27 12.71 3.45 7.82 29.51 3.94 8.59 3.71 27.55 5.81 3.93 3.20 4.22 5.02 6.91 6.80 8.69 8.06 11.46 4.98 15. 66 2. SWEENEY.. Probabilidad y Estadística Para Ingenieros. T.L.50 3.J.93 2. R.. Segunda edición.54 4.51 3. 2010.H.33 3.01 3.61 4.M.73 3.82 2.64 5. Prentice Hall. Diseño y Análisis de Experimentos.72 2.60 4.15 4.01 2.39 2.49 4.80 7.18 2. 1998. 2008.2005.04 3. Probabilidad y Estadística.11 3.57 4. MONTGOMERY.R.45 3.03 7.72 4. WILLIAMS.89 4.C.39 3.12 2.23 3.20 3.09 7.98 4. Sexta edición.48 3. Raúl Jiménez González Bibliografía GUTIERREZ.30 3. G.95 2...85 2.07 4.06 7. KREHBIEL.L. D. Mc Graw Hill.31 3.. Estadística para Administración y Economía.83 3. C. LIMUSA WILEY MONTGOMERY.78 3.84 2.52 6.02 3.D.00 7. 2001.34 3.53 3.07 3.36 3.60 5.13 3.47 3. D. D. H y DE LA VARA. S. Análisis y Diseño de Experimentos.26 3. P. R. S.68 5.47 174 Instituto Tecnológico de Ensenada Biol.23 3.51 4..96 2.08 2.31 5. LIMUSA WILEY WALPOLE. Segunda edición.56 3. RUNGER.D.12 4.99 2.A. Pearson Education ANDERSON. Ensenada Baja California agosto de 2012 .C.3.95 3. MATH LEARNING BERENSON. R.17 3. MAYERS.. Segunda edición. MAYERS. C.56 3.56 5.17 2.79 2.09 4. Octava edición.12 2. LEVINE.53 3. Segunda edición.85 4. T.98 7.79 3.63 6. M. Estadística para Administración.29 3.42 3.70 3.65 3.75 3.

105850471 Estadistica Inferencial II Libro

Comments

Description