Anova Un Factor Corregido

March 24, 2018 | Author: Juan Pablo Fonda Rocha | Category: Analysis Of Variance, Variance, Confidence Interval, Statistical Inference, Research Methods


Comments



Description

DEPARTAMENTO DE ESTADISTICA INFERENCIA M.V.H COMPARACION DE VARIAS MEDIAS POBLACIONALES ANALISIS DE VARIANZA DE UN FACTOR Hasta el momento hemos tratado el problema de comparar las medias de dos poblaciones. La idea ahora es generalizar la comparación de medias de k poblaciones. Supongamos entonces que disponemos de k muestras aleatorias independientes, cada una de tamaño ni , para i=1,...,k y  k. hemos calculado las distintas medias muestrales para cada una de ellas:  x 1,  x 2 ,...,x Cuando varias muestras exhiben promedios diferentes, los investigadores tienen interés en explorar si todas estas muestras provienen de poblaciones con la misma media, esto es : .1 = .2 = ....=.k , o si cada una de las k muestras se obtiene de poblaciones con medias que no son todas iguales. Así, se desea resolver el problema de hipótesis: H0 : .1 = .2 = ....=.k vs. H1 : algún .i distinto. Si el análisis estadístico permite aceptar el primer caso, entonces las diferencias observadas entre las medias muestrales, se deben sólo a fluctuaciones del muestreo y, por lo tanto, no son significativas. En cambio, si el análisis no permite aceptar igualdad de medias, las diferencias entre las diversas medias muestrales son significativas, esto es se rechaza la hipótesis que .1 =.....=.k . El procedimiento usado para probar igualdad de medias de varias poblaciones normales se denomina Análisis de Varianza (nombre que parece errado ya que queremos probar igualdad de medias). Este procedimiento involucra una separación de una varianza total en piezas o partes: varianza intra (dentro) y varianza inter (entre) y luego decide aceptar o rechazar la igualdad de medias basándose en la magnitud relativa de estas partes. Supongamos que disponemos de k muestras aleatorias independientes, cada una de tamaño ni i=1,2,..,k .Para poder llevar a cabo la prueba de igualdad de medias necesitamos que se satisfagan los dos supuestos siguientes: 1) Cada una de las muestras se obtienen de una población con distribución normal y , 2 2 2 2) Las k poblaciones tienen la misma varianza, esto es 51 = 52 = ......= 5k . Sea : H0 : .1 = .2 = ....=.k vs. H1 : algún .i distinto. La decisión de rechazar o no H! se hará con el estadístico 1 .(2) 2 . i=1 k Estimador de la media : ........... en cambio el valor esperado de la varianza inter-muestras consiste de la varianza poblacional más una varianza adicional que refleja la diferencia entre las k poblaciones..k ..... en cambio....k si F >F1-! (r1 ... Esto debido a que la varianza intra-muestras es una estimación insesgada de la varianza poblacional sin importar si H0 es verdadero o no.=.... mayor será la razón F.. se rechazará H0 : .. si las k medias son diferentes....i -..... Si la hipótesis nula es verdadera. "ni = n.. i=1.. los valores esperados de las dos estimaciones de la varianza 52 son: E[Varianza intra-muestras] = 52 E[Varianza inter-muestras] = 52 + " ni i=1 k (.. además..V.2 = ....DEPARTAMENTO DE ESTADISTICA INFERENCIA M.2.. la varianza inter-muestras será mayor que la varianza intra-muestras....1 = . r2 ).. Esto es.. esperamos que las dos estimaciones para la varianza poblacional estén razonablemente cercanas y por lo tanto se espera que la razón F sea cercana a 1....... Fórmulas k= N° de poblaciones en estudio (N° de muestras) ni = Tamaño de la muestra i..)2 k" Así.(1) !!(Xij  .... con un nivel de significación !.. se espera que la razón F sea mayor que 1.....H F= Varianza inter-muestras Varianza intra-muestras donde la varianza inter y la varianza intra son dos estimaciones de la varianza común 5# Þ Si la disparidad entre estas dos estimaciones es considerable.. mientras mayor sea la diferencia entre las diversas muestras.. Por lo tanto........ s= k ni i=1 j =1 k ! !Xij ! ni i=1 k ni . cuando las k poblaciones difieren en lo que respecta a su media..... la hipótesis nula es rechazada y las diferencias entre las diversas medias muestrales son consideradas significativas.......... s )2 Estimador de la varianza total : 5 s2 = i=1 j=1 ! ni  1 i=1 k . . y Cov( X i  .. ella es normal.. s. i=1 k SCT = SCW SCB (W=Whithin=dentro. s )2 ... s )=0 para cada i. el numerador de 5 s2 corresponde a una suma de cuadrados totales que puede descomponerse en:   ""(Xij  . s= i=1 k  !X i = i=1 k !!(Xij  .2 (n. 5 s2 = i=1 j=1 k n nk k nk  1 Notemos que.. X i  . Además. s) i=1 j=1 k ni 2 = "Ðni  i=1 k "ÑS2 i+ +  "ni (X s )2 i.. 52 3 ..  k  Xi . s )]2 i=1 j=1 i=1 j=1 k ni k ni k ni k ni y como los dobles productos son 0   = "" (Xij  X i )2 + "" (X i  . s es independiente de X i  .. s )2 i=1 j=1 i=1 j=1 .  k).... B=Between=entre)  Como .. s . Xij  X i )=0 para cada i.  1)...Xi .. a i=1. . j...2 (k  1).DEPARTAMENTO DE ESTADISTICA INFERENCIA M.. 52 SCB µ .k.. 52 SCW µ .V.(3) Suma cuadrado total=Suma cuadrado dentro de muestras+ Suma cuadrado entre muestras Notemos que (3) se puede escribir como: ""(Xij  . s ... entonces "ni = nk y las fórmulas (1) y (2) pasan a ser respectivamente i=1 k  n !Xi . s es combinación lineal de variables normales..... s es independiente de S2 c = y i=1 k n... !Ðni  "ÑS2 i . s )2 ="" [(Xij  X i )+(X i  . Así:  ..2 (n.    Cov ( . s se distribuye normal por ser combinación lineal de normales. s es independiente de S2 c .H Si ni = n .. Dividiendo la expresión (3) por 52 tenemos: SCT µ . .. n.. estas son: !! Xij ‘2 i=1 j=1 k ni SCT = !! X2 ij  i=1 j=1 n" k ni nÞ ! X#j ‘2 + j=1 n# ! X"j ‘2 SCB= y j=1 ! Xkj ‘2  .....k (5) toma la forma : k  n! (X i  ... k1 n. s )2 i=1 F= k1 !S2 i i=1 k k = 2 nS X !S2 i i=1 k k µ F( k  1...  k n. i=1 SCB  1) F= = SCW 52 (n..  1 Razón F Fc = SCB (k1) SCW (n.....  k) ... k(n  1)).l.V.  k) 52 (k k1 !Ðni  "ÑS2 i i=1 k µ F( k  1.. Podemos obtener fórmulas alternativas para la SCT y SCB...H Dada la independencia de las variables involucradas obtenemos que k  !ni (X s )2 i. Lo anterior se puede resumir en una tabla conocida como la TABLA ANOVA (de un factor) ANOVA SC CP SCB SCW SCT SCB/(k  1) SCW/(n.  k Si ni = n para todo i = 1. Total g.(5) n....+ j=1 nk !! Xij ‘2  i=1 j=1 k ni n" n2 nk nÞ SCW = SCT  SCB 4 . . Dentro de las k pobl....k) v-p P(F   Fc ) Observación.DEPARTAMENTO DE ESTADISTICA INFERENCIA M..  k) Fuente de Variación Entre pobl.. i es distinto.H Ejercicio.33  F0.05. Como parte de la investigación del derrumbe del techo de un edificio.95 (2. Las fuerzas requeridas para "cortar" cada uno de los pernos (valores codificados) son los siguientes: Posición 1: 90 82 79 98 83 91 Posición 2: 105 89 93 104 89 95 86 Posición 3: 83 89 80 94 Realice un análisis de varianza para probar. independencia e igualdad de varianza para las 3 posiciones obtenemos: De acuerdo a la observación anterior recogemos las distintas sumas para cada una de las posiciones ni ! Xij j=1 ni Posición 1 6 523 Posición 2 7 661 Posición 3 4 346 Total n. si las diferencias entre las medias muestrales en las 3 posiciones son significativas.05 tenemos F0.74 Dado que Fc =2. Solución Realizamos la prueba de hipótesis: H0 : .14) no podemos rechazar H0 . Bajo los supuestos de normalidad en las fuerzas requeridas.DEPARTAMENTO DE ESTADISTICA INFERENCIA M.3 Para !=0. un laboratorio prueba todos los pernos disponibles que conectaban la estructura de acero en tres posiciones distintas del techo. =17 !! Xij =1530 i=1 j=1 k ni Así SCT="" X2 ij  i=1 j=1 k ni (1530)# (1530)# = 138638  =938 17 17 SCB = y 523# 661# 346# (1530)#    œ #$% 6 7 4 17 SCW=938  234=704.1 =. 5 .2 =.3 (las fuerzas promedios es la misma para las tres posiciones) H1 : Algún . De donde el estadístico es Fc = #$% # (!% "% ""( =2.05.V.95 (2.33 50. Las diferencias entre las medias muestrales no son significativas al nivel 0. con un nivel de significación de 0.14)=3. de las variaciones Entre grupos Dentro de los grupos Total S.738891832 50.33 F1! (k-1.M F Prob (v-p) V.13381807 no significativo.4285714 55.952381 86.452381 703.C. Ejercicio 1. 2 14 16 SC 234 704 938 SCP 117 50.1338 Esta misma tabla la podemos obtener de la planilla Excell en la opción "Análisis de Varianza de un Factor" en "Análisis". Como parte de la investigación del derrumbre del techo de un edificio. crítico para F 117.74 v-p 0.22619 2. Las fuerzas requeridas para "cortar" cada uno de los pernos (valores codificados ) son los siguientes: Posición 2 105 89 93 104 89 95 86 Análisis de varianza de un factor RESUMEN Grupos Posición 1 Posición 2 Posición 3 Posición 1 90 82 79 98 83 91 Posición 3 83 89 80 94 Nº Observaciones 6 7 4 Suma 523 661 346 Promedio Varianza 87.33) = 0.DEPARTAMENTO DE ESTADISTICA INFERENCIA M.V. 2 14 16 C.3 Fc 2.H Z +69<  : œ P(F(2. de l. todo dentro del ícono "Datos".2534014 6 .1666667 50. 234. Los cálculos los podemos resumir en la siguiente tabla ANOVA Fuente de variación Posiciones Error Total g.l. nÞ -k) 3.547619 938 G.1666667 94. un laboratorio prueba todos los pernos disponibles que conectaban la estructura de acero en tres posiciones distintas del techo.14)   2.33270161 0.5 39 ANÁLISIS DE VARIANZA O.133547147 3. Se sigue el mismo razonamiento para cada uno de los demás intervalos.95 y 0.i . se puede evitar mucha aritmética asociada con el resultado anterior.i  . A continuación veremos un método popular que controla el nivel de 1) confianza simultáneo para todos los k(k2 intervalos....H COMPARACIONES MULTIPLES EN ANOVA Cuando el valor calculado del estadístico F en una ANOVA unifactorial no es significativo el análisis termina porque no se han identificado diferencias entre las . / ) (análogo a la F"! (r1 .. Los procedimientos basados en esta idea difieren en el método utilizado para calcular los varios intervalos de confianza. el investigador normalmente deseará saber cuales de las .j difieren significativamente uno de otro.V. 7 .j no incluye al 0.=nk = n) El procedimiento de Tukey utiliza la distribución de probabilidades llamada distribución de rango estudentizada. Entonces si el intervalo para .=nk = n) Con probabilidad 1  ! ...99 de esta distribución...i  .. El procedimiento a continuación permite identificar en forma visual las diferencias significativas con un patrón de subrayado. hay 1) ˆk ‰ k(k2 intervalos..i y 2 = . r2 )) Resultado 1.k ) con i  j SCW Cuando las  x i. pero cuando H0 es rechazada . Procedimiento de Tukey (caso: n1 =n2 =. Cada intervalo que no incluye al 0 da lugar a la conclusión que los valores correspondientes de .2.. Como en realidad no interesan los límites inferior y superior de los diversos intervalos sino sólo cuál incluye al 0 y cuál no. denotados por Q1! (m. se concluye que .(caso: n1 =n2 =. Esta distribución depende de dos parámetros : m los grados de libertad asociados con el numerador y / grados de libertad asociados con el denominador. si el intervalo incluye al 0.j con i  j .j para cada i y j (i=1. Primero se calcula un intervalo de confianza para cada diferencia .i  . Un método para realizar este análisis adicional se llama procedimiento de comparaciones múltiples.. k(n  1))ÈCPW/n ) . se considera que las dos medias no difieren de manera significativa.k y j=1.j con i  j. el intervalo   contiene a (X i  X j „ Q1! (k.i  .2.j difieren significativamente una de otra. el resultado es un conjunto de intervalos de confianza simultáneo de 100(1  !)% para todas las diferencias .  x j son calculadas y el CPW= k(n 1) se sustituye arriba. La Tabla 10 muestra los percentiles (1  !) = 0.DEPARTAMENTO DE ESTADISTICA INFERENCIA M. Varios de dichos procedimientos más frecuentemente usados están basados en la siguiete idea central.i y .i son diferentes una de la otra. k(n  1)) de la tabla.  x 5 = 13.i significativamente diferentes -Seleccione ! y determine Q1! (k.  x 3 = 13.  x 4 =14.i la cantidad promedio verdadera de material atrapado por los filtros marca i (i=1.DEPARTAMENTO DE ESTADISTICA INFERENCIA M.40) 2.84 F0.4 Ordenamos las medias muestrales en forma ascendente:  x5 13. -Calcule w= Q1! (k. Para !=0.4. 40)=4. pero sí son más altas de manera significativa que las otras tres marcas en sus contenidos promedio verdaderos.2.. pero peor que la 1 y la 4 y las marcas 1 y 5 no difieren en modo significativo. Sea .3.5 F.l 4 40 44 sc 13. Utilicemos el procedimiento de Tukey para encontrar las diferencias significativas entre las .8.32 3. k(n  1))ÈCPW/n = 4.H Método de Tukey para identificar los .V. Cualquier par de medias muestrales no subrayadas por la misma raya corresponde a un par de medias de población o tratamiento juzgadas significativamente diferentes..i .1=0.61 rechazamos H! y hay diferencias entre las medias.3.8  13. k(n  1))ÈCPW/n.3  x2 13..61 Como Fc =37..  x 2 = 13.5.95 (5. La marca 2 es significativamente mejor que la 3 y 5.3  x1 14.088/9=0.088 F 37.04 È0.1  x3 13.. Así las marcas 1 y 4 no son significativamente diferentes una de otra. -Haga una lista con las medias muestrales en orden creciente de magnitud .05 encontramos que Q1! (k.5 Note que la primera raya no puede ser extendida a  x 2 pues 13.=.84  2.95 (4.5) en condiciones controladas. Ejemplo.33 0..1.85 cp 3. de Variación Tratamientos (marcas) Error Total g. Se realizó un experimento para comparar 5 marcas diferentes de filtros de aceite para automóviles con respecto a su capacidad de atrapar materia extraña.2 =.1 =.. 8 .53 16. k(n  1))= Q0.8  x4 14.04 y por lo tanto w= Q1! (k.Subraye los pares que difieren en menos de w. La siguiente tabla Anova resume la primera parte del análisis de H0 :.. Se utilizó una muestra de 9 filtros de cada marca y se obtuvieron las siguientes cantidades medias muestrales:  x 1 = 14.7   0. . La folacina es la única vitamina B presente en cualquier cantidad significativa de té y avances recientes en métodos de ensayos han determinado con precisión el contenido de folacina factible.82 Total n.8 5.35 Marca 4 6 34.4 i=1 j=1 k ni  xi SCT= 1246. Solución..8 6. realizamos la ANOVA para la prueba H0 : El contenido promedio de folacina en las 4 marcas es la misma vs H" À H! es falsa ni ! Xij j=1 ni Marca 1 7 57. pero ahora el factor wij utilizado para decidir si  xi y x j pueden ser conectados dependerá de ni y nj .6 9.1 7.1 4.i  .1 6. el intervalo   (X i  X j „ wij ) contiene a . pero similares) " " Sea wij =Q1! (k. b) Realice.6 a) Sugieren estos datos que el contenido de folacina promedio es la misma en las 4 marcas.V... nÞ  k)É CPW 2 ( ni + nj ). 7.0 9. Bajo los supuestos de normalidad e igualdad de varianza.9 5.9 8.2.4 6.5 Marca 3 6 38.. Ejercicio. =24 !! Xij =168.9 8.DEPARTAMENTO DE ESTADISTICA INFERENCIA M. se sabe poco sobre su valor nutricional.k ) con i  j En el Resultado 2 el nivel de confianza simultáneo de (1  !)100% es sólo aproximado y no exacto ya que se determinó con tamaños de muestras iguales.. 4.88  (168. Aunque el té es la bebida que más se consume en el mundo después del agua.5 7.05).27 Marca 2 5 37..4 4.H Resultado 2.4)2 = 65.2. Con probabilidad aproximada 1  ! .5 8.9 8.0 10.5 7.j para cada i y j (i=1.3 5.9 5. un análisis de comparaciones múltiples para identificar diferencias significativas entre marcas.1 6.2 7. si tiene sentido.2733 24 9 . El método de subrayado puede seguir siendo usado.k y j=1. Considere los datos adjuntos sobre el contenido de folancina en espcímenes seleccionados al azar de las cuatro marcas líderes de té verde.5 7.7 6.0 7.4 5. 1: 2: 3.1 6..6 6. (Use valor-p y considere !=0.(caso: tamaños de muestras distintas. 9)2 (168.H SCB= (57.8319 2. de Variación Tratamientos (marcas) Error Total g.50 .0888 2 ( 7 + 6 )= 2.0888 2 ( 7 + 5 )= 2.82 .7495 v-p 0.0888 2 ( 6 + 6 )=2.4)2  œ 23.35 .0888 2 ( 5 + 6 )=2.2514 " " w14 =3.4506 " " w24 =3.05 calculamos: w12 =3.0888 F 3.05 Ê rechazamos H0 Ê Hay diferencias significativas entre las medias de contenido de folacina entre las 4 marcas.7776 65. 10 .1)2 (34.7776 ANOVA sc 23.4957 + + + 7 & 6 6 24 SCW=65.0888 2 ( 7 + 6 )= 2. 2 7.V. Sólo las marcas 1 y 4 parecen diferir de manera importante.3339 Ordenando las medias muestrales tenemos: 4 5.96 É 2.96 É 2.27 .l 3 20 23 cp 7.96 É 2. 3 6.96 É 2.96 É 2.&)2 (38.2733 F.DEPARTAMENTO DE ESTADISTICA INFERENCIA M.4957 41. " " b) Para !=0.96 É 2.2514 " " w23 =3. 1 8.3773 " " w13 =3.0888 2 ( 5 + 6 )= 2.2733  23.9)2 ($7.4957=41.0275 Valor-p  0.4506 " " w34 =3.
Copyright © 2024 DOKUMEN.SITE Inc.