Problema Resuelto de Prueba de Bondad de Ajuste (1)



Comments



Description

PROBLEMA RESUELTO DE PRUEBA DE BONDAD DE AJUSTESi un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de una línea de ensamblaje y él desea verificar sobre la base de los datos que siguen, los números de llantas con defectos observadas en 200 días, si es cierto que el 5% de todos los neumáticos tienen defecto; es decir, si el muestrea una población binomial con n = Número de unidades con defecto 0 1 2 ó más 10 y π = .05 Número de muestras 138 53 9 1. Establecer la hipótesis Ho: La población es binomial Ha: La población no es binomial 2. Establecer la estadística de prueba χ = 2 ∑ i =1 k [f oi − f ei f ei ] 2 Oi = Valor observado en la i-ésimo celda. Ei = Valor esperado en la i-ésimo celda. K = Categorías o celdas. m = Parámetros 3. 3. Definir el nivel de significancia y la zona de rechazo g,l = k- m – 1 = (3 – 0- 1) = 5.99 Nivel de significancia = 0.05 2 = 8..2 Al aplicar la formula se tiene: χ2 = (138 − 119. .99. 6.599 f (1) = ( )0.26 5.599) = 119.05)10 −1 = .05 10 1 1 ( 1 − 0.315 = .05. Como 8.99) m = 0 porque no se necesito estimar ningún parámetro 4.05)10 −0 = .26 es mayor que 5.0) 2 (9 − 17.05 0 ( )0.8) 2 (53 − 63.315) = 63 200 (.599 .315 y la probabilidad de 2 ó más = 1.086 ahora ya podemos encontrar las frecuencias esperadas: 200 ( .8 63 17.se rechaza la hipótesis nula con un nivel de significancia de 0.2) 2 + + 119..086) = 17.0 .2 2 Zona de rechazo = { χ / χ ≥ 5. Calculo de la estadística de prueba 2 k f oi − f ei 2 χ =∑ f ei i =1 [ ] Para poder calcular las frecuencias esperadas tenemos que calcular las probabilidades utilizaremos la formula de la binomial x n−x f ( x) = ( n x ) π (1 − π ) donde n = 10 f ( 0) = π = 0. Conclusión Se concluye que el porcentaje verdadero de neumáticos con defecto no es el 5%.05 10 0 (1 − 0.8 200(. r O11 O21 . pero una estadística de prueba aproximada es valida para n grande. Or2 . . en general. Orc . dado que las dos clasificaciones son independientes. Entonces pij = uivj . Estamos interesados en probar la hipótesis de que los métodos de clasificación de renglón y de columna son independientes.. por ejemplo.UNIDAD: PRUEBA DE BONDAD DE AJUSTE Pruebas de tablas de contingencias En muchas ocasiones. como en la tabla. Supóngase las oij como variables aleatorias multinomiales y pij como la probabilidad de que un elemento elegido al azar cae en la celda ijesima.. . los estimadores de máxima probabilidad de ui y vj son: ûi = Oij ûj = Una tabla de contingencia r X c Columnas Oij 1 2 .. suponiendo independencia. concluimos que hay cierta interacción entre los dos criterios de clasificación.. Sea oij la frecuencia observada para el nivel i del primer método de clasificación y el nivel j del segundo método de clasificación. . c 1 2 Renglones . Luego. Los datos aparecerían.... Supóngase que el primer método de clasificación tiene r niveles y que el segundo método de clasificación tiene c niveles.. Los procedimientos de prueba exactos son difíciles de obtener.. Una tabla de tales características se llama comúnmente tabla de contingencia r X c. Si rechazamos esta hipótesis. Or1 O12 O22 .... los n elementos de una muestra de población pueden clasificarse de acuerdo con dos criterios diferentes. donde ui es la probabilidad de que un elemento elegido al azar caiga en el renglón de clase i y vj es la probabilidad de que un elemento seleccionado en forma aleatoria caiga en la columna de clase j..... podemos considerar la población de ingenieros graduado y tal vez deseemos determinar si el salario inicial es independiente de las disciplinas académicas.. O1c O2c . Por ello interesa conocer si los dos métodos de clasificación son estadísticamente independientes.. el número esperado de cada celda es Eij = nûivj = Entonces. para n grande. Las frecuencias observadas correspondientes se combinaran también en ese caso. (r – 1) (c – 1). la estadística 2 Oij Oij X20 = .. donde p representa el numero de parámetros de la distribución hipotética estimada por el medio de estadística de muestra.4 y 5 se utilizan ampliamente como mínimos. De la distribución de probabilidad hipotética. Codifica el algoritmo y genera 1000 dígitos pseudoaleatorios. teniendo k intervalos de clase. Si estas frecuencias esperadas son demasiado pequeñas. si no solo las mas pequeñas de las frecuencias esperadas.9 Puesto que estas .X2 (r – 1) (c – 1) Aproximadamente. Rechazaríamos la hipótesis de que X se ajusta ala distribución hipotética si X² 0>X²α k-p-1 Un punto que debe advertirse en la aplicación de este procedimiento de prueba se refiere ala magnitud de las frecuencias esperadas. Estas n observaciones se arreglan en un histograma de frecuencias. Si la frecuencia esperada es demasiado pequeña.En consecuencia. calculamos la frecuencia esperada en el intervalo de clase iesimo. ¿Existe evidencia de que el generador de números aleatorios esta trabajando correctamente? Si esta trabajando de manera correcta. la cual implica que cada uno de los enteros debe ocurrir exactamente 100 veces. las frecuencias esperadas E =100 para I=0. y k se reducirá en 1. No se requiere que los intervalos de clase sean de igual ancho.1. Los datos se muestran en la tabla 11-3.…. No hay un acuerdo general en relación con el valor mínimo de las frecuencias esperadas. Esto es. y rechazaríamos la hipótesis de independencia si X20 > X2a. aunque los valores de 3. Prueba de bondad de ajuste de ji-cuadrada El procedimiento de prueba requiere una muestra aleatoria de tamaño n de la variable aleatoria X. Sea 0 1 la frecuencia observada en el intervalo de la clase iesimo. denotada E 1. entonces los valores 0-9 deben seguir la distribución uniforme discreta. Esta aproximación se mejora cuando n aumenta. La estadística de prueba es: X20 = Puede demostrar que X²0 sigue aproximadamente la distribución ji cuadrada con k-p-1 grados de libertad. puede combinarse con la frecuencia esperada en un intervalo de clase adyacente. Ejemplo Una distribución completamente especificada Un científico de computadoras ha desarrollado un algoritmo para generar enteros pseudoaleatorios sobre el intervalo 0-9. entonces X²0 no reflejan la desviación de las observaciones respecto alas esperadas. cuya función de densidad de probabilidad se desconoce. frecuencias estimadas pueden estimarse sin que sea necesario estimular ningún parámetro a partir de los datos de muestra. Para la frecuencia observada en el caso especial de Gumbel. En consecuencia. Test de Kolmogorov-Smirnov Para la aplicación del test señalado. .92 no somos capaces de rechazar la hipótesis de que los datos proviene de una distribución uniforme discreta. ésta se determina a través de la función de Gumbel. En el caso de la frecuencia teórica acumulada. el generador de números aleatorios parece estar trabajando en forma satisfactoria. n: N° total de orden N: N° total de datos. es necesario determinar la Frecuencia observada acumulada. Total 0123456789n _______________________________________________________________ Frecuencia Observada O 94 93 112 101 104 95 100 99 108 94 1000 Frecuencias Esperada E 100 100 100 100 100 100 100 100 100 100 1000 _______________________________________________________________ El valor esperado de la estadística de prueba es 2222 X20 = = Puesto que X =16. la prueba resultante de bondad de ajuste de la ji cuadrada tendrá k-p-1=10-0-1=9 grados de libertad. 1. se ordena la información de menor a mayor y se aplica: Donde: Fn (x): frecuencia observada acumulada. Una vez determinadas ambas frecuencias. El resultado se expresa en la tabla siguiente: Peso del niño ¿Madre fumadora? Menor de ρ10 Si No 117 124 Entre ρ10 y ρ90 529 1147 Mayor de ρ90 19 117 ¿Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la muestra? . en la i-ésima posición de orden. 2. se tomaron dos muestras. se establece lo siguiente: Si D < D tabla. se obtiene el supremo de las diferencias entre ambas. Problemas Ejercicio 1. se acepta que (el ajuste es adecuado. y considerando el tamaño de la muestra. se recurre a la tabla de valores críticos de D en la prueba de bondad de ajuste de Kolmogorov-Smirnov. Luego. asumiendo un valor de significancia. una de fumadoras y otra de no fumadoras. con el nivel de confiabilidad asumido. que se denomina D. y se clasificó a sus hijos en tres categorías en función de su peso en relación con los percentiles ρ10 y ρ90 de la población. Ante la sospecha de que el hábito de fumar de una embarazada puede influir en el peso de su hijo al nacer. 1000 Ajustar una distribución binomial a los datos con un = 0. . Los datos no se ajustan a una distribución binomial. con el mismo concepto de grados de libertad. La prueba se basa en qué tan buen ajuste se tiene entre la frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias esperadas que se obtienen a partir de la distribución hipotética. H1. 5. 4 y 5 caras se muestra en la siguiente tabla. 6. Para obtener los valores esperados se tiene que utilizar la formula de la distribución binomial: . se sabe que =np en una distribución binomial. El número de series en los que se presentaron 0.PRUEBA CHI-CUADRADA PARA LA BONDAD DEL AJUSTE A lo largo de este curso nos ocupamos de la prueba de hipótesis estadísticas acerca de parámetros de una población como . 3.05. de 5 veces cada serie y se observó el número de caras de cada serie. Para calcular el valor de p. Una moneda fue lanzada al aire 1000 series. 3. Los datos se ajustan a una distribución binomial. Solución: H0. p y q son las probabilidades respectivas de cara y sello en un solo lanzamiento de la moneda. 4. 1. y P. Ahora se considera una prueba para determinar si una población tiene una distribución teórica específica. Ejemplo: 1. La formula que se utilizará para calcular el valor de chi-cuadrada es igual a la de la sección anterior. por lo que = 5p. donde n en este ejercicio vale 5. 1. Número de series Número de caras (frecuencia observada) 38 144 342 287 164 25 0 1 2 3 4 5 Total 2. 3087 0. 10. 9.0294 Frecuencia esperada 33. la distribución binomial ajustada viene dada por p(x) = . La probabilidad multiplicada por 1000 nos dará el valor esperado. la media del número de caras es: 8. Por lo tanto .49 se rechaza Ho. Así pues. Regla de decisión: 15.7. Para los grados de libertad el valor de m será uno.1507 0. ya que se tuvo que estimar la media de la población para poder obtener el valor de p y así poder calcular los valores esperados.0332 0. Si X2R 9. 17.4 Frecuencia observada 38 144 342 287 164 25 11. Al seguir esta fórmula se calcula la probabilidad de obtener caras.49 no se rechaza Ho. Si X2R >9. Para la distribución de frecuencias observada. Grados de libertad: k-1-m = 6-1-1 = 4 13.3162 0. 12.7 150. Cálculos: . 16. 14.2 308.9 316. según el valor de la variable aleatoria. Se resumen los resultados en la tabla siguiente: Número de caras (x) 0 1 2 3 4 5 P(x caras) 0.7 29.2 161.1619 0. 25. Esto es la fórmula de la Poisson es: 28. Solución: 23.05. ¿Muestran estos datos suficiente evidencia para decir que provienen de una distribución Poisson?.472 Frecuencia esperada 28.54 no es mayor a 9. 22. H0. Número de defectos 0 Probabilidad 0. H1.18. pueden calcularse las probabilidades asociadas con el valor de x. mismas que se multiplican por 60 para obtener los valores esperados. 24. La media de la distribución Poisson propuesta en este ejemplo es desconocida y debe estimarse a partir de los datos contenidos en la muestra.05 que el ajuste de los datos a una distribución binomial es bueno. La forma de la distribución de los defectos no es Poisson. Justificación y decisión: 19. 29. Con esta fórmula se calculan las probabilidades. Como el 7. Se propone que el número de defectos en las tarjetas de circuito impreso sigue una distribución Poisson. A partir de la distribución Poisson con parámetro 0. no se rechaza H 0 y se concluye con un = 0. La forma de la distribución de los defectos es Poisson. 27.49. Los resultados obtenidos son los siguientes: Número de defectos 0 1 2 3 ó más Frecuencia observada 32 15 9 4 21. 20.32 Frecuencia observada 32 . Haga la prueba de la bondad del ajuste con un = 0.75. Se reúne una muestra aleatoria de 60 tarjetas de circuito impreso y se observa el número de defectos. 26. 1 2 3 ó más 0.44 Frecuencia observada 32 15 13 31.32 21. no se rechaza H 0 y se concluye con un = 0. Si X2R 3. 40.133 0. Puesto que la frecuencia esperada en la última celda es menor que 5.24 7. Límites de clase Frecuencias observadas . Como el 2. Número de defectos 0 1 2 ó más Frecuencia esperada 28. Justificación y decisión: 39. se puede aproximar mediante una distribución normal con media = 3. se combinan las dos últimas celdas.98 2. debido a que la media de la distribución Poisson fue estimada a partir de los datos. Los grados de libertad serían 3-1-1=1. 33. 35.05.84.354 0.84 se rechaza Ho. 38.24 10.041 21.05 que la distribución de defectos en las tarjetas de circuito impreso es Poisson. 36. Regla de decisión: 34.84 no se rechaza Ho. Pruebe la hipótesis de que la distribución de frecuencia de las duraciones de baterías dadas en la siguiente tabla.7. Si X2R >3. 32. Utilice un = 0.94 no es mayor a 3. Cálculos: 37.5 y desviación estándar =0.46 15 9 4 30. 45 – 4. Los datos provienen de una distribución normal.95 2. Los datos no provienen de una distribución normal. H0.45 – 2.45 – 3. ya que se estimaría la media y la desviación estándar. .95 – 2.45 4. se estimarían a partir de los datos agrupados con las fórmulas que se vieron en la Unidad III del curso de probabilidad y estadística. se probará esta hipótesis. H1.45 3. por lo que no se tiene que estimar. En este ejercicio en particular se cuenta con la media y desviación estándar de la población. tomando en cuenta que para los grados de libertad el valor de m sería 2.45 2.95 – 3.45 – 1.95 2 1 4 15 10 5 3 Solución: Se procede a elaborar el histograma.95 1.95 – 4. para visualizar los datos: Como se puede observar el histograma tiene una forma que aparenta ser normal. En caso de que no se tuviera.1.95 3. 47210 P(x 3.45 3.45 2.Se procederá a calcular los valores de z para encontrar las probabilidades en la tabla.45 -2.26109 P(x 4.95 Límite real P(x) 1.95) = 0.06680 P(x 2.64 1. bajo la curva normal. A continuación se muestra la curva normal con sus respectivas probabilidades.45) = 0.95) = 0.01355 P(x 2.07 0.95 4.08691 La razón por la cual se comienza con el límite de 1. Las probabilidades que no se muestran en la tabla anterior y están en la curva se calcularon por diferencias.95 3.95) = 0.50 -0.95 y se termina con el límite de 4.36 P(x 1.21 -1. se sustituye el valor de x por los límites de clase comenzando con el límite de 1. Recordando que .79 -0. según los limites reales.45) = 0.45) = 0.95 2. es porque la suma de todas las probabilidades debe ser 1.21476 P(x 3. .45. 47660 Probabilidad 0.95 P(2.21476 = 0.45 – 3.95 – 2.45 – 2.67240 6.08691 Grados de libertad: k-1-m = 4-1-0 = 3 Regla de decisión: Si X2R 7.17417 Con estas probabilidades se calcularán los valores esperados. multiplicando cada probabilidad por 40.25734 0.147953 3.26109-0.45 – 4.14795 0.95) = 0.95) = 0.25734 3.01355 0.45 P(3.50-0.45 – 1.95 1.4721 = 0.815 se rechaza Ho.29360 10.45) = 0.45 P(2.0668-0.50-0.23891 4.4721-0.26681 0.95 x x x x x x 2.0279 3.05325 0.0668 = 0.45 2.50 P(3.91812 10.95 85 3 Frecuencias observadas 2 71 4 15 10 Frecuencia esperada 0.95 – 3. .45 3.95 3.45) = 0.21476-0.053254 2.45 4.95 2.815 no se rechaza Ho.26109= 0.17417 0.45) = 0.96680 3.13016 5.95 – 4.086915 = 0.54212 2. Límites de clase 1. Si X2R >7.P(1.013553 = 0.50) = 0.95 P(3. 06 no es mayor de 7. .Cálculos: Justificación y decisión: Como el 3.05 que el ajuste de los datos a una distribución normal es bueno.815. no se rechaza H 0 y se concluye con un = 0.
Copyright © 2024 DOKUMEN.SITE Inc.