Tema 4 Estadistica.docx



Comments



Description

4.1.2 Prueba de independencia La prueba de independencia, nos permite determinar si existe una relación entre dos variables categóricas. Esta prueba nos indica si existe o no una relación entre las variables, pero no indica el grado o el tipo de relación; es decir, no indica el porcentaje de influencia de una variable sobre la otra o la variable que causa la influencia. Debemos de conocer cuáles son los eventos independientes y los eventos dependientes: a) Son eventos independientes si la probabilidad de un evento no está afectada por la ocurrencia del otro evento, b) Son eventos dependientes los que la probabilidad de un evento está afectada por la ocurrencia del otro. En esta prueba se pregunta si la ocurrencia del evento X es independiente a la ocurrencia del evento Y, por lo que se plantea las hipótesis siguientes: a) Ho= La ocurrencia del evento X es independiente del evento Y. b) H1= La ocurrencia del evento X no es independiente del evento Y. Procedimiento para elaborar una prueba de independencia. 1. Obtener la frecuencia observada (F.O), obtenida de una encuesta, experimento, etc. 2. Resumir la frecuencia observada en un cuadro de contingencia. 3. Calcular la frecuencia esperada (F.E), usando la siguiente formula: 4. Determinar el nivel de significancia (α), y los grados de libertad, con la siguiente formula: 5. Plantear la hipótesis. H0: Independencia H1: Dependencia 6. Construir las áreas de aceptación y rechazo. 7. Calcular ji-Cuadrada F.O= es una frecuencia observada en una categoría determinada. F.E= es una frecuencia esperada en una categoría determinada. 8. Tomar una decisión y emitir una conclusión en términos del problema. Ejemplo: Una agencia de publicidad desea saber si el género de los consumidores es independiente de sus preferencias de cuatro marcas de café. La respuesta determinará si se deben diseñar diferentes anuncios dirigidos a los hombres y otros diferentes para las mujeres. Realice la prueba con un nivel de significancia del 5%. 1. Los resultados obtenidos de la encuesta realizada a 139 personas fueron: MARCA HOMBRE MUJERES A 18 32 B 25 15 C 15 10 D 12 12 2. Elaboración de la tabla de contingencia. 3. Calcular la frecuencia esperada. 4. Calcular los grados de libertad 5. Plantear la hipótesis. H0= La marca de café que se consume es independiente del sexo de una persona. H1= La marca de café que se consume depende del sexi de una persona. 6. Construcción de las áreas de aceptación y rechazo 7. Calcular ji-Cuadrada 8. Tomar una decisión y concluir. *Aceptar Ho Con un nivel de confianza del 5% se encontró que la marca de café es independiente del sexo de la persona. Por lo que se recomienda elaborar un sólo tipo de anuncio 4.1.3 Prueba de bondad de ajuste Frecuencias esperadas iguales La prueba de bondad de ajuste se trata de utilizar la prueba de ji-cuadrada para decidir si una distribución de probabilidad es la distribución apropiada, así mismo nos permite cuestionar para probar si existe una diferencia significativa entre una distribución observada y de frecuencia y una distribución teórica de frecuencias. En otras palabras, podemos precisar hasta qué punto encaja en la distribución de los datos que hemos observado. Así pues, podemos determinar si debemos creer que los datos observados constituyen una muestra extraída de la supuesta distribución teórica. Procedimiento para elaborar una prueba de bondad y ajuste. 1. Se establecen las hipótesis nula y alternativa. La hipótesis nula, H0, es que no existe diferencia entre el conjunto de frecuencias observadas y el conjunto de frecuencias esperadas. La hipótesis alternativa, H 1, es que si existe una diferencia entre los dos conjuntos de frecuencias. 2. Se selecciona el nivel de significancia. 3. Se escoge el estadístico de prueba. El estadístico de prueba es la distribución ji-cuadrada, que se denota por x2: Con K – 1 grados de libertad, donde: K= es el número de categorías. F.O= es una frecuencia observada en una categoría determinada. F.E= es una frecuencia esperada en una categoría determinada. 4. Se formula la regla de decisión. A este número se le denomina el valor crítico, este valor se encuentras en la tabla de ji-cuadrada. 5. Se calcula el valor de ji-cuadrada, y se toma una decisión. Ejemplo: Un dado se lanzó 36 veces, haga una prueba con un nivel de significancia del 5%, para comprobar si el dado es legal o no. Los resultados obtenidos del ejercicio fueron los siguientes: Número de puntos 1 2 3 4 5 6 Frecuencia observada 2 5 8 7 6 7 Frecuencia esperada: Paso 1: Se establece las hipótesis nula y alternativa. H0: La frecuencia observada en el lanzamiento del dado es igual a la frecuencia esperada, de dicho lanzamiento. H1: La frecuencia observada en el lanzamiento del dado es diferente a la frecuencia esperada de dicho lanzamiento. Paso 2: Se selecciona el nivel de significancia. Se elige el nivel 0.05, que es igual a la probabilidad de cometer un error tipo 1. Por tanto, 0.05 es la probabilidad de rechazar la hipótesis nula verdadera. Paso 3: Se realiza el estadístico de prueba. Paso 4: Se formula la regla de decisión Paso 5: Se calcula el valor de ji-cuadrada y se toma una decisión. Aceptar H0: Se encontró evidencia estadística, que un nivel de significancia del 5%, que es dado es legal. Frecuencias esperadas diferentes La prueba de bondad de ajuste también puede ser utilizada si las frecuencias esperadas no son iguales. En este caso también se utilizan los mismos pasos mencionados en el ejercicio de frecuencias esperadas iguales para obtener el resultado. Ejemplo: Un estudio a nivel nacional de las admisiones en hospital, durante en periodo de dos años, presentó los siguientes estadísticos respecto s los adultos mayores residentes en centros de asistencia y que fueron hospitalizados en cualquier momento durante el periodo. Se tiene que un 40% fueron admitidos sólo una vez en el periodo de dos años. Que 14% fueron admitidos tres veces, y así sucesivamente. La administradora del hospital local desea comparar la experiencia del Bartow Country Hospital con el patrón de asistencia nacional. Selecciono a 400 adultos mayores. ¿Cómo pueden compararse las frecuencias locales observadas del estudio nacional con los porcentajes del estudio local? Se usará la significancia del 0.05 Estudio nacional Estudio local Veces Porcentaje Veces Número de admitidas del total admitidas personas 1 40 1 165 2 20 2 79 3 14 3 50 4 10 4 44 5 8 5 32 6 6 6 20 7 2 7 10 100 400 Veces Fo Fe admitidas 1 165 160 2 79 80 3 50 56 4 44 40 5 32 32 6 20 24 7 10 8 400 400 Paso 1: Se establece la hipótesis nula y alternativa. H0= No existe diferencia entre la situación local y la situación nacional. H1= Si existe diferencia entre las situaciones local y nacional. Paso 2: Se selecciona nivel de significancia. En este caso será el 0.05 Paso 3: Se escoge el estadístico de prueba. Paso 4: Se formula la regla de decisión. Existen 7 categorías de admisión, por lo que los grados de libertad son gl = k-7 = 7-1 = 6. El valor critico obtenido de la tabla es 12.592. Paso 5: Se calcula el valor de ji cuadrada y se toma una decisión. El valor de X2= 2.379, por tanto, se acepta la hipótesis nula de que no existe diferencia entre los hospitales. 4.1.3 Tablas de contingencia La información proporcionada por una tabla bidimensional puede expresarse en términos diversos: frecuencias absolutas conjuntas, relativas conjuntas, condicionadas de una variable a valores de la otra. Además, puede derivarse el comportamiento unidimensional de las variables implicadas mediante las distribuciones marginales. La tabla bidimensional recibe el nombre de tabla de contingencia cuando las características en estudio no son cuantitativas. Una tabla de doble entrada para las variables X e Y con p filas y k columnas: La tabla de contingencia clasifica datos de acuerdo a dos o más categorías, relacionadas con cada una de las variables cualitativas, que pueden ser o no estadísticamente independientes. Esta tabla muestra todas las posibles combinaciones de categorías o contingencias. Distribuciones condicionales de Y a los valores de X Son distribuciones unidimensionales para la variable Y en distintas condiciones (valores de X). Se obtiene dividiendo cada casilla por el total de la columna. Distribuciones condicionales de X a los valores de Y Son distribuciones unidimensionales para la variable y en distintas condiciones (valores de Y). Se obtiene de la tabla anterior dividiendo cada casilla por el total de la fila. Distribuciones marginales: Marginal de Y Distribución unidimensional formada por los valores Yi (i=1, …, p) cuya frecuencia asociada se obtiene sumando las casillas correspondientes de la fila i-ésima. Marginal de X Distribución unidimensional formada por los valores Xj (j=1, …, k) cuya frecuencia asociada se obtiene sumando las casillas correspondientes a la columna j-ésima. Ejemplo: Supongamos que, en cuatro regiones, la Compañía Nacional de Cuidado de la Salud, de Estados Unidos, muestrea las actitudes de los empleados que sus hospitales respecto a la evaluación del desempeño en el trabajo. Los trabajadores eligen entre el método actual (dos evaluaciones al año) y un nuevo método propuesto (evaluación trimestral). Noreste Sureste Central Costa oeste TOTAL Número de empleados que prefieren el método 68 75 57 79 279 actual Número de empleados que prefieren el nuevo 32 45 33 31 141 método TOTAL 100 120 90 110 420 Frecuencias observadas y esperadas Supongamos que ahora simbolizamos las proporciones verdaderas de la población total de empleados que prefieren el plan actual como: PN= Proporción de empleados en el noreste que prefieren el plan actual. PS= Proporción de empleados en el sureste que prefieren el plan actual. PC= Proporción de empleados de la región central que prefieren el plan actual. PW= Proporción de empleados de la región de la costa oeste que prefieren el plan actual. Utilizando estos símbolos, podemos establecer las hipótesis nula y alternativa de la siguiente manera: H0: PN=PC=PW=PS H1: PN,PC,PW,PS no son iguales Si la hipótesis nula es verdadera, podemos combinar los datos de las cuatro muestras y luego estimar la proporción dela fuerza de trabajo (la población total) que prefieren el método de evaluación actual: 68+75+57+79 = 100+120+90+110 279 =270 =0.6643 Obviamente, si el valor 0.6643 estima la proporción de población esperada que prefieren el método presente de evaluación, entonces 0.3357 (=1 – 0.6643) es la estimación de la proporción esperada de la población que prefiere el nuevo método propuesto. Con los valores obtenidos podemos estimar el número de empleados de la muestra de cada región que podríamos esperar que prefieran cada uno de los métodos de evaluación. Costa Noreste Sureste Central oeste Número total 100 120 90 110 muestreado Proporción estimada que prefiere el método X 0.6643 X 0.6643 X 0.6643 X 0.6643 actual Número que se espera prefiera el método 66.43 79.72 59.79 73.07 actual Número total muestreado 100 120 90 110 Proporción estimada que prefiere el nuevo X0.3357 X0.3357 X0.3357 X0.3357 método Número que se espera prefiera el nuevo 33.57 40.28 30.21 36.93 método Noreste Sureste Central Costa oeste FRECUENCIA CON QUE PREFIEREN EL MÉTODO ACTUAL: Frecuencia observada (real) 68 75 57 79 Frecuencia esperada (teórica) 66.43 79.72 59.79 73.07 FRECUENCIA CON QUE PREFIEREN EL NUEVO MÉTODO: Frecuencia observada (real) 32 45 33 31 Frecuencia esperada (teórica) 33.57 40.28 30.21 36.93 Para probar la hipótesis nula H0: PN=PC=PW=PS debemos comparar las frecuencias que se observaron con las frecuencias que esperaríamos si la hipótesis nula fuera verdadera. Si los conjuntos de frecuencias observadas y esperadas son casi iguales, podemos razonar de manera intuitiva que la hipótesis nula se acepta. Si existe una diferencia grande entre frecuencias, podemos rechazar la hipótesis nula intuitivamente y concluir que existen diferencias significativas en las proporciones de empleados de las cuatro regiones que prefieren el nuevo método. 4.2 Pruebas no paramétricas La mayoría de las pruebas de hipótesis hacen inferencias respecto a los parámetros de la población, como la media y la proporción. Estas pruebas paramétricas usan la estadística paramétrica de muestras que provinieron de la población que se está probando. Para formular estas pruebas se hacen suposiciones restrictivas sobre las poblaciones de las que se extraen las muestras. Algunas muestras son muy grandes o previenen de poblaciones de distribución normal, pero las poblaciones no siempre son normales. Para estos casos, requerimos alternativas a la estadística paramétrica. Es aquí donde entran las pruebas no paramétricas, las cuales no hacen suposiciones restrictivas respecto a la forma de las distribuciones de la población. Las hipótesis de una prueba no paramétrica se refieren a algo distinto del valor de un parámetro de población. Existe un gran número de pruebas de este tipo, pero en este trabajo solo veremos a fondo las siguientes: prueba de Kolmogorov Smirnov, prueba de Anderson Darling, prueba de Ryab Joiner y prueba de Shappiro Wilk. Ventajas de los métodos no paramétricos Los métodos no paramétricos tienen ciertas ventajas claras sobre los métodos paramétricos: 1. No requieren la suposición de que una población está distribuida en forma de curva norma u otra forma específica. 2. Generalmente, es más sencillo realizarlas y entenderlas. La mayor parte de las pruebas no paramétricas no exigen el tipo de cálculos laboriosos a menudo necesarios. 3. Algunas veces no se requiere un ordenamiento o clasificación formal. Desventajas de los métodos no paramétricos Dos desventajas acompañan al uso de pruebas no paramétricas: 1. Ignoran cierta cantidad de información. 2. No son tan eficientes o “claras” como las pruebas paramétricas. 4.2.2 Métodos estadísticos contra no paramétricos Las técnicas estadísticas de estimación de parámetros, intervalos de confianza y prueba de hipótesis son, en conjunto, denominadas estadística paramétrica y son aplicadas básicamente a variables continuas. Estas técnicas se basan en especificar una forma de distribución de la variable aleatoria y de los estadísticos derivados de datos. En estadística paramétrica se asume que la población de la cual la muestra es extraída es normal o aproximadamente normal. Esta propiedad es necesaria para que la prueba de hipótesis sea válida. Sin embargo, en un gran número de casos no se pueden determinar la distribución original ni la distribución de los estadísticos por lo que en realidad no tenemos parámetros a estimar. Tenemos solo distribuciones que comparar. Esto se llama estadística no paramétrica. La hipótesis de una prueba no paramétrica se refiere a algo distinto del valor de un parámetro de la población. Las principales pruebas no paramétricas son las siguientes: a. Prueba de X2 de Pearson. b. Prueba binomial. c. Prueba de Anderson-Darling d. Prueba de Cochrane e. Prueba de Cohen Kappa f. Prueba de Friedman g. Prueba de Kolmogorov-Smimov h. Prueba de Kruskal-Wallis i. Prueba de Siegel-Tukey j. Prueba de Wald-Wolfowitz k. Prueba de los signos de Wilcoxon l. Prueba de Ryan Joiner m. Prueba de Shapiro Wilk
Copyright © 2024 DOKUMEN.SITE Inc.