PRUEBA Q DE DIXON: DETECCIÓN DE UN VALOR ALEJADO O DATOS SOSPECHOSOSTeoría En un conjunto de mediciones repetidas de una cantidad física o química, uno o más de los valores obtenidos pueden diferir considerablemente de la mayoría del resto. En este caso siempre hay una fuerte motivación para eliminar esos valores desviados y no incluirlos en ningún cálculo posterior (por ejemplo, del valor medio y / o de la desviación estándar). Esto sólo se permite si los valores sospechosos pueden caracterizarse "legítimamente" como valores atípicos. Por lo general, un dato sospechoso se define como una observación que se genera a partir de un modelo diferente o una distribución diferente de la que era el principal "cuerpo" de datos. Aunque esta definición implica que un valor atípico se puede encontrar en cualquier lugar dentro del rango de observaciones, es natural sospechar y examinar como posibles valores atípicos sólo los valores extremos. El rechazo de las observaciones sospechosas debe basarse exclusivamente en un criterio objetivo y no en motivos subjetivos o intuitivos. Esto puede lograrse utilizando pruebas estadísticamente sólidas para "la detección de valores extremos". La prueba Q de Dixon es la prueba más simple de este tipo y suele ser la única descrita en los libros de texto de Química Analítica en los capítulos de tratamiento de datos. Esta prueba nos permite examinar si una (y sólo una) observación de un pequeño conjunto de observaciones repetidas (típicamente 3 a 10) puede ser "legítimamente" rechazada o no. Q-test se basa en la distribución estadística de las muestras de datos ordenados, extraídos de la misma población normal. Por lo tanto, una distribución normal (gaussiana) de los datos se supone cada vez que se aplica esta prueba. En el caso de la detección y el rechazo de un dato sospechoso, Q-test no puede volver a aplicarse en el conjunto de las observaciones restantes. Cómo se aplica el Q-test En ocasiones, un dato no es coherente con los resultados. Se puede usar el test Q como ayuda para decidir si se retiene o descarta un dato sospechoso. Dicho test se lleva a cabo de la siguiente manera: 1) se ordenan los datos en orden creciente para seleccionar el valor discordante, x 1, x2,x3, …, xN (supuesto discordante). 2) Se calcula la divergencia = xN – XN-1 y el recorrido de la serie = xN– x1 3) El valor de la divergencia se divide entre el recorrido de la serie para obtener el Qcalculada el criterio para rechazar el dato es Qcalculada > Qtabulada Consideramos los siguientes 5 resultados 12.53, 12.56, 12.47, 12.67 y 12.48. ¿es el 12.67 un “punto rechazable”?. Para aplicar el test Q. y es por tanto una cuestion personal.20 = 0. .64.El recorrido es la dispersion total de los datos. el punto sospechoso se debe retener. Algunos sostienen que no se debe descartar nunca un dato a menos que se sepa que existe un error en el procedimiento que condujo a esa medida particular.11/0. Existe una probabilidad mayor que el 10% de que el 12.55. La divergencia es la diferencia entre el valor sospechoso y el valor mas proximo. en la tabla se ve que Qttabulada = 0. Otros repetiran la medida sospechosa varias veces mas. para tener mayor confianza de si la medida realmente esta o no fuera de lo esperable. Para los numeros del ejemplo anterior. el punto sospechoso se descarta. Qcalculada = 0. puesto que Q calculada < Qtabulada. (la tabla se basa en un nivel de confianza de 90%.67 sea un miembro de la misma poblacion que los otros 4 numeros . Si Qcalculada > Qtabulada. La decision depende de uno. Si Qcalculada > Qtabulada hay que descartar el punto sospechoso). El problema es saber si la diferencia observada basta para rechazar la hipótesis .TESTS DE FISHER Y DE STUDENT Los tests de Fisher y de Student sirven para comparar las medias y las varianzas de dos muestras gaussianas. Denotamos por: y las medias empíricas. se hace lo mismo en un grupo de individuos después del tratamiento. Para el modelo probabilista se consideran dos muestras independientes: es una muestra de la ley . Retomemos el ejemplo del tratamiento destinado a disminuir los niveles de colesterol en sangre. Se miden los niveles de colesterol en una población de control sin tratamiento. . El nivel promedio de colesterol después del tratamiento es inferior (eso es lo que se espera) al nivel promedio del grupo de control. y las varianzas empíricas. es una muestra de la ley . es decir que el tratamiento no tiene ningún efecto sobre el nivel de colesterol. El estadígrafo del test de Fisher es: Si es verdad. El objetivo del test de Fisher es comprobar esta hipótesis: Según el teorema 3. El cociente ponderado de dos variables aleatorias independientes que siguen leyes de chi-cuadrado sigue una ley de Fisher. untest bilateral cuya regla de rechazo al umbral es: Rechazo de . presupone el hacer la hipótesis que las varianzas teóricas y son iguales.3 El cociente: sigue la ley de Fisher . los cocientes de las varianzas empíricas por las varianzas exactas siguen leyes de chi-cuadrado. Es. Se rechazará si el valor observado para es muy grande o muy pequeño.1. sigue la ley . Teorema 3.El resultado teórico que permite comparar las medias empíricas. por tanto. El estadígrafo del test de Student toma el valor .Bajo la hipótesis de la igualdad de las varianzas. que corresponde a un p-valor (para el test bilateral) de: En consecuencia se aceptará la hipótesis de la igualdad de las varianzas.4 Si . Este resultado permite hacer un test de la hipótesis: comparando el valor que toma el estadígrafo: con los cuantiles de la ley de Student . Este procedimiento lleva el nombre de test de Student. permite evaluar las diferencias entre medias empíricas. En los pacientes con tratamiento se observó un promedio de mg/dl con una desviación estándar de mg/dl. la variable aleatoria: sigue la ley de Student . Supongamos que entre los pacientes del grupo de control se observó un nivel promedio de colesterol de mg/dl con una desviación estándar de mg/dl. El estadígrafo del test de Fisher toma el valor . con un p-valor de: . el teorema que presentamos a continuación. Teorema 3. bajo la cual se emplean los tests de Fisher y Student. El estadígrafo: toma el valor . el Teorema del Límite Central asegura la normalidad asintótica de las medias empíricas. Para muestras de gran tamaño. no siempre es válida.Se rechaza al umbral . Teorema 3.5 Cuando y tienden a infinito. El siguiente resultado no supone ni que las muestras son gaussianas ni que sus varianzas son iguales. Retomemos los datos del ejemplo anterior. La hipótesis de normalidad. la disminución de la tasa de colesterol es considerada como significativa. la ley de la variable aleatoria: converge a la ley normal . cuyo p-valor con respecto a la ley es: . 5)/4= 1 PASO 4 1) Multiplicamos por cuatro la desviación media. Ejemplo: 1-2-3-4-7 Rechazamos el número 7 por estar más alejado de los demás PASO 2 Hacemos la media con los valores nuevos. exige disponer de un grupo de cuatro más de 4 valores.5 (1.5+0.5=1. dm= 1 1x4=4 2) Le restamos al valor rechazado de la serie.5 PASO 3 Hacemos la desviación media de los valores.5 .REGLA DE 4D Concepto Regla 4d es un método para rechazar un valor dudoso. Valor rechazado= 7 Media= 2.5+1.5 4-2. Σ/Xi-xmed/ : n (Siempre en valor absoluto) Ejemplo: 1-2-3-4 1-2.5=1.5 3-2.5=0.5+0. ¿Cómo se hace? PASO 1 Escogemos el número que creemos se podrá rechazar de la secuencia de valores. Σxi/n Ejemplo: 1-2-3-4 (1+2+3+4)/4= 2.5 2-2.5= 4.5=0. la media de los valores.5 7-2. .5 4. En nuestro caso: v. ..xmed = 4.5 es más grande que 4.xmed= 4. dm x4= 4 valor rech. PASO 5 Comparamos la desviación media multiplicada por cuatro y la diferencia entre valor rechazado y media de valores.5>4 RESULTADO Si valor rech.5 dm x4= 4 Como 4. rech. .xmed > dm x4 podremos rechazar el valor pensado inicialmente. podremos rechazar el valor 7 de la secuencia inicial.