FCEyN. Estadística para Química, 2o. cuat.2006 - Prof: Marta García Ben ESTADÍSTICA PARA QUÍMICA Resumen del programa: 1) Estadística descriptiva o análisis exploratorio de datos. 2) Probabilidades. 3) Inferencia Estadística (estimación, intervalos de confianza, test de hipótesis). 4) Algunos modelos para aplicar inferencia estadística: comparación de dos muestras, modelos de regresión, modelos de analisis de la varianza, etc. Estadística descriptiva o Análisis exploratorio de datos: técnicas para presentar y resumir un conjunto de datos para facilitar su comprensión y/o para generar hipótesis. Inferencia estadística: técnicas que permiten, a partir de los datos de una muestra, obtener alguna información sobre la población (de la que se extrajo la muestra). MUESTRA ⇒ POBLACION Teoría de Probabilidades: rama de las matemáticas que nació para explicar los juegos de azar. Luego empezó a tener aplicaciones “más útiles”. Constituye la base matemática de la teoría de inferencia estadística. Antes de comenzar con estadística descriptiva, daremos una clasificación de los datos y algunos comentarios. Tipo de datos 1. Categóricos a) Con dos categorías: sexo, diabetes (sí o no) b) Con más de dos categorías i) las categorías tienen un orden: clase social (registrada como alta, media o baja), nivel de gravedad de una enfermedad (leve, moderada, severa). Suelen llamarse simplemente “datos ordinales”. ii) las categorías no tienen orden: nacionalidad, estado civil, etc. (datos cualitativos o nominales). 2. Numéricos o cuantitativos a) Discretos: número de hijos de una mujer, número de parásitos en 1 cm 3 de sangre. b) Continuos: estatura, edad, contenido de glucosa en una solución. La razón por la que distinguimos entre datos cualitativos y cuantitativos es porque se usan métodos estadísticos diferentes para cada tipo de datos. Variable: se le llama variable a una característica que toma un valor para cada “individuo” de una “población”. Comentario: Cuando una variable toma datos categóricos, numéricos, etc, se dice que la variable es categórica, numérica, etc. Por ejemplo se dice que “la estatura es una variable numérica continua” o que el “sexo es una variable categórica”. 1 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben ESTADISTICA DESCRIPTIVA Tablas Gráficos Medidas de resumen. 1. Tablas y Gráficos para describir los datos de una variable Tabla de distribución de frecuencias para describir los datos de una variable numérica. Ejemplo: En una planta industrial se elabora un producto químico. Se registró el rendimiento obtenido en 210 lotes producidos consecutivamente (el ejemplo está en Box, Hunter y Hunter, Estadística para Experimentadores). Queremos visualizar los datos registrados. Los datos (en %) para los primeros lotes son: 85,5 81,7 80,6 84,7 88,2 etc. (los datos están en el archivo EXCEL ProduccionIndustrial.xls) ¿De qué forma se pueden presentar para poder “ver algo”? Una posibilidad es hacer una tabla de “distribución de frecuencias”. Antes de hacerla necesito conocer el mínimo y el máximo de los valores observados: STATISTIX 7.1 DESCRIPTIVE STATISTICS VARIABLE N MEAN SD MINIMUM MAXIMUM RENDIMIEN 210 84.121 2.8809 76.500 91.700 Para hacer una tabla de frecuencia hay que elegir los “intervalos”. Si por ejemplo elijo los intervalos de 2 unidades de longitud, puedo obtener la siguiente salida con el programa Statistix: FREQUENCY DISTRIBUTION OF RENDIMIEN CUMULATIVE LOW HIGH FREQ PERCENT FREQ PERCENT 76 78 3 1.4 3 1.4 78 80 12 5.7 15 7.1 80 82 33 15.7 48 22.9 82 84 53 25.2 101 48.1 84 86 54 25.7 155 73.8 86 88 34 16.2 189 90.0 88 90 15 7.1 204 97.1 90 92 6 2.9 210 100.0 TOTAL 210 100.0 Nota: Este programa no incluye al valor superior de cada intervalo, por ejemplo cuando dice de 76 a 78, no incluye al valor 78 (en otros programas la regla puede ser diferente) o sea que otra forma más clara de presentar la tabla es: 2 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben Distribución de frecuencias de los rendimientos obtenidos en 210 lotes producidos consecutivamente. Rendimiento (en porcentajes) Nro de lotes (%) 76 a 77,9 3 (1,4%) 78 a 79,9 12 (5,7%) 80 a 81,9 33 (15,7%) 82 a 83,9 53 (25,2%) 84 a 85,9 54 (25,7%) 86 a 87,9 34 (16,2%) 88 a 89,9 15 (7,1%) 90 a 91,9 6 (2.9%) Total 210 (100%) Si quiero más información sobre la distribución de la variable “rendimiento” puedo usar más intervalos, o lo que es lo mismo tomarlos de menor longitud. Por ejemplo si elijo intervalos de 1 unidad obtengo: FREQUENCY DISTRIBUTION OF RENDIMIEN CUMULATIVE LOW HIGH FREQ PERCENT FREQ PERCENT 76 77 1 0.5 1 0.5 77 78 2 1.0 3 1.4 78 79 2 1.0 5 2.4 79 80 10 4.8 15 7.1 80 81 16 7.6 31 14.8 81 82 17 8.1 48 22.9 82 83 23 11.0 71 33.8 83 84 30 14.3 101 48.1 84 85 29 13.8 130 61.9 85 86 25 11.9 155 73.8 86 87 23 11.0 178 84.8 87 88 11 5.2 189 90.0 88 89 9 4.3 198 94.3 89 90 6 2.9 204 97.1 90 91 5 2.4 209 99.5 91 92 1 0.5 210 100.0 TOTAL 210 100.0 • Cuántos intervalos se toman? Una regla práctica es entre 5 y 20. Pero no es obligatoria: depende de la información que queremos. También depende del número de datos, ¿por qué? • Para facilitar la lectura los extremos de los intervalos conviene que sean números “fáciles” (no de 74,3 a 74,8 años por ejemplo). • Los intervalos pueden ser de diferente longitud, aunque se prefiere, otra vez para facilitar la lectura, que sean de igual longitud. Salvo casos especiales en que interese distinguir más la distribución ciertos valores que para otros. ¿Ejemplos? 3 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben Dos gráficos para mostrar la distribución de una variable numérica: a) Histogramas b) Gráficos de frecuencias acumuladas a) Histograma: es una representación gráfica de una tabla de distribución de frecuencias. Ejemplo: el histograma que representa la distribución de los rendimientos obtenidos en 210 lotes consecutivos (tomando intervalos de 1 unidad) es el siguiente: • El SX pone en el eje vertical del histograma el número de casos. En vez de esto se puede indicar en este eje el porcentaje de casos. Cambia la forma del histograma? • En el histograma (por definición de histograma) el área de cada rectángulo representa el número (o el %) de datos en cada intervalo. Por ello si los intervalos son de diferente longitud, no es la altura sino el área la que tiene que representar el nro (o %) de casos. Si se hace que la altura represente el número de casos, el gráfico daría una impresión engañosa. ¿Qué se ve en el histograma? Mínimo – Máximo Intervalo o intervalos más frecuentes. Simetría o asimetría. Tiene el rendimiento una distribución (aproximadamente) simétrica? Pensar ejemplos de variables que tienen distribución simétrica y asimétrica. 4 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben b) Gráfico de frecuencias acumuladas Esta función representa las frecuencias relativas acumuladas. Se usa mucho menos que el histograma. Este gráfico también está relacionado con la tabla presentada antes (verlo). Observar que la ordenada de este grafico sobre la abscisa 80 es 7%. ¿Que significa este valor? Significa que el 7% de los lotes tienen rendimientos menores de 80 unidades. Diagrama "intermedio" entre los datos ordenados y el histograma: diagrama de tallo y hoja (Tukey, 1977). Para el ejemplo del rendimiento de 210 lotes, el diagrama de tallo y hoja puede ser: STEM AND LEAF PLOT OF RENDIMIEN LEAF DIGIT UNIT = 0.1 MINIMUM 76.500 76 5 REPRESENTS 76.5 MEDIAN 84.150 MAXIMUM 91.700 STEM LEAVES 1 76 5 3 77 59 5 78 14 15 79 0355566778 31 80 0012233455667799 48 81 00144566678888999 71 82 00012222333344566778899 101 83 000000111233333455555556667789 (29) 84 00112223344445566777778888899 80 85 0000011222344445666778899 55 86 01222234555666667777788 32 87 12222233478 21 88 002246899 12 89 034779 6 90 04558 1 91 7 210 CASES INCLUDED 0 MISSING CASES 5 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben "Girando el diagrama" esta representación tiene la misma forma que el histograma, pero además están anotados todos los datos originales. Se observa que los datos, ordenados de menor a mayor son: 76,5 77,5 77,9 78,1 78,4 79,0 79,3 79,5 79,5 79,5 79,6 etc. Como se construye este diagrama? Se seleccionan los primeros (uno, dos o más) dígitos y esos dígitos se llaman "tallos". Los dígitos de la derecha se llaman "hojas". En cada fila del diagrama se pone un tallo y a su lado todas las "hojas". Para decidir si tomar como tallos uno, dos o más dígitos, se puede tener en cuenta que, al igual que para la tabla de distribución de frecuencias y para el histograma, en general se recomienda tomar entre 5 y 20 "tallos". Este diagrama es un competidor del histograma. Para muestras grandes es un poco confuso, el histograma es más simple. Los números que están a izquierda del gráfico se llaman "profundidad" y van contando el número de datos desde el principio y desde el final y se anota el menor de esos dos números. En la linea del "centro" se anota la cantidad de datos de esa linea entre parentesis. Esto es útil para calcular a mano la mediana y los cuartiles (que definiremos luego). Tablas y Gráficos para describir los datos de una variable categórica La tabla de distribución de frecuencias puede usarse no solo para variables numéricas, sino para cualquier tipo de variables. Si la variable es categórica es aún más fácil que para variables numéricas: no hay que preocuparse de elegir primero los intervalos. Para variables categóricas, el gráfico similar al histograma se lo suele llamar también gráfico de barras. Por el contrario el gráfico de la distribución acumulada tendría sentido para variables ordinales, pero no para cualitativas. El diagrama de tallo y hoja no tiene significado para variables no numéricas, ¿que quiere decir si los datos no son numéricos "los primeros dígitos"? 2. Medidas de resumen a) Medidas de posición o de tendencia central. b) Cuartiles y percentiles. c) Medidas de dispersión. a) Medidas de posición o de tendencia central: Media, mediana, medias podadas. Media (sólo para variables numéricas): Si llamamos x 1 , x 2 , … , x n a los datos de una variable, la media es: n x x n i i ∑ = = 1 Mediana (para datos numéricos u ordinales): Es un número tal que está “en el medio de los datos” en el sentido de que hay tantos datos “menores que ese número” como datos “mayores que ese número”. 6 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben Ejemplo 1: valores de proteína C reactiva (PCR) en mg/l para 5 pacientes cardíacos 31,4 17,2 28,9 47,1 5,2 Cálculo de la mediana: 1er paso: ordeno los datos de menor a mayor: 5,2 17,2 28,9 31,4 47,1 2do paso: tomo “el del centro” en este caso el 3º. Por lo tanto: mediana = 28,9 mg/l Ejemplo 2: valores de PCR (mg/l) para 6 pacientes cardíacos 31,4 17,2 28,9 47,1 5,2 23,0 Cálculo de la mediana: 1er paso: ordeno los datos de menor a mayor: 5,2 17,2 23,0 28,9 31,4 47,1 2do paso: aquí no hay uno “en el centro”: el centro está entre el 3º y el 4º. En este caso se toma como mediana el promedio de los dos valores centrales: Mediana= 95 , 25 2 28,9 23,0 = + mg/l. Comparación de Media y Mediana Se parecen para distribuciones simétricas? Se puede observar que el histograma de rendimiento de 210 lotes es simétrico. DESCRIPTIVE STATISTICS VARIABLE N MEAN MINIMUM MEDIAN MAXIMUM RENDIMIEN 210 84.121 76.500 84.150 91.700 La media y la mediana son muy parecidas para estos datos la media es 84,12 y la mediana es 84,15. Se parecen para distribuciones asimétricas? Un ejemplo de variable que en casi todas las poblaciones de pacientes internados con cierta patología tiene distribución asimétrica es la duración de la internación. El siguiente histograma muestra la distribución de la duración de la internación post cirugía para 1500 pacientes sometidos a una operación cardíaca (cirugía de revascularización del miocardio=CRM). 7 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben Para distribuciones con asimetría positiva la media es mayor que la mediana. La mediana de la duración de la internación para estos pacientes es 7 días, la media es 8,7 días. ¿Cuál de estas dos medidas (media o mediana) es más resistente a valores atípicos? Veámoslo en un ejemplo: En el ejemplo 2 la mediana es 25,95, la media se calcula: 31,4 +17,2 + 28,9 + 47,1 + 5,2 + 23,0 x = ________________________________________ = 25,467 ≅ 25,5 6 Ejemplo 3: A los 6 pacientes del ej. 2, se le agrega un nuevo pacientes que tiene un valor de PCR de 150,0 Cálculo de la mediana: 1er paso: ordeno los datos de < a >: 5,2 17,2 23,0 28,9 31,4 47,1 150,0 2do paso: cuál es el del medio en este ejemplo en que hay un número impar de datos, la mediana es el valor que ocupa el lugar (n+1)/2 = (7+1)/2 = 4. Luego Mediana = 28,9 g/l La media en este ejemplo es 43,257≅ 43,3 Se puede apreciar que un único dato muy alejado de los demás tuvo poca influencia sobre la mediana pero mucha sobre la media. La media es muy sensible a valores atípicos, la mediana no. 8 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben Una medida de posición intermedia entre mediana y media: medias podadas. Vimos que la media es muy sensible a valores atípicos y la mediana no. Esta es una ventaja de la mediana. Sin embargo la mediana tiene intuitivamente el problema de que es el "valor central" sin tener en cuenta en su calculo los otros valores. A veces se desea algo intermedio. La media con poda α% se basa en la siguiente idea: se ordenan los datos de menor a mayor, se "desprecian" el α% de los valores más pequeños y el α% de los valores más grandes y se promedian los valores centrales "que quedan". Por ejemplo la media con poda 10% es el promedio del 80% de valores centrales. Esta es la idea, después solo queda aclarar que se hace cuando el α% del número de datos no es un número entero. Por ejemplo para calcular la media con poda 10% para las PCR's de 29 pacientes, que se hace? Nota: Statistix no calcula la media podada. Splus 6.1 trunca el numero de casos que desprecia. b) Cuartiles y percentiles. ¿Qué es la mediana? El número que deja aproximadamente la mitad de los datos “a izquierda” (si los representamos en la recta) y la mitad “a derecha”. ¿Qué es el primer cuartil? La idea es: el número que deja aproximadamente la cuarta parte de los datos “a izquierda” (o sea la cuarta parte de los datos son menores que ese número) y las ¾ partes “a derecha”. Se lo denota Q 1 . Como se lo calcula? ¿Qué es el tercer cuartil o Q 3 ? ¿Qué es el segundo cuartil? ¿Qué es el percentil 10? El número que deja aproximadamente el 10% de los datos “a izquierda”. O lo que es lo mismo el 10% de los datos son menores que el Percentil 10. Se lo denota P 10 . ¿Qué es P 90 ? ¿El P 25 tiene otro nombre? ¿Y el P 50 ? c) Medidas de dispersión i) Rango ii) Desviación Standard iii) Rango intercuartil. i) Rango: es la diferencia entre el máximo y el mínimo. En el ej. 2 (TnT para 6 pacientes) es 0,07 - 0,01 = 0,06 (es más común presentar el mínimo y el máximo, sin hacer la resta, rango: 0,01 a 0,07). ii) Varianza y Desviación Standard. Se llama varianza a Varianza = s 2 = ( ) _ x x n i − − ∑ 2 1 y Desviación Standard (se abrevia DS) a su raíz cuadrada. D.S. = s = √s 2 En el ejemplo 2 la DS es 14,14, en el ejemplo 3 (agregando un valor muy grande) sube a 48,8. 9 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben iii) Rango intercuartil. Es la diferencia entre el cuartil 3 y el cuartil 1, o sea Q3 - Q1. Igual que con el rango, en general se muestran los cuartiles y no la resta. Cuando se calculan los cuartiles, también se suele calcular la mediana y presentar "los tres cuartiles": la mediana y los cuartiles inferior y superior. Comparación de las medidas de dispersión: definimos tres medidas de dispersión. ¿Cuál es la más resistente a valores atípicos? ¿Cuál la menos resistente? ¿Cuales medidas de posición y de dispersión son las más usadas? Para variables cuya distribución se parece a la curva normal de Gauss conviene usar media y DS como medidas de resumen. Pero tampoco es incorrecto usar mediana y cuartiles. Para variables con distribución asimétrica o con valores atípicos, es más frecuente usar mediana y cuartiles. Esto es particularmente cierto en el caso de la presencia de valores atípicos que hacen muy inestables la media y la DS. El archivo PCRCPKTn contiene valores de PCR para 29 pacientes cardíacos. Observemos el histograma: Supongamos ahora que queremos comparar los valores de PCR para pacientes varones y mujeres. Calculamos las medidas de resumen para cada sexo: DESCRIPTIVE STATISTICS FOR SEXO = F PCR N 11 MEAN 50.129 SD 45.674 10 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben MINIMUM 1.5000 1ST QUARTI 3.9000 MEDIAN 47.120 3RD QUARTI 87.860 MAXIMUM 149.57 DESCRIPTIVE STATISTICS FOR SEXO = M PCR N 18 MEAN 31.659 SD 32.892 MINIMUM 5.2000 1ST QUARTI 9.8325 MEDIAN 17.465 3RD QUARTI 45.375 MAXIMUM 134.00 Teniendo en cuenta que la variable tiene, para estos pacientes, distribución asimétrica y con datos atípicos, elegimos como medidas de resumen la mediana y cuartiles. Informamos que De los 29 pacientes estudiados, 18 eran hombres. La mediana (P25; P75) de PCR fue 17,5 (9,8; 45,4) para los hombres y 47,1 (3,9; 87,9) para las mujeres. Otra medida de dispersión: mediana de las desviaciones absolutas. Otra medida de dispersión que se ha propuesto, que es una medida muy poco sensible a datos atípicos es la mediana de las desviaciones absolutas (abreviada MAD) MAD = mediana |x i - x ~ | donde indicamos con x ~ a la mediana de los valores x 1 , x 1 , ..., x n . Esta medida es menos usada que la DS y el rango intercuartil. Otro gráfico para representar la distribución de una variable: Gráfico de caja (Box plot) Es otro gráfico propuesto por uno de los estadísticos más prestigioso del siglo XX: John Tukey en su libro Exploratory Data Análisis, 1977 (como curiosidad, Tukey hizo primero el doctorado en química, antes de dedicarse a la estadística). Es una representación gráfica de cinco números: mínimo, primer cuartil, mediana, tercer cuartil y máximo. Además se representan como puntos separados los datos atípicos (outliers). Los diagramas de caja para los datos de rendimiento de 210 lotes y para los datos de las PCR para 29 pacientes son los siguientes. 11 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben Se ve que el primero no muestra valores atípicos y el segundo sí. Estos box plots se usan poco. El histograma da más información que este gráfico sobre la distribución de una variable numérica. Pero el Box plot es muy útil cuando se desea comparar la distribución de una variable numérica en dos o más poblaciones. No es fácil comparar visualmente dos histogramas, más difícil aún es comparar 3 o más. Por ejemplo si deseamos comparar los valores de PCR para pacientes varones y mujeres podemos graficar: 12 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben Más adelante en el curso veremos "tests estadísticos" que permiten decir si hay suficiente información como para afirmar (con baja probabilidad de error) que hay diferencias entre los valores de PCR para ambos sexos en las poblaciones de pacientes con las mismas características que los observados. Datos transformados: Hemos insistido en que si los datos tienen valores atípicos no conviene usar la media y la DS como medidas de resumen, sino otras medidas. Otra solución que a veces da resultados es aplicarle a los datos alguna transformación (la más usada es el logaritmo). Cuando una variable tiene distribución con asimetría positiva, el logaritmo de esa variable tiene una distribución más simétrica y los valores atípicos "del lado derecho" se acercan a los otros datos. A veces la transformación no dá el resultado deseado (los datos transformados siguen siendo asimétricos o con datos atipicos) , pero otras veces se consigue que la variable transformada tenga distribución simétrica y sin datos atípicos. En estos casos, simplemente se utiliza en los análisis estadísticos (calculo de medidas de resumen, tests de hipotesis, regresiones, etc) la variable transformada. Se ven ejemplos de aplicación de transformación logarítmica en la práctica (por ejemplo concentraciones de IgM en sangre de 298 niños). Utilización de las medidas de posición y de dispersión para evaluar una metodología de medición. Precisión y exactitud. Para evaluar la calidad de un método de medición, se necesita realizar varias mediciones. Si realizamos varias mediciones del mismo material con la misma metodología, esperamos que las mediciones sean parecidas, pero generalmente no van a ser exactamente iguales. Cuando la dispersión de los distintos valores obtenidos es pequeña diremos que el método tiene una precisión alta. La dispersión se mide con las medidas de dispersión que hemos estudiado, la usada con mayor frecuencia es la desviación standard. 13 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben Sin embargo puede ocurrir que un método de medición tenga alta precision (poca dispersión) y que sin embargo las medidas no estén cerca del verdadero valor. Supongamos por ejemplo que se sabe que una aleación "standard" tiene 4.44% de Niquel. Se envían muestras a cuatro laboratorios y en cada laboratorio se hacen ocho determinaciones obteniéndose: Laboratorio A 4.61 4.61 4.72 4.60 4.60 4.64 4.54 4.49 Laboratorio B 4.45 4.30 4.18 4.49 4.36 4.66 4.51 4.50 En el primer laboratorio los datos observados son todos más altos que el valor verdadero. Por el contrario los del laboratorio B oscilan alrededor del valor verdadero. El problema del laboratorio A no es la precisión: los datos tienen menor dispersión que los de B. En efecto si calculamos la media y la desviación standard para cada laboratorio obtenemos: Laboratorio A media=4.601 DS=0.067 Laboratorio B media=4.431 DS=0.148 Observamos que los valores del laboratorio A tienen menor desviación standard que los de B, pero el promedio está lejos del verdadero valor. Se dice que tienen buena precisión pero son inexactos. Las determinaciones de B son mas dispersas que las de A, pero la media esta cerca del verdadero valor (menor precisión pero mayor exactitud). Agreguemos a nuestro hipotético experimento otros dos laboratorios: Laboratorio C 4.42 3.83 4.34 4.28 4.03 4.28 4.29 4.54 Laboratorio D 4.43 4.49 4.42 4.40 4.41 4.47 4.44 4.42 Laboratorio C media=4.251 DS=0.224 Laboratorio D media=4.435 DS=0.031 Cuál de los cuatro laboratorios está trabajando mejor? Evidentemente el laboratorio D tiene los resultados más exactos y más precisos.. El laboratorio C por el contrario es el que está trabajando peor: es el que tiene la menor exactitud y la menor precisión de los cuatro. Es importante destacar que para estudiar la exactitud de un método de medición, se necesita hacer mediciones de muestras para las que se conocer el “ valor verdadero”. Pero este valor nunca se conoce exactamente. Lo que a veces se puede hacer es preparar las muestras a medir de modo tal que se conozca aproximadamente el “ valor verdadero”. Por ejemplo se pueden preparar las muestras mezclando proporciones conocidas (medidas lo mejor posible) de distintos materiales de alta pureza. Las mediciones se hacen entonces sobre estas muestras “ artificiales”. Los errores sistemáticos en el proceso de medición afectan la exactitud. Los errores aleatorios provocan variabilidad de las mediciones y por lo tanto afectan la dispersión de los datos (la precisión). Nota: antes de calcular las medias y las DS para cada laboratorio, convendría hacer algún gráfico (puede ser de puntos) para detectar si hay valores atípicos que puedan tener mucha influencia sobre estas dos medidas. En ese caso conviene calcular otras medidas de posición y dispersión o aplicar alguna transformación a los datos. 14 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben Gráfico de dispersión (scatter plot). Para estudiar la relación entre dos variables numéricas se usa el “gráfico de dispersión” que es simplemente representar el valor de una de las dos variables en el eje de las abscisas y el de la otra en el eje de las ordenadas. Ejemplo: cuando el plutonio está presente en pequeñas cantidades mezclado con otros materiales es difícil detectarlo. Una forma de detectarlo es medir las partículas alfa que emite. En una investigación para estudiar la relación entre la cantidad de plutonio y la emisión de partículas alfa, se midieron varias veces cuatro materiales standards para los que se sabe que la actividad de plutonio (0, 5, 10 y 20 picocuries por gramo (pCi/g). Los resultados de estas mediciones están en el archivo plutonio.xls y en el siguiente gráfico se puede apreciar la relación entre las dos variables Este ejemplo es un problema de "calibración": queremos a partir del valor medido de partículas alfa, conocer aproximadamente la actividad del plutonio. Para ello se emplea un modelo de “regresión” (que veremos más adelante). APENDICE En este apéndice se muestran algunos gráficos estadísticos copiados de dos artículos reciente- mente publicados en la revista Analytical Chemistry. 1. Online monitoring and identification of bioaresols, Analytical Chemistry, marzo 2006. ¿Que tipo de gráficos son los dos siguientes? ¿Que quieren mostrar los autores del trabajo? (omito el gráfico A porque es similar al B). 15 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben Figure 3. Intensity histograms of fluorescence images of biotic and abiotic particles for two different emission filters, centered at 460 nm (A) and one at 535 nm (B). Biotic and abiotic particles can hardly be distinguished based on the intensity histograms only. (C) Decision value histogram for biotic and abiotic particles after feature extraction. The particles can be separated more easily, based on the decision values. 2. Microfluidic Device for Electric Field-Driven Single-Cell Capture and Activation Anal. Chem.2005, 77,6935-6941 ¿Qué se representa en los dos gráficos siguientes? 16 FCEyN. Estadística para Química, 2o. cuat. 2006 - Prof: Marta García Ben Figure 7. Summary of assay showing the selective activation of M1WT3 cells expressing the muscarinic receptor. Single CHO cells containing calcium-sensitive fluo-4 AM dye are activated with 100 ÌM carbachol in 1_PBS, 10 min after electric field-enhanced capture. (A) Box plot of the percentage increase in fluorescence for the wildtype K1 cells shows no significant increase in intracellular calcium fluorescence as a result of carbachol incubation (0.3 ± 27%). Single M1WT3 cells show a significant increase of 110 ±74% ( n=79) after carbachol activation ( t= 12.5, P< 0.005). The central bar represents the median, the small square the mean, and the box spans the second and third quartiles. The Xs represent the extreme percentiles, and the bounding lines are the minimum and maximum values. (B) With a CHO cell activation threshold taken as three standard deviations above the K1 basal response, 5 ± 3% of the K1 cells show activation while 87 ± 4% of the M1WT3 cells show activity. 17 Estadística para Química - 2do. cuat. 2006 - Marta García Ben TEORIA DE LA PROBABILIDAD 2.1. Un poco de historia de la teoría de la probabilidad. Parece evidente que la idea de probabilidad debe ser tan antigua como el hombre. La idea “es muy probable que llueva mañana” la debía pensar y trasmitir el hombre prehistórico. Pero es recién en 1654 que comienza a desarrollarse el cálculo de probabilidades, cuando Fermat (1601-1665) y Pascal (1623-1662) en 1654, en correspondencia no publicada, comienzan a aplicar métodos matemáticos para resolver problemas de juegos de azar con cartas y dados. Otros nombres destacados en el desarrollo del cálculo de probabilidades son Jakob Bernoulli (1654-1705) (“Ars Conjectandi”, publicado póstumo en 1713, que contiene la hoy llamada “ley de los grandes números de Bernoulli”) y Abraham de Moivre (1667-1754) (“Doctrina de las Chances, 1718). En el siglo siguiente se destaca Laplace (1749-1827) y su obra “Teoría analítica de la probabilidad” (1812). Después de un lento progreso, se acelera el desarrollo de la teoría de probabilidades a mediados del siglo XIX. Tchebycheff (1821-1894) es el primero de la escuela rusa que contribuyó mucho al desarrollo de la teoría de probabilidades, con matemáticos como Markov (1856-1922) y Kolmogorov (1903-1987)). Problemas de genética que se plantearon a fines del siglo XIX (Galton) y el rápido desarrollo al comienzo del siglo XX en Física de las teorías de movimiento browniano y mecánica estadística le dieron a la teoría de probabilidades fuentes de nuevos problemas. La definición que se usa actualmente de Probabilidad fue dada recién en 1933, por Kolmogorov. Es una definición axiomática, similar a la definición de medida de la teoría de la medida (teoría desarrollada en 1898 por Borel (1871-1956) y que sirve de base a la teoría de integración de Lebesgue (1910)(1875-1941). Además de sus aplicaciones a la genética, física, tecnología, etc., la teoría de probabilidades sirve de base a la teoría de inferencia estadística, ya que en inferencia estadística se mide la probabilidad de equivocarse al hacer una inferencia inductiva. 18 Estadística para Química - 2do. cuat. 2006 - Marta García Ben 2.2. Introducción intuitiva: Experimentos aleatorios. Espacio muestral. Sucesos. Idea intuitiva de la probabilidad como límite de frecuencias relativas. 2.2.1. A qué tipo de problemas se aplica la teoría de la probabilidad? Ejemplo 1) Un técnico del servicio meteorológico, basándose en los datos sobre las condiciones atmosféricas que recibió hasta las 20 horas de hoy dice “la probablidad de que llueva mañana es alta”. Ej. 2) Un jugador de ruleta juega a que sale “1a docena”, ¿cuál es la probabilidad de que gane? Ej. 3) En la planta industrial del ejemplo de la clase 1 se va a fabricar un nuevo lote del producto químico, ¿cuál es la probabilidad de que el rendimiento sea ≥ 80%? Ej. 4) Elijo un hombre adulto al azar en la ciudad de Buenos Aires, ¿cuál es la probabilidad de que mida más de 1,75 metros? Decimos que en estos cuatro problemas se realiza un experimento aleatorio (aleatorio = al azar). Qué entendemos por experimento aleatorio? Que tienen en común estos cuatro experimentos? 1) Se conocen todos los resultados posibles del experimento. 2) Si realizo una sola vez el experimento no puedo predecir cuál resultado saldrá. 3) Luego lo veremos 2.2.2. Espacio de resultados o espacio muestral Llamaremos espacio muestral (S) a un conjunto que contiene a todos los resultados posibles. En el ejemplo 1) S={L, N}, En el ejemplo 2) S = {0,1,2,...,36} En el ejemplo 4) puede tomarse S= conjunto de los números reales >=0 Observese en este ejemplo que S puede contener elementos que no son resultados del experimento. Lo importante es que contenga a todos los resultados posibles. 19 Estadística para Química - 2do. cuat. 2006 - Marta García Ben 2.2.3. Sucesos o eventos: A veces no interesa exactamente cuál resultado ocurrió, sino si salió o no cierto subconjunto de resultados. En el ejemplo 2 interesa si salió o no el subconjunto A={1,2,...,12} ⊆ S En la teoría de probabilidad se llama “suceso” o “evento” a cualquier subconjunto de S. En la teoría más avanzada los “eventos” a los que se les puede asignar una probabilidad pueden no ser "todos los subconjuntos de S" sino sólo algunos de ellos, pero no nos ocuparemos de esta dificultad. A los subconjuntos de un solo elemento se los suele llamar “sucesos elementales”. Habíamos dicho que intuitivamente los experimentos aleatorios tenía dos propiedades 1) y 2). Veremos ahora una tercera: 3) Sea A un suceso. Si repito n veces el experimento en las mismas condiciones y cuento n A = nro de veces que ocurre un resultado de A y luego calculo n A / n = proporción de veces que ocurre A la experiencia muestra que cuando n es grande esta proporción se parece a un número. A ese número lo llamamos probabilidad de A = P(A) Esta es entonces la idea intuitiva de probabilidad: lim n n P A n A → ∞ = ( ) (1) Hubo a principios del siglo XX un intento de usar (1) como definición de probabilidad (von Mises) pero la teoría matemática era muy complicada. Es más simple desarrollar la teoría a partir de la definición axiomática de Kolmogorov. 2.3. Definición axiomática de Probabilidad. Deducción de otras propiedades de las probabilidades a partir de los axiomas. La definición axiomática de Probabilidad (Kolmogorov, 1933) es similar a la definición de medida de la teoría de la medida y de la integración de Lebesgue (principio siglo XX). 20 Estadística para Química - 2do. cuat. 2006 - Marta García Ben Definición axiomática de Probabilidad Sea S un conjunto no vacío al que llamaremos espacio muestral. Una probabilidad es una función que a cada evento (subconjunto de S) le asigna un número real y que satisface las siguientes tres propiedades: Axioma 1: P(A) ≥ 0 para todo evento A Axioma 2: P(S) = 1 Axioma 3: a) (aditividad) Si A 1 , A 2 ,..., A n son eventos disjuntos (o sea A i ∩A j = 0, para i ≠ j) entonces ∑ = = = n i i n i i A P A P 1 1 ) ( ) ( U b( (σ-aditividad) Si A 1 , A 2 ,..., A n, ... es una sucesión de eventos disjuntos (o sea A i ∩A j = 0, para i j) entonces ≠ ∑ ∞ = ∞ = = 1 1 ) ( ) ( i i i i A P A P U Comentarios: - Obviamente estos axiomas fueron pensados teniendo en cuenta la interpretación intuitiva de probabilidad, pero luego nos podemos olvidar de la idea intuitiva y, a partir de estos tres axiomas, se puede construir toda la teoría de la probabilidad. - P es una función que toma valores reales, cuál es el dominio de esta función? - Veamos ahora algunas propiedades de la probabilidad (algunas tan intuitivas como los axiomas) que pueden demostrarse fácilmente a partir de los tres axiomas. 21 Estadística para Química - 2do. cuat. 2006 - Marta García Ben Algunas propiedades de las probabilidades _ a) P(A) = 1 - P(A) b) P(φ) = 0 c) P(B-A) = P(B) - P(A∩B) c*) Si A ⊆ B entonces P(B-A) = P(B) - P(A) d) Si A ⊆ B entonces P(A) ≤ P(B) e) P(A) <= 1 para todo suceso A f) P(A∪B) = P(A) + P(B) - P(A∩B) g) P(A∪B∪C) = P(A)+P(B)+P(C)-P(A∩B)-P(A∩C)- P(B∩C)+P(A∩B∩C) Todas las propiedades anteriores (y toda la teoria de probabilidad) puede demostrarse a partir de los tres axiomas. Demostrar las propiedades a) hasta g) 2.4. Caso particular de espacio muestral es finito o infinito numerable. Caso particular de espacio muestral finito, con resultados equiprobables. 2.4.1.Caso particular en que el espacio muestral es finito o infinito numerable En este caso particular basta dar las probabilidades de los sucesos elementales. Con ellas se puede calcular la probabilidad de cualquier subconjunto de S. Esto no es cierto para conjuntos S no numerables. Denotemos con s i a los elementos de S, o sea: S = {s 1 , s 2 , ...., s n , ...} Supongamos que conocemos las P({s i }) para todo s i ∈ S (o sea conocemos la probabilidad de todos los sucesos elementales). Entonces es fácil demostrar que puede calcularse P(A) para cualquier subconjunto de S. (Demostrarlo). 22 Estadística para Química - 2do. cuat. 2006 - Marta García Ben 2.4.2. Caso particular en que el espacio muestral es finito y todos los resultados son igualmente probables. En este caso particular, es fácil demostrar que: # A P(A) = _______ (2) # S para todo subconjunto A ⊆ S (demostrarlo). El resultado (2) suele enunciarse tambien como Nro. de resultados favorables P(A) = ___________________________________ Nro. de resultados posibles lo que muestra que fue usada primero para los juegos de azar, verdad?. Ejemplos: La expresión (2) puede usarse para calcular las probabilidades en los siguientes ejemplos: - Si se juega a “1a docena” en la ruleta, ¿cuál es la probabilidad de ganar? - Un bolillero tiene 3 bolitas blancas y 7 rojas. Si extraigo una bolita al azar, ¿cuál es la probabilidad de que sea blanca? ¿Puede usarse en los siguientes? - Tiro una moneda que no sé si es equilibrada o no, ¿cuál es la probabilidad de que salga cara? - ¿Cuál es la probabilidad de que llueva mañana? - ¿Cuál es la probabilidad de un hombre adulto elegido al azar mida más de 1,75 metros? - ¿Cuál es la probabilidad de que el rendimiento del próximo lote (en la planta industrial) sea ≥ 80%? - Bolillero con 3 blancas y 7 rojas. Extraigo 2 bolitas al azar, ¿cuál es la probabilidad de que ambas sean blancas? Considere que las extracciones se hacen: a) las dos bolitas juntas; b) 1 a 1 sin reposición; c) 1 a 1 con reposición 23 Estadística para Química - 2do. cuat. 2006 - Marta García Ben 2.5. Probabilidad condicional. Independencia. Regla de la multiplicación. 2.5.1. Probabilidad condicional -Idea intuitiva: es la probabilidad de que salga un suceso, sabiendo que ocurrió otro. -Ejemplo 1 Supongamos que un pueblo tiene 1000 habitantes de 18 años o más. Supongamos también que se administra una encuesta a todos los habitantes. En la práctica las encuestas no se administran a toda la población (no se hace un censo) sino a una muestra, pero por ahora vamos a pensar que sí. Consideremos dos de las preguntas de la encuesta: nivel de instrucción y si apoya cierto proyecto del gobierno. Clasificando al nivel de instrucción en tres categorías (alto, medio y bajo) las respuestas obtenidas se muestran en la siguiente tabla: Nivel de instrucción Apoya el Proyecto No lo apoya Total Alto 80 120 200 Medio 150 350 500 Bajo 30 270 300 Total 260 740 1000 Si se elige un habitante al azar de este pueblo. Cuál es la probabilidad de que: a) apoye el proyecto? b) tenga nivel de instrucción “Alto”? c) apoye el proyecto si se sabe que tiene nivel de instrucción alto? Observemos que la respuesta al inciso c) puede escribirse como un cociente de dos probabilidades, ya que si llamamos A = apoya el proyecto B = tiene nivel de instrucción alto Prob. de que apoye el proyecto si tiene nivel de inst. alto= = “prob. condicional de A dado B” = (notación) = P(A|B) = 80 80/1000 P(A∩B) = ____ = ___________ = ___________ 200 200/1000 P(B) 24 Estadística para Química - 2do. cuat. 2006 - Marta García Ben Entonces es intuitivamente razonable la siguiente definición de probabilidad condicional. Definición de probabilidad condicional Sea S un espacio muestral, A y B dos sucesos con P(B) >0. Se define P(A|B) = P(A∩B) / P(B) (P(A|B) se lee probabilidad condicional de A dado B). - Ejemplo 2: Se tira un dado equilibrado. Sea A=”sale impar” , B=” sale un nro. <= 3”. Como modelo probabilistico para este experimento, consideremos el espacio muestral S={1,2,3,4,5,6} con resultados equiprobables, y los sucesos A={1,3,5}, B={1,2,3} Cuánto vale: i) P(A) ? ii) P(A|B) ? 2.5.2. Independencia entre dos sucesos. Continuemos con el ejemplo 2, en el que se tira un dado equilibrado y se considera A= “sale impar”, B=”sale <=3” P(A) = 3/6 = 1/2 P(A|B)= P(A∩B)/P(B) = (2/6)/(3/6) = 2/3 Luego P(A|B) > P(A) Sea ahora C=”sale ≤ 2” = {1,2} P(C)= 2/6 = 1/3 P(C/A) = P(A∩C)/P(A) = (1/6) / (3/6) = 1/3 En este ejemplo P(C|A) = P(C) Intuitivamente, el hecho de que salga A no altera la probabilidad de que salga C. En este caso se dice que “A y C son independientes”. Dos sucesos A y B se dice que son independientes, cuando P(A|B) = P(A), (3) 25 Estadística para Química - 2do. cuat. 2006 - Marta García Ben Si P(A|B) = P(A) entonces P(A∩B)/P(B) = P(A), luego P(A∩B) = P(A) P(B) (4) Esta última expresión la usaremos como definición. Definición de independencia entre dos sucesos Sea S un espacio muestral, A y B dos sucesos. Se dice que A y B son independientes cuando P(A∩B) = P(A) P(B) La expresión (3) es más intuitiva que la (4). ¿Por qué hemos preferido usar (4) en lugar de (3) como definición de independencia? ¿Qué ventaja tiene? Proposición: a) Sea P(B)>0 entonces A y B son independientes ⇔ P(A|B) = P(A) b) Sea P(A)>0 entonces A y B son independientes ⇔ P(B|A) = P(B) (Demostrar). Ejemplos: 1) ¿Es independiente apoyar el proyecto del gobierno y tener nivel de instrucción alto (en el ejemplo 1)? 2) ¿Es independiente “estar de acuerdo con cierta medida de gobierno” y “haber votado al actual presidente en las últimas elecciones”? (intuitivamente). 3) ¿Es independiente “haber sacado una nota ≥ 7 en Análisis” y “sacar una nota ≥ 7 en Estadistica”? (intuitivamente). 4) Dar algún ejemplo de dos sucesos que (al menos intuitivamente) sean independientes y dos que no lo sean. Comentario: Si dos sucesos A y B son disjuntos y P(A)>0, P(B)>0, entonces A y B no son independientes. Demostrar. Ejercicio: A y B indep ⇔ A c y B indep ⇔ A c y B c indep Nota: basta demostrar que si A y B son independientes, entonces A y B c también. Dar un ejemplo para entender el significado de estas implicaciones. 26 Estadística para Química - 2do. cuat. 2006 - Marta García Ben 2.5.3. Regla de la multiplicación. Recordemos que la definición de probabilidad condicional es: P(A|B) = P(A∩B) / P(B) (está definido si P(B)>0). A partir de esta definición se deduce que (si P(B)>0) es P(A∩B) = P(A|B)P(B) Análogamente de la definición de P(B|A)= P(A∩B) / P(A) resulta que Regla de la multiplicacion: Si P(A)>0 entonces P(A∩B) = P(A) P(B|A) En qué casos es útil la regla de la multiplicación? Es útil cuando es más facil darse cuenta de cuánto vale P(B|A) que calcular P(A∩B). Ejemplo: bolillero con 3 bolitas blancas, 7 rojas. Se extraen dos bolitas a) ¿Cuál es la probabilidad de que las dos sean blancas? b) ¿Cuál es la probabilidad de que la segunda bolita extraída sea blanca? (considerar extracciones sin reposición y con reposición). Generalización de la regla de la multiplicación a n sucesos (n≥2): P(A 1 ∩A 2 ∩...∩A n ) = P(A 1 ) P(A 2 |A 1 ) P(A 3 |A 1 ∩A 2 ) ... P(A n |A 1 ∩A 2 ∩...∩A n-1 ) Ejemplo: del bolillero del ej. anterior, saco tres bolitas a) cuál es la probabilidad de que las tres sean blancas? b) cuál es la probabilidad de que las dos primeras sean blancas y la tercera roja? c) cuál es la probabilidad de que por lo menos una sea blanca? (considerar extracciones sin y con reposicion). 27 Estadística para Química - 2do. cuat. 2006 - Marta García Ben 2.5.4. Generalización de la definicion de independencia para más de dos sucesos. Generalización de la definición de independencia Sean A 1 ,A 2 ,...,A n sucesos. Diremos que son independientes si para todo subconjunto de índices {i 1 ,i 2 ,…,i k } ⊆ {1,2,…,n} se cumple P(A i1 ∩A i2 ∩...∩A ik ) = P(A i1 ) P(A i2 ) ... P(A ik ) Para el caso particular de tres sucesos la definicion anterior dice que A 1 , A 2 y A 3 son independientes si se cumple P(A 1 ∩A 2 ) = P(A 1 )P(A 2 ) P(A 1 ∩A 3 ) = P(A 1 )P(A 3 ) P(A 2 ∩A 3 ) = P(A 2 )P(A 3 ) P(A 1 ∩A 2 ∩A 3 ) = P(A 1 )P(A 2 )P(A 3 ) Ejemplo: el ejemplo de las extraccion de tres bolitas de un bolillero sirve para dar ejemplos de 3 sucesos independientes? 3. VARIABLES ALEATORIAS Repasar primero las notaciones de función, imagen y preimagen. Introducción Ejemplo 1: tiro dos veces una moneda. Me interesa el nro de veces que sale cara. Ej. 2: idem. Me interesa la resta entre el nro de caras y el nro de cecas. Ej. 3: elijo un alumno al azar entre todos los alumnos de 1er año de la facultad y le pregunto su nota en Matematicas del CBC. Ej. 4: Elijo un hombre adulto al azar en Buenos Aires y observo su peso y su estatura. ¿Como se pueden plantear modelos probabilísticos para estos ejemplos? 28 Estadística para Química - 1er. cuat. 2007 - Marta García Ben Ej. 1 Podriamos considerar S={0,1,2} (los resultados no serían igualmente probables). Pero tambien podemos definir S={CC,CS,SC,SS} describiendo todos los resultados de tirar dos monedas y luego asociar CC → 2, CS → 1, etc. O sea podemos considerar S={CC,CS,SC,SS} y una función X=”nro de caras” que a cada elemento de S le asigna un número: X CC → 2 CS → 1 SC → 1 SS → 0 Ej. 2, podemos considerar el mismo S y otra función. Definición de variable aleatoria: Sea S un espacio muestral. Una variable aleatoria es una función del espacio muestral S en los números reales. Generalmente las variables aleatorias se las denota con las últimas letras del alfabeto en mayúscula (X, Y, etc.) Por definición si X es una v.a. X: S → R En el ej. 1: ¿Qué entendemos por P(X=1)? En general si B⊆R, P(X∈B) = P{s∈S| X(s)∈B) = P(X -1 (B)) Ejemplo: ¿cuanto vale P(X≤1) en el ejemplo 1? Imagen de una variable aleatoria: Usaremos la notación I X para la imagen de la variable aleatoria (conjunto de valores que toma). 3.1. Variables aleatorias discretas Definición de variable aleatoria discreta: Una variable aleatoria es discreta si su imagen I X es un conjunto finito o infinito numerable. Dar ejemplos de variables aleatorias discretas - que tomen un número finito de valores - que tomen un número infinito numerable de valores 29 Estadística para Química - 1er. cuat. 2007 - Marta García Ben Función de probabilidad puntual de una v.a. discreta. Sea X v.a. discreta. Se llama f.p.p. a la función p(x) = P(X=x) para todo x∈R En el ejemplo 1: p(0)=1/4 p(1)=1/2 p(2)=1/4 p(x)=0 para todo x∉{0,1,2} Propiedades de las funciones de probabilidad puntual Son funciones p:R→R que cumplen dos propiedades: a) p(x)≥0 para todo x∈R b) Σ p(x) =1 x∈ I X Nota: la sumatoria también puede extenderse al conjunto {x|p(x)>0} Estas dos propiedades a) y b) caracterizan a las funciones de probabilidad puntual. Comentario: Para dar una función de probabilidad puntual, a veces se dá una fórmula, otras una tabla: x 0 1 2 p(x) 1/4 1/2 1/4 y también puede mostrarse con un gráfico (con líneas o con barras como el histograma). Comentario: Si conozco la f.p.p. de una v.a. X, como puedo calcular P(B) para cualquier B⊂R? Otros ejemplos: - Elijo un alumno al azar entre todos los alumnos de 1er año de la facultad. Sea X su nota en Matematicas del CBC. ¿Como se podria conocer la f.p.p. de esta v.a.? - Se tira un dado hasta que sale as por primera vez. Sea X=nro de tiros. ¿Es X discreta? ¿Cuánto vale I X ? ¿Cual es la f.p.p. de X? 30 Estadística para Química - 1er. cuat. 2007 - Marta García Ben Comentario: Conocer la distribución de una v.a. quiere decir poder calcular P(X∈B) para cualquier B⊂R. Observar que si conozco p(x) conozco la distribución, ya que P(X∈B) = ∑ ∈ X I B x x p I ) ( (5) Observar que variables aleatorias distintas pueden tener la misma distribucion. Por ej. la variable X=nro de caras al tiras dos monedas, tiene la misma distribución que el nro de cecas. Función de distribución o función de distribución acumulada de una v.a. Definición Sea X una v.a. Su función de distribución (acumulada) es la función F(x) = P(X<= x)= P(X ∈ (-∞,x]) (definida ∀ x∈ R) La definición anterior vale para cualquier v.a., sea discreta o no. Para el caso particular de las v.a. discretas se puede calcular sumando la f.p.p. para todos los valores ≤ x: F(x) = ∑ ≤ ∈ x u I u X u p , ) ( (6) Ejemplo 1: Calcular y graficar la función de distribución de X = nro de caras al tirar dos veces una moneda. Ejemplo 2: ¿Como sería la función de distribución de X = nro de veces que tengo que tirar un dado hasta que salga as por primera vez? Propiedades de las funciones de distribución. Las funciones de distribución son funciones reales (F:R→R) que cumplen: 1) Son monótonas no decrecientes. 2) lim F(x) = 1 x→+∞ 3) lim F(x) = 0 x→ - ∞ 4) Son continuas a derecha (o sea ) x ( F ) x ( F lim 0 x x 0 = + → ) 31 Estadística para Química - 1er. cuat. 2007 - Marta García Ben Es evidente de los ejemplos que las funciones de distribucion no tienen por que ser continuas ya que no tiene por que coincidir con F(x ) ( lim 0 x F x x − → o ) (la funcion de distribucion puede dar saltos). Usemos la notación: ) x ( F ) x ( F lim o x x 0 − → = − Si la funcion de distribución da un salto en el punto x o , entonces la altura del salto es precisamente el valor de la probabilidad en el punto: P(X = x o ) = = altura del salto (7) ) ( ) ( 0 − − o x F x F Propiedad importante: Si conozco la función de distribución de una v.a. puedo calcular cualquier P(X∈B) para cualquier B⊂R. a) En particular es fácil calcular la probabilidad de un intervalo de la forma (a,b] (abierto a izquierda y cerrado a derecha), ya que es facil demostrar que: P(a<X≤b) = F(b) – F(a) (8) Demostración: (a,b] = (-∞,b] - (-∞,a] luego: P(X∈(a,b]) = P(X∈(-∞,b]) - P(X∈(-∞,a]) o sea P(a<X≤b) = F(b) – F(a) Pero como se puede calcular P(a≤X≤b)? Usando (8) y (7) puede calcularse. Ejercicio: escribir expresiones para calcular: P(a≤X≤b) P(a<X<b) P(a≤X<b) P(a≤X) P(a<X) P(X<b) conocida la función de distribución acumulada. 32 Estadística para Química - 1er. cuat. 2007 - Marta García Ben 3.2. Esperanza de una variable aleatoria discreta La esperanza se puede definir para cualquier tipo de variable aleatoria. Pero por ahora veremos el caso particular de variables aleatorias discretas. Definición de esperanza para una v.a. discreta. Sea X una v.a. discreta, I X su imagen, p su f.p.p. Se define E X x p x x I x ( ) ( ) = ∈ ∑ E(X) se lee ‘esperanza de X’. Ejemplo 1: Sea X el nro. de caras al tirar dos veces una moneda equilibrada. Hemos visto que I X = {0,1,2} y que x 0 1 2 p(x) 1/4 1/2 1/4 Entonces E(X) = = 0*(1/4) + 1*(1/2) + 2*(1/4) = 1 x p x x ( ) = ∑ 0 2 Ejemplo 2: Sea X el nro. de ases al tirar dos veces un dado equilibrado. Entonces, igual que en el ej. 1 es I X = {0,1,2}, mientras que la f.p.p. es x 0 1 2 3 p(x) 25/36 10/36 1/4 1/36 Entonces E(X) = 0*(25/36) + 1*(10/36) + 2*(1/36) = 12/36 = 1/3 Se ve en este ejemplo (no en el anterior) que E(X) no tiene por qué coincidir con ninguno de los valores que toma la v.a. E(X) se puede interpretar como un promedio ponderado de los distintos valores que toma la variable, dandole mayor peso a los valores más probables. La definición coincide con la de centro de gravedad en física. Vamos a ver ahora otras dos interpretaciones intuitivas de E(X). Una interpretación intuitiva de la esperanza: como media de una población. Esta interpretación no siempre tiene sentido, sólo en algunos ejemplos (en los que el experimento aleatorio consiste en extraer al azar un individuo de una población finita). Consideremos el siguiente ejemplo. Supongamos que tenemos registrados todas las notas en Matemáticas del examen de ingreso de los alumnos de 1er. año. Estas notas van del 4 a 10 y son las siguientes: 33 Estadística para Química - 1er. cuat. 2007 - Marta García Ben 6, 8, 9, 8, 4, 10, 6, etc. Llamemos N al nro. de alumnos de 1er. año. Entonces la media (poblacional) de las notas es: µ = + + + + + 6 8 9 8 4 ..... N . El titulo de la “Interpretación” dice que la E(X) es la media poblacional µ. ¿Como podemos definir una v.a. con las notas? Experimento aleatorio: entre todos los alumnos de 1er. año selecciono uno al azar (o sea de la población elijo una “muestra” de un solo alumno). Luego observo X = nota del alumno seleccionado. ¿Quién es S? ¿Es X una v.a.? ¿Cuál es su imagen? ¿Cuál es su f.p.p.? ¿Cuánto vale E(X)? Esta interpretación no sólo vale para este ejemplo, sino para cualquier ejemplo en que hay una población de un nro. finito de individuos y para cada individuo se puede observar una variable discreta. Si se selecciona al azar un individuo y se considera la v.a. X = ’valor de la variable en el individuo elegido al azar’ entonces E(X) coincide con la media poblacional. Pero esta interpretación no siempre tiene sentido, por ejemplo no lo tiene en los ejemplos 1 y 2. Otra interpretación intuitiva de la esperanza. Esta interpretación vale para cualquier v.a. Sin embargo, sólo para simplificar, vamos a pensar en una v.a. discreta que sólo toma un nro. finito de valores. Sea I X = {x 1 , x 2 , … ,x k } la imagen y x | x 1 x 2 . . . x k p(x) | p(x 1 ) p(x 2 ) p(x k ) la tabla que dá la f.p.p. Supongamos que se repite n veces (en las mismas condiciones) el experimento aleatorio. Cada vez que se repite el experimento se observa el valor que toma la variable X. Se anotan esos valores, por ejemplo: x 3 x 5 x 2 x 5 x 3 x 4 etc y se calcula el promedio de todos los valores que salieron 34 Estadística para Química - 1er. cuat. 2007 - Marta García Ben x 3 + x 5 + x 2 + x 5 + x 3 + x 4 + . . . ___________________________________ (9) n Llamando n i = nro. de veces que sale x i (i=1,...,k), reordenando los términos (9) puede escribirse así n x n x n x n n n x n n x n n x k k k k 1 1 2 2 1 1 2 2 + + + = + + + ... ... (10) Qué ocurre con el cociente n n i cuando n es grande? Por la idea intuitiva de probabilidad, sabemos que lim n n P X x n i i →∞ = = ( ) = p(x i ) Luego la expresión (10) cuando n→∞ tiende a p(x 1 )x 1 + p(x 2 )x 2 + ... + p(x k )x k = E(X) O sea esta interpretación de la esperanza se puede enunciar así: "Si se repite n veces el experimento aleatorio y se calcula el promedio de todos los valores que toma la v.a., este promedio tiende a E(X) cuando n tiende a infinito." ¿Es la justificación que hicimos recién una demostración rigurosa de la afirmación anterior? ___________________________________________ ¿Qué quiere decir esta interpretación en el ejemplo 1 (nro de caras al tirar 2 veces una moneda)? ¿Qué quiere decir en el ejemplo de elegir un alumno al azar y observar su nota? Otro ejemplo: Juguemos 1$ en la ruleta a colorado. Sea X=ganancia. Calcular E(X) y ver que quiere decir aquí la interpretación intuitiva. ¿Es buen negocio jugar mucho a la ruleta? 35 Estadística para Química - 1er. cuat. 2007 - Marta García Ben Funciones de variables aleatorias. - Si X es una v.a. ¿Qué es X 2 ? - En general si g:R→R, g(X) es una v.a. (es la composición de la función X con la función g). X g S → R → R - Ejemplo: Sea X el nro. de caras al tirar dos veces una moneda. Sea Y=X 2 a) Calcular la f.p.p. de Y (para distinguir llamaremos p X y p Y ). b) Calcular E(Y). c) Observar que: ∑ ∑ ∈ ∈ = = Y X I y I x X Y x p x y p y Y E ) ( ) ( ) ( 2 En general: _____________________________________________________________ Teorema: Sea X una v.a. discreta, I X su imagen, p X su f.p.p. Sea g:R→R. Entonces: ∑ ∈ = X I x X x p x g X g E ) ( ) ( )) ( ( (11) (no demostramos este teorema, sólo vemos la idea intuitiva en el ejemplo anterior). _____________________________________________________________ Observar que este teorema tiene la utilidad de que permite calcular la esperanza de la v.a. g(X), conocida la función de probabilidad puntual de la v.a. X, sin necesidad de calcular primero la f.p.p. de la v.a. g(X). Propiedades de la Esperanza (estas propiedades valen no sólo para variables aleatorias discretas, sino para cualquier variable aleatoria). a) Sea X una v.a., a y b números reales. Entonces E(a X + b) = a E(X)+ b Casos particulares: E(aX) = a E(X) E(X+b) = E(X) + b (demostrar) b) Si X e Y son dos variables aleatorias entonces (no lo demostraremos): E( X + Y) = E(X) + E(Y) 36 Estadística para Química - 1er. cuat. 2007 - Marta García Ben b*) Generalizando b) si X 1 , X 2 ,... X n son vs. as. entonces E( = ∑ = n i i X 1 ∑ = n i i X 1 ) ( E Vamos a definir varianza de una v.a. Notaciones para medias y varianzas de un conjunto de datos. En estadística descriptiva, definimos media y varianza. Muchas veces el investigador considera que los datos observados son una muestra de una población y desea, a partir de los datos de la muestra observada, hacer inferencias sobre la población. La inferencia estadistica estudia técnicas para hacer estas inferencias. Cuando queremos hacer inferencias, conviene distinguir con notaciones distintas a la media y varianza de la muestra y a la media y varianza de la poblacion. Las notaciones usuales son: Población Muestra Media µ = = ∑ x N i i N 1 _ x x n i i n = = ∑ 1 Varianza σ µ 2 2 1 = − = ∑ ( ) x N i i N s x n i i n x 2 2 1 1 = − − = ∑ ( ) _ Luego hemos definido esperanza (también llamada media) de una v.a. discreta: E X x p x x I x ( ) ( ) = ∈ ∑ Como se define varianza de una variable aleatoria? Varianza de una variable aleatoria La varianza se puede definir para cualquier tipo de variable aleatoria. Pero por ahora veremos el caso particular de variables aleatorias discretas. 37 Estadística para Química - 1er. cuat. 2007 - Marta García Ben Definición de varianza para una v.a. discreta. Sea X una v.a. discreta, I X su imagen, p su f.p.p. Se define Var X x E X p x x I x ( ) ( ( )) ( = − ∈ ) ∑ 2 Var(X) se lee ‘varianza de X’. Otra forma de definir varianza de una variable aleatoria: Usando el teorema que da la E(g(X)) (o sea (11)) se puede escribir: Var(X) = E(X-E(X)) 2 (12) Luego veremos que esta expresion se usa también para definir varianza para variables aleatorias que no son discretas. La expresión (12) es la definicion más general de Var(X) Comentario: cuando la variable aleatoria se define extrayendo al azar un individuo de una población finita (como en el ejemplo de la nota de una alumno elegido al azar), la varianza de la v.a. es igual a la varianza poblacional. Interpretación de la varianza como medida de dispersión Ejemplo 1: X = nro. de caras al tirar dos monedas. Calcular Var(X). (respuesta: 0.5) Ejemplo 2: Si una v.a. Y tiene f.p.p. y 0 9 1 1 1 P Y (y) 1/4 1/2 1/4 Entonces, comparando con la v.a. X del ej. 1 se observa que Y tiene la misma esperanza (E(Y)=E(X)=1), ¿ Var(Y) es <, = o > que Var(X) ? Ejemplo 3: Sea Z una v.a. con f.p.p. Z 0 1 2 P Z (z) 0.01 0.98 0.01 38 Estadística para Química - 1er. cuat. 2007 - Marta García Ben Que también tiene esperanza 1, ¿ Var(Z) es < = o > que Var(X) ? Otra expresión para Var(X). Var(X) = E(X-E(X)) 2 = E(X 2 ) - (E(X)) 2 (13) Va La primera igualdad es la definición de esperanza, la segunda igualdad se demuestra fácilmente usando las propiedades a) y b) de la Esperanza (demostrar). De (11) y (13), para el caso de las variables discretas, hay dos formas de calcular la varianza: ∑ ∑ ∈ ∈ − = − = X Xx I x I x X E x p x x p X E x X Var 2 2 2 ) ) ( ( ) ( ) ( )) ( ( ) ( La primera expresión (la definición) se entiende más (se entiende que es una medida de dispersión) la segunda era más simple para calcular, cuando las cuentas se hacían a mano. Ejemplo: En el ejemplo 1, calcular Var(X) con esta nueva expresión y comprobar que da lo mismo. Antes de enunciar propiedades análogas para la varianza, necesitamos definir el concepto de variables aleatorias independientes. Definición: Dos variables aleatorias X e Y son independientes si P( (X∈ A) ∩ (Y ∈ B)) = P(X∈A) P(Y∈B) para todo A⊂R, B⊂R. Ejemplos: i) Si elijo una persona al azar y observo X=peso, Y=estatura, ¿son X y Y variables aleatorias independientes? ii) Si juego dos veces en la ruleta y X=nro que sale en la 1a tirada, Y=nro que sale en la segunda tirada, son independientes? iii) Dar otros ejemplos de vs. as. que (intuitivamente) sean independientes y no lo sean. Recordemos las propiedades de esperanza que enunciamos: a) E(a X + b) = a E(X)+ b b) E( X + Y) = E(X) + E(Y) b*) E( = ∑ = n i i X 1 ∑ = n i i X 1 ) ( E 39 Estadística para Química - 1er. cuat. 2007 - Marta García Ben Propiedades de la varianza: a) Var(a X + b) = a 2 Var(X) (demostrar) y sus casos particulares Var(aX) = a 2 Var(X) Var(X+b) = Var(X) No vale en general para varianzas una expresión similar a b) o b*). Pero sí vale para el caso particular de que las variables aleatorias sean independientes. b) Si X e Y son dos variables aleatorias independientes entonces (no demostramos por ahora esta propiedad) Var( X + Y) = Var(X) + Var(Y) b*) (generalización de b) Si X 1 , X 2 ,... X n son vs. as. independientes entonces Var( = ∑ ∑ = n i i X 1 = n i i X 1 ) ( Var Recordemos que conozco la f.p.p. de un v.a. discreta ⇔ conozco la distribución de esa variable Algunas distribuciones discretas usadas como modelos. Vamos a ver ahora algunas f.p.p. que son las “más usadas”: Las distribuciones: i) Binomial (y su caso particular la distribución de Bernoulli) ii) de Poisson. Distribución de Bernoulli: Un caso particularmente simple, pero que a pesar de ello se usa muchas veces es el de las variables aleatorias que sólo toman dos valores 0 y 1. De una v.a. así se dice que tiene distribución de Bernoulli. Si llamamos p a la P(X=1), su función de probabilidad es de la forma: x 0 1 p(x) 1-p p Su esperanza y varianza valen: E(X) = p, Var(X) = p(1-p) (demostrarlo). Distribución Binomial Ejemplo previo nro. 1: Se tira 5 veces un dado equilibrado. X es el número de veces que sale as. Ej. previo nro. 2: Un jugador juega 10 veces a “primera docena” en la ruleta. Sea X el número de veces que gana. 40 Estadística para Química - 1er. cuat. 2007 - Marta García Ben En estos dos ejemplos y en muchos otros el experimento aleatorio cumple las siguientes condiciones: 1) El experimento aleatorio consiste en repetir n veces una prueba (el número n es fijo) 2) En cada prueba se observa si sale o no un evento. Llamemos E al evento que nos interesa y F a su complemento. (La letra E viene de “éxito” y la F de “fracaso”). 3) Las n repeticiones se hacen en iguales condiciones. O sea que P(E) es la misma en todas las pruebas. Llamemos p=P(E). 4) Las repeticiones se realizan en forma independiente. O sea el resultado de una prueba no influye sobre las otras. Sea X la variable aleatoria: X = número de veces que sale E en las n pruebas. Nos va a interesar calcular la f.p.p. de X. -Definición: Un experimento aleatorio que cumple las cuatro condiciones enunciadas se llama Experimento Binomial. Cada prueba se llama Ensayo o Prueba de Bernoulli. - Veamos que los experimentos previos 1 y 2 son experimentos binomiales. ¿Quién es n, E y p en cada uno? Calculemos ahora la f.p.p. de X. Se deduce que (hacerlo) p(x) = si x ∈ {0,1,2,...,n} (14) n x p p x − − ( ) 1 n x 0 en caso contrario Definición: Si una v.a. X tiene la función (14) como f.p.p. entonces se dice que X tiene distribución Binomial con parámetros n y p. Se escribe abreviando: X ~ Bin (n,p) Ejemplos: En el ejemplo 1, X ~ Bin (5, 1/6) en el ejemplo 2, X ~ Bin (10, 12/37) Si deseamos en el ej. 1, calcular la probabilidad de que salga as tres veces, no necesitamos pensar especialmente en este ejemplo, sino simplemente aplicar la expresión (14) P(X=3) = p(3) = 5 3 1 6 5 6 3 2 Esta expresión puede evaluarse con una calculadora o con un programa (antiguamente se usaban tablas). Con el programa Statistix se puede calcular ingresando a "Statistics", "Probability Functions" y elegir la función "Binomial(x,n,p)". 41 Estadística para Química - 1er. cuat. 2007 - Marta García Ben El programa no calcula p(x), sino la función de distribución acumulada F(x)=P(X≤x). Por ejemplo si ingreso n=5, p=0.1666667 (esto es 1/6), x=3, el resultado es: Binomial(3,5,0.1666667) = 0.99666 y si luego pongo x=2 obtengo Binomial(2,5,0.1666667) = 0.96451 Como se puede a partir de estos resultados obtener P(X=3)? Otro ejemplo de aplicación de la distribución binomial: Un bolillero contiene N bolitas, de las cuales B son blancas. Se extraen n bolitas (¿sin o con?) reposición y se cuenta X= número de bolitas blancas extraídas. ¿Qué distribución tiene X? Comentarios: - Si las extracciones son sin reposición, X no es binomial, ¿por que? Pero si N es "grande" en relación a n, las extracciones con o sin reposición dan resultados similares, y la distribución binomial es una buena aproximación a la distribución de la variable X. Como receta práctica si N/n>20 la aproximación binomial es muy buena. - Hay muchos problemas prácticos similares a la extracción de bolitas. Son todos los problemas en los que se eligen n individuos al azar de una población de individuos de los cuales algunos tienen cierta característica y otros no. Si se cuenta el número de individuos con la característica entre los n seleccionados, ese número se puede considerar una observación de un v.a. con distribución binomial. Comentario: X ∼ Bin (1,p) ⇔ X ∼ Bernoulli(p) Esperanza y varianza de una v.a. con distribución binomial. Sea X ~ Bin(n,p). Entonces E(X) = np (demostrarlo) Var(X) = np(1-p) 42 Estadística para Química - 1er. cuat. 2007 - Marta García Ben Distribución de Poisson Definición: Se dice que una v.a. X tiene distribución de Poisson con parámetro λ si su función de probabilidad puntual es: p(x) = λ λ − e x x ! si x∈ {0,1,2,...} (15) "X tiene distribución de Poisson con parámetro λ" se abrevia así: X ~ P(λ) Comentario: La binomial fue derivada a partir de un experimento aleatorio, que consistía en repetir una prueba. No existe un experimento simple que permita deducir la f.p.p. de Poisson. ¿Como se le ocurrió a Poisson esta f.p.p.? La obtuvo como límite de la f.p.p. binomial, como veremos luego. ¿Para que sirve? Sirve como modelo aproximado para las f.p.p. de variables aleatorias del siguiente tipo: a) Número de pulsos que cuenta un medidor de radiación en un intervalo de longitud fijada (digamos de 3 minutos). La distribución de Poisson dá una muy buena aproximación a la distribución de esta variable y por lo tanto a la variabilidad de la medición. b) Número de accidentes que ocurren en una semana en la ruta Bs.As.-Córdoba. c) Número de llamadas telefónicas que llegan a un conmutador entre las 12 y las 12 y 15. d) Número de clientes que entran a un negocio entre las 14 y las 15. e) Número de parásitos que cuenta un laboratorista en un volumen (fijo) de sangre. (Me refiero a la variabilidad de la medición, o sea lo que tiene distribución de Poisson son repetidas mediciones para la misma sangre, no para sangre de distintos individuos). Luego discutiremos por qué o bajo qué suposiciones este tipo de variables aleatorias tienen una f.p.p. que se puede aproximar por la de Poisson. Demostrar que (15) cumple las propiedades de una f.p.p. Esperanza y Varianza: Si X ~ P(λ) entonces E(X) = λ y Var(X) = λ Demostrarlo. 43 Estadística para Química - 1er. cuat. 2007 - Marta García Ben Nos habíamos preguntado como había surgido la f.p.p. llamada de Poisson? Acá está la respuesta: se dedujo como límite de la binomial. Se puede demostrar que la f.p.p. binomial se parece a la de Poisson si n es “grande” y p “pequeño”: n x p p x n − − ( ) 1 x ≅ λ λ x x e ! − con λ = np Receta: la aproximación es buena cuando n≥100, p≤0.01 y np≤20. Pero aún para n no tan grandes ni p tan pequeños la aproximación puede ser bastante satisfactoria, como se ve en el siguiente ejemplo. Ejemplo: Sea X~Bin(n=20,p=0.05). P(X=2) = 189 . 0 95 . 0 05 . 0 2 20 18 2 = Aproximando la f.p.p. binomial por la de Poisson con λ=np=20*0.05=1: P(X=2) ≅ 1 2 2 1 ! e − = 0.184 Otra forma de deducir la distribución de Poisson: "Proceso de Poisson". Otra forma de deducir la distribución de Poisson es considerar eventos que ocurren al azar en cualquier momento del tiempo. Un ejemplo clásico es el de los pulsos que cuenta un medidor de radiactividad. Si se hacen tres suposiciones sobre la forma en la que ocurren los eventos, se puede demostrar que el número de eventos en un intervalo de tiempo de longitud fija es una v.a. con distribución de Poisson. Proceso de Poisson: Ocurren eventos al azar en cualquier instante del tiempo, de modo que se cumplen las siguientes suposiciones: 1. Existe un parámetro α>0 tal que la probabilidad de que ocurra un evento en un intervalo de longitud ∆t (con ∆t "pequeño") es aproximadamente α.∆t (o sea es proporcional a la longitud del intervalo). Escrita rigurosamente la suposición es: P(ocurra un intervalo entre t y t+∆t)= α.∆t + o(∆t) Comentario: la notación o(h) significa que es una función de h que tiende a cero más rápido que h, en el sentido siguiente: 44 Estadística para Química - 1er. cuat. 2007 - Marta García Ben 0 h ) h ( o lim 0 h = → 2. La probabilidad de que ocurran dos o más eventos en un intervalo de longitud "pequeña" ∆t es despreciable. Rigurosamente P(ocurra dos o más eventos entre t y t+∆t) = o(∆t) 3. Sean t 1 <t 2 <t 3 <t 4 . Entonces el número de eventos que ocurren en el intervalo [t 3 ,t 4 ] es independiente del número de eventos que ocurren en el intervalo [t 1 ,t 2 ]. Proposición (no la demostraremos): Si se cumplen las tres suposiciones del proceso de Poisson, se puede demostrar que si [t 1 ,t 2 ] es cualquier intervalo y llamo X = número de eventos en el intervalo [t 1 ,t 2 ] entonces X ~ P(α (t2-t1)) Observación: De la proposición anterior y del hecho de que el parámetro de la Poisson es su esperanza, deducimos que, bajo las suposiciones 1 a 3, el valor esperado de eventos en un intervalo es α por la longitud del intervalo. Por lo tanto el significado intutivo de α es "el valor medio de eventos que ocurren en una unidad de tiempo". Obviamente el valor de α depende de la unidad en la que midamos el tiempo. Ejemplo: Los clientes llegan a un negocio siguiendo un proceso de Poisson con una media de 12 clientes por hora. ¿Cuál es la probabilidad de que lleguen por lo menos dos clientes en un intervalo de 15 minutos? Respuesta: 0.801 (se puede obtener con una calculadora o con el Statistix). ¿En que forma tienen que llegar los cliente para que se cumplan aproximadamente las suposiciones del proceso de Poisson? Extensiones del proceso de Poisson: Hemos definimos el proceso de Poisson en la forma clásica en la que los eventos ocurren en distintos instantes del tiempo. Pero la misma idea puede ser aplicada también a eventos que se pueden observar en distintos puntos de una región de dos o tres dimensiones (ejemplo: árboles en un campo, o parásitos en una gota de sangre). Se pueden formular suposiciones similares a las anteriores 1 a 3 y demostrar que si X= número de eventos en un subconjunto A de la región entonces X ~ P(α * volumen(A)) (reemplazando volumen por área si la region es en dos dimensiones). El significado intuitivo de α es en estos casos "el valor medio de eventos que ocurren en una unidad de volumen (o en una unidad de área)". 45 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Variables aleatorias continuas Hemos definido que una variable aleatoria X es discreta si I X es un conjunto finito o infinito numerable. En la práctica las variables aleatorias discretas sirven como modelos para hacer inferencias estadísticas cuando los datos que se recogen son enteros (generalmente el "número de algo"). Pero cuando los datos que se registran son continuos (por ejemplo estatura de una persona, contenido de glucosa en una solución , porcentaje de hierro en un mineral, tiempo desde que un enfermo comienza un tratamiento hasta que se observa una mejoría o un empeoramiento, o tiempo de duración de una lamparita hasta que falla), se usan otro tipo de variables aleatorias como modelo probabilístico: las variables aleatorias continuas. Definición de variable aleatoria continua: Una variable aleatoria X es (absolutamente) continua si existe una función f:R→R + tal que F(x) = f(t)dt −∞ ∫ x Nota: la función f se llama función de densidad de la v.a. X Comentarios: 1) Si X es v.a. continua ⇒ F es continua 2) F es continua ⇔ P(X=x 0 )=0 para todo x 0 ∈R 3) Si X es v.a. continua ⇒ P(a ≤ X ≤ b) = F(b) – F(a) = f x dx a b ( ) ∫ para todo a≤b Propiedades de las funciones de densidad Son funciones f:R→R que cuplen dos propiedades: a) f(x)≥0 para todo x∈R b) f(x)dx =1 −∞ +∞ ∫ 46 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Ejemplo de función de densidad: Ejemplo 1: f(x) = ax I [0,1] (x) a) Cuanto vale la constante a? b) Calcular P(X>0.5) Interpretación intuitiva de la función de densidad: 1) Ver la relación entre la función de densidad y el histograma. 2) Significado intuitivo del valor de la función de densidad en un punto: P(x 0 -h ≤ X ≤ x 0 +h) ≅ f(x 0 )2h (esta propiedad vale para los puntos x 0 donde la función de densidad es continua). Comentario: ¿Que significa intuitivamente que f(x 1 )<f(x 2 )? Relación entre la función de densidad y la función de distribución. - Conocida la función de densidad de una v.a. continua, ¿se puede calcular su función de distribución? - Recíprocamente si se conoce la función de distribución de una v.a. continua puede calcularse su función de densidad derivando: f(x) = F’(x) para todo x∈R donde F es derivable. Otro ejemplo de función de densidad: Ejemplo 2: f(x) = e -x I [0,+∞] (x) Calcular la función de distribución. ¿Existen variables que no son discretas ni continuas? Esperanza. Hemos definido esperanza para una v.a. X discreta: E X x p x x I x ( ) ( = ∈ ∑ ) donde p(x) es la función de probabilidad puntual de X. Análogamente se define esperanza para variables continuas: Definición de esperanza para una v.a. continua: Sea X una v.a. continua, f su función de densidad. Se define E X x f x dx ( ) ( ) = − ∞ +∞ ∫ Nota: la esperanza está definida cuando | | ( ) x f x dx < ∞ −∞ +∞ ∫ Comentario: ¿hay que pedir una condición similar a esta última para el caso discreto? 47 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Ejemplo: Calcular E(X) en el ejemplo 2. Ejercicio: Calcular E(X) en el ejemplo 1. Esperanza de una función de una variable aleatoria Teorema: Sea X una v.a., g una función g:R→R. a) Si X es discreta con f.p.p. p: E g X g x p x x I x ( ( )) ( ) ( ) = ∈ ∑ b) Si X es continua con función de densidad f: E g X g x f x dx ( ( )) ( ) ( ) = −∞ +∞ ∫ Propiedades de la esperanza. Dijimos que: a) E(a X + b) = a E(X)+ b b) E( X + Y) = E(X) + E(Y) y que estas propiedades valían para cualquier variable aleatoria (discretas, continuas, cualquiera). Ejercicio: Hemos demostrado la propiedad a) para el caso de variables aleatorias discretas, demostrarlo también para el caso de variables aleatorias continuas (sugerencia: usar el teorema anterior sobre E(g(X)). Hemos dicho que la siguiente es la definición de varianza para cualquier variable aleatoria: Definición de varianza Sea X una v.a. se define Var(X) = E(X-E(X)) 2 Cálculo de la varianza. De la definición general de Var(X) y del teorema que permite calcular E(g(X)) regulta lo siguiente: a) Para una v.a. discreta. Si X es discreta con f.p.p. p(x) es Var X x E X p x x I x ( ) ( ( )) ( = − ∈ ) ∑ 2 48 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben b) Para una v.a. continua. Si X es continua con función de densidad f: Var X x E X f x dx ( ) ( ( )) ( ) = − −∞ +∞ ∫ 2 También vimos la siguiente proposición: Proposición: Var X E X E X ( ) ( ) ( ( )) = − 2 2 - Esta proposición ya la demostramos. La demostración que hemos hecho vale para cualquier v.a. (no solamente para el caso discreto). - En general es más fácil calcular la varianza de una v.a. discreta o continua usando esta proposición que usando la definición de varianza. Para el caso continuo, usando esta proposición, ¿como se calcula la Varianza? a) calculando E X x f x dx ( ) ( ) = −∞ +∞ ∫ b) calculando E X x f x dx ( ) ( ) 2 2 = −∞ +∞ ∫ y luego restando E(X 2 ) – (E(X)) 2 Ejercicio: Calcular Var(X) en el ejemplo 1. Percentiles y cuantiles de una variable aleatoria continua: En estadística descriptiva dijimos: "¿Qué es el percentil 10? El número que deja aproximadamente el 10% de los datos “a izquierda”. O lo que es lo mismo el 10% de los datos son menores que el Percentil 10. Se lo denota P 10 ." Si X es una variable aleatoria continua, su percentil 10 es el valor que deja un área de 0.10 "a izquierda" en la función de densidad de la variable. En general se llama cuantil α al valor x α tal que P(X ≤ x α ) = ∫ ∞ − α x dx x f ) ( = α Comentario: la notación x α no es uniformemente usada en todos los libros. 49 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Algunas distribuciones continuas usadas como modelos: distribuciones uniforme, normal o gaussiana, exponencial y otras Distribución uniforme. (no es muy usada como modelo, pero la presento primero porque es la más simple). Supongamos que se elige al azar un número real en el intervalo [0,1] ¿Como se puede realizar el experimento? Sea X= número elegido ¿Cuánto vale P(X=0.4)? ¿Cuánto vale P(0 ≤ X ≤ 1/4)? ¿P(1/4 ≤ X ≤ 1/2)? ¿Cuál es la función de densidad de X? Distribución uniforme en el intervalo [a,b] Es una familia de distribuciones con dos parámetros. Se dice que X ∼ U[a,b] si su función de densidad es f x b a I x a b ( ) ( ) [ , ] = − 1 - Si X ∼ U[a,b], cuánto vale E(X)? - Demostrar que Var(X) = (b-a) 2 /12 Antes de definir distribución normal o de Gauss voy a hacer dos comentarios. Comentario 1: Sea X una v.a. con cualquier distribución, con esperanza y varianza finitas. Llamemos µ a su esperanza y σ 2 a su varianza. ¿Se puede definir una nueva v.a. Y de la forma Y=aX+b (a, b constantes) de modo que E(Y)=0, Var(Y)=1 ? Esta nueva variable así obtenida se suele llamar "variable estandarizada". Comentario 2: ; ; ; ∫ =? dx e ax ∫ =? 2 dx e x ∫ =? 2 dx e ax ∫ =? 2 dx xe ax Se puede demostrar que π 2 2 / 2 = ∫ +∞ ∞ − − dx e x Comentario 3: En la clase de estadística descriptiva mostramos el histograma de los datos de rendimiento (%) en la producción de 210 lotes consecutivos de un producto químico. Si marcamos en el Statistix "Display Normal Curve", obtenemos una curva (curva normal o de Gauss) superpuesta al histograma: 50 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Cuando, como en el caso del rendimiento, una variable tiene un histograma parecido a una curva "normal", diremos que la variable tiene distribución aproximadamente normal o aproximadamente gaussiana. Vamos ahora a definir las curvas normales o curvas de Gauss. Distribución Normal o Gaussiana Daremos primero un caso particular: la distribución normal standard. Distribución normal standard. Definición: Se dice que una v.a. Z tiene distribución Normal standard si su función de densidad es: 2 / 2 2 1 ) ( z e z f − = π ¿Es una función de densidad? El gráfico de esta función tiene la siguiente forma: 51 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben 52 z f -3 -2 -1 0 1 2 3 0 . 0 0 . 1 0 . 2 0 . 3 0 . 4 Se puede demostrar que a) f(z) es una función par. b) Es creciente para z<0 y decreciente para z>0. c) Tiene puntos de inflexión en –1 y 1 d) lim f(z) = 0 lim f(z) = 0 x→+∞ x→-∞ También se puede demostrar que: Si Z tiene distribución normal standard entonces: E(Z)=0 y Var(Z)=1 Por eso la normal standard se la llama también Normal(0,1) (se abrevia N(0,1)) Llamemos Φ a la función de distribución acumulada de la N(0,1): dz e x z x 2 / 2 2 1 ) ( − ∞ − ∫ = Φ π Los programas estadísticos calculan esta función (también hay tablas), y usándola se puede calcular cualquier P(a≤Z≤b): si Z ∼ N(0,1) entonces P(a≤Z≤b) = Φ(b) - Φ(a) Usando la tabla o el programa, se puede verificar fácilmente que si Z ∼ N(0,1) P(-1 ≤ Z ≤ 1) = área bajo la curva normal standard entre -1 y 1 = 0.683 (≅ 0.68 o 68%) P(-2 ≤ Z ≤ 2) = área entre -2 y 2 = 0.955 (≅ 95%) P(-1.96 ≤ Z ≤ 1.96) = área entre -1.96 y 1.96 = 0.95 (= 95%) P(-3 ≤ Z ≤ 3) = área entre -3 y 3 = 0.997 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben La curva normal graficada por el Statistix superpuesta al histograma de los 210 rendimientos del producto químico no es la normal standard. Puede observarse que esta curva normal toma su valor máximo no en el cero sino en la media de los rendimientos de los 210 lotes observados (que es 84.1). Hay muchas curvas normales: una para cada media y cada DS. La normal standard tiene media = 0 y DS = 1. Distribución normal o de Gauss. Definición: Se dice que X ∼ N(µ,σ 2 ) si su función de densidad es: f x e x ( ) = − − 1 2 2 1 2 2 πσ µ σ Qué forma tiene el gráfico de esta función? Donde toma su valor máximo? La familia de distribuciones N(µ,σ 2 ) es una familia de distribuciones con dos parámetros que se ha usado como modelo aproximado para la distribución de muchas variables, como por ejemplo: a) algunas variables biológicas como la estatura, b) errores de medición, c) promedios muestrales (esto lo veremos luego) Se puede demostrar la siguiente proposición: Proposición: Si X ∼ N(µ,σ 2 ) y Z X = − µ σ ⇒ Z ∼ N(0,1) Como consecuencia de esta proposición: 1) No es necesario calcular integrales para demostrar que X ∼ N(µ,σ 2 ) ⇒ E(X)= µ , Var(X)= σ 2 2) Si X ∼ N(µ,σ 2 ), como se calcula P(a≤X≤b)? Ejemplo: Sea X la estatura (en cm.) de un hombre elegido al azar en cierta ciudad. Se supone que X ∼ N(172,64). Calcular P(170≤X≤180) Rta.: 0.44 53 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Comentario: Usando la tabla de la función de distribución N(0,1) vimos que: a) Si Z ∼ N(0,1) entonces: P(-1 ≤Z≤ 1 ) = 0.683 ≅ 0.68 P(-2 ≤Z≤ 2 ) = 0.954 ≅ 0.95 P(-3 ≤Z≤ 3 ) = 0.997 b) Escribir expresiones similares a las de a) para una v.a. X ∼ N(µ,σ 2 ) Distribución exponencial (definición): Se dice que una variable aleatoria continua X tiene distribución exponencial con parámetro λ (notación: X ∼ exp(λ)), si su función de densidad es de la forma: ) ( ) ( ] , 0 [ x I e x f x +∞ − = λ λ - Es evidente que el parámetro λ tiene que ser >0 para que sea una función de densidad, verdad? - Verificar que f(x) cumple las propiedades de una función de densidad. - La distribución exponencial se usa: a) como modelo aproximado para la duración de piezas que no tienen desgaste; b) para el tiempo que transcurre entre un evento y el siguiente en un proceso de Poisson. - Demostrar que si X ∼ exp(λ) entonces para x≥0. x e x F λ − − = 1 ) ( - Demostrar que si X ∼ exp(λ), entonces E(X)= 1/λ, Var(X)= 1/λ 2 Distribución Gamma, Weibull y otras distribuciones Distribución Gamma (definición): Se dice que X ~ Γ(α,λ) si su función de densidad es de la forma: ) ( . ) ( ) , 0 [ 1 x I e x cte x f x +∞ − − = λ α donde α>0, λ>0 y la cte multiplicativa es tal que 1 ) ( = ∫ x f Se puede demostrar (no lo haremos) que E(X)= α/λ y Var(X)= α/λ 2 Distribución de Weibull (definición): Se dice que X~Weibull(α,λ) si su función de densidad es de la forma: ) ( ) ( ] , 0 [ 1 x I e x x f x +∞ − − = α λ α λ α donde α>0 y λ>0 Tanto la familia de distribuciones Gamma como la de Weibull se han usado como modelo para tiempos de duración en estudios de confiabilidad en la industria. Es fácil ver (hacerlo) que ambas familias incluyen a la familia de distribuciones exponencial. Hay muchas otras familias de distribuciones que han sido propuestas como modelo para distintos problemas prácticos. Pero (por suerte!) para poder aplicar algunos de los métodos de inferencia estadística que estudiaremos no se requiere conocer previamente la distribución de los datos. 54 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Distribución conjunta de variables aleatorias En muchos problemas prácticos, en el mismo experimento aleatorio, interesa estudiar no sólo una variable aleatoria sino dos o más. Por ejemplo: Ejemplo 1: Se elige un hombre adulto al azar en una ciudad y se observa X= peso,Y=estatura. Ejemplo 2: se elige una muestra de un mineral y se le mide su contenido de hierro por dos métodos distintos. Sea X= medición obtenida con el método 1, Y=idem con el método 2. Ejemplo 3: Se elige un alumno al azar de 1er. año y se le pregunta X = nota en Matemáticas del curso de ingreso Y = número de horas por semana que trabaja fuera de la facultad. En cada uno de estos ejemplos se puede definir un espacio muestral S, una función de probabilidad P y dos variables aleatorias X:S→R, Y:S→R, definidas en el mismo espacio S. Hasta ahora para cada v.a. nos interesaba conocer su distribución, o sea poder calcular P(X∈B) para todo B⊂R Con dos variables aleatorias nos puede interesar conocer también la distribución conjunta de las vs. as. X e Y. Conocer la distribución conjunta de X e Y quiere decir saber calcular P((X,Y) ∈ B) para todo B⊂R 2 . En forma análoga a como se define función de distribución para una sola v.a. se define la función de distribución conjunta de dos vs. as. Función de distribución conjunta de dos variables aleatorias. Definición Sea X e Y dos vs. as. definidas en el mismo espacio de probabilidad. Su función de distribución conjunta es la función: F(x,y) = P(X≤x, Y≤y ) = P((X≤x) ∩ (Y≤y)) Puede observarse que F:R 2 →R. Distribución conjunta de dos variables aleatorias discretas. Definición de función de probabilidad puntual conjunta. Sean X e Y dos vs. as. discretas definidas en el mismo espacio muestral S. Su f.p.p. conjunta es: p(x,y) = P(X=x, Y=y) ∀(x,y)∈ R 2 Puede observarse que p:R 2 →R 55 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Ejemplo 4: Se tira 3 veces una moneda equilibrada. Sea X el número de caras, Y el nro. de caras en las dos primeras tiradas. Evidentemente ambas variables son discretas, ya que I X = {0,1,2,3}, I Y = {0,1,2} La siguiente tabla da la f.p.p. conjunta de estas dos variables aleatorias (verifíquelo): y\x 0 1 2 3 Total 0 1/8 1/8 0 0 1 0 2/8 2/8 0 2 0 0 1/8 1/8 Total 1 Propiedades de las funciones de probabilidad puntual conjunta de 2 vs. as. Son funciones p:R 2 →R que cuplen dos propiedades: a) p(x,y)≥0 para todo (x,y)∈R 2 b) Σ Σ p(x,y) = 1 x∈I X y∈I Y Conocida la f.p.p. conjunta de X e Y, se puede calcular P((X,Y)∈B) del siguiente modo: P((X,Y)∈B) = Σ p(x,y) x∈I X y∈I Y (x,y)∈B ¿Si conozco la f.p.p. conjunta de X e Y, puedo calcular la f.p.p. de X? Calcularla en el ejemplo 4. En general: p X (x) = Σ p(x,y) y∈I Y p Y (y) = Σ p(x,y) x∈I X Un nombre: la función p(x,y) se llama como dijimos f.p.p. conjunta de X e Y. Las funciones p X y p Y se suelen llamar "funciones de probabilidad puntual marginales", ¿de donde viene ese nombre? 56 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Distribución conjunta continua de dos variables aleatorias. En el caso de una variable aleatoria dimos la siguiente definición. Definición: Una variable aleatoria X es continua si existe una función f:R→R + tal que F(x) = f(t)dt ∀ x∈R −∞ ∫ x En forma similar definimos: Definición: Dos variables aleatorias X e Y tienen distribución conjunta continua si existe una función f:R 2 →R + tal que si F es la función de distribución conjunta de X e Y entonces: F(x,y) = f(u,v)dv du ∀ (x,y)∈R −∞ ∫ x −∞ ∫ y 2 La función f se llama función de densidad conjunta de X e Y. Propiedades de las funciones de densidad conjunta Son funciones f: R 2 →R que cumplen dos propiedades: a) f(x,y)≥0 para todo (x,y)∈R 2 b) f(x,y)dx dy =1 −∞ +∞ ∫ −∞ +∞ ∫ Al igual que en el caso de una sola variable, también la función de densidad conjunta es un modelo para un histograma. Para el histograma “conjunto” de las variables X e Y (¿se entiende que quiero decir con histograma conjunto de las dos variables? En general se necesitan muchos datos para poder representar y modelar un histograma conjunto! Proposición: A partir de la definición de distribución conjunta continua se puede demostrar que si X e Y tienen función de densidad conjunta f(x,y) entonces: P(a ≤ X ≤ b, c ≤ Y ≤ d) = f(x,y)dy dx a b ∫ c d ∫ Más aún, esto no sólo es cierto para rectángulos sino para cualquier B⊂ R 2 P( (X,Y)∈ B) = f(x,y) dx dy ∫ ∫ B 57 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Conocida la función de densidad conjunta ¿se puede calcular la función de densidad de X y la de Y? La respuesta es sí y la forma de calcularlas es similar al caso discreto, con integrales en lugar de sumatorias: f X (x) = f(x,y) dy −∞ +∞ ∫ f Y (y) = f(x,y) dx −∞ +∞ ∫ f(x,y) se llama función de densidad conjunta, f X y f Y se llaman funciones de densidad marginales. Variables aleatorias independientes: Hemos definido la independencia entre dos variables aleatorias del siguiente modo: Definición: Dos variables aleatorias X e Y son independientes si P( (X∈ A) ∩ (Y ∈ B)) = P(X∈A) P(Y∈B) para todo A⊂R, B⊂R. Se puede demostrar que esta definición es equivalente a que la función de distribución conjunta se escriba como producto de las marginales. Esto se enuncia en la siguiente proposición. Proposición: Sean X e Y variables aleatorias. Sea F X la función de distribución de X, F Y la función de distribución de Y y F la función de distribución conjunta de X e Y. Entonces: X e Y son independientes ⇔ F(x,y) = F X (x)F Y (y) ∀ (x,y)∈R 2 La siguiente proposición dice que, para el caso particular de variables discretas, la independencia es equivalente a que la f.p.p. conjunta sea el producto de las marginales. Proposición: Sean X e Y dos variables aleatorias discretas. Entonces: X e Y son independientes ⇔ p(x,y) = p X (x)p Y (y) ∀ (x,y)∈R 2 Para variables continuas la independencia es equivalente a que tengan una funcion de densidad conjunta que se escriba como producto de las marginales: Proposición: Sean X e Y dos variables aleatorias continuas. Entonces: X e Y son independientes ⇔ f(x,y) = f X (x f Y (y) ∀ (x,y)∈R 2 58 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Distribución conjunta de n variables aleatorias. A pesar de que el título de esta sección es “distribución conjunta de variables aleatorias” en todas las definiciones y propiedades nos restringimos a dos variables. Pero esto ha sido sólo para simplificar la notación, todo se extiende a n variables en forma natural. Veamos por ejemplo la extensión de la definición de f.p.p. conjunta y de la independencia para variables discretas y continuas. Función de probabilidad conjunta de n variables aleatorias discretas. Definición Sean X 1 , X 2 ,..., X n vs. as. discretas definidas en el mismo espacio de probabilidad. Su función de probabilidad puntual conjunta es la función: p(x 1 , x 2 ,..., x n ) = P(X 1 =x 1 , X 2 =x 2 ,..., X n =x n ) Proposición: Las vs. as. discretas X 1 , X 2 ,..., X n son independientes si su f.p.p. conjunta es el producto de las f.p.p. marginales: p(x 1 , x 2 ,..., x n ) = p X1 (x 1 ) p X2 (x 2 )... p Xn (x n ) ∀ (x 1 , x 2 ,..., x n )∈R n Proposición: Las vs. as. continuas X 1 , X 2 ,..., X n son independientes si su función de densidad conjunta es el producto de las funciones de densidad marginales: f(x 1 , x 2 ,..., x n ) = f X1 (x 1 ) f X2 (x 2 )... f Xn (x n ) ∀ (x 1 , x 2 ,..., x n )∈R n Esperanza de una función de dos vs. aleatorias. Enunciamos un teorema que dice que para una v.a. X discreta se cumple E g X g x p x x I x ( ( ) ) ( ) ( ) = ∈ ∑ y que para una v.a. X continua es E g X g x f x dx ( ( )) ( ) ( ) = − ∞ + ∞ ∫ Este teorema se generaliza para poder calcular la esperanza de una g(X,Y): Teorema: Sean X e Y variables aleatorias y g:R 2 →R, a) Si X e Y son discretas con f.p.p. conjunta p(x,y) entonces: E g X Y g x y p x y y I x I Y X ( ( , ) ) ( , ) ( , ) = ∈ ∈ ∑ ∑ b) Si X e Y son vs. as. con función de densidad conjunta f(x,y), entonces: E g X Y g x y f x y dx dy ( ( , )) ( , ) ( , ) = − ∞ + ∞ − ∞ + ∞ ∫ ∫ Usando el teorema anterior, se prueba fácilmente la propiedad que hemos usado tantas veces y que nunca dijimos como se podía demostrar: 59 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Proposición: Si X e Y son vs. as. Si existe E(X) y E(Y) entonces existe también E(X+Y) y vale: E(X + Y) = E(X) + E(Y) ¿Cuánto vale E(X.Y)? En general hay que calcularla usando el teorema que permite calcular E(g(X,Y)). Pero para el caso particular de variables independientes se puede demostrar fácilmente la siguiente proposición (la demostración fácil es para el caso discreto o continuo, aunque la proposición vale siempre): Proposición: Si X e Y son vs. as. independientes con esperanza entonces: E(X.Y) = E(X).E(Y) Covarianza entre dos vs. as. Se definió varianza de una v.a. X: Var(X)= E(X-E(X)) 2 En forma parecida se define covarianza entre dos vs.as. X e Y : cov(X,Y)= E[(X-E(X)).(Y-E(Y))] Observar que la varianza es un caso particular de la covarianza, ya que cov(X,X) = Var(X). Cómo se calcula? Usando el teorema que permite calcular E(g(X,Y)) se ve que: a) Caso discreto cov( , ) ( ( ))( ( )) ( , ) X Y x E X y E Y p x y y I x I x Y = − − ∈ ∈ ∑ ∑ b) Caso continuo cov( , ) ( ( ))( ( )) ( , ) X Y x E X y E Y f x y dx dy = − − − ∞ +∞ − ∞ +∞ ∫ ∫ Interpretación intuitiva del signo de la covarianza: si cuando X toma valores “grandes”, Y también tiende a tomar valores grandes, el signo de la cov(X,Y) es positivo. Si cuando X toma valores grandes, Y tiende a tomar valores pequeños sg(cov(X,Y))<0 (justificar intuitivamente). Si se elige un alumno al azar y X = nota en Matemáticas, Y = numero de horas por semana que trabaja fuera de la facultad, cual es el signo de cov(X,Y)? Hemos visto que otra forma de calcular varianza es usar que: Var X E X E X ( ) ( ) ( ( )) = − 2 2 La covarianza tiene una expresión semejante: Proposición: cov(X,Y) = E(X.Y) – E(X).E(Y) Esta proposición permite calcular covarianza en forma más simple, calculando primero por separado E(X), E(Y) y E(X.Y). Ejercicio: calcular cov(X,Y) para el ejemplo 4 (caso discreto). . 60 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Proposición: Si X e Y son independientes entonces cov(X,Y)= 0 Vimos que E(X+Y) = E(X) + E(Y) ¿Cuánto valdrá Var(X+Y)? Proposición a) Var(X+Y) = Var(X) + Var(Y) + 2 cov(X,Y) b) Var(X-Y) = Var(X) + Var(Y) - 2 cov(X,Y) c) Si X e Y son vs. as. independientes entonces Var(X+Y) = Var(X) + Var(Y) Hemos visto que Var(aX+b) = a 2 Var(X). Una propiedad similar para la covarianza está dada por la siguiente proposición (fácil demostrar, usando propiedades ya conocidas de la esperanza) Proposición: Cov(aX+b,cY+d) = a.c.cov(X,Y) (1) Puede observarse que, como consecuencia de la proposición anterior, la covarianza de dos variables cambia al cambiar de unidades las variables. No vale lo mismo la covarianza entre peso (en kg.) y estatura (en metros) que si las unidades son gramos y cm. ¿Cómo cambia la cov en este ejemplo? Una medida de la relación entre dos variables, que no cambia al cambiar de unidades es el coeficiente de correlación definido del modo siguiente. Coeficiente de correlación (o coeficiente de correlación lineal). Definición ) ( ) ( ) , cov( ) , ( Y Var X Var Y X Y X = ρ Observación: Como es evidente que sg(ρ(X,Y)) = sg(cov(X,Y)), el signo del coeficiente de correlación tiene el mismo significado intuitivo que el signo de la covarianza. Proposición a) ρ(aX+b,cY+d) = sg(a.c) ρ(X,Y) (de esta propiedad surge que ρ no varía al cambiar las unidades de las variables X y/o Y) b) -1 ≤ ρ(X,Y) ≤ 1 c) ρ(X,Y) =1 ⇔ existen números reales a y b, con con a≠0 tales que Y=aX+b con probabilidad 1. La demostración de a) sale fácilmente de las propiedades análogas para la varianza y la covarianza (1). Demostraremos propiedades similares a b) y c) cuando estudiemos el coeficiente de correlación muestral r, en inferencia estadística 61 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Suma y promedio de variables aleatorias independientes. Ley de los grandes números. Teorema central del Limite. Teorema (Desigualdad de Tchebycheff). Sea X una v.a. con cualquier distribución, con esperanza y varianza finitas. Sea a>0. Entonces: P( | X - E(X)| a ) ≥ ≤ Var X a ( ) 2 Comentario: observar que la desigualdad de Tchebycheff es equivalente a: P( |X- E(X)| a) < ≥ − 1 2 Var X a ( ) Ejemplo de aplicación: Sea X una v.a. con cualquier distribución con esperanza y varianza finitas. Llamemos µ a su esperanza y σ 2 a su varianza. Dar una cota para a) P(µ-2σ ≤ X ≤ µ+2σ) Si sabemos que X∼Normal, ¿cuánto vale esta probabilidad? b) ídem a) para P(µ-3σ ≤ X ≤ µ+3σ) c) ídem a) para P(µ-σ ≤ X ≤ µ+σ) Esperanza y varianza de sumas de vs. as. independientes Dijimos que si X 1 ,...,X n son vs. as. ( ) ∑ ∑ = = = n i i n i i X E X E 1 1 ) ( Si X 1 ,...,X n son vs. as. independientes ( ) ∑ ∑ = = = n i i n i i X Var X Var 1 1 ) ( Proposición : Sean X 1 ,...,X n son vs. as. independientes, todas con la misma esperanza y la misma varianza finita. Llamemos µ a E(X i ) y σ 2 a la Var(X i ). Sea S i i n = = ∑ 1 X y X X n i i n = = ∑ 1 entonces µ n S E = ) ( , Var 2 ) ( σ n S = µ = ) ( X E , n X 2 ) ( σ = Var 62 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben Nota: obsérvese que el caso X 1 ,...,X n vs. as. independientes igualmente distribuidas (i.i.d.) con esperanza y varianza finita cumple las condiciones de la proposición. Convergencia de una sucesión de variables aleatorias. Una definición (no es la única que se usa) es la siguiente: Definición de convergencia en probabilidad. Sea Y 1 ,...,Y n ,... una sucesión de variables aleatorias. Se dice que Y Y e n p r o b a b i l i d a d n n → ∞ → si para cualquier ε>0 se cumple que l i m P ( | Y Y | > ) = 0 n n → ∞ − ε Teorema (Ley de los Grandes Números, versión de Tchebycheff) Sean X 1 ,...,X n son vs. as. independientes, todas con la misma esperanza y la misma varianza finita. Llamemos µ a E(X i ) y σ 2 a la Var(X i ). Sea X X n n i i n = = ∑ 1 Entonces µ → ∞ → n n X en probabilidad La demostracion del teorema anterior sale facil de la desigualdad de Tchebycheff. Luego se probó que no es necesario suponer varianza finita, como lo muestra el teorema siguiente. Teorema (Ley de los Grandes Números, versión de Khintchine, 1929) Sean X 1 ,...,X n son vs. as. i.i.d., todas con esperanza finita. Llamemos µ a E(X i ) Entonces µ → ∞ → n n X en probabilidad Distribución de la suma de variables independientes. Proposición : Sean X e Y variables aleatorias independientes. a) Si X ∼ Bin(n 1 ,p), Y ∼ Bin(n 2 ,p), entonces X+Y ∼ Bin(n 1 +n 2 ,p). b) Si X ∼ Poisson(λ 1 ), Y ∼ Poisson(λ 2 ), entonces X+Y ∼ Poisson(λ 1 + λ 2 ) c) Si X ∼ N(µ 1 ,σ 1 2 ), Y ∼ N(µ 2 ,σ 2 2 ), entonces X+Y ∼ N(?,?) (rellenar los ?) 63 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben d) Si X ∼ Γ( α 1 , λ), Y ∼ Γ( α 2 , λ) entonces X+Y ∼ Γ( α 1 +α 2 , λ) El inciso a) es intuitivamente razonable, verdad? Los otros no son intuitivos. Comentario: Esta propiedad de que la distribución de la suma de 2 vs as independiente “pertenece a la misma familia” no es general. Por ejemplo, si X e Y son vs. as. independientes, cada una con distribución uniforme en el intervalo [a,b], X+Y no tiene distribución uniforme. Proposición (generalización de la proposición anterior) Sean X 1 ,...,X m variables aleatorias independientes. a) Si X i ∼ Bin(n i ,p) entonces ∑ ∼ Bin( ∑ ,p). = m 1 i i X = m 1 i i n b) Si X i ∼ Poisson(λ i ) entonces ∼ Poisson( ). ∑ = m 1 i i X ∑ = m i i 1 λ c) Si X i ∼ N(µ i ,σ i 2 ), entonces ∼ N( ∑ , ∑ ). ∑ = m 1 i i X = µ m 1 i i = σ m 1 i 2 i d) Si X i ∼ Γ( α i , λ) entonces ∼ Γ( , λ) ∑ = m 1 i i X ∑ = α m 1 i i Vamos a enunciar dos resultados sobre la districión de la suma y el promedio de variables i.i.d. Teorema 1: Sean X 1 ,...,X n son vs. as. i.i.d. N(µ,σ 2 ). Sea ∑ = = n 1 i i X S y n X X n 1 i i ∑ = = entonces S ∼ N(nµ, nσ 2 ) , X ∼ N(µ, σ 2 /n) Este teorema es consecuencia del inciso b) de la proposición anterior. Teorema 2 (con la tesis escrita en forma no rigurosa) Sean X 1 ,...,X n son vs. as. i.i.d. con cualquier distribución, con esperanza y varianza finitas. Llamemos µ a la E(X i ) y σ 2 =Var(X i ). Sea S n i n = = ∑ 1 X i y X X n n i i n = = ∑ 1 entonces 64 FCEyN - Estadística para Química - 2do. cuat. 2006 - Marta García Ben S n ∼ N( ? , ? ) n X ∼ N( ? , ? ) (a) (a) cuando n es grande. Notación: usamos ∼ como abreviatura de “tiene distribución aproximadamente” (a) Comentarios: - Cuál es más llamativo el teorema 1 o el teorema 2? - El Teorema 2 se llama Teorema Central del Límite. La tesis del TCL se escribe formalmente así: Sea Z X n 2 = − n n µ σ / , o lo que es lo mismo, sea Z n n 2 = − S n n µ σ entonces lim F Zn (z) = Φ(z) n→∞ “Receta”: En la mayoría de las aplicaciones, la aproximación que dá el TCL es satisfactoria para n≥30. - Como se obtuvo esta receta?: empiricamente. - Por qué la distribución normal es muy usada? No tanto porque sirva de modelo para algunas variables aleatorias, sino gracias al TCL. Aunque una variable aleatoria tenga una distribución que no sea gaussiana, la suma o el promedio de muchas variables tiene distribución aproximadamente gaussiana. Ademas hay versiones del TCL con menos hipotesis que la version que enunciamos. Teorema (aproximación de la distribución binomial por la normal) (con la tesis escrita en forma no rigurosa). Sea X∼ Bin(n,p). Si n es “grande” X ∼ N(np, np(1-p)) (a) Comentarios: - La aproximación normal a la binomial es satisfactoria cuando np≥5 y n(1-p)≥5. - Para valores de n que cumplen la condición anterior, pero no son “muy grandes” la “corrección por continuidad” mejora mucho la aproximación. 65 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Conceptos generales de inferencia estadística. Estimación de parámetros. Intervalos de confianza. Inferencia estadística: Dijimos en la primera clase que inferencia estadística es el estudio de técnicas que permiten, a partir de los datos de una muestra, obtener alguna información sobre la población (de la que se extrajo la muestra). Veamos algunos ejemplos de problemas en los que se pueden aplicar técnicas de inferencia estadística: Ejemplo 1: Quiero conocer la media de las estaturas de los niños de 8 años varones que viven en la ciudad de Buenos Aires. Para ello elijo 200 niños al azar y les mido su estatura. Ejemplo 2: Quiero conocer el contenido de hierro de una muestra de cierto mineral. Hago 10 determinaciones. Ejemplo 3: Quiero conocer la proporción de personas que están de acuerdo con cierta medida del gobierno entre las personas mayores de 18 años que viven en la ciudad de Buenos Aires. Para ello elijo 400 personas al azar y le pregunto a cada una si está o no de acuerdo. Modelos probabilísticos que puedo usar para estos problemas: Para el ejemplo 1: Llamo X i a la estatura del i-ésimo niño seleccionado al azar, entonces supongo: X 1 , X 2 , ..., X 200 vs. as. i.i.d N(µ,σ 2 ) Donde no conozco ni µ ni σ 2 µ representa la media poblacional de las estaturas y σ 2 la varianza poblacional. Para el ejemplo 2: se suele usar un modelo similar: X 1 , X 2 , ..., X 10 vs. as. i.i.d N(µ,σ 2 ) ¿Que representan X i , µ y σ 2 en este ejemplo? Para el ejemplo 3: 1er modelo: Si llamo X=nro de personas que responden que están a favor, entonces X ∼ Bin(n=400, p) donde p es desconocido ¿Que representan p en este ejemplo? Otro modelo: Si llamo X i a la variable que vale 1 si la i-ésima persona encuestada responde que está a favor y 0 en caso contrario, entonces X 1 , X 2 , ..., X 400 vs. as. i.i.d Bin(1,p) (o Bernoulli(p) que es lo mismo). Como puede apreciarse en estos ejemplos en inferencia estadística planteamos primero modelos probabilísticos que consideramos adecuados para el problema que queremos resolver. En estos tres ejemplos y en muchos otros los modelos son de este tipo: X 1 , X 2 , ..., X n vs. as. i.i.d., cada una con una distribución de la forma F(x,θ,λ,...) donde la función F es conocida, pero los parámetros θ, λ, etc. son desconocidos. 66 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Estimación de parámetros En el ejemplo 1 queremos estimar (conocer aproximadamente) la media µ. Un estimador intuitivamente razonable es la media muestral n X X n i i ∑ = =1 En el ejemplo 3, un estimador intuitivamente razonable de la proporción poblacional p de personas que están de acuerdo con el gobierno es la proporción muestral n X pˆ = si planteamos el primer modelo o la proporción muestra n X p n i i ∑ = = 1 ˆ si planteamos el segundo. En general si X 1 , X 2 , ..., X n son vs. as. cuya distribución depende de un parámetro desconocido θ un estimador de θ es una función de X 1 , X 2 , ..., X n "convenientemente" elegida, de modo de que el error de estimación sea "pequeño". Un criterio para medir la bondad de un estimador: Error cuadrático Medio. Sean X 1 , X 2 , ..., X n vs. as. cuya distribución depende de un parámetro desconocido θ y sea g(X = θ ˆ 1 , X 2 , ..., X n ) un estimador θ. Se define error cuadrático medio del estimador θ ˆ ECM de = E( - θ ) θ ˆ θ ˆ 2 Buscaremos estimadores que tengan ECM "pequeño". Ejemplo: Sean X 1 , X 2 , ..., X n vs.as. i.i.d. con cualquier distribución con E(X i )=µ y Var(X i )= σ 2 . Hallar el ECM de X como estimador de µ . Una propiedad de un estimador: estimadores insesgados. Definición: Sean X 1 , X 2 , ..., X n vs. as. cuya distribución depende de un parámetro desconocido θ y sea g(X = θ ˆ 1 , X 2 , ..., X n ) un estimador θ. Se dice que es un estimador insesgado de θ si θ ˆ E( ) = θ θ ˆ Ejemplo:Sean X 1 , X 2 , ..., X n vs.as. i.i.d. con cualquier distribución con E(Xi)=µ y Var(Xi) = σ 2 . a) Es X un estimador insesgado de µ ? b) Encontrar un estimador insesgado de σ 2 Sesgo de un estimador Sean un estimador θ. Se define sesgo de : θ ˆ θ ˆ sesgo de = E( ) - θ θ ˆ θ ˆ 67 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Relación entre ECM, varianza y sesgo: Se puede demostrar facilmente que ECM de = Var( ) θ ˆ θ ˆ + (sesgo de ) θ ˆ 2 por lo que buscamos estimadores que tengan "poca" varianza y "poco" sesgo. Muchas veces se buscan estimadores insesgados (o sea con sesgo cero) pero esta propiedad no es imprescindible. Una propiedad de un estimador para muestras grandes: estimadores consistentes. Definición: Sean X 1 , X 2 , ..., X n vs. as. cuya distribución depende de un parámetro desconocido θ y sea g = n θ ˆ n (X 1 , X 2 , ..., X n ) una sucesión de estimadores de θ. Se dice que θ ˆ n es consistente si ∞ → n lim θ ˆ n = θ Intervalo de confianza para un parámetro Antes de dar la definición de intervalo de confianza, vamos a encontrarlo para un ejemplo. Supongamos que se conoce por la experiencia previa que un método de medición del porcentaje de hierro en un mineral tiene una desviación standard de 0.12. También se sabe por experiencia que si hacemos muchas determinaciones de la misma muestra la distribución de las mediciones es aproximadamente normal (el histograma de las mediciones hechas en una misma muestra se parece a la curva de Gauss con σ=0.12). Hacemos 4 determinaciones del contenido de hierro en un trozo de mineral y obtenemos: 15.18% 15.32% 15.46% 15.25% Teniendo en cuenta la experiencia previa, podemos considerar el siguiente modelo: Modelo: X 1 , X 2 , ..., X n vs. as. i.i.d N(µ,σ 2 ) con n=4 y σ=0.12 El único parametro desconocido de este modelo es la media µ. El estimador de µ es la media muestral X que en este ejemplo da 15.3025 o, redondeando, 15.30. Pero cuanto vale µ? Obviamente µ no tiene por qué valer 15.30. Pero vamos a encontrar un intervalo que contiene al verdadero valor de µ con probabilidad alta. Intervalo de confianza para la media de un población, basado en una muestra normal con varianza conocida. Consideramos el siguiente modelo: X 1 , X 2 , ..., X n vs. as. i.i.d N(µ,σ 2 ) con σ conocido. (1) El estimador de µ n X X n 1 i i ∑ = = Sabemos que, bajo el modelo (1) X ∼ N( µ, n 2 σ ) 68 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Estandarizando: n / X 2 σ µ − ∼ N( 0,1) (2) Como en la curva de Gauss el area entre –1.96 y 1.96 es 0.95 resulta que: P ( -1.96 ≤ n / X 2 σ µ − ≤ 1.96 ) =0.95 Pasando términos de miembro con el objetivo de dejar µ en el centro obtenemos: P ( X – 1.96 * σ / √n ≤ µ ≤ X + 1.96 * σ / √n ) = 0.95 (3) El intervalo _ _ [ X – 1.96 * σ / √n , X + 1.96 * σ / √n ] (4) se llama intervalo de confianza para µ con nivel de confianza del 0.95 (o 95%). Ejemplo: en el ejemplo de las 4 determinaciones de hierro obtenemos: [ 15.3025 – 0.1176 , 15.3025 + 0.1176 ] [ 15.1849 , 15.4201 ] o redondeando, el intervalo de confianza al 95% para la media µ es [15.18, 15.42]. Que significa que el intervalo de confianza tenga nivel 95%? Significa que si extrajésemos muchas (muchísimas!) muestras y para cada muestra calculásemos el intervalo de confianza, entonces el 95% de los intervalos contendrían al verdadero valor del parámetro de la población (en nuestro ejemplo el parámetro es la media µ ). Comentarios: 1) Volvamos al ejemplo de las determinaciones de hierro: Habíamos obtenido que el intervalo de confianza para µ al 95% es [15.18 , 15.42] Aunque sea intuitivamente razonable no es correcto escribir P ( 15.18 ≤ µ ≤ 15.42 ) = 0.95 por qué? 2) Qué ventajas y que desventajas tiene calcular un IC al 99% en vez del 95%. 3) Qué es lo que hay que cambiar en (4) para obtener un IC al 99%? 69 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Continuando con el modelo (1), o sea con el modelo de una muestra normal con varianza conocida, la expresión para el IC para con cualquier nivel es similar a (4) pero cambiando el valor 1.96. Llamemos z α/2 al valor que deja un area de α/2 en la cola de la curva normal estándar (y por lo tanto un área 1-α entre -z α/2 y z α/2 ). El intervalo [ X – z α/2 * σ / √n , X + z α/2 * σ / √n ] (5) es un intervalo de confianza para µ con nivel de confianza 1-α. Definición general de intervalo de confianza: Sean X 1 , X 2 , ..., X n vs. as. cuya distribución depende de un parámetro desconocido θ. Un intervalo de confianza para θ con nivel de confianza 1-α es un intervalo de extremos aleatorios (que dependen de la muestra X 1 , X 2 , ..., X n ) [ a(X 1 , X 2 , ..., X n ) , b(X 1 , X 2 , ..., X n ) ] tal que P ( a(X 1 , X 2 , ..., X n ) ≤ θ ≤ b(X 1 , X 2 , ..., X n ) ) = 1 - α Comentario: La expresión (5) nos dá un intervalo de confianza para µ para variables con distribución normal y varianza conocida. También vamos a poder calcular IC para µ sin conocer la varianza, o sin conocer la distribución de la variable o intervalos de confianza para otros parámetros. Las expresiones para calcularlos van a ser diferentes en cada caso, pero el objetivo y las ideas generales son siempre los mismos. Cálculo del tamaño de la muestra. Con la muestra de las cuatro determinaciones de hierro obtuvimos el siguiente IC al 95% para la media: [ 15.3025 – 0.1176 , 15.3025 + 0.1176 ] [ 15.1849 , 15.4201 ] El intervalo obtenido tiene longitud = 2*0.1176 = 0.2352 Que se puede hacer si se desea un IC al 95% con menor longitud? Llamando L a la longitud del IC, se puede obtener de (4) que L = 2 * 1.96 * σ / √n y entonces, puede observarse que aumentando n disminuye la longitud del IC y que esta longi- tud puede hacerse tan pequeña como se desee tomando n suficientemente grande. Si por ejemplo deseamos calcular un IC de longitud L ≤ 0.10 deberá ser 70 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben L = 2 * 1.96 * 0.12 / √n ≤ 0.10 De esta inecuación se despeja (2 * 1.96 * 0.12 ) / 0.10 ≤ √n [(2 * 1.96 * 0.12 ) / 0.10 ] 2 ≤ n 22.13 ≤ n o sea que haciendo 23 (o más) determinaciones se obtiene un IC de longitud ≤ que 0.10. Comentarios: 1) Cuando se duplica el tamaño de la muestra (n), que ocurre con la longitud del IC? 2) Cuando se multiplica por 4 el tamaño de la muestra? Intervalo de confianza para la media de un población, basado en una muestra normal con varianza desconocida. Consideramos ahora el siguiente modelo: X 1 , X 2 , ..., X n vs. as. i.i.d N(µ,σ 2 ) con σ conocido. (6) El estimador de µ sigue siendo X Sigue valiendo que, bajo el modelo (6) X ∼ N( µ, n 2 σ ) Estandarizando: n / X 2 σ µ − ∼ N( 0,1) (7) Si seguimos los mismos pasos que para el caso σ conocido, volveríamos a obtener las expresion (4) o la expresión más general (5). Pero (4) o (5) no son intervalos de confianza para µ, porque los extremos del intervalo dependen de σ y por lo tanto no cumplen la definición de IC. Además es intuitivo que (4) o (5) no son de utilidad ya que no pueden calcularse, verdad? Para solucionar este problema reemplacemos en (7) σ 2 por la varianza muestral s 2 y obtenemos n / s X 2 µ − (8) La distribución de (7) es N(0,1) pero la de (8) no. W. S. Gosset, que escribía bajo el seudónimo de Student, a principios del siglo XX encontró la distribución de (8) (su función de densidad ya que es una variable aleatoria continua). La función de densidad de (8) depende del tamaño de la muestra (n), La función de densidad de (8) tiene una forma de campana similar a la curva normal, pero tiene mayor varianza que la distribución N(0,1) (esto último es intuitivamente razonable, por qué). Cuando n es grande se parece a la curva N(0,1) (esto también es intuitivamente esperable). En honor a Student, la distribución de (8) se llama distribución "t de Student con n-1 grados de libertad", lo que notaremos: 71 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben n / s X 2 µ − ∼ t n-1 (9) Si llamamos t n-1 ; α/2 al valor que deja un área de α/2 en la cola de la función de densidad t n-1 , siguiendo una deducción análoga al caso σ conocido obtenemos: P ( X – t n-1 ; α/2 * s / √n ≤ µ ≤ X + t n-1 ; α/2 * s / √n) = 1-α y por lo tanto el intervalo [ X – t n-1 ; α/2 * s / √n ≤ µ ≤ X + t n-1 ; α/2 * s / √n] (10) es un intervalo de confianza para µ con nivel de confianza 1-α. Ejemplo: en el ejemplo de las 4 determinaciones de hierro calculamos X=15.3025, s=0.1195. Buscamos en un tabla o en Statistix el valor de la curva de t con n-1=3 grados de libertad que deje un area de 0.025 en la cola que es 3.18. Reemplazamos en (10) [ 15.3025 – 3.18*0.1195 / √4 , 15.3025 + 3.18*0.1195 / √4] [ 15.3025 – 0.1900 , 15.3025 + 0.1900 ] [ 15.11125 , 15.4925 ] o redondeando, el intervalo de confianza al 95% para la media µ es [15.11, 15.49]. Este intervalo puede calcularse sin hacer ninguna cuenta con Statistix. Para ello hay que ingresar las cuatro determinaciones hechas y luego marcar “Summary Statistics”, “Descriptive Statistics” y poner un tilde en el casillero Conf Int. Se obtiene: DESCRIPTIVE STATISTICS VARIABLE N LO 95% CI MEAN UP 95% CI SD HIERRO 4 15.112 15.303 15.493 0.1195 Comentario: Los valores de la tabla de t que dejan un area 1-α en el centro y α/2 en cada cola disminuyen cuando n aumenta y tienden al valor z α/2 cuando n→∞. Por ejemplo para 1-α = 0.95, el valor t n-1 ; α/2 es 3.18 para n=4, 2.26 para n=10, 1.98 para n=100 y su limite para n→∞ es 1.96. Ejercicio: Sean X 1 , X 2 , ..., X n vs. as. i.i.d N(µ,σ 2 ), encontrar un intervalo de confianza con nivel 1-α para la varianza σ 2 suponiendo: a) µ conocido b) µ desconocido. Intervalo de confianza con nivel asintótico para la media de una población para cualquier distribución (válidos para muestras “grandes”). La limitación que tienen los modelos anteriores es que suponen distribución normal. Gracias al Teorema Central del Límite vamos a poder calcular intervalos de confianza para µ aunque sepamos que la variable no tiene distribución normal o no tengamos ninguna información previa sobre la distribución de la variable. Pero estos intervalos sólo van a valer para n "grande". 72 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Consideramos el siguiente modelo: X 1 , X 2 , ..., X n vs. as. i.i.d con cualquier distribución (11) Llamemosµ=E(X i ) y σ 2 = Var(X i ) . Vamos a suponer (es el caso más usado) que no conocemos σ. El estimador de µ sigue siendo X Sigue valiendo que, bajo el modelo (11), gracias al TCL cumple X N( µ, a ~ n 2 σ ) para n grande donde hemos usado la notación para indicar "tiene distribución aproximadamente" a ~ Estandarizando: n / X 2 σ µ − N( 0,1) para n grande a ~ Si n es grande, la DS muestral es un estimador consistente de la DS poblacional, así que ambas van a ser “parecidas” s ≅ σ , por lo tanto n / s X 2 µ − N( 0,1) para n grande a ~ Luego: P ( - z α/2 ≤ n s X / 2 µ − ≤ z α/2 ) ≅ 1-α para n grande o, más claramente escrito: ∞ → n lim P ( - z α/2 ≤ n s X / 2 µ − ≤ z α/2 ) = 1-α Pasando de miembro se llega a que P ( ∞ → n lim X – z α/2 * s / √n ≤ µ ≤ X + z α/2 * s / √n) = 1-α y por esto el intervalo [ X – z α/2 * s / √n , X + z α/2 * s / √n ] (12) se llama intervalo de confianza para µ con nivel de confianza asintótico 1-α. 73 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Ejemplo: En la clase de estadística descriptiva mostramos el siguiente histograma de PCR (proteína C reactica) en pacientes cardíacos. Se puede ver que la distribución no es gaussiana. Estamos en el límite de poder aplicar el TCL porque habíamos dicho como "receta" que en general daba una aproximación aceptable para n≥30. Acá n=29. Apliquémoslo igual, sabiendo que el nivel de confianza no es exacto sino una aproximación. Calculamos primero la media y la DS con el Statistix: DESCRIPTIVE STATISTICS PCR N 29 MEAN 38.665 SD 38.537 1ST QUARTI 9.5150 MEDIAN 25.440 3RD QUARTI 57.970 Si queremos un IC al 95%, entonces z α/2 = 1.96. Reemplazamos en (12): [38.665 – 1.96 * 38.537 / √29 , 38.665 – 1.96 * 38.537 / √29] [38.665 – 14.026 , 38.665 – 14.026] [24.639 , 52.691] o redondeando "el intervalo de confianza al 95% para la media de PCR en la población de enfermos cardíacos con tales características.... es [24.6, 52.7]" o, como se suele escribir resumiendo: "La media de PCR los 29 pacientes cardíacos estudiados es38.7 (IC al 95%: 24.6 a 52.7)." 74 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Si en Statistix, en Descriptive Statistics tildamos la casilla que dice "Conf. Int." obtenemos: DESCRIPTIVE STATISTICS VARIABLE N LO 95% CI MEAN UP 95% CI SD PCR 29 24.007 38.665 53.324 38.537 Se observa que en el Statistix el IC al 95% resulta ser [24.0, 53.3] y nosotros obtuvimos [24.6, 52.7]. ¿Hay alguno erróneo? ¿Por qué esta discrepancia? Tamaño de la muestra cuando no se conoce σ. Con la muestra de 29 pacientes cardíacos el IC al 95% para la media (poblacional) de PCR resultó: [38.665 – 14.026 , 38.665 – 14.026] [24.639 , 52.691] El intervalo obtenido tiene longitud = 2*14.026 = 28.05 ¿Que se puede hacer si se desea un IC al 95% con menor longitud? Llamando L a la longitud del IC, se puede obtener de (12) que L = 2 * z α/2 * s / √n Si deseamos obtener un IC al 95% para la media de PCR de longitud L ≤ 10 deberá ser L = 2 * 1.96 * 38.537 / √n ≤ 10 Despejando n: (2 * 1.96 * 38.537 ) / 10 ≤ √n [(2 * 1.96 * 38.537 ) / 10] 2 ≤ n 228.2 ≤ n o sea que habría que tomar una muestra de 229 pacientes (o más) para obtener un IC de longitud menor o igual que 10. Pero este procedimiento es aproximado, porque no podemos asegurar que tomando 229 pacientes la longitud del IC sea ≤ 10. Esto se debe que en el razonamiento anterior hay una pequeña trampita: cuando extraemos la nueva muestra de 229 pacientes, s ya no va a ser igual a 38.537 que es el valor que obtuvimos con 29 pacientes. Lo que hemos aplicado es un procedimiento aproximado que podemos resumir en los siguiente pasos: 75 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Procedimiento aproximado para obtener un IC de una longitud deseada: 1er paso: se obtiene una estimación de la desviación standard de algún estudio previo, de una muestra piloto, de la literatura o de la experiencia del investigador. Llamemos s* a esa estimación. 2do paso: usando s* se calcula el tamaño de la muestra: L = 2 * 1.96 * s / √n ≅ 2 * 1.96 * s* / √n ≤ Longitud Deseada y de la última inecuación se despeja n. 3er. paso: Se extrae la muestra del tamaño calculado en el 2do paso y se calcula el IC basándose en esta muestra. Con este procedimiento: - No se asegura que la longitud del IC sea la deseada. Es un procedimiento aproximado. - Si la estimación previa de la DS no es buena, esto puede hacer que el IC calculado no sea correcto y no tenga el nivel de confianza deseado del 95%? Comentarios: 1) Hay otra aproximación en este procedimiento que en el ejemplo anterior no importó. En el ejemplo anterior n=229, pero si hubiésemos obtenido un n chico (digamos n<30), para calcular el IC en el 3er. paso, no habría que usar (12) sino (10) (siempre que la variable tenga distribución aproximadamente gaussiana) y esto no lo hemos tenido en cuenta en el primer paso. Pero esto es lo más fácil de arreglar (pensar o consultar). Lo más difícil de arreglar es lo que dijimos antes: el desconocimiento de s. 2) Existe un procedimiento exacto para calcular el n que asegure un IC de longitud ≤ long deseada. No lo explicaremos en este curso. Se usa poco, ya que en general el investigador quiere tener una idea aproximada de la longitud del IC, pero no tiene establecida la obligación de obtener un intervalo de longitud prefijada. Intervalo de confianza con nivel asintótico para una proporción poblacional (o para el parámetro "p" de la distribución binomial). Pensemos en un problema como el del ejemplo 3 en el que deseamos estimar una probabilidad o una proporción poblacional. Podemos considerar el modelo: X ∼ Bin(n, p) o el modelo X 1 , X 2 , ..., X n vs. as. i.i.d Bin(1,p) El estimador de p es la proporción muestral n X p = ˆ n X n i i ∑ = = 1 76 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Sabemos que si n es grande, la distribución binomial se puede aproximar por la normal. X N( np, np(1-p)) para n grande a ~ pˆ N( p , a ~ n p) p(1− ) para n grande Estandarizando p)/n p(1 p pˆ − − N( 0,1) para n grande a ~ Pero p es un estimador consistente de p, luego si n es grande , ˆ pˆ ≅ p , por lo tanto )/n pˆ (1 pˆ p pˆ − − a N( 0,1) para n grande ~ Luego: ∞ → n lim P ( - z α/2 ≤ )/n pˆ (1 pˆ p pˆ − − ≤ z α/2 ) = 1-α y continuando como en el caso del IC para µ se deduce que el intervalo [ p + z ˆ α/2 * n ) pˆ (1 pˆ − , + z pˆ α/2 * n ) pˆ (1 pˆ − ] (13) es un intervalo de confianza para p con nivel de confianza asintótico 1-α. Ejemplo: Supongamos que en el ejemplo 3, de las 400 personas encuestadas 80 (20%) responden que están a favor de la medida de gobierno. Entonces 400 80 ˆ = p = 0.20 Si queremos un IC al 95% para p, entonces z α/2 = 1.96 y reemplazando en (13) obtenemos: [ 0.20 - 1.96 * 400 0.20) 0.20(1 − , 0.20 + 1.96 * 400 0.20) 0.20(1 − ] [ 0.20 - 0.0392 , 0.20 + 0.0392 ] [ 0.1608 , 0.2392 ] Redondeando el IC al 95% para la proporción de personas que están de acuerdo con la medida del gobierno es [0.16 , 0.24]. 77 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Tests de hipótesis estadísticas Test de hipótesis sobre la media de una población . Introducción con un ejemplo. Los tests de hipótesis estadísticas se emplean para muchos problemas, en particular para comparar las medias de dos o más poblaciones. Por ejemplo cuando se desea comparar los resultados de dos (o más) métodos de medición. En estos ejemplos hay que considerar dos o más muestras. Los problemas de comparar dos o más muestras los veremos en la clase siguiente. Por ahora consideremos un problema más simple, que es el de considerar una sola muestra y querer estudiar si es cierta o no una hipótesis sobre la media de la población. Ejemplo 1: Consideremos el siguiente ejemplo. Para conocer la exactitud de un método de medición del contenido de níquel en un mineral, se hacen 10 determinaciones para una aleación “standard” preparada de modo que se conoce el verdadero valor del contenido de níquel (con una muy buena aproximación) que es de 4.44%. Se obtienen los siguientes valores: 4.32 4.31 4.50 4.12 4.43 4.36 4.48 4.28 4.18 4.42 Calculemos la media y la DS de estas 10 determinaciones: DESCRIPTIVE STATISTICS VARIABLE N MEAN SD MINIMUM MAXIMUM NIQUEL 10 4.3400 0.1243 4.1200 4.5000 La media de las 10 determinaciones es menor que el valor verdadero, pero esto puede deberse al azar. Aunque el método de medición no tuviese error sistemático (µ fuese igual al verdadero valor), sabemos que la media muestral ( X) no va a coincidir con el verdadero valor, simplemente porque X es una variable aleatoria. La pregunta que nos formulamos es: ¿con estos 10 datos podemos afirmar que el método de medición tiene error sistemático? Para poder hacer afirmaciones de este tipo, vamos a tener que aceptar una probabilidad de error. La teoría de tests de hipótesis forma parte de la teoría de INFERENCIA ESTADÍSTICA. Al querer extrapolar de una muestra a una población siempre hay una probabilidad de cometer error. Una forma intuitiva de responder a la pregunta formulada, sería calcular un intervalo de confianza para la media de la población. Pero como la muestra es pequeña (n=10) necesitamos suponer que los datos son aproximadamente normales para calcular el IC que vimos la clase pasada. Tenemos que mirar los datos para ver si esta suposición es razonable. Un gráfico que ayuda a visualizar esto, es el “normal probability plot”, que mostramos a continuación. Cuando los datos tienen distribución aproximadamente normal, los puntos de este gráfico están cerca de una recta. 78 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Vemos que los puntos están cerca de una recta. Calculemos entonces un IC al 95%, usando la expresión: [ X – t n-1 ; α/2 * s / √n ≤ µ ≤ X + t n-1 ; α/2 * s / √n] o simplemente con el Statistix: DESCRIPTIVE STATISTICS VARIABLE N LO 95% CI MEAN UP 95% CI SD NIQUEL 10 4.2511 4.3400 4.4289 0.1243 Vemos que el IC al 95% para µ es [4.25, 4.43] que no incluye al valor verdadero (4.44%). Basándonos en este IC podríamos decir que µ es menor que el verdadero valor y que el método de medición tiene un error sistemático negativo. ¿Existe la posibilidad de que nos equivoquemos con este procedimiento? Sí, porque el IC no es “seguro” pero tiene una confianza del 95%, o sea una probabilidad de error del 5%. El procedimiento que hemos usado recién es calcular un IC para µ y observar si el valor propuesto en la hipótesis está o no incluído en el IC. Generalmente se usa otro procedimiento de cálculo, pero la conclusión a la que se llega es la misma. Problemas que trata la teoría de tests de hipótesis. El problema que hemos planteado es un ejemplo de un tipo de problemas que se trata en la teoría de tests de hipótesis estadísticas. Los problemas que trata esta teoría son los que pueden plantearse del siguiente modo: observo una muestra y tengo una hipótesis sobre la población (por ejemplo acerca de la media o de la diferencia de dos medias poblacionales) y quiero saber si esa hipótesis es cierta o no. Para ello, como en cualquier problema de inferencia estadística, vamos a plantear primero un modelo probabilístico: 79 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Modelo: X 1 , X 2 , ..., X n vs. as. con una distribución de la forma F(x,θ,λ,...) donde los parámetros θ, λ, etc. son desconocidos, e interpretar la hipótesis como una hipótesis sobre uno de los parámetros (o sobre varios parámetros, o sobre una función de los parámetros). Luego, en función de la muestra observada, se decide si aceptamos o no la hipótesis.. En la teoría de tests de hipótesis estadísticas no se plantea una sóla hipótesis sino dos hipótesis: una se llama hipótesis nula y la otra alternativa. En el ejemplo 1 el químico quiere decidirse entre estas dos hipótesis: 1) el método de medición no tiene error sistemático 2) el método de medición tiene error sistemático Para este ejemplo, podemos plantear el siguiente modelo probabilístico: X 1 , X 2 , ..., X n vs. as. i.i.d N(µ,σ 2 ) (14) donde n=10 y Xi es la i-ésima determinación de níquel . Con este modelo las dos hipótesis se escriben µ = 4.44 µ ≠ 4.44 Es costumbre denotar H 0 a la hipótesis hipótesis nula y H 1 a la hipótesis alternativa. En el ejemplo conviene elegir H 0 : µ = 4.44 H 1 : µ ≠ 4.44 Un test de hipótesis es una regla de decisión que en función de los datos de una muestra X 1 , X 2 , ..., X n nos permite decidirnos por H 0 o por H 1 (mejor diremos “aceptamos H 0 ” o “rechazamos H 0 ”). Esta es la definición de test. DEFINICIÓN: Un test es una regla de decisión que, en función de los datos de una muestra X 1 , X 2 , ..., X n , permite rechazar o aceptar la hipótesis nula. Derivemos un test para el ejemplo que estamos considerando. Es intuitivamente razonable que si X "se parece" a 4.44 vamos a aceptar H 0 y que si X "está lejos” del valor 4.44 vamos a rechazarla. Sabemos que , bajo el modelo (14) T = n / s X 2 µ − ∼ t n-1 Esta variable T no se puede calcular, porque no conozco µ . Si H 0 fuese cierta µ = 4.44, por lo tanto: si H 0 es cierta T = n s X / 44 . 4 2 − ∼ t n-1 Este valor de T se puede calcular, en base a los datos de la muestra y resulta 80 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben 4.34 - 4.44 T = __________________ = -2.54 0.1243 / √10 La idea ahora es la siguiente: si H 0 fuese cierta se espera que X se parezca a 4.44 y que por lo tanto el valor de T recién calculado “esté cerca” del valor cero. Por lo tanto, si X “está lejos” de 4.44 o, lo que es lo mismo, si el valor calculado de T "está lejos” de cero, pensaríamos que es difícil que H 0 sea cierta, y estaríamos dispuestos a RECHAZAR H 0 . Tenemos que definir que queremos decir con “está cerca” o “está lejos” de cero. Cuando H 0 es cierta, el cociente T tiene distribución aproximadamente t n-1 , lo que equivale a decir que si sacásemos muchas muestras (en la práctica sólo se saca una!) y graficásemos el histograma de estos cocientes, el histograma sería parecido a la curva de densidad t n-1 . Se procede así: suponiendo H 0 cierta, se calcula la probabilidad de que ocurra un valor de T como el observado o aún más “lejos” de cero, o sea la probabilidad de que |T|≥ -2.54 (que es el área bajo las dos colas de la curva de la cola de la curva t n-1 a partir del valor –2.54). Esta área puede calcularse usando el StatistiX (Statistics, Probability Functions, T2-tail, x=- 2.54, DF=9). Resulta ser 0.03171. Esta probabilidad se llama "valor P" del test. Entonces, si H 0 fuese cierta, la probabilidad de que ocurra una media muestral X como la observada o más alejada del valor propuesto en H0 es BAJA (p=0.032), ¿cual seria la conclusión entonces? : SE RECHAZA H 0 Se rechaza H 0 cuando el valor de P es pequeño. El valor de corte es arbitrario, pero casi siempre se usa 0.05, o sea se rechaza H 0 cuando P<0.05. ¿Puedo equivocarme? Sí, si H 0 fuese cierta podría darme un valor de T en las colas y rechazar, pero ¿cual es esta probabilidad? Es precisamente 0.05. Es práctica común decir “la diferencia es estadísticamente significativa” como sinónimo de “se rechaza H 0 ”. En el ejemplo la conclusión podría redactarse así: La media de las 10 determinaciones es X=4.34. La diferencia entre esta media y el valor verdadero 4.44 es estadísticamente significativa (P=0.031). Comentario: Todas las cuentas que hicimos pueden hacerse automáticamente con el StatistiX. Para ello vamos a “Statistics”, “One, Two and Multiple Sample Tests”, “One sample T test” , ponemos en el casillero “sample variables” el nombre de la variable que estamos estudiando (en este ejemplo Niquel) y en el casillero “null hypothesis” el valor propuesto en H 0 (en este caso 4.44) y obtenemos 81 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben ONE-SAMPLE T TEST FOR NIQUEL NULL HYPOTHESIS: MU = 4.44 ALTERNATIVE HYP: MU <> 4.44 MEAN 4.3400 STD ERROR 0.0393 MEAN - H0 -0.1000 LO 95% CI -0.1889 UP 95% CI -0.0111 T -2.54 DF 9 P 0.0315 CASES INCLUDED 10 Comentario: Aunque generalmente se usa 0.05 como punto de corte para P, también podría usarse otro (0.01 o 0.10). Llamemos α a ese punto de corte. Errores tipo I y tipo II. En todo problema de test de hipótesis se plantean dos hipótesis y, una vez observada la muestra se RECHAZA H 0 o NO. Entonces puede ocurrir alguna de estas cuatro situaciones: Se aplica el test y Realidad H 0 es cierta H 1 es cierta Se acepta H 0 Bien! Error tipo II Se rechaza H 0 Error tipo I Bien! Como se aprecia en la tabla anterior, pueden cometerse dos tipos de errores, que se los distingue con los nombre de error tipo I y tipo II. En el ejemplo 1, dijimos que si H 0 fuese cierta podría dar un valor de T en las colas y rechazar, pero que este evento tiene probabilidad 0.05. Si hubiésemos usado otro punto de corte (α) para el valor P ese sería la probabilidad de error tipo I. Para cualquier test: la probabilidad de error tipo I es ≤ α (donde α es el valor de corte que se elija para el valor de P). Este valor α se suele llamar "nivel de significación" del test. La probabilidad de error tipo II se suele llamar β y es más difícil de calcular. Entonces al elegir el punto de corte para el valor P (generalmente 0.05) estamos eligiendo la probabilidad de error tipo I. La probabilidad de error tipo II es más difícil de calcular y puede ser grande si el tamaño de muestra (n) es pequeño. Si el tamaño de muestra aumenta, la probabilidad de error tipo I se mantiene en el 5% (porque yo la fijo así). Es intuitivamente esperable (y así ocurre) que, cuando el tamaño de la muestra aumenta, la probabilidad de error tipo II disminuye y se acerca a cero cuando la muestra es muy grande. Como consecuencia de esto, puede calcularse un tamaño de muestra para lograr que la probabilidad de error tipo II sea la deseada. Veremos más adelante algún ejemplo de cálculo de probabilidad de error tipo II y de cálculo de tamaño de muestra. 82 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben La idea del test que aplicamos para el ejemplo de las mediciones de níquel es válida para cualquier hipótesis sobre la media de una población, basado en una muestra normal. Generalicemos entonces. Tests acerca de la media basado en una muestra normal con varianza desconocida. Hipótesis bilaterales: Problema: quiero decidir entre dos hipótesis H 0 : µ = µ o H 1 : µ ≠ µ o donde µ o es un valor propuesto (antes de observar la muestra). Elijo un valor de corte para P que llamaremos α (generalmente α=0.05). Observo una muestra, calculo X y s y aplico el siguiente test: Test: 1er. paso. Calculo X – µ o T = ____________ s/√n Comentario: si H 0 es cierta, T tiene distribución t de Student con n-1 grados de libertad. 2do. paso. Calculo el valor P que es el área bajo las dos colas de la función de densidad t n-1 a partir del valor de T calculado en el paso anterior. 3er. paso. Si P < α rechazo H 0 o equivalentemente afirmo que la diferencia es estadísticamente significativa. Comentario: el valor de T que se calcula en el primer paso se llama "el estadístico del test". Hipótesis unilaterales: H 0 : µ = µ o H 1 : µ < µ o ó H 0 : µ = µ o H 1 : µ > µ o Si la hipótesis alternativa es unilateral, todos los cálculos son similares, salvo que el valor P es el área bajo una cola (la cola de la izquierda si la hipótesis alternativa es “µ < µ o ”, la de la derecha si la hipótesis alternativa es “µ > µ o ”). 83 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Advertencia: La elección de aplicar un test a 1 o 2 colas tienen que ser hecha antes de observar los datos. Los tests a dos colas son más usados y tienen la ventaja de que se puede informar que existe diferencia significativa, tanto cuando la media muestral observada es menor que la propuesta en la hipótesis nula, como cuando es mayor. Hemos presentado hasta ahora solamente el test sobre la media basado en una muestra de una distribución normal. Hay muchos otros tests. El estadístico del test y la distribución que se usa para calcular el valor P son diferentes para cada caso. La elección del test depende del modelo probabilístico que propondremos según el tipo de datos que estamos analizando y de las hipótesis H 0 y H 1 . Pero todos los tests tienen muchas características en común. Siempre se plantean dos hipótesis. Se pueden cometer dos tipos de errores. Se fija (generalmente en ≤5%) la probabilidad de error tipo I, la probabilidad de error tipo II suele ser difícil de calcular y puede ser muy grande para muestras pequeñas. Si el tamaño de muestra aumenta, la probabilidad de error tipo II disminuye y tiende a cero cuando n→∞ El valor de P siempre puede interpretarse como la probabilidad de observar nuestra muestra o una muestra aún mas alejada de H 0 , si H 0 fuese cierta. Como la probabilidad de error tipo I esta controlada (≤5%) mientras que la de tipo II no es tan fácil de controlar y puede ser grande para muestras pequeñas, rechazar H 0 (y por lo tanto elegir H 1 ) es una afirmación más fuerte que aceptar H 0 . Por lo tanto “lo que se quiere demostrar” conviene (si se puede) ponerlo en H 1 . No siempre se puede hacer esta elección; éste es el problema que hace que el test de normalidad de Shapiro-Wilk (es un test donde se pone como H 0 que la distribución es gaussiana, ver Statistix, Statistics, Normality Tests) no sea muy satisfactorio: para muestras pequeñas puede tener mucha probabilidad de error tipo II y por lo tanto ser poco "potente" para detectar falta de normalidad. Tests acerca de la media basado en una muestra normal con varianza conocida. El modelo normal con varianza conocida es más simple que el anterior (hay un sólo parámetro desconocido que es µ) pero menos usado en la práctica. Podría usarse en el ejemplo de las mediciones de níquel si, por la experiencia previa, suponemos conocida la precisión del método de medición: (la desviación estándar σ). Lo único que no sabemos es si el método es exacto o tiene error sistemático. Modelo: X 1 , X 2 , ..., X n vs. as. i.i.d N(µ,σ 2 ) con σ conocido Hipótesis: Bilateral: H 0 : µ = µ o H 1 : µ ≠ µ o Unilaterales: H 0 : µ = µ o H 1 : µ < µ o ó H 0 : µ = µ o H 1 : µ > µ o 84 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Test para la hipótesis bilateral: 1er. paso. Calculo el estadísticos del test: X – µ o Z = ____________ σ / √n Comentario: si H 0 es cierta, Z tiene distribución N(0.1). 2do. paso. Calculo el valor P que es el área de las dos colas de la función de densidad N(0,1) a partir del valor de Z calculado en el paso anterior. 3er. paso. Si el valor P < α rechazo H 0 o equivalentemente afirmo que la diferencia es estadísticamente significativa. Pensar: ¿Qué hay que cambiar en el test si la hipótesis es unilateral? Ejemplo 2: (ejemplo de test para la media de una muestra normal con varianza conocida): Supongamos ahora que por alguna medición previa ya sospechábamos que el método de medición de níquel tenía error sistemático negativo (estaba subestimando la cantidad de níquel). Además sabíamos por haber hecho muchas determinaciones del mismo material (aunque no supiésemos el verdadero contenido de niquel) que la DS del método es σ = 0.12. Es con este conocimiento previo que realizamos las 10 mediciones de un material que sabemos que tiene 4.44% de níquel. Planteamos las siguientes hipótesis: H o : µ = 4.44 H 1 : µ < 4.44 que se interpretan como “el método de medición no tiene error sistemático” y “el método tiene error sistemático negativo” respectivamente. Aplicamos el test correspondiente a este modelo y estas hipótesis: 1er. paso. X – µ o 4.34 - 4.44 Z = ____________ = ______________ = -2.63 σ / √n 0.12 / √10 2do. paso. Calculo el valor P que es el área de la cola “a izquierda” bajo la curva N(0,1) . Esto lo podemos hacer con la tabla normal o con Statistix, “Statistics”, “Probability functions”, “Z1-Tail”, X=-2.63. El resultado es 0.00427 3er. paso. Como P=0.004 < 0.05 rechazo H 0 . Concluímos que el método de medición tiene error sistemático negativo. 85 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Otra forma equivalente de aplicar los tests. Veremos una forma equivalente de aplicar los tests. Pensemos por ejemplo en el test sobre µ para una muestra normal con σ conocido, a dos colas . Hemos rechazado cuando P<α. Como P < 0.05 ⇔ Z está en alguna de las dos "colas" de la curva N(0,1) que tienen área 0.05 ⇔ |Z| > 1.96 o en general P < α ⇔ Z está en alguna de las dos "colas" de la curva N(0,1) que tienen área α ⇔ |Z| > z α/2 Entonces otra forma de describir el test es: Test sobre la media de una muestra normal con σ conocido: H 0 : µ = µ o Test: 1er. paso. Calculo el estadístico del test: X – µ o Z = ____________ σ / √n 2do. paso. Según el test sea a una o dos colas - Para el caso H 1 : µ ≠ µ o (test a dos colas) Rechazo H o si |Z| > z α/2 - Para el caso H 1 : µ < µ o Rechazo H o si Z < -z α - Para el caso H 1 : µ > µ o Rechazo H o si Z > z α Región de rechazo de un test: Se llama así al conjunto de valores tal que si el estadístico del test pertenece a ese conjunto, se rechaza H o . Por ejemplo en el test anterior, para el caso de de la hipótesis unilateral H 1 : µ < µ o , la región de rechazo es la semirrecta (-∞, -z α ). Para la hipótesis bilateral H 1 : µ ≠ µ o la región de rechazo son las dos semirrectas (las dos "colas"): (-∞, -z α/2 ) ∪ ( z α/2 , ∞) Un ejemplo de cálculo de probabilidad de error tipo II. Continuemos con el ejemplo 2. Si H o es cierta (el método de medición no tiene error sistemático) la probabilidad de equivocarnos y decir que lo tiene (probabilidad de error tipo I) es 0.05 86 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben ¿Cuánto vale la probabilidad de error tipo II? Es la probabilidad de aceptar H 0 cuando es falsa, pero ¿que quiere decir que H 0 sea falsa? Quiere decir que µ < 4.44. Esta no es una hipótesis "puntual" y la probabilidad de error tipo II depende de cuál sea el verdadero valor de µ. Intuitivamente ¿vale más si µ está cerca o lejos de 4.44? Calcular lo siguiente: a) probabilidad de error tipo II si el verdadero valor de µ= 4.34 b) una expresión que permita calcular la probabilidad de error tipo II para cualquier valor de µ < 4.44 (esta función del verdadero valor de µ se suele notar β(µ)). c) probabilidad de error tipo II si el verdadero valor de µ= 4.40 Saber calcular la probabilidad de error tipo II de un test permite también determinar el tamaño de la muestra en la etapa del diseño del experimento. Por ejemplo: d) ¿Cuanto debe valer n para que la probabilidad de error tipo II, si el verdadero valor de µ es 4.40, sea menor o igual que 0.10? Respuestas: a) 0.16 b) β(µ) = − + − Φ − n z o / σ 1 µ µ α c) 0.72 d) n=77 Nota: la expresión b) vale para el test unilateral con H 1 : µ < µ 0 Pare el test unilateral con H 1 : µ > µ 0 es β(µ) = − + Φ n z o / σ µ µ α y para el test bilateral es β(µ) = − + − Φ − − + Φ n z n z o o / / 2 / 2 / σ µ µ σ µ µ α α 87 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Test con nivel asintótico para hipótesis sobre la media de una población sin suponer normalidad. El "test t para una muestra" que se ha deducido suponiendo distribución normal, puede ser usado para variables con cualquier distribución, gracias al TCL. En este caso el nivel del test ya no será el valor elegido α, sino que será aproximadamente α para muestras grandes. Para muestras grandes es indistinto usar la distribución N(0,1) o la distribución t de Student para calcular el valor P (o la región de rechazo), porque cualquiera de las dos distribuciones que se use, se consigue el nivel asintótico α. En la práctica generalmente se usa la distribución t (ya que el test "t" es el único programado en la mayoría de los software como en el Statistix): si la normalidad es cierta, el test tiene nivel exacto α, si los datos no son normales y n es grande, tiene nivel asintótico α. Si los datos no son normales y n es pequeño, es un error aplicar el test t. Relación entre intervalos de confianza y test de hipótesis. Si se desea estudiar las hipótesis H 0 : µ = µ o H 1 : µ ≠ µ o se aplica el test "t" para una muestra que hemos visto con el nivel α que se prefije. La siguiente regla de decisión: - se calcula primero el IC para µ con nivel 1-α - si µ o ∈ IC se acepta H0, si µ o ∉ IC se rechaza H0 es equivalente (lleva a la misma decisión) que el test "t" (demostrarlo). Este procedimiento para deducir un test a partir de un intervalo de confianza es muy general. Si conozco un método para encontrar un intervalo de confianza con nivel 1-α para un parámetro cualquiera (que llamaremos θ), y si luego queremos estudiar hipótesis de la forma: H 0 : θ = θ o H 1 : θ ≠ θ o la regla de decisión: Si θ o ∈ IC para θ se acepta H 0 si θ o ∉ IC para θ se rechaza H 0 es un test de hipótesis con nivel de sinificación (probabilidad de error tipo I) igual a α. Esta relación entre intervalo y test es válida para hipótesis bilaterales. También se puede demostrar que recíprocamente si conocemos un método para encontrar tests para hipótesis bilaterales, se pueden deducir intervalos de confianza. La justificación de este hecho no es tan simple como la de su recíproco. INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE DOS MEDIAS Y TEST PARA COMPARAR LAS MEDIAS DE DOS MUESTRAS INDEPENDIENTES Ejemplo 3 Queremos comparar los resultados de dos métodos de medición del contenido de hierro de un mineral. Para ello hacemos 10 determinaciones por cada uno de los métodos del mismo trozo de mineral. Una de las mediciones la excluimos porque se detectó un problema en el proceso de medición, por lo que hay 9 determinaciones en uno de los métodos. Los resultados son: 88 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Determinaciones de hierro (en %) por dos métodos para un mismo trozo de un mineral. Método 1 (n 1 =9) Método 2 (n 2 =10) 15.30 15.10 15.46 15.15 15.38 15.34 15.29 15.18 15.16 15.13 15.15 15.30 15.10 15.20 15.29 15.10 15.21 15.03 15.17 Promedio 15.26 15.17 DS 0.116 0.093 En la práctica lo primero que hacemos para comparar los valores observados con ambos métodos es aplicar algún método gráfico para ver los datos como puede ser un boxplot: o simplemente representamos los puntos observados por ambos métodos: 89 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben También calculamos algunas medidas de resumen para ambos métodos como el promedio y la DS para cada uno (están presentadas en la tabla debajo de los datos). Con el método 2 hemos obtenido un promedio menor (15.17) que con el método 1 (15.26). Esta diferencia puede deberse al azar o es "estadísticamente significativa"? Para comparar las "verdaderas" medias de ambos métodos (no solamente las muestrales) podemos usar dos métodos de inferencia estadística: a) Calcular un intervalo de confianza para la diferencia de las dos medias poblacionales b) Aplicar un test de la hipótesis nula de que las dos medias son iguales. Suponiendo que la experiencia indica que los errores de medición de ambos métodos tienen distribución aproximadamente gaussiana (de paso, los gráficos sirven para visualizar si hay algún outlier severo que contradiga esta suposición, lo que no ocurre en este ejemplo), podemos usar el siguiente modelo: MODELO A: Modelo de dos muestras normales independientes: X 1 , X 2 , ..., X n1 vs. as. i.i.d N(µ 1 ,σ 1 2 ) Y 1 , Y 2 , ..., Y n2 vs. as. i.i.d N(µ 2 ,σ 2 2 ) donde las vs. as. X i 's son independiente de las vs. as. Y j 's Llamemos X y s 1 a la media y la DS de la muestra 1; Y y s 2 a la media y la DS de la muestra 2. Sabemos que bajo el modelo de dos muestras normales independientes: 90 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben X ∼ N( µ 1 , 1 2 1 n σ ) Y ∼ N( µ 2 , 2 2 2 n σ ) como las X's son independiente de las Y's, X es independiente de Y y por consiguiente: X - Y ∼ N( µ 1 - µ 2 , 1 2 1 n σ + 2 2 2 n σ ) Estandarizando: 2 2 2 1 2 1 ) ( 2 1 n n Y X σ σ µ µ + − − − ∼ N( 0,1) Como en la practica pocas veces se conocen ,σ 1 2 y ,σ 2 2 , parece natural reemplazar estas variancias "verdaderas" por sus estimadores, las varianzas muestrales s 1 2 y s 2 2 y considerar el cociente 2 2 2 1 2 1 ) ( 2 1 n s n s Y X + − − − µ µ (15) Pero, lamentablemente, aún suponiendo normalidad de las variables (modelo A) no se conoce exactamente la distribución de este cociente. No tiene distribución N(0,1) ni tampoco distribución t de Student (como quizás en un primer momento uno pueda creer, por analogía al caso de una muestra normal). El hecho de tener que estimar dos varianzas en lugar de una, hace que no valga un resultado similar al que usamos para una muestra (donde reemplazando σ 2 por s2 obteníamos una t n-1 , ver (8), pagina 67). El cociente (15) no sólo no es una t, su distribución no puede ser tabulada (o programada) porque depende de parámetros desconocidos del modelo (se puede demostrar que la distribución de (15) depende del cociente entre las dos varianzas σ 2 2 /σ 1 2 ). Si se hace una suposición más se puede encontrar una distribución t y por lo tanto un IC y un test con nivel exacto. La suposición que se agrega es que las varianzas (verdaderas) son iguales. Si las varianzas de las dos poblaciones son iguales es natural llamarlas σ 2 (en lugar de σ 1 2 y σ 2 2 ). Tenemos entonces este nuevo modelo: MODELO B: Modelo de dos muestras normales independientes con varianzas iguales. X 1 , X 2 , ..., X n1 vs. as. i.i.d N(µ 1 ,σ 2 ) Y 1 , Y 2 , ..., Y n2 vs. as. i.i.d N(µ 2 ,σ 2 ) donde las vs. as. X i 's son independiente de las vs. as. Y j 's 91 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Llamemos, igual que para el modelo A X y s 1 2 a la media y la varianza de la muestra 1; Y y s 2 2 a la media y la varianza de la muestra 2. Pero el modelo B tiene tres parámetros desconocidos (no cuatro como el modelo A): µ 1 , µ 2 y σ 2 X es el estimador de µ 1 , Y el estimador de µ 2 . Cuál es el estimador de σ 2 ? Parece natural que el estimador de σ 2 se obtenga calculando un promedio de s 1 2 y de s 2 2 que le dé mayor peso a la varianza muestral de la muestra que tiene más observaciones. Se puede demostrar que el mejor estimador de σ 2 bajo el modelo B es: 2 * ) 1 ( * 1 ( 2 1 2 2 2 2 1 1 2 − + − + − = n n s n s ) n s p y que bajo este modelo es cierto que + − − − 2 1 1 1 2 2 1 ) ( n n p s Y X µ µ ∼ t ( n1-1)+(n2-1) = t n1+n2-2 (16) (demostrar (16)). Intervalo de confianza para la diferencia de medias (basado en dos muestras independientes, normales con igual varianza). A partir de (16) se puede deducir fácilmente (hacerlo) que [ X – Y – t n1+n2-2 ; α/2 * + 2 1 1 1 2 n n p s , X - Y + t n1+n2-2 ; α/2 * + 2 1 1 1 2 n n p s ] es un IC para µ 1 – µ 2 con nivel de confianza 1-α. También se puede deducir un test para comparar las dos medias: Test t sobre la diferencia de medias, basado en dos muestras independientes (suponiendo normalidad y σ 1 = σ 2 ). Suponemos el modelo B. Vamos a considerar primero hipótesis bilaterales. Las hipótesis que queremos estudiar pueden ser: H 0 : µ 1 = µ 2 vs H 1 : µ 1 ≠ µ 2 o más general H 0 : µ 1 - µ 2 = δ vs. H 1 : µ 1 - µ 2 ≠ δ donde δ es un valor propuesto, que generalmente vale cero. Es intuitivamente razonable que si la diferencia X – Y está cerca de δ (o de 0), aceptemos la hipótesis nula. ¿Pero que quiere decir cerca de cero? 92 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Del resultado (16) deducimos el siguiente test: Suponemos el modelo A y las hipótesis H 0 : µ 1 - µ 2 = δ vs H 1 : µ 1 - µ 2 ≠ δ 1er. paso: Calculo el estadístico T dado por ) 1 1 ( * 2 1 2 1 n n s X X p + − − = δ T (17) Nota: si H 0 es cierta, T tiene distribución de Student con n 1 +n 2 –2 grados de libertad. 2do. paso: Calculo el valor p usando la curva t de Student con n 1 +n 2 –2 grados de libertad El valor p es el área a dos colas (a partir del valor de t calculado en el paso anterior). 3er. paso: Si el valor p < 0.05 rechazo H 0 o equivalentemente afirmo que la diferencia entre las medias de las dos muestras es estadísticamente significativa. Otra forma equivalente de hacer las cuentas del test "t" para dos muestras independientes es la siguiente. 1er. paso: Calculo el estadístico T dado por (17), igual que en la versión anterior. 2do. paso: Si | T| > t n1+n2-2, α/2 rechazo H 0 si | T| ≤ t n1+n2-2, α/2 acepto H 0 Ejercicio: ver qué cambia en el test t anterior (cualquiera de las dos versiones) si la hipótesis alternativa es unilateral (H 1 : µ 1 - µ 2 > δ) IC para diferencia de medias y test sobre la diferencia de medias, basado en dos muestras independientes, pero sin suponer σ 1 = σ 2 (método de Welch). Cuando hay evidencia o se sospecha que las dispersiones de ambas muestras son diferentes se supone el modelo A y se usa un IC o un test aproximado. Ante la duda, es mejor usar este método que el anterior, ya que tiene una suposición menos. Habíamos dicho que bajo el modelo A, la distribución del cociente (15) no es conocida. Sin embargo Welch (1947) verificó que la distribución puede aproximarse por una distribución t de Student con unos grados de libertad que dependen de las varianzas muestrales. La aproximación es la siguiente: 2 2 2 1 2 1 ) ( 2 1 n s n s Y X + − − − µ µ a t ~ k (18) 93 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben donde los grados de libertad k se calculan con la siguiente expresión k = round ( ) − + − + 1 2 n ) n / s ( 1 n ) n / s ( n / s n / s 2 2 2 2 1 2 1 2 1 2 2 2 2 1 2 1 (19) Entonces tenemos el siguiente test: Test de Welch, Supongamos el modelo A y la hipótesis H 0 : µ 1 - µ 2 = δ 1er. paso: Se calcula el estadístico T ’ T ’ = 2 2 2 1 2 1 n s n s Y X + − − δ 2do. paso: Calculo el valor P usando la curva t de Student con los grados de libertad calculado por (19), a dos colas o a una cola según sea bilateral o unilateral la hipótesis alternativa. 3er. Paso: Como en todo test, si P < α se rechaza H 0 , si P ≥ α se acepta H 0 Intervalo de confianza para la diferencia de medias (basado en dos muestras independientes, normales, sin suponer igualdad de varianza). A partir de (18) se puede deducir fácilmente que [ X – Y – t k ; α/2 * 2 2 2 1 2 1 n s n s + , X - Y + t k ; α/2 * 2 2 2 1 2 1 n s n s + ] donde k está dado por (19) es un IC para µ 1 – µ 2 con nivel de confianza aproximado 1-α. Test para comparar las varianzas de dos muestras normales independientes Supongamos nuevamente el modelo A, pero ahora queremos comparar las varianzas de las dos poblaciones. Queremos estudiar las hipótesis: H 0 : σ 1 2 = σ 2 2 vs H 1 : : σ 1 2 ≠ σ 2 2 Es intuitivo que el test se va a basar en comparar las varianzas muestrales s 1 2 con s 2 2 El test no se basa en las diferencia entre estas varianzas sino en su cociente. El test es el siguiente: 1er. paso: Calculo el estadístico F dado por 94 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben 2 2 2 1 s s F = (20) Nota: si H 0 es cierta, F tiene distribución F de Fisher (la tabuló Snedecor, pero la llamó F en homenaje a Fisher) con n 1 -1grados de libertad en el numerador y n 2 -1 grados de libertad en el denominador. 2do. paso: Si F > F n1-1, n2-1, α/2 o F < F n1-1, n2-1, 1-α/2 rechazo H 0 en caso contrario acepto H 0 Nota: si la hipótesis alternativa fuese unilateral (H 1 : σ 1 2 > σ 2 2 ) , ser rechazaría H 0 solamente en una cola: cuando F > F n1-1, n2-1, α Ejercicio: Otra forma equivalente es, como siempre calcular el valor P y rechazar H 0 si P<α, como se calcula P para el test a una cola? y para el test a dos colas? Comentarios: 1) Tanto el test de t como el test de Welch y los IC para µ 1 – µ 2 son válidos, suponiendo normalidad, para cualquier tamaño de muestra. Si la variable no tiene distribución normal y ambas muestras son grandes pueden usarse como aproximación, gracias al Teorema Central del Límite. 2) El test F para comparar dos varianzas es válido para cualquier tamaño de muestra suponiendo normalidad. Si la variable no tiene distribución normal, el test no es válido, aún para muestras grandes. No hay ningún teorema parecido al TCL que diga que este test tiene nivel asintótico correcto sin suponer normalidad. Esta es una limitación de este test. 3) Si se tienen todos los datos no se necesita aplicar las fórmulas dadas para aplicar los tests estudiados. El StatistiX (o cualquier programa que tenga procemientos estadísticos) hace todas las cuentas. Nuestra tarea es elegir cuál test se puede aplicar y saber cuál es incorrecto aplicar para cada problema. CONTINUACIÓN DEL ANÁLISIS DE LOS DATOS DEL EJEMPLO 3. Habíamos visto que : Método 1 Método 2 Promedio 15.26 15.17 DS 0.116 0.093 El promedio es más alto con el método 1, podemos decir con estos datos que las medias de ambos métodos son diferentes? Podemos aplicar el test t o el test de Welch? 95 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Ambos tests suponen normalidad (las muestras son pequeñas). Supongamos que la experiencia previa indica que es razonable suponer errores normales. De cualquier modo, parar estar más seguros de que nada raro pasó en este experimento, conviene describir los datos con algún gráfico como los que hicimos (box plot o gráfico de puntos). Ya observamos que estos gráficos no muestran outliers ni nada que haga sospechar que la suposición de normalidad sea falsa. Además de los gráficos hechos (box plot y gráfico de puntos), también se puede graficar un “normal probability plot”, que debería parecer una recta si los datos son aproximadamente normales. También se puede estudiar formalmente la hipótesis de normalidad con un test. Un test propuesto para estudiar esta hipótesis, es el test de Wilk-Shapiro, que estudia la hipótesis: H 0 : X 1 , X 2 ,.... X n son vs. as. i.i.d. con distribución Normal H 1 : tienen otra distribución. Veremos como se grafica el “normal probability plot” y se aplica este test con el Statistix. Primero lo aplicaré a los datos del método 1. Para ello primero seleccionamos los datos del método 1: hacemos click en DATA, Omit/Select/Restore cases y ponemos Omit METODO=2. Así quedan seleccionados los nueve casos del método 1. Luego vamos a Statistics, Randomnes/Normality Tests, Normal Probability Plot, ponmose HIERRO en la ventana de las variables y se obtenemos el siguiente gráfico y en el renglón de abajo el valor P del test de Wilk-Shapiro: Luego para seleccionar los datos del método 2, primero, para deshacer la selección anterior, vamos a Omit/Select/Restore cases y marcamos Restore; luego escribímos Omit METODO=1. Luego volvemos a hacer los pasos antes descriptos y obtenemos un gráfico similar, ahora con un valor P de 0.6243. Se puede apreciar que en ambas salidas el valor P es alto (bastante >0.05), por lo que no hay ninguna evidencia para rechazar la hipótesis nula de normalidad. 96 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Aceptemos normalidad. Nos queda aún la duda de si usar el Modelo A y aplicar el test t o el Modelo B y aplicar el test de Welch. Puede ser que también haya experiencia sobre este tema. Si hay experiencia, la usamos. En caso contrario, podemos observar las DS de ambas muestras. En este caso son 0.116 y 0.093. Con un poquito de experiencia, ya podemos pensar que estas DS son parecidas y podemos aplicar el test t. En caso de duda, podemos aplicar primero el test F para estudiar la hipótesis de igualdad de varianzas. H 0 : σ 1 2 = σ 2 2 vs H 1 : : σ 1 2 ≠ σ 2 2 Test: 1er. paso: Calculo el estadístico F dado por (comentario: por la forma en que están hechas las tablas conviene poner en el numerador el s 2 más grande): 556 . 1 093 . 0 116 . 0 2 2 2 2 2 1 = = = s s F Si usamos el método "antiguo" de comparar con la tabla de F, buscamos en la tabla el valor que deja un área de 0.025 a derecha en la función de densidad F con 9-1=8 gl en el numerador y 10- 1=9 en el denominador que es (ver tabla) 4.10 y como 1.556<4.10 , no rechazamos H 0 Si en cambio tenemos el StatistiX a mano, podemos calcular el valor P, en Probability Functions, F(x,dfnum,dfden), ponemos 1.556 en X, 8 en DFNUM y 9 en DFDEN y obtenemos: F(1.556,8,9) = 0.26153. Esta es el área de una cola bajo la densidad F, el valor P para el test bilateral es el doble: P=2*0.262=0.52 y volvemos a llegar a la conclusión de que no hay evidencia en contra de la hipótesis de igualdad de varianzas. Por la experiencia previa o por un análisis como el que hemos hecho, estamos en condiciones de suponer el modelo A y para contestar la pregunta que nos interesa (comparar las medias) estudiamos H 0 : µ 1 = µ 2 vs H 1 : µ 1 ≠ µ 2. Para ello aplicamos el test t de Student para dos muestras normales independientes: Calculamos primero el estimador de la varianza: 01095 . 0 2 10 9 0932 . 0 * ) 1 ( 1162 . 0 * 1 9 ( 2 * ) 1 ( * 1 ( 2 2 2 2 1 2 2 2 2 1 1 2 = − + − + − = − + − + − = n ) n n s n s ) n p s o su raíz cuadrada: 1046 . 0 01095 . 0 = = p s y ahora aplicamos el test: 1er. paso: Calculamos el estadístico 97 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben 87 . 1 04806 . 0 09 . 0 ) 10 1 9 1 ( * 1046 . 0 170 . 15 260 . 15 ) 1 1 ( * 2 1 2 1 = = + − = + − = n n s X X p T 2do. paso: Calculamos el valor p usando la curva t de Student con n 1 +n 2 –2=17 grados de libertad El valor p es el área a dos colas a partir del valor observado 1.87. Puedo calcular esta área con Statistix, Probability Function, T-2tail y obtengo P=0.0788 3er. paso: Como P=0.0788 > 0.05 no puedo rechazar H 0 y digo que "a pesar de que el promedio de los valores observados con el método 2 es un poco más alto que con el método 1, la diferencia no es estadísticamente significativa (P=0.079)" o "a pesar de que el promedio de los valores observados con el método 2 es un poco más alto que con el método 1, esto no es evidencia suficiente para afirmar que los dos métodos tengan diferentes medias (P=0.079)" . StatistiX puede hacer todas las cuentas. Marcando "Statistics", "One, Two and Multi-Sample tests", "Two Sample T test", se obtiene la siguiente salida: TWO-SAMPLE T TESTS FOR HIERRO BY METODO SAMPLE METODO MEAN SIZE S.D. S.E. ---------- ---------- ------ --------- --------- 1 15.260 9 0.1162 0.0387 2 15.170 10 0.0932 0.0295 DIFFERENCE 0.0900 NULL HYPOTHESIS: DIFFERENCE = 0 ALTERNATIVE HYP: DIFFERENCE <> 0 ASSUMPTION T DF P 95% CI FOR DIFFERENCE ----------------- ------ ------ ------ --------------------- EQUAL VARIANCES 1.87 17 0.0786 (-0.0115, 0.1915) UNEQUAL VARIANCES 1.85 15.4 0.0838 (-0.0135, 0.1935) F NUM DF DEN DF P TESTS FOR EQUALITY ------- ------ ------ ------ OF VARIANCES 1.55 8 9 0.2622 CASES INCLUDED 19 MISSING CASES 0 Ejercicio: buscar en esta salida del Statistix los tests que hemos aplicado. Veamos ahora otro ejemplo en que tambien se desea comparar las medias de las determinaciones hechas con dos métodos. Ejemplo 4: Queremos comparar los resultados de dos métodos de medición de la concentración de zinc en alimentos. Para ello para cada una de 8 muestras de alimentos medimos el porcentaje de concentración de zinc por ambos métodos, obteniendo 98 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Determinaciones de zinc (en %) por dos métodos para 8 muestras de alimentos. Método 1: titulación con AEDT. Método 2: Espectrometría atómica. Muestra Método 1 Método 2 1 7.2 7.6 2 6.1 6.8 3 5.2 5.2 4 5.9 5.7 5 9.0 9.7 6 8.5 8.7 7 6.6 7.0 8 4.4 4.7 Promedio 6.61 6.92 DS 1.57 1.72 Queremos, igual que en el ejemplo 3 comparar las medias de los dos métodos. Podemos suponer el modelo A o el modelo B y aplicar el test t para dos muestras independientes o el test de Welch? Muestra Método 1 Método 2 Diferencia 1 7.2 7.6 0.4 2 6.1 6.8 0.7 3 5.2 5.2 0 4 5.9 5.7 -0.2 5 9.0 9.7 0.7 6 8.5 8.7 0.2 7 6.6 7.0 0.4 8 4.4 4.7 0.3 Promedio 6.61 6.92 0.312 DS 1.57 1.72 0.314 99 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben ONE-SAMPLE T TEST FOR DIF NULL HYPOTHESIS: MU = 0 ALTERNATIVE HYP: MU <> 0 MEAN 0.3125 STD ERROR 0.1109 LO 95% CI 0.0503 UP 95% CI 0.5747 T 2.82 DF 7 P 0.0259 CASES INCLUDED 8 MISSING CASES 0 Otra forma de hacer el test directamente con Statistix sin calcular primero las diferencias es la siguiente: Vamos a Statistics, luego a One, Two, Multi- Sample Tests y luego a Paired T Test. Eligiendo las variables Metodo 1 y Metodo 2 obtenemos la misma salida: PAIRED T TEST FOR METODO1 - METODO2 NULL HYPOTHESIS: DIFFERENCE = 0 ALTERNATIVE HYP: DIFFERENCE <> 0 MEAN -0.3125 STD ERROR 0.1109 LO 95% CI -0.5747 UP 95% CI -0.0503 T -2.82 DF 7 P 0.0259 CASES INCLUDED 8 MISSING CASES 0 TESTS NO PARAMÉTRICOS PARA DOS MUESTRAS INDEPENDIENTES, PARA UNA MUESTRA Y PARA MUESTRAS DE A PARES. (TEST DE MANN-WHITNEY, TEST DE SIGNOS, TEST DE WILCOXON). Volvamos al problema de comparar las medias de dos muestras independientes. Vimos el test t para comparar las media de dos muestras normales independientes, suponiendo σ 1 = σ 2 y el test de Welch que no hace esta última suposición. Ejemplo 5: En la clase de estadística descriptiva uno de los ejemplos usados fueron los datos de análisis de sangre de 29 enfermos cardíacos (archivo PCRCPKTn). Supongamos que queremos comparar los valores de CPK para pacientes varones y mujeres. Comencemos por describir los datos. Para ello a continuación se muestra el box plot y medidas de resumen de CPK para cada sexo. 100 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben DESCRIPTIVE STATISTICS FOR SEXO = F CPK N 11 MEAN 90.727 SD 102.91 1ST QUARTI 45.000 MEDIAN 59.000 3RD QUARTI 90.000 DESCRIPTIVE STATISTICS FOR SEXO = M CPK N 18 MEAN 133.89 SD 88.912 1ST QUARTI 64.000 MEDIAN 116.00 3RD QUARTI 188.00 Dijimos en la clase de estadística descriptiva que, teniendo en cuenta que la variable tiene distribución asimétrica y con datos atípicos, es más informativo elegir como medidas de resumen la mediana y cuartiles (y no el promedio y la DS). El box plot nos muestra que los valores de CPK en los hombres son mayores que para las mujeres. Las medianas son 116 y 59 respectivamente. ¿Pueden las diferencias que observamos ser atribuidas al azar o esto es poco probable? Queremos aplicar un test para comparar los valores de CPK en ambos sexos. ¿Se puede aplicar el test t para dos muestras independientes? Evidentemente no: el modelo de dos muestras normales no es una aproximación razonable parar estos datos. Para peores las muestras no son grandes (11 mujeres y 18 hombres) lo que hace que la aproximación que da el TCL no tiene por que ser buena. 101 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Modelos no paramétricos Se llaman modelos paramétricos a los que tienen un número finito de parámetros desconocidos. El modelo de una muestra normal por ejemplo tiene dos parámetros. Si conociésemos los valores de estos parámetros, quedaría totalmente especificada la distribución de las variables. Se llaman modelos no paramétricos a aquellos para los que no alcanza con dar los valores de un número finito de parámetros (digamos que tienen “infinitos parámetros desconocidos”). Un típico modelo no paramétricos para los datos de una muestra sería por ejemplo: X 1 , X 2 , ..., X n vs. as. i.i.d. con distribución continua En este modelo no alcanza con conocer un número finito de parámetros para que la distribución de las variables quede completamente especificada. Los modelos no paramétricos son más generales, con menos suposiciones que los modelos paramétricos. No suponen distribución normal, ni exponencial, ni gamma, ni ninguna otra familia particular de distribuciones. Pero alguna suposición siempre se hace. Otra denominación de los "modelos no parámetricos" es "modelos a distribución libre". Un test no paramétrico para dos muestras independientes: test de Mann-Whitney. Vamos a presentar un test no paramétrico para comparar dos muestras que se llama test de Mann-Whiney o test de la suma de rangos de Wilcoxon (Wilcoxon lo propuso primero para el caso n 1 =n 2 y Mann y Whitney poco tiempo después para el caso general). Al igual que muchos otros tests no paramétricos, el test de Mann-Whitney se basan en los rangos (ranks) o número de orden de las observaciones. El modelo que hay que suponer para poder aplicar el test de Mann-Whitney es el siguiente: Modelo C: X 1 , X 2 , ..., X n1 vs. as. i.i.d con distribución F 1 (x) Y 1 , Y 2 , ..., Y n2 vs. as. i.i.d con distribución F 2 (x) donde las vs. as. X i 's son independiente de las vs. as. Y j 's Se puede apreciar que es mucho más general que el modelo A o el modelo B (no supone ninguna "forma" para la distribución). La hipótesis nula que se estudia es: H 0 : F 1 = F 2 Como dijimos, este test es un "test de rangos". Compara no las medias de los datos de las dos muestras, sino las medias de los rangos. Para aplicarlo primero se calculan los rangos (número de órden) juntando los datos de las dos muestras. Muestro a continuación los datos de CPK y sus rangos para las dos muestras (hombres y mujeres): 102 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Sexo Femenino (n 1 =11) Sexo Masculino (n 2 =18) Dato Rango Dato Rango 26,00 1 29,00 2 33,00 3 47,00 5.5 45,00 4 51,00 7 47,00 5.5 64,00 12.5 53,00 8 64,00 12.5 59,00 9 69,00 14 60,00 10 87,00 15 63,00 11 91,00 17 90,00 16 112,00 18 134,00 20 120,00 19 388,00 28 152,00 21 153,00 22 166,00 23 184,00 24 200,00 25 201,00 26 223,00 27 397,00 29 Suma rangos 115.5 319.5 Promedio 10.5 17.75 La idea del test es comparar no los promedios de los datos originales sino los promedios de los rangos. El estadístico en el que se basa el test es similar (no es exactamente igual pero toma valores muy próximos) al estadístico del test t pero aplicado a los rangos y no a los datos originales. Para muestras grandes se demuestra que este estadístico tiene, bajo H 0 una distribución aproximadamente normal. Para muestras pequeñas se puede calcular el valor "P" exacto del test. El Statistix hace las cuentas. Para ello vamos a Statistics; One, Two and Multi-Sample Tests and Rank Sum Test. Obtenemos la siguiente salida: WILCOXON RANK SUM TEST FOR CPK BY SEXO SAMPLE SEXO RANK SUM SIZE U STAT MEAN RANK ---------- --------- ------ --------- --------- F 115.50 11 49.500 10.5 M 319.50 18 148.50 17.8 TOTAL 435.00 29 NORMAL APPROXIMATION WITH CORRECTIONS FOR CONTINUITY AND TIES 2.203 TWO-TAILED P-VALUE FOR NORMAL APPROXIMATION 0.0276 TOTAL NUMBER OF VALUES THAT WERE TIED 4 MAXIMUM DIFFERENCE ALLOWED BETWEEN TIES 0.00001 CASES INCLUDED 29 MISSING CASES 0 Podemos resumir los resultados que obtuvimos diciendo por ejemplo: 103 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben “La mediana de CPK para hombres es mayor que para mujeres 116 (P25,P75: 64,188) y 59 (45, 90) respectivamente. La diferencia entre los valores de CPK en ambos grupos es estadísticamente significativa (test de Mann-Whitney, p=0.028).” La ventaja del test de Mann-Whiney es que el valor de p está bien calculado siempre que se cumpla el modelo C y la hipótesis H 0 : F 1 =F 2 , no importa cuál sea la distribución de las variables. En este ejemplo el valor p del test de t no es correcto, así que si aplicásemos el test t no sabríamos cuál es la probabilidad de error tipo I. Pero además de este problema, el test t puede tener alta probabilidad de error tipo II cuando hay outliers, y ser muy ineficiente para detectar diferencias. En este ejemplo, si POR ERROR aplicásemos el test t, no se detectaría diferencias entre hombres y mujeres. Muestro la salida del Statistix: TWO-SAMPLE T TESTS FOR CPK BY SEXO SAMPLE SEXO MEAN SIZE S.D. S.E. ---------- ---------- ------ --------- --------- F 90.727 11 102.91 31.030 M 133.89 18 88.912 20.957 DIFFERENCE -43.162 NULL HYPOTHESIS: DIFFERENCE = 0 ALTERNATIVE HYP: DIFFERENCE <> 0 ASSUMPTION T DF P 95% CI FOR DIFFERENCE ----------------- ------ ------ ------ --------------------- EQUAL VARIANCES -1.20 27 0.2423 (-117.24, 30.919) UNEQUAL VARIANCES -1.15 18.9 0.2634 (-121.56, 35.239) F NUM DF DEN DF P TESTS FOR EQUALITY ------- ------ ------ ------ OF VARIANCES 1.34 10 17 0.2864 CASES INCLUDED 29 MISSING CASES 0 El test t dá un valor P=0.24 y no podríamos rechazar H 0 . Pensar: ¿es el test de Mann-Whitney sensible a datos atípicos? ¿y el test "t"? “Propaganda” del test de Mann-Whitney: 1. El valor de p es correcto siempre que se cumpla el modelo C y la hipótesis H 0 : F 1 =F 2 , no importa cuál sea la distribución de las variables. Por lo tanto si rechazamos H 0 cuando P<α, nos aseguramos que la probabilidad de error tipo I es α, cualquiera sea la distribución de la variable. 2. En el caso normal el test t es el test óptimo, en el sentido de que es el test más potente (de menor probabilidad de error tipo II). Pero el test de Mann- Whitney no es mucho menos potente (se puede demostrar que tiene una eficiencia relativa del 95.5% para muestras grandes). De cualquier modo, si uno sabe que la variable es normal, conviene aplicar el test t (“aprovecha mejor los datos” y por eso es un poco más potente). 104 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben 3. Si la distribución no es normal, especialmente si hay datos atípicos el test de Mann Whitney es más potente que el test t y puede llegar a ser muchísimo más potente. 4. Cuando la muestra es grande y no es normal, podemos aplicar cualquiera de los dos tests. El valor p está bien calculado (para el caso de la t en forma aproximada) para ambos tests y por lo tanto también la probabilidad de error tipo I. Pero si la distribución es muy alejada de la normal, especialmente para datos con "outliers severos" conviene elegir el test de Mann- Whitney, porque tiene menor probabilidad de error tipo II. Tests no paramétrico para hipótesis sobre la mediana de una población basados en una muestra sin suponer distribución normal: 1) test de signos, 2) test de rangos con signos de Wilcoxon ("Wilcoxon signed rank test"). Veremos dos tests no paramétricos para una muestra que luego serán usados para muestras de a pares. Como ejemplo para presentar el test t para una muestra hemos considerado (ejemplo 1) los datos de 10 determinaciones de una aleación “standard” para la que se sabía que contenía 4.44% de níquel. Las 10 mediciones daban: 4.32 4.31 4.50 4.12 4.43 4.36 4.48 4.28 4.18 4.42 Supusimos un modelo normal y estudiamos la H 0 de que la media es 4.44 (que en este ejemplo significa que no hubo error sistemático en las mediciones). Con estos datos ni un box-plot, ni un histograma, ni el test de normalidad de Wilk-Shapiro dan ninguna evidencia de que el modelo normal sea falso. Si por el contrario cambiamos el cuarto dato (que es el menor) por un valor bastante menor (digamos 3.90): 4.32 4.31 4.50 3.90 4.43 4.36 4.48 4.28 4.18 4.42 y con estos nuevos datos hacemos un box plot se detecta el valor 3.90 como outlier. Una posibilidad (intuitivamente razonable, en este ejemplo que hay un solo outlier) es excluirlo y aplicar el test t. Otra es aplicar un test no paramétrico que no suponga normalidad ni sea sensible a datos atípicos. Los dos tests más usados para el caso de una muestra son el test del signo y el test de Wilcoxon. Empiezo por presentar el primero porque es una idea más simple (muy simple). Test de signos: Para poder aplicar este test, no se necesita suponer casi nada. Podemos poner el siguiente modelo: Modelo: X 1 , X 2 , ..., X n vs. as. i.i.d con una distribución F cualquiera Llamemos µ ~ a la mediana de la distribución F (o lo que es lo mismo la mediana de X i ). Queremos estudiar las hipótesis: H 0 : µ ~ = 4.44 ; H 1 : µ ~ ≠ 4.44 o en general H 0 : µ ~ = m 0 donde m 0 es un valor propuesto por el investigador. 105 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben La idea del test es: si la mediana fuese 4.44 se espera que haya tantos datos mayores que 4.44 como menores que 4.44. En estos 10 datos hay 2 que son >4.44 y 8 que son <4.44. Una forma equivalente es calcular las diferencias entre los datos observados y el valor propuesto en H0: D i =X i -m 0 y contar cuantas de estas diferencias tienen signo positivo y cuantas signo negativo (por eso el nombre “test de signos”). En nuestro ejemplo hay 8 diferencias negativas y sólo 2 positivas. Como dijimos, si H 0 fuese cierta habría igual probabilidad de que la diferencias sean >0 o <0. Excluyendo las diferencias nulas si las hubiere, la probabilidad de que cada diferencia sea <0 (o >0) sería 1/2. Si H 0 es cierta el número de diferencias negativas (o positivas) tiene una distribución binomial con p=1/2. Se calcula entonces, en el ejemplo, la probabilidad de que una variable Binomial (n=10,p=0.5) tome un valor 2 "o aún más extremo" P(X≤2). Este es el valor p del test "a una cola". Pero como en nuestro ejemplo la H 1 es bilateral, tenemos que informar el valor P a dos colas, que es el anterior multiplicado por 2. Con el Statistix, en Probability Functions, obtenemos Binomial(2,10,0.5)=0.05469 y el valor P del test es P=2*0.05469≅0.11 y no podemos rechazar H 0 . Distribuciones simétricas: Antes de presentar el test de Wilcoxon, veremos lo que quiere decir que una variable tenga distribución simétrica. Lo más facil de definir es que tenga distribución simétrica alrededor de cero. Si la variable es continua quiere decir que su función de densidad es una función par, o sea f(-x)=f(x). En el caso general X tiene distribución simétrica alrededor de cero si P(X<-x) = P(X>x) para todo número real x (21) o sea la probabilidad de cada cola es la misma. Se puede demostrar (muy fácilmente) que esto es equivalente a pedir que la distribución de la v.a. -X es la misma que la de la v.a. X (22) Consideren como definición de v.a. simétrica alrededor de cero a (21) o (22) (la que les parezca más intuitiva). Y recuerden que en el caso continuo es equivalente a que la función de densidad cumple f(-x) = f(x) Se dice que una v.a. X tiene distribución simétrica alrededor de un valor m si la v.a. X-m tiene distribución simétrica alrededor de cero. Ejercicio: (pensar intuitivamente, no les pido una demostración formal) a) Si X es simétrica alrededor de m y es continua, como será la función de densidad? b) Si X es simétrica alrededor de m, entonces mediana de X = m c) Si existe E(X) entonces E(X)=m Test de rangos con signos de Wilcoxon. El test de signos sólo tiene en cuenta el signo de las diferencias entre los valores observados y el valor propuesto en H 0 . El test de Wilcoxon tiene en cuenta también si la diferencia es "grande" o "pequeña". Pero requiere una suposición más: se necesita suponer simetría. 106 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Modelo: X 1 , X 2 , ..., X n vs. as. i.i.d con distribución simétrica Llamemos µ ~ al centro de simetría de las vs.as. X i , que también es la mediana de X i . Queremos estudiar la hipótesis nula: H 0 : µ ~ = m 0 En el ejemplo, como antes las hipótesis son: H 0 : µ ~ = 4.44 ; H 1 : µ ~ ≠ 4.44 . Calculamos primero las diferencias D i =X i -m 0 , que en el ejemplo son: -0.12 -0.13 0.06 -0.54 -0.01 -0.08 0.04 -0.16 -0.26 -0.02 Observemos que, como usamos en el test de signos, 8 de estas diferencias son negativas y sólo 2 son positivas. Ordenemos estas diferencias, pero teniendo en cuenta solamente su módulo: -0.01 -0.02 0.04 0.06 -0.08 -0.12 -0.13 -0.16 -0.26 -0.54 Anotemos, al lado de cada diferencia, su rango: -0.01(1) -0.02(2) 0.04(3) 0.06(4) -0.08(5) -0.12(6) -0.13(7) -0.16(8) -0.26(9) -0.54(10) y ahora los separamos en dos grupos según el signo: Rangos de las diferencias <0: 1 2 5 6 7 8 9 10 Rangos de las diferencias >0: 3 4 Si se cumple H 0 esperamos que los datos se distribuyan en forma simétrica a ambos lados del valor 4.44 , entonces se espera que haya aproximadamente el mismo número de diferencias positivas y negativas y que unas y otras tengan aproximadamente la misma media de rangos. Por lo tanto se espera que la suma de los rangos de las diferencias <0 sea similar al de las diferencias >0. En el ejemplo: Suma de los rangos de las diferencias <0: 48 Suma de los rangos de las diferencias >0: 7 El estadístico del test de Wilcoxon es la diferencia entre estas dos sumas. Para ello se ha estudiando la distribución de estas diferencias bajo la hipótesis nula y se la tabuló. En vez de usar estas tablas, podemos usar el Statistix, que nos calcula directamente el valor p, obteniendo: WILCOXON SIGNED RANK TEST FOR DIF - CERO SUM OF NEGATIVE RANKS -48.000 SUM OF POSITIVE RANKS 7.0000 EXACT PROBABILITY OF A RESULT AS OR MORE EXTREME THAN THE OBSERVED RANKS (1 TAILED P-VALUE) 0.0186 NORMAL APPROXIMATION WITH CONTINUITY CORRECTION 2.039 TWO TAILED P-VALUE FOR NORMAL APPROXIMATION 0.0415 Para muestras grandes, Statistix sólo calcula el valor de P usando la distribución asintótica del estadístico del test. Para muestras pequeñas calcula también el valor exacto del test a una cola. 107 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben Mejor usar este valor exacto, pero como la H 1 que planteamos es bilateral, necesitamos el valor p a dos colas. Multiplicamos por 2 (2*0.0186)obteniendo: P = 0.037. Conclusión en el ejemplo: Rechazamos H 0 y llegamos a la conclusión de que los datos no se distribuyen alrededor del verdadero valor de contenido de zinc. Pensamos que hay algún error sistemático en el método de medición. Observar que la conclusión no coincide con la del test de signos. Tests no paramétrico para muestras de a pares. Ejemplo 6: En la clase pasada (ejemplo 4) consideramos mediciones de la concentración de zinc en 8 muestras por dos métodos diferentes. Lo usamos para ilustrar el test t para muestras de a pares. Consideremos ahora los mismos datos, pero donde un valor 6.8 fue cambiado por 8.5. Esto ha sido hecho artificialmente para ejemplificar, pero a veces estos errores groseros ocurren en los problemas reales. Muestra Titulación con AEDT Espectrometría atómica Diferencia 1 7.2 7.6 0.4 2 6.1 8.5 (antes 6.8) 2.4 3 5.2 5.2 0 4 5.9 5.7 -0.2 5 9.0 9.7 0.7 6 8.5 8.7 0.2 7 6.6 7.0 0.4 8 4.4 4.7 0.3 Promedio 6.61 7.14 0.525 DS 1.57 1.81 0.805 Si aplicásemos el test t para muestras de a pares a estos datos, obtendríamos: PAIRED T TEST FOR METODO1 - METODO2 NULL HYPOTHESIS: DIFFERENCE = 0 ALTERNATIVE HYP: DIFFERENCE <> 0 MEAN -0.5250 STD ERROR 0.2846 LO 95% CI -1.1979 UP 95% CI 0.1479 T -1.84 DF 7 P 0.1076 y no detectaríamos diferencias entre ambos métodos. Pero es un grave error aplicar el test t para muestras de a pares a estos datos, porque este test supone distribución normal de las diferencias, y acá hay un outlier severo. Si se grafica un box plot se lo observa claramente. 108 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben También el test de Wilk Shapiro detecta que los datos no son normales (ejercicio: hacerlo con el Statistix, dá P=0.0068). En mi opinión, en este caso en que hay un único outlier muy claro, la mejor solución sería excluir el par de datos de la muestra nro. 2. Pero otra solución, especialmente útil cuando el o los valores atípicos no son tan evidentes y no es tan fácil decidir cuando ocurrió un error grosero y excluirlo, es utilizar algún test no paramétrico para muestras de a pares. Estos tests no son sensibles a outliers. Sabemos que en el caso normal, hemos aplicado el test t de una muestra a las diferencias. Ahora procederemos en forma análoga: aplicaremos un test no parámétrico para una muestra a las diferencias y pondremos como H 0 que la mediana de las diferencias es cero. H 0 : mediana de la distribución de Di = 0 H 1 : mediana de la distribución de Di ≠ 0 Vimos dos tests no paramétricos para una muestra. Apliquemos primero el test de signos. Para ello contamos cuántas diferencias tienen signo positivo y cuantas negativo. En nuestro ejemplo hay 6 diferencias positivas y sólo1 negativa (hay una más, que no se tiene cuenta porque vale cero). Se calcula entonces la probabilidad de que una variable Binomial(n=7,p=0.5) tome un valor 1 "o aún más extremo" P(X≤1). Este es el valor p del test "a una cola". Con el Statistix, en Probility Functions, obtenemos Binomial(1,7,0.5)=0.0625 y el valor P del test a dos colas es P=2*0.0625=0.12 Esto lo hace automáticamente el Statistix, si vamos a Statistics, One, Two and Multi-Sample Tests, Sign test. Obtenemos 109 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben SIGN TEST FOR METODO1 - METODO2 NUMBER OF NEGATIVE DIFFERENCES 6 NUMBER OF POSITIVE DIFFERENCES 1 NUMBER OF ZERO DIFFERENCES (IGNORED) 1 PROBABILITY OF A RESULT AS OR MORE EXTREME THAN OBSERVED 0.0625 Observemos que el valor que muestra el programa es para el test a una cola. Otro test no paramétrico para muestras de a pares: test de rangos con signos de Wilcoxon. Recordemos que las diferencias para el ejemplo anterior son: 0.4 2.4 0 -0.2 0.7 0.2 0.4 0.3 Igual que para el test del signo, no consideramos la diferencia=0 (no aporta nada a favor de que los valores del 1er método son más altos o más bajos). Luego ordenamos las diferencias, teniendo en cuenta su módulo: -0.2 0.2 0.3 0.4 0.4 0.7 2.4 Calculamos los rangos de los módulos: 1.5 1.5 3 4.5 4.5 6 7 y ahora los separamos en dos grupos según el signo: Rangos de las diferencias <0: 1.5 Rangos de las diferencias >0: 1.5 3 4.5 4.5 6 7 Si H 0 es cierta, se espera que la suma de los rangos de las diferencias <0 sea similar al de las diferencias >0 Suma de los rangos de las diferencias <0: 1.5 Suma de los rangos de las diferencias >0: 26.5 El estadístico del test de Wilcoxon es la diferencia entre estas dos sumas. Usamos tablas, o Statistix. Vamos a "Statistics", "One, Two and Multi Sample Tests", "Wilcoxon signed rank test": WILCOXON SIGNED RANK TEST FOR METODO1 - METODO2 SUM OF NEGATIVE RANKS -26.500 SUM OF POSITIVE RANKS 1.5000 EXACT PROBABILITY OF A RESULT AS OR MORE EXTREME THAN THE OBSERVED RANKS (1 TAILED P-VALUE) 0.0156 NORMAL APPROXIMATION WITH CONTINUITY CORRECTION 2.028 TWO TAILED P-VALUE FOR NORMAL APPROXIMATION 0.0425 110 FCEyN - Estadística para Química – 2do. cuat. 2006 - Marta García Ben El valor exacto de P está calculado para el test a una cola, el del test a dos colas es el doble: P = 0.031. Para este ejemplo de comparación de dos métodos de medición en distintas muestras (de a pares), lo que importa describir es las diferencias obtenidas con ambos métodos, así que una forma de redactar brevemente los resultados sería: DESCRIPTIVE STATISTICS DIF N 8 MEAN 0.5250 SD 0.8049 MINIMUM -0.2000 1ST QUARTI 0.0500 MEDIAN 0.3500 3RD QUARTI 0.6250 MAXIMUM 2.4000 Las diferencias de las determinaciones obtenidas por ambos métodos ( método2 menos método 1) tienen una mediana de 0.35 (P25,P75: 0.05, 0.62). Se rechaza la hipótesis de que estas diferencias se distribuyen alrededor del 0 (test de Wilcoxon, P=0.031). Comparación del test del signo con el test de Wilcoxon: El test de signos y el test de Wilcoxon son “competidores”: ambos pueden usarse para una muestra o para dos muestras de a pares cuando se sospecha que el modelo normal no se cumple y no se conoce la distribución de la variable estudiada. ¿Cuál conviene usar? ¿Cuál usa más información? Intuitivamente, Wilcoxon usa más información. ¿Cuál es más potente (tiene menor probabilidad de error II)? No se sabe…! Si el modelo normal fuese cierto, el test t es el test óptimo (más potente). En este caso (normalidad) la eficiencia relativa (ER) del test de Wilcoxon con respecto al test t es 3/π ≅ 0.955 y la ER del test del signo con respecto al de t es 2/π≅0.637 (son aproximaciones para muestras grandes). La siguiente tabla nos muestra la ER del test de Wilcoxon con respecto al test de signo para distintas distribuciones: Distribución ER del test de Wilcoxon con respecto al de signo Normal 3/2 = 1.5 Uniforme 3 Doble exponencial 3/4=0.75 Se ve que, si los datos fuesen normales, se perdería poca eficiencia usando el test de Wilcoxon en lugar del test óptimo, pero se pierde bastante si se usa el test de signo. Sin embargo (esto va en contra de mi intuición), para algunas distribuciones, puede ser más potente el test del signo que el test de Wilcoxon, como es el caso de la distribución doble exponencial (una función de densidad similar a la exponencial, pero simétrica). Esta distribución tiene "colas muy pesadas" lo que quiere decir que pueden ocurrir valores muy alejados de la media (o mediana que coinciden para distribuciones simétricas). O sea es un modelo bajo el cuál se observan con alta probabilidad valores muy alejados del centro ("outliers severos" en un box plot). 111 FCEyN - Estadística para Química – 1er. cuat. 2007 - Dra. Marta García Ben Análisis de la varianza de un factor El test t de 2 muestras se aplica cuando se quieren comparar las medias de dos poblaciones con distribuciones normales con varianzas iguales y se observan muestras independientes para cada población (modelo B). Ahora consideraremos un problema similar, pero cuando se quieren comparar tres o más medias. Ejemplo 7: En la tabla siguiente se muestran los resultados obtenidos en una investigación acerca de la estabilidad de un reactivo fluorescente en diferentes condiciones de almacenamiento. Se conservaron tres muestras en cada una de 4 condiciones. Supongamos (porque a veces puede ocurrir) que para una de las condiciones, la medición no pudo realizarse o se detectó un error grosero y fue eliminada. Los datos observados son: Condiciones Mediciones observadas (señales de fluorescencia) Media Recientemente preparada 102, 100, 101 101 Una hora en la oscuridad 101, 101, 104 102 Una hora con luz tenue 97, 95, 99 97 Una hora con luz brillante 92, 94 93 Mirando las medias se ve que son diferentes. Pero nos preguntamos, si las condiciones de almacenamiento no influyeran sobre la fluorescencia de las muestras (ésta será nuestra H 0 ), cuál es la probabilidad de que por azar se observen diferencias entre las medias muestrales de estas magnitudes? Para generalizar supongamos que observamos k muestras (en el ejemplo k=4). Suponemos el siguiente modelo, que es una generalización del modelo B de la clase anterior: Modelo de k muestras normales independientes con varianzas iguales. Muestra 1: X 11 , X 12 , ..., X 1 n1 vs. as. i.i.d N(µ 1 , σ 2 ) ................ Muestra i: X i1 , X i2 , ..., X i ni vs. as. i.i.d N(µ i , σ 2 ) ....... Muestra k: X i1 , X k2 , ..., X k nk vs. as. i.i.d N(µ k , σ 2 ) y las vs. as. de una muestra son independientes de las vs. as. de otra muestra. Llamemos i X y s i 2 a la media y la varianza de la muestra i (para i = 1,2, ...,k) 112 FCEyN - Estadística para Química – 1er. cuat. 2007 - Dra. Marta García Ben Parece natural que el estimador de σ 2 se obtenga calculando un promedio ponderado de las varianzas de cada muestra s i 2 . Se puede demostrar que el mejor estimador insesgado de σ 2 bajo el modelo anterior es: k n s ) n k n n s n s ) n k i i i i k k k p − − = − + + − + + − = ∑ = 2 1 2 2 1 1 2 * 1 ( ... * ) 1 ( ... * 1 ( s (23) En la última expresión hemos llamado ∑ = = k i i i n n al número total de observaciones. Vamos a estudiar la hipótesis nula: H 0 : µ 1 = µ 2 = ...= µ k La hipótesis alternativa es H 1 : no es cierta H 0 Llamemos n X n X n X k i i n j ij k i i i i i ∑ ∑ ∑ = = = = = 1 a la media general de todas las observaciones El estadístico para el test óptimo para este problema, tiene al estimador de la varianza (dado por (23)) en el denominador y una medida de las diferencias (similar a la variancia) entre las medias de las distintas muestras en el numerador. Esta medida es: 1 ) ( 2 − − ∑ = k X X n k i i i i (24) El estadístico del test se obtiene dividiendo (24) sobre (23): 2 2 ) 1 ( / ) ( p k i i i i s k X X n F − − = ∑ = (25) Test F: 1er paso: Calculo el estadístico F dado por (25) Nota: Si H 0 : µ 1 = µ 2 = ...= µ k es cierta, este estadístico tiene distribución F con k-1 grados de libertad en el numerador y n-k g.l. en el denominador. 2do. paso: Si F > F k-1,n-k;α rechazo H 0 . Las cuentas de este test pueden hacerse con el Statistix. Para ello hay que ir a "Statistics", "One, Two, Multi-Sample Tests", "One-Way AOV" y se obtiene: 113 FCEyN - Estadística para Química – 1er. cuat. 2007 - Dra. Marta García Ben ONE-WAY AOV FOR FLUORESCE BY CONDICION SOURCE DF SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 3 122.182 40.7273 15.84 0.0017 WITHIN 7 18.0000 2.57143 TOTAL 10 140.182 CHI-SQ DF P BARTLETT'S TEST OF ------ ------ ------ EQUAL VARIANCES 0.75 3 0.8610 ¿Para que sirve este test? SAMPLE GROUP CONDICION MEAN SIZE STD DEV --------- ---------- ------ ---------- 1 101.00 3 1.0000 2 102.00 3 1.7321 3 97.000 3 2.0000 4 93.000 2 1.4142 TOTAL 98.727 11 1.6036 por lo que se rechaza la hipótesis H 0 : µ 1 = µ 2 = µ 3 = µ 4 y se concluye que la media de la fluorescencia depende de las condiciones de almacenamiento. Comentarios sobre la “tabla del análisis de la varianza”. Se puede demostrar que vale la siguiente igualdad: ∑ ∑ ∑ ∑ ∑ = = = = = − + − = − k i i i ij n j k i i i i k i i ij n j X X X X n X X i i 2 1 2 2 1 ) ( ) ( ) ( En la expresión anterior aparecen tres “sumas de cuadrados”, que se llaman “suma de cuadrados entre grupos”, “sc dentro de grupos” y “sc total”. Diga usted cuál es cuál. Statistix calcula estas tres sumas de cuadrados para el ejemplo y las muestra en la tabla que aparece al principio de la salida anterior (llamada tabla del análisis de la varianza). DF es la abreviatura de “degrees of freedom”, SS de “sum of squares” y MS de “mean square”. En castellano seria gl, SC y CM. Suposiciones del modelo. Diagnóstico. El test F se ha deducido suponiendo el modelo de k muestras normales independientes con varianzas iguales. Cuando el tamaño de la muestra de cada grupo es grande, el test F es válido (el valor p calculado es aproximado) aunque la variable no tenga distribución normal, gracias al Teorema Central del Límite. En la practica no es esperable que el modelo sea completamente cierto, pero sí aproximadamente. Al igual que con el test t, hay que observar los datos para detectar si el modelo es aproximadamente cierto o es falso. Normalidad: Si, luego de obtener la salida anterior, vamos a "Results", "Plots", "Normal Probability Plot", obtenemos el siguiente gráfico: 114 FCEyN - Estadística para Química – 1er. cuat. 2007 - Dra. Marta García Ben ¿Cómo se calculan los “residuos” que se representan en el gráfico anterior? Tanto este gráfico como el test de Shapiro-Wilk (que se muestra abajo del mismo), sirven para decidir si puede rechazarse la normalidad. Test para estudiar si las varianzas son iguales: Para estudiar la suposición de igualdad de varianzas, además del gráfico también se puede hacer algún test. Algunos paquetes estadísticos hacen automáticamente algún test de la hipótesis de igualdad de varianzas cuando uno le pide el análisis de la varianza de un factor. El problema es considerar el modelo X ij ∼ N(µ i ,σ i 2 ) (i=1,...,I; j=1,...,n i ) independientes y la hipótesis H: . 2 2 2 2 1 ... I σ σ σ = = = Hay varios tests. El más antiguo es el test de Bartlett (es el que hace Statistix). Se basa en un estadístico que tiene distribución aproximadamente χ 2 I-1 bajo H. Tiene un inconveniente serio: es muy sensible a la falta de normalidad. Otro test que es poco sensible a la falta de normalidad es el test de Levene . Para aplicarlo, primero se calculan | ~ | i ij ij X X d − = | ~ | . i ij ij Y Y d − = donde i X ~ denota la mediana del tratamiento i . Luego se calcula el estadístico F del análisis de un factor a los d ij . Si la hipótesis H: es cierta y todos los n i “no son muy pequeños”, el estadístico tiene distribución aproximadamente F con I-1 y n-I g.l. Esto permite aplicar un test aproximado de la hipótesis de igualdad de varianzas. 2 2 2 2 1 ... I σ σ σ = = = Otros paquetes estadísticos (SPSS por ejemplo) usan el test de Levene y no el test de Bartlett. Para aplicarlo con el Statistix, habría que calcular primero los valores d ij . 115 FCEyN - Estadística para Química – 1er. cuat. 2007 - Dra. Marta García Ben Test no paramétrico para comparer 3 o más muestras: test de Kruskal-Wallis. Este test es una generalización del test de Wilcoxon- Mann Whitney al caso de más de 2 muestras. Igual que el test de Mann Whitney no requiere que los datos sean normales, y el estadístico de este test no se calcula con los datos originales, sino con los rangos de los datos. Comparación de pares de medias Supongamos que hemos aplicado el test F y hemos rechazado la H 0 . Qué quiere decir la alternativa? Que no todas la medias son iguales pero, ¿cuáles son diferentes? Cuando no se puede rechazar H 0 generalmente el análisis termina ahí, pero cuando se rechaza generalmente el experimentador no se conforma con esa respuesta, sino que desea comparar las medias, frecuentemente (no siempre) de a pares. Intervalo de confianza para la diferencia de dos medias. Queremos comparar las medias de los grupos i y i*. Empecemos por construir un IC para µ i - µ i* El estimador puntual es . * i X i X − ¿Cuál es su varianza? ¿Como se estima? Puede demostrarse que ] 1 1 ; 1 1 * 2 2 / , * * 2 2 / , * + + − + − − − − i i p k n i i i i p k n i n n s t X X n n s t X i X α α [ (26) es un IC con nivel 1-α (¿exacto o asintótico?). Si en vez de intervalo queremos estudiar la H 0 : µ i = µ i* también es fácil deducir un test (hacerlo). Se pueden calcular muchos IC o aplicar muchos tests? Cuál es la crítica que se suele hacer a los IC “usando la distribución t” (de la forma (26)) y a los tests deducidos de estos intervalos. Si hacemos unos pocos intervalos elegidos a priori (antes de observar los datos) la probabilidad de equivocarnos será >5%, pero no será tan alta... Pero si por ejemplo tenemos 6 tratamientos y hacemos todas las comparaciones de a pares, el nro. de IC será 15, ¿cuál será la probabilidad de que alguno no contenga al verdadero valor del parámetro? Aunque no la sepamos calcular, es evidente que esta probabilidad es mucho > que 0.05. Por eso cuando uno planea de antemano hacer uno o muy pocos intervalos o tests puede usar (26), pero en caso contrario conviene utilizar un método de intervalos de confianza simultáneos. Intervalos de confianza simultáneos (concepto general, no sólo para el análisis de varianza de un factor) ¿Cuál es la definición de IC para un parámetro θ? Recordemos que si X=(X 1 ,X 2 ,...,X n ) es la muestra observada, un intervalo [a(X),b(X)] es un IC para θ con nivel 1-α si P( a(X) ≤ θ ≤ b(X) ) = 1-α 116 FCEyN - Estadística para Química – 1er. cuat. 2007 - Dra. Marta García Ben Ahora deseamos calcular IC para cada uno de los parámetros θ j (digamos j=1...,m). Se dice que el intervalo [a j (X),b j (Y)] es un IC para θ j calculado por un método simultáneo si (27) α θ − ≥ ≤ ≤ = 1 )] ( ) ( [ 1 I m j j j j X b X a P o sea que la probabilidad de que todos los IC sean correctos (contengan al verdadero valor del parámetro) es ≥ 1-α. La probabilidad de que alguno sea incorrecto es ≤ α. Método de Bonferroni. Un método muy general (para cualquier modelo) para obtener intervalos de confianza simultáneos es calcular cada uno de ellos con nivel 1-α/m, donde m es el número de IC que se desea calcular. (Ej.: demostrar que de este modo se consigue (27), usando la desigualdad de Bonferroni). Este método tiene la ventaja de ser muy simple y muy general, pero sólo se usa en la práctica si m es muy pequeño, porque para valores moderados de m da IC de mucha longitud. Para el caso particular del análisis de la varianza de un factor, basta usar (26), pero reemplazando t n-k,α/2 por t n-k,α/2m donde m es el número de IC que se desea calcular. Método de Tukey. Los intervalos de Tukey (o Tukey-Kramer) son similares a los dados en (26) pero reemplazando t n-k,α/2 por el valor q k , n-k,α / √2 donde los valores "q" están tabulados y corresponden a la distribución estudiada por Tukey, llamada distribución del "rango studentizado" de k variables normales independientes. El √2 que aparece se debe simplemente a como se construyó la tabla. Para el caso originalmente pensado por Tukey en el que los tamaños de muestras son iguales (n 1 =n 2 =...=n I ), este método hace que se cumpla el = en vez del ≥ en (27) cuando se realizan todas los comparaciones de a pares. El método de Tukey es óptimo (da IC de la menor longitud posible) cuando se desea calcular IC para todos los pares posibles y los n j ’s son iguales. Para el caso en que los tamaños de muestras no son iguales, se demostró que sigue valiendo (27) pero con “>”. En este caso el método se conoce también como “método de Tukey-Kramer”. Tests simultáneos: son los derivados de IC simultáneos. Tienen la propiedad de que la probabilidad de cometer algún error tipo I es menor o igual que α. Comparación de los métodos considerados Si se desea calcular un IC o aplicar un test para una sola diferencia de medias elegida a priori, evidentemente el método de elección es el basado en la distribución t. Si son unos pocos, elegidos a priori conviene usar Bonferroni. Si se hacen muchas comparaciones de a pares (o algunas elegidas a posteriori, que es “igual que hacer muchas”) conviene usar Tukey (dá intervalos de menor longitud que Bonferroni). Para elegir entre Bonferroni y Tukey, no es "trampa" elegir el método que dá IC de menor longitud. No se necesita hacer las cuentas del IC para elegir el método: basta comparar quien es menor entre los valores de la tabla de "t" y de la tabla de "q" (entre t n-k,α/2m y q k , n-k,α /√2 ). 117 FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 118 En la siguiente tabla se resume la utilidad de alguno de los tests que hemos estudiado (no todos). Tests para comparar dos o mas muestras Tipo de variable Una muestra Dos muestras de a pares Dos muestras indepen-dientes k (k>2) muestras indepen-dientes Numérica con distribución aproximada- mente normal Test t para una muestra Test t para muestras de a pares (coincide con el test de 1 muestra aplicado a diferencias) a) Test t para dos muestras indepen-dientes suponiendo varianzas iguales b) Test de Welch Análisis de la varianza de un factor Numérica no normal u ordinal a) Test de signos b) Test de Wilcoxon (test de rangos con signos) (*) a) Test de signos b) Test de Wilcoxon aplicado a las diferencias (*) Test de Wilcoxon- Mann-Whitney (test de suma de rangos) Test de Kruskal Wallis (*) El test de Wilcoxon de rangos con signos no es aplicable a variables ordinales FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 119 “Remember that all models are wrong, the practical question is how wrong do they have to be to not be useful". George E.P. Box RELACIÓN ENTRE DOS VARIABLES NUMÉRICAS. REGRESIÓN LINEAL SIMPLE. CORRELACIÓN. Los métodos de regresión se usan para estudiar la relación entre dos variables numéricas. Puede interesar por ejemplo estudiar la relación entre estatura y perímetro cefálico de niños varones recién nacidos, o la relación entre la estatura del hijo y la estatura del padre (éste es un famoso ejemplo histórico de Galton 1880 que dió origen a la denominación "modelo de regresión"). En química analítica se usa el modelo de regresión para calibrar un método de medición. Ejemplo 1: Para calibrar un fluorímetro se han examinado 7 soluciones estándar de fluoresceína (de las que se conoce la concentración medida con mucha precisión) en el fluorímetro. Los siguientes datos son las "verdaderas" ("casi verdaderas") concentraciones y la intensidad de fluorescencia observada en el fluorímetro: Concentración, pg/ml: 0 2 4 6 8 10 12 Intensidad de fluorescencia: 2.1 5.0 9.0 12.6 17.3 21.0 24.7 En un problema de calibración, queremos, a partir de mediciones hechas en muestras standard, estudiar la relación entre las mediciones y el “verdadero valor”. Esta relación permitirá en el futuro, medir una muestra desconocida y conocer aproximadamente su verdadero valor. Lo primero que se hace para estudiar la relación entre dos variables numéricas es un diagrama de dispersión (scatter plot), como el que se presenta a continuación. Para obtenerlo con el Statistix, se entra a "Statistics","Summary Statistics", "Scatter Plot". FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 120 Para ayudar a visualizar la relación, hemos agregado a los puntos del gráfico de dispersión una recta que se llama "recta de regresión" o "recta de cuadrados mínimos". Para ello, basta marcar (en el Statistix) donde dice "Display Regression Line". Recta de cuadrados mínimos. La recta representada en el gráfico anterior es la recta de cuadrados mínimos. La recta de cuadrados mínimos es la que está "más cerca" de los puntos, en el sentido siguiente: hace mínima la suma de los cuadrados de las distancias de cada punto a la recta, midiendo las distancias verticalmente. O sea minimiza: Σ ( y i - (a + b x i ) ) 2 (31) Statistix calcula la ecuación de esa recta. Para ello hay que marcar "Statistics", "Linear Models", "Linear Regression". Ponemos "Fluorescencia" como variable dependiente y "Concentracion" como independiente y obtenemos: UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF FLUORESCE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 1.51786 0.29494 5.15 0.0036 CONCENTRA 1.93036 0.04090 47.20 0.0000 R-SQUARED 0.9978 RESID. MEAN SQUARE (MSE) 0.18736 ADJUSTED R-SQUARED 0.9973 STANDARD DEVIATION 0.43285 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 417.343 417.343 2227.53 0.0000 RESIDUAL 5 0.93679 0.18736 TOTAL 6 418.280 CASES INCLUDED 7 MISSING CASES 0 Observando los "coeficientes" de la salida vemos que la recta de cuadrados mínimos tiene ordenada al origen 1.51786 y pendiente 1.93036. Si los puntos (como en este ejemplo) están cerca de la recta, podemos decir que y ≅ 1.51786 + 1.93036 X o Fluorescencia ≅ 1.51786 + 1.93036 Concentración Por ejemplo si la verdadera concentración de fluoresceína de una muestra es 8, la ordenada de la recta es 1.51786 + 1.93036 *8 = 16.96. Obviamente esto no quiere decir que para la muestras que tengan concentración=8 la intensidad de la fluorescencia es 16.96 (ver gráfico, los puntos están muy cerca de la recta, pero no están sobre la recta). FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 121 Modelo de regresión lineal . Para hace inferencias (aplicar test de hipótesis y calcular intervalos de confianza) se necesita, como siempre, suponer un modelo, que se llama "modelo de regresión lineal simple". La palabra "simple" es porque consideramos una sola variable independiente o predictora (X). Se generaliza en forma natural al caso en que hay varias variables independientes y en ese caso se llama "modelo de regresión lineal múltiple". Las suposiciones del modelo de regresión lineal simple (que es el que estudiaremos en este curso) son las siguientes. MODELO: Se observan pares de valores (x i , Y i ) para i=1,...n, que cumplen: Y i = α + β x i + e i (para i=1,...,n) (32) donde e 1 ,e 2 ,...,e n son variables aleatorias tales que 1) E(e i ) = 0 para todo i 2) Var(e i ) = σ 2 (o sea es siempre la misma para todas las observaciones) 3) e 1 , e 2 , ...., e n son vs as independientes Para obtener algunos resultados alcanzan las suposiciones 1) a 3), pero para otros es necesario agregar: 4) e i ∼ Normal _____________ Obviamente las suposiciones 1) a 4) se pueden escribir en forma más breve: 1) a 4) ⇔ e i vs. as. i.i.d. N(0, σ 2 ) Comentario: Hay dos modelos un poco diferentes: el modelo con x i 's fijas y el modelo con x i 's aleatorias. En el primero los valores x i 's no son variables aleatorias sino que son números fijados por el experimentador. En el segundo tanto x i como Y i son observaciones de variables aleatorias. Los problemas de calibración son ejemplo con x i 's fijas. El problema de estudiar la relación entre estatura y perímetro cefálico de recién nacidos es un ejemplo con x i 's aleatorias. Justificaremos los resultados (estimadores, IC, tests) sólo para el modelo con x i 's fijas, que es más simple, pero casi todos los resultados (IC y tests) son los mismos para ambos modelos. Una forma equivalente de escribir el modelo de regresión lineal simple (en el caso en que las x i 's son números fijos) es la siguiente: 1*) E(Y i )= α + β x i (para i=1,...,n) 2*) Var(Y i ) = σ 2 (para i=1,...,n) 3*) Y 1 , Y 2 , ...., Y n son vs as independientes 4*) Y i ∼ Normal Nuevamente, las suposiciones 1*) a 4*) se pueden escribir en forma más breve: 1*) a 4*) ⇔ Y i vs. as. i.i.d. N(α + β x i ,σ 2 ) FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 122 Comentario: en el modelo con x i 's aleatorias, no hay que hacer ninguna suposición sobre la distribución de las x i 's . Puede ser normal o no. Como de costumbre, no se espera que las suposiciones del modelo se cumplan exactamente en un problema real, pero al menos que sean aproximadamente válidas. Si están lejos de cumplirse, las conclusiones pueden ser erróneas. Por ejemplo la presencia de algunos valores de Y atípicos (alejados de la recta, lo que implica que no se cumple la suposición 4)) pueden invalidar las conclusiones. En efecto, la recta de cuadrados mínimos, al igual que la media, es sensible a unos pocos valores atípicos. Les presento a continuación gráficos de dispersión para cinco ejemplos artificiales, generados con un programa (generando números pseudoaleatorios). Algunos fueron generados de modo que cumplan todas las suposiciones del modelo de regresión lineal, otros no. ¿Detecta usted en cuáles de estos ejemplos no se cumple alguna de las suposiciones y cuál es la suposición que no se cumple? x y 1 0 2 4 6 8 10 5 1 0 1 5 2 0 2 5 Ejemplo artificial 1 FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 123 x y 2 0 2 4 6 8 10 1 0 2 0 3 0 Ejemplo artificial 2 x y 3 0 2 4 6 8 10 1 0 2 0 3 0 4 0 Ejemplo artificial 3 FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 124 x y 4 0 2 4 6 8 10 0 2 0 4 0 6 0 8 0 Ejemplo artificial 4 x y 5 0 2 4 6 8 10 0 2 4 6 8 Ejemplo artificial 5 FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 125 Estimadores de α y β por el método de cuadrados mínimos. Llamemos αˆ y a los valores de a y b que minimizan (31) que se llaman "estimadores de cuadrados mínimimos" de α y β. Se puede demostrar (derivando (31) e igualando a cero, hacerlo) que: β ˆ ∑ ∑ ∑ ∑ = = = = − − = − − − = n i i n i i i n i i n i i i x n x Y x n Y x x x Y Y x x 1 2 2 1 1 2 1 ) ( ) ( ) ( ) ( ) ( ˆ β (33) x Y β α ˆ ˆ − = (34) Se puede demostrar que estos estimadores son óptimos si se cumplen las suposiciones 1) a 4). Residuos: Se llaman residuos las diferencias entre los valores observados y las respectivas ordenadas de la recta: ) ˆ ˆ ( ˆ i i i x Y e β α + − = Estimador de σ 2 . σ 2 es Var(e i ). Los e i son vs. as. "no observables". Parece natural que el estimador de σ 2 se base en los residuos . Se puede demostrar que el estimador i eˆ 2 ) ) ˆ ˆ ( ( 2 ˆ 1 2 1 2 2 − + − = − = ∑ ∑ = = n x Y n e s n i i i n i i β α (35) es un estimador insesgado de σ 2 Varianza de αˆ y . Se puede demostrar fácilmente que: β ˆ (36) β β = ) ˆ ( E ∑ = − = n i i x x 1 2 2 ) ( ) ˆ ( σ β Var (37) y que cov ) ˆ , β Y ( = 0 (38) (Demostrar (36) y (37)). Usando (36) a (38), se puede demostrar que FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 126 − + = = ∑ = n i i x x x n Var E 1 2 2 2 ) ( 1 ) ˆ ( ; ) ˆ ( σ α α α Los estimadores de Var(αˆ ) y Var( ) se obtienen reemplazando σ β ˆ 2 por s 2 . Intervalo de confianza para β Llamemos ∑ = − = = n i i x x s ar V ES 1 2 2 ) ( ) ˆ ( ˆ ) ˆ ( β β Es fácil justificar que el intervalo (39) ) ˆ ( ˆ 2 / ; 2 β β α ES t n− ± es un IC para β con nivel 1-α. Si la suposición 4) (de normalidad) no se cumple, este intervalo, bajo condiciones muy generales, tiene nivel asintótico 1-α. Una medida de cuán buena es X para predecir Y: el coeficiente de correlación lineal "r" de Pearson. Este coeficiente puede interpretarse como una medida de cuán cerca están los puntos de una recta. La definición de r 2 es la siguiente: ∑ − ∑ + − − ∑ − = = = = n i i n i i i n i i Y Y x Y Y Y 1 2 1 2 1 2 2 ) ( ) ) ˆ ˆ ( ( ) ( β α r (40) Puede observarse que r 2 compara la dispersión de los valores de y con respecto a la recta de cuadrados mínimos con la dispersión de los valores de y con respecto a su media. r 2 es la proporción de la "variación total" entre los valores de y que se puede explicar prediciéndolos por un recta en función de los valores de x. Siempre es 0 ≤ r 2 ≤ 1 Significado del valor de r 2 r 2 = 1 significa que los puntos están exactamente sobre una recta (*) r 2 cerca de 1 los puntos están cerca de una recta FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 127 r 2 cerca de 0 significa que la recta de cuadrados mínimos es prácticamente horizontal y por lo tanto no hay relación creciente ni decreciente. (*) En las aplicaciones prácticas es "casi imposible" que r 2 valga exactamente igual a 1. El coeficiente de correlación r es la raiz de r 2 y se le pone signo negativo si la pendiente de la recta de cuadrados mínimos es negativa (recta decreciente). Otra expresión equivalente para calcular r es: ∑ ∑ − − ∑ − − = = = = n i n i i i n i i i Y Y x x Y Y x x 1 1 2 2 1 ) ( ) ( ) ( ) ( r (41) Siempre es -1 ≤ r ≤ 1 y r cerca de 1 o -1 indicará que los puntos están cerca de una recta creciente o decreciente respectivamente. En el ejemplo de la fluorescencia, se ve en la salida del Statistix que R-SQUARED 0.9978 y, como la pendiente es positiva, es r = raiz(0.9978) = 0.9989. Ambos muy cerca de 1, son una medida de lo que vemos en el gráfico: los puntos están muy cerca de una recta En el caso en que las x i ’s son aleatorias, el coeficiente r es un estimador consistente del coeficiente de correlación ρ(X,Y). Estimación del valor esperado de Y para un valor fijado de x y su intervalo de confianza. Si fijamos un valor de la variable independiente, digamos en x 0 , cual es el valor esperado de Y para ese valor de X? Por el modelo supuesto, por la suposición 1) o 1*) el valor esperado de Y es E(Y)= α + β x 0 Su estimador es 0 x ˆ ˆ β + α Usando (37) y (38) e puede demostrar que la varianza de este estimador es: − − + σ = β + α ∑ = n 1 i 2 i 2 0 2 0 ) x x ( ) x x ( n 1 ) x ˆ ˆ ( Var (42) y que el intervalo de extremos FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 128 − − + + β + α − − + − β + α ∑ ∑ = α − = α − n 1 i 2 i 2 0 2 2 / ; 2 n 0 n 1 i 2 i 2 0 2 2 / ; 2 n 0 ) x x ( ) x x ( n 1 s t x ˆ ˆ ; ) x x ( ) x x ( n 1 s t x ˆ ˆ (43) es un IC con nivel 1-α para el valor esperado de Y, para x = x 0 . Predicción de un nuevo valor de Y conocido el valor de x e intervalo de predicción. Los estimadores de los parámetros del modelo se basaron en una muestra de n observaciones (xi, Yi) (i=1,...,n). Supongamos ahora que hacemos una nueva observación, pero sólo conocemos su valor de x (llamémoslo x n+1 ), no conocemos su valor de Y, que llamaremos Y n+1 . Queremos en esta sección dar un valor aproximado para Y n+1 (se dice que queremos “predecir” Y n+1 ) y un intervalo que contiene a Y n+1 con una probabilidad 0.95 (o 1-α) (que se llama intervalo de predicción para Y n+1 ). Ejercicio: Pensar en un problema concreto, por ej un problema de calibración en el que x es el verdadero contenido de una sustancia e Y la medición o un problema en el que x es la dosis de un fertilizante e Y la producción de trigo. ¿Que significa estimar E(Y) para un valor x=x 0 y que significa predecir un nuevo valor de Y en estos ejemplos? ¿Qué le parece más útil? Supondremos que el nuevo individuo observado cumple el mismo modelo que los n anteriores. Entonces: Y n+1 = α + β x n+1 + e n+1 donde e n+1 es una v.a. con esperanza cero y es independiente de e 1 , e 2 , ...., e n . Es intuitivamente razonable que el mejor predictor de Y 0 sea: (44) 1 n 1 n x ˆ ˆ Y ˆ + + β + α = El error de predicción es: ) x ˆ ˆ ( e ) x ( 1 n Y ˆ Y 1 n 0 1 n 1 n + + + β + α − + β + α = + − Se puede demostrar que este error de predicción tiene esperanza cero y varianza − − + + σ = β + α + = − ∑ = + + + + + n 1 i 2 i 2 1 n 2 1 n 1 n 1 n 1 n ) x x ( ) x x ( n 1 1 ) x ˆ ˆ ( Var ) e ( Var ) Y ˆ Y ( Var y que el intervalo de extremos FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 129 − − + + + − − + + − ∑ ∑ = + α − + = + α − + n 1 i 2 i 2 1 n 2 2 / ; 2 n 1 n n 1 i 2 i 2 1 n 2 2 / ; 2 n 1 n ) x x ( ) x x ( n 1 1 s t Y ˆ ; ) x x ( ) x x ( n 1 1 s t Y ˆ (45) es un "intervalo de predicción" con nivel 1-α para una nueva observación Y 0 . ¿Sabe usted definir que significa esta afirmación? Aplicación a un ejemplo: Volvamos al ejemplo de la fluorescencia. De la salida del programa mostrada anteriormente obtenemos: 18736 . 0 ; 93036 . 1 ˆ ; 51786 . 1 ˆ 2 = = = s β α 04090 . 0 ) ˆ ( ˆ ) ˆ ( = = β β ar V ES No aparece directamente en la salida el IC para β, pero es fácil obtenerlo usando (39). Si queremos un IC al 95%, necesitamos el valor de t con 7-2=5 gl, con p=0.05 en las dos colas. En Statistix o en tablas obtenemos: t 5; 0.025 = 2.57 y, reemplazando en (39): 1.93036 ± 2.57*0.04090 1.93036 ± 0.10511 o, redondeando IC para β con nivel 95%: [1.83; 2.04] El IC al 95% para α se obtiene en forma análoga: 1.51786 ± 2.57*0.29494 redondeando: 1.52 ± 0.76 Predicción: Vamos a calcular ahora el predictor de la medición de fluorescencia y un intervalo de predicción para una nueva muestra standard cuya concentración de fluoresceína.es 8 pci/ml. El predictor es fácil de calcular: = β + α = + + 1 n 1 n x ˆ ˆ Y ˆ 1.51786 + 1.93036*8 = 16.96 Para obtener el intervalo de predicción para Y n+1 hay que usar la expresión (45). Pero Statistix calcula automáticamente dicho intervalo. Para ello, inmediatamente después de obtener la salida de la regresión, marcamos "Results", "Prediction", ponemos en la ventana "Predictor Values" el número 8 y obtenemos: PREDICTED/FITTED VALUES OF FLUORESCE LOWER PREDICTED BOUND 15.753 LOWER FITTED BOUND 16.491 PREDICTED VALUE 16.961 FITTED VALUE 16.961 UPPER PREDICTED BOUND 18.169 UPPER FITTED BOUND 17.431 FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 130 SE (PREDICTED VALUE) 0.4699 SE (FITTED VALUE) 0.1829 UNUSUALNESS (LEVERAGE) 0.1786 PERCENT COVERAGE 95.0 CORRESPONDING T 2.57 PREDICTOR VALUES: CONCENTRA = 8.0000 Vemos que el predictor es 16.961 y el intervalo de predicción al 95% es [15.753 ; 18.169]. También se muestra en esta salida el IC al 95% para el valor esperado de la medición de fluorescencia para muestras con concentración de fluoresceína=8. Observar este intervalo y ver que tiene menor longitud. ¿Cuál es la interpretación intuitiva de ambos intervalos en este ejemplo ? ¿Es intuitivamente razonable que el IC para el valor esperado tenga menor longitud? Con Statistix también podemos representar gráficamente los intervalos de prediccion y los IC para el valor esperado de Y, para diferentes valores de x. Para ello, siempre a partir de la salida de la regresión lineal, vamos a "Results", "Plots", "Simple Regression Plot" y obtenemos: Comentario: aunque no se nota mucho en este gráfico ni el IC para el valor esperado de Y ni el intervalo de predicción tienen longitud constante, ¿para que valores de x 0 o x n+1 es menor la longitud? Predicción inversa: predicción de de un nuevo valor de x conocido el valor de y cálculo de un intervalo de confianza. Los estimadores de los parámetros del modelo se basaron en una muestra de n observaciones (xi, Yi) (i=1,...,n). FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 131 Supongamos ahora que hacemos una nueva observación, pero sólo conocemos su valor de Y, no conocemos su valor x. Queremos en esta sección calcular un estimador de x y un intervalo que contiene a x con una probabilidad 1-α. Hemos dicho que hay dos modelos de regresión lineal simple: uno con x's fijas y otro con x's aleatorias. Pero en ambos modelos Y es aleatoria. En el caso en el que la variable x también es aleatoria, si queremos predecir X conocido Y una solución es cambiar el modelo: intercambiar en (32) el papel de las variables “Y” y “X” y luego aplicar "predicción" (o sea (44) y (45)). Pero si la variable x es fija (fijada por el experimentador), como suele ocurrir en los experimentos de calibración, no se la puede considerar como variable "Y" en (32) ya que no se cumplirían las suposiciones del modelo de regresión. Consideremos entonces el caso x fija. Supondremos que el nuevo individuo observado cumple el mismo modelo que los n anteriores, luego Y = α + β x + e donde e es una v.a. con esperanza cero y es independiente de e 1 , e 2 , ...., e n . Despejando x β − α − = e Y x Como no tenemos información ninguna sobre e , y de α y β sólo conocemos los estimadores, es intuitivamente razonable estimar x con: β α − = ˆ ˆ Y xˆ (46) Como es un cociente de variables aleatorias, no es fácil calcular su varianza, pero se puede encontrar una expresión aproximada. El estimador de esta aproximación de la varianza es xˆ − β − + + β = ∑ = n 1 i 2 i 2 2 2 2 ) x x ( ˆ ) Y Y ( n 1 1 ˆ s ) xˆ ( ar V ˆ (47) Llamando ) xˆ ( ar V ˆ ) xˆ ( = ES (48) el intervalo ) xˆ ( ES t xˆ 2 / ; 2 n α − ± (49) FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 132 es un intervalo de confianza con nivel aproximado 1-α para x. Supongamos ahora que, para obtener mayor precisión, un químico hace "m" mediciones para la misma muestra. La muestra tiene un valor x desconocido y llamamos m Y al promedio de las m observaciones Y's hechas en esa muestra. Entonces (46) y (47) se modifican así: β α − = ˆ ˆ Y xˆ m (46*) − β − + + β = ∑ = n 1 i 2 i 2 2 m 2 2 ) x x ( ˆ ) Y Y ( n 1 m 1 ˆ s ) xˆ ( ar ˆ V (47*) Quedando (48) y (49) sin cambios. Ejemplo: Lamentablemente Statistix no calcula la predicción inversa, que es el objetivo principal de un experimento de calibración. Hagamos las cuentas "a mano". Continuamos con el ejemplo de la fluoresceína. Ahora medimos una muestra de la que no conocemos la concentración de fluoresceína. La medición de fluorescencia es 13.5. ¿Cuál es la verdadera concentración de fluoresceína de la muestra? Llamemos x a esta verdadera concentración desconocida. Su estimador se calcula con (46): 930 . 1 518 . 1 5 . 13 ˆ ˆ Y xˆ − = β α − = = 6.21 El estimador de la concentración es 6.21 pg/ml. Una medida de la precisión de esta estimación la dan su Error Standar y también el IC al 95%. Necesitamos primero calcular (47). Vemos que todo lo que se necesita para calcular (47) puede encontrarse en la salida de la regresión lineal, salvo Y y ∑ − 2 ) ( x x i . En este experimento en que hay n=7 pares de datos, se podrían hacer las cuentas con una calculadora. Otra forma puede ser calcular en Summary Statistics, Descriptive Statistics: DESCRIPTIVE STATISTICS VARIABLE N MEAN SD VARIANCE CONCENTRA 7 6.0000 4.3205 18.667 FLUORESCE 7 13.100 8.3495 69.713 Luego Y = 13.10 ∑ − 2 ) ( x x i no lo tenemos directamente, pero tenemos la varianza que es igual a ) 1 /( − n ) ( 2 − ∑ x x i . Por lo tanto multiplicando la varianza por (n-1) obtenemos ∑ − 2 ) ( x x i = 18.667*6 = 112.0 FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 133 Reemplazamos ahora en (47): − + + = 0 . 112 * 93036 . 1 ) 10 . 13 5 . 13 ( 7 1 1 93036 . 1 18736 . 0 ) xˆ ( ar V ˆ 2 2 2 = 0.05748 Luego 05748 . 0 ) xˆ ( ES = = 0.240 Aplicando (49) obtenemos que 6.21 ± 2.57*0.240 6.21 ± 0.62 son los límites de confianza al 95% para la concentración de fluoresceína en la nueva muestra observada. Ejercicios: 1) Calcular el estimador de la concentración de fluoresceína y el IC al 95% para una muestra para la que se midió una fluorescencia de 23.0 Respuesta: 11.3 pg/ml 11.3 ± 0.68 pg/ml. 2) ¿De qué depende la longitud del IC para x? En particular, ¿la longitud es la misma para cualquier valor Y? ¿Como se deberían tomar las muestras standard en el experimento de calibración para disminuir la longitud de los intervalos de confianza para x? Diagnóstico del modelo de regresión. Ejemplo 2: En la clase de estadística descriptiva comenzamos a analizar los datos de un experimento de calibración. Dijimos en esa clase: “Cuando el plutonio está presente en pequeñas cantidades mezclado con otros materiales es difícil detectarlo. Una forma de detectarlo es medir las partículas alfa que emite. En una investigación para estudiar la relación entre la cantidad de plutonio y la emisión de partículas alfa, se midieron varias veces cuatro materiales standards para los que se sabe que la actividad de plutonio (0, 5, 10 y 20 picocuries por gramo (pCi/g). Los resultados de estas mediciones están en el archivo plutonio.xls.” Observemos el diagrama de puntos ("Statistics","Summary Statistics", "Scatter Plot"): FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 134 Ya al ver este diagrama se observa que los datos no siguen el modelo de regresión lineal: hay un claro dato atípico y no parece cumplirse la suposición de varianza constante. Otra forma que a veces ayuda a detectar fallas en el modelo, es estimar los parámetros del modelo y luego hacer gráficos para el ¨diagnóstico¨ del modelo. Para ello vamos a "Statistics", "Linear Models", "Linear Regression" y obtenemos: UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF PARTALFA PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 0.01453 0.00653 2.23 0.0366 PLUTONIO 0.00501 6.778E-04 7.40 0.0000 R-SQUARED 0.7133 RESID. MEAN SQUARE (MSE) 5.623E-04 ADJUSTED R-SQUARED 0.7003 STANDARD DEVIATION 0.02371 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 0.03078 0.03078 54.74 0.0000 RESIDUAL 22 0.01237 5.623E-04 TOTAL 23 0.04315 CASES INCLUDED 24 MISSING CASES 0 Con esta salida a la vista, se marca "Results", "Plots", "Normal Probability Plot", el programa hace el siguiente gráfico para estudiar la normalidad de los residuos: FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 135 En el gráfico se observa la presencia de un valor atípico y el test de Shapiro Wilk rechaza la hipótesis de normalidad (P<0.0001). Excluímos el dato atípico y volvemos a estimar los parámetros de la regresión y hacer gráficos con los residuos. UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF PARTALFA PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 0.00703 0.00360 1.95 0.0641 PLUTONIO 0.00554 3.659E-04 15.13 0.0000 R-SQUARED 0.9160 RESID. MEAN SQUARE (MSE) 1.580E-04 ADJUSTED R-SQUARED 0.9120 STANDARD DEVIATION 0.01257 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 0.03619 0.03619 229.00 0.0000 RESIDUAL 21 0.00332 1.580E-04 TOTAL 22 0.03951 CASES INCLUDED 23 MISSING CASES 0 Marcamos ahora Results, Plots y representamos los 2 graficos que nos ofrece el programa: grafico de probabilidad normal y grafico de residuos y valores ajustados. Estos son: FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 136 A pesar de haber excluido el dato atípico, se aprecia en el normal probability plot que los residuos no se distribuyen normalmente. El segundo grafico muestra muy claramente lo que ya vimos en el grafico de puntos originales: hay mayor dispersión “a derecha del gráfico”, parece que la variabilidad de la medición aumenta a medida que aumenta el valor esperado (no se cumple la suposición 2) del modelo lineal). FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 137 Esto indica que no es correcto ni conveniente usar para estos datos el método de cuadrados mínimos. No hay una solución automática para datos que no cumplen las suposiciones del modelo de regresión lineal. En este caso en que la dispersión aumenta con el valor esperado, se han propuesto dos tipos de soluciones. Una es la de aplicar “cuadrados mínimos ponderados”. Otra es la de aplicar transformaciones a los datos. Cuadrados mínimos ponderados. En algunos problemas, se sabe de antemano o se observa en los datos que no se cumple la suposición de que los errores tienen igual varianza (suposición 2)), sino que la varianza cambia con x, digamos en general que es de la forma: Var(e i ) = funcion(x i ) (50) donde en principio la función es desconocida. En problemas en los que e i es el error de medición puede ser conocida de antemano la relación entre la variancia del error y lo que se quiere medir (x i ). Si tenemos la suerte de conocer de antemano algo sobre la relación que hay entre la varianza y el valor de x, o proponemos esta relación observando los datos, la solución es simple. Las relaciones más usadas son que la varianza o la desviacion standard son proporcionales a x, o sea a) Var(e i ) = cte. x i b) DS (e i ) = cte. Xi (51) Observar que tanto a) como b) pueden escribirse del siguiente modo Var(e i ) = θ v i donde θ es una constante conocida o más frecuentemente un parámetro a estimar y v i son constantes conocidas. Supongamos ahora que se cumple (32) con las suposiciones 1) y 3), pero cambiando 2) por Var(e i ) = θ v i . Entonces si dividimos por i v ambos miembros de (32) y llamamos i i i i i i i i i v e e v x x v Y Y = = = * * * ; ; . obtenemos Y i * = α i v 1 + β x i * + e i * (para i=1,...,n) (52) donde ahora e i * cumple las suposiciones 1) a 3) del modelo lineal “clásico”. Luego para estimar los parámetros α y β se aplica cuadrados mínimos en (52), que equivale (demostrar) a minimizar Σ(1/v i ) ( y i - (a + b x i ) ) 2 (53) por lo que el método de estimación se llama cuadrados mínimos pesados (o ponderados). Observar que el peso de cada observación es inversamente proporcional a su varianza, lo que es intuitivamente razonable. Statistix permite calcular los estimadores de cuadrados mínimos pesados. FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 138 Cuando para cada valor de x se hacen varias observaciones de y, se puede estimar las varianzas de los errores por las varianzas muestrales en lugar de hacer suposiciones como en (51). Luego se emplean estas varianzas estimadas en el método de cuadrados mínimos ponderados. Veremos a continuación un ejemplo en el que aplicaremos este método. Este método no es recomendable si hay pocas observaciones para cada x. Ejemplo 3: En el libro de Miller 1 se presenta el siguiente problema. En un experimento de calibración se analizaron soluciones standard con concentración conocida. Cada solución fue medida 10 veces. Se muestran las medias y las DS de las absorbancias observadas: Concentración 0 2 4 6 8 10 Absorbancia Promedio DS 0.009 0.001 0.158 0.004 0.301 0.010 0.472 0.013 0.577 0.017 0.739 0.022 Los datos de concentración y promedio de absorbancia se grafican a continuación: Se observa en el gráfico que la relación es lineal. Pero en la tabla (esto no se ve en el gráfico, porque no tenemos los datos originales del experimento, verdad?) se ve que a medida que la verdadera concentración aumenta, crece la DS. Asi que es insostenible la suposición 2) del modelo de regresión en este ejemplo y es evidente que Var(e i ) = funcion(x i ) = v i donde la función es creciente. Si no tenemos idea previa de la forma de esta función, se suele simplemente estimar cada v i con el cuadrados de la DS correspondiente. Por ejemplo para x i =0 estimamos v i con el cuadrado de 0.001, etc. El estimador de mínimos cuadrados ponderados usa como pesos las inversas de estos v i estimados. El Statistix permite calcular cuadrados mínimos ponderados. Ingresamos los datos, calculamos los pesos y obtenemos la siguiente salida: FCEyN - Estadística para Química – 2do cuat 2006 - Marta García Ben 139 WEIGHTED LEAST SQUARES LINEAR REGRESSION OF MEDIAABSO WEIGHTING VARIABLE: PESOS PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 0.00908 0.00105 8.67 0.0010 CONCENTRA 0.07376 0.00106 69.33 0.0000 R-SQUARED 0.9992 RESID. MEAN SQUARE (MSE) 1.12503 ADJUSTED R-SQUARED 0.9990 STANDARD DEVIATION 1.06067 Si, por error hubiésemos calculado la recta de cuadrados mínimos sin ponderaciones, hubiésemos obtenido: UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF MEDIAABSO PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 0.01329 0.01056 1.26 0.2767 CONCENTRA 0.07254 0.00174 41.60 0.0000 R-SQUARED 0.9977 RESID. MEAN SQUARE (MSE) 2.128E-04 ADJUSTED R-SQUARED 0.9971 STANDARD DEVIATION 0.01459 ¿Cuál es la recta que Statistix representa en el “scatter plot”? Aunque en este ejemplo los estimadores de α y β son parecidos, debido a que los puntos están muy cerca de una recta, en otros ejemplo podría haber diferencias importantes. Transformaciones: Otra forma de solucionar la falla en la suposición 2) que suele ser al mismo tiempo útil para lograr que los residuos tengan una distribución más próxima a la normal es aplicar transformaciones a los datos. Se suele probar con la transformación logarítmica. Esta es la transformación más usada en química experimental. Copio el siguiente párrafo del “Curso de Introducción al conocimiento científico experimental” de la Dra. Celia Croto, cap 17 (http://www.quimicaviva.qb.fcen.uba.ar/contratapa/aprendiendo/capitulo17.htm) “En la ciencia experimental se aplican los logaritmos en distintas situaciones, una de ellas es cuando se analizan los resultados de un experimento en el que se trabaja con diluciones seriadas. Las más comunes son las diluciones en base 10, pero en serología, por ejemplo, se usan las diluciones en base 2. Cuando una sustancia se diluye en forma seriada de modo de obtener diluciones de la misma de 1/10; 1/100; 1/1000; 1/10.000 y 1/100.000, son las potencias de 10 n . Si fueran diluciones en base dos, tendríamos 1/2; 1/4, 1/8, 1/16, 1/32, 1/64 y así utilizando las potencias de 2 n .” También se suele usar la transformación raíz cuadrada o elegir una transformación en una familia de transformaciones que incluye al logaritmo, la raíz cuadrada y a otras (método de Box y Cox). Existen métodos para elegir una transformación, dentro de una familia. No trataremos estos métodos en este curso. Se pueden ver por ejemplo en el capítulo 3 del libro de Neter y otros 2 . Referencias: 1. Miller y Miller. Estadística para Química Analítica. Addison Wesley. 2. Neter, Kutner, Nachtsheim y Wasserman. Applied Liner Statistical Models. Mc Graw Hill.
Report "Estadistica Para Quimica-Prof. Marta Garcia Ben"