1.5 Medidas de dispersión y de posición 1.5 Medidas de dispersión y de posición para datos no agrupados (pocos datos) La Variabilidad o dispersión es una característica muy importante de los datos. Por ejemplo, si fabricaras tornillos, una variación excesiva en el diámetro del tornillo significaría un alto porcentaje de piezas defectuosas. Por el contrario, si se aplicara un examen para distinguir entre buenos y malos contadores, tendrías un arduo trabajo si las calificaciones del examen variaran muy poco porque haría más difícil la discriminación. Muchas medidas estadísticas de la variabilidad ayudan a formar una imagen mental de la dispersión de los datos. Aquí se presentan algunas de las más importantes como es el rango, desviación estándar, varianza y coeficiente de variación. El rango, R , de un conjunto de n mediciones se define como la diferencia entre la medición mayor y la menor. . min . max V V R ÷ = 1.5.1 Varianza. La varianza de un conjunto de datos es la media del cuadrado de las dispersiones de los datos respecto a su media aritmética. La dispersión de un dato respecto a su media es la diferencia entre el dato menos la media ( x x i ÷ ). Se obtiene restando a cada uno de los valores de la muestra o de la población el valor de la media aritmética de todo el conjunto de valores, elevado al cuadrado de cada una de esas diferencias y dividiendo el resultado entre el total de datos N si se trata de una población, o entre el total de datos menos uno ) 1 ( ÷ n si se trata de una muestra. Si N x x x ,... , 2 1 son todos los datos de la población, a la varianza poblacional la denotamos con 2 o . Se tiene: N x N i i ¿ = ÷ = 1 2 2 ) ( µ o Y si n x x x ,... , 2 1 son los datos de la muestra, la varianza muestral denotada por 2 s es: 1 ) ( 1 2 2 ÷ ÷ = ¿ = n x x s n i i 1.5.2 Desviación estándar. La raíz cuadrada positiva de la varianza se denomina Desviación Estándar. Para muchos fines prácticos es una medida de la variabilidad más útil que la varianza, pues la desviación estándar se expresa en las mismas unidades que las de los valores recogidos la varianza se expresa en unidades elevadas al cuadrado. Ejemplo 1.5.1 Calcula la varianza y desviación estándar de la siguiente muestra (seis mediciones): 5, 7, 1, 3, 2, 6. Considera 4 = x 6 . 5 5 28 5 4 4 1 9 9 1 5 ) 4 6 ( ) 4 2 ( ) 4 3 ( ) 4 1 ( ) 4 7 ( ) 4 5 ( 1 ) ( 2 2 2 2 2 2 1 2 2 = = + + + + + = ÷ + ÷ + ÷ + ÷ + ÷ + ÷ = ÷ ÷ = ¿ = n x x s n i i 3664 . 2 6 . 5 1 ) ( 1 2 = = ÷ ÷ = ¿ = n x x s n i i 1.5 Medidas de dispersión y de posición para datos agrupados 1.5.1, 2 Varianza y Desviación estándar. Cuando los datos están acomodados en una tabla de frecuencias, para sacar la varianza calculamos la dispersión de cada dato o marca de clase diferente, elevamos al cuadrado cada resultado y lo multiplicamos por su respectiva frecuencia, luego sumamos todas las cantidades y al resultado de esta suma lo dividimos entre N o n-1 según el caso, se trate de una población o una muestra. La Varianza poblacional la denotamos por 2 o . Se tiene: N f x N i i i ¿ = ÷ = 1 2 2 ) ( µ o La varianza muestral denotada por 2 s es: 1 ) ( 1 2 2 ÷ ÷ = ¿ = n f x Mc s n i i Las siguientes expresiones de la desviación estándar son para: Una población N x N i i ¿ = ÷ = 1 2 ) ( µ o Una muestra 1 ) ( 1 2 ÷ ÷ = ¿ = n x x s n i i Ejemplo 1.5.2 Si retomamos el ejemplo 3.19 calcular la varianza y desviación estándar. Del precio de las tortas que venden en los alrededores del colegio. Categorías Intervalos I L S L Limites reales RI L RS L Marca de Clase Mc Frecuencia i f Frecuencia acumulada ai F A 7 11 6.5 11.5 9 4 4 B 12 16 11.5 16.5 14 8 12 C 17 21 16.5 21.5 19 13 25 D 22 26 21.5 25.5 24 10 35 E 27 31 26.5 31.5 29 15 50 F 32 36 31.5 36.5 34 5 55 G 37 41 36.5 41.5 39 2 57 H 42 46 41.5 46.5 44 3 60 Varianza 1 ) ( 1 2 2 ÷ ÷ = ¿ = n f x Mc s n i i 8767 . 1180 ) 16 . 24 44 ( 3 4512 . 440 ) 16 . 24 39 ( 2 128 . 484 ) 16 . 24 34 ( 5 384 . 351 ) 16 . 24 29 ( 15 256 . 0 ) 16 . 24 24 ( 10 1328 . 346 ) 16 . 24 19 ( 13 8048 . 825 ) 16 . 24 14 ( 8 3024 . 919 ) 16 . 24 9 ( 4 2 2 2 2 2 2 2 2 = ÷ = ÷ = ÷ = ÷ = ÷ = ÷ = ÷ = ÷ 0904 . 77 59 336 . 4548 49 8768 . 1180 4512 . 440 128 . 484 384 . 351 256 . 0 1328 . 346 8048 . 825 3024 . 919 2 = = + + + + + + + = s Las siguientes expresiones de la desviación estándar son para: Una población N f x N i i i ¿ = ÷ = 1 2 ) ( µ o Una muestra 1 ) ( 1 2 ÷ ÷ = ¿ = n f x Mc s n i i 7801 . 8 0904 . 77 1 ) ( 1 2 = = ÷ ÷ = ¿ = n f x Mc s n i i Desviación estándar 1.5.3 Coeficiente de variación. Otra medida apropiada para medir la variación de un conjunto de datos es el llamado coeficiente de variación:CV . La formula involucra la media y la desviación estándar; casi siempre se expresa como porcentaje; ésta es: ) 100 ( × = x s CV Esta medida es útil para comparar las variabilidades de dos conjuntos de datos cuando existe una clara diferencia en la magnitud tanto en la media como en la desviación estándar. Otra característica importante del CV es que es independiente de las unidades de medición. Ejemplo 1.5.3 Para comparar la variación de las estaturas entre un grupo de niños de 5 años de edad y otro de 15 años, se tomó una muestra de 25 personas de cada grupo de edad. Las muestras arrojaron los siguientes resultados: para el primer grupo se tiene cm x 100 1 = , cm s 6 1 = , para el segundo grupo cm x 150 2 = , cm s 9 2 = ¿Cuál de estos grupos tiene varianza mayor? Solución Ahora es necesario encontrar el coeficiente de variación de cada grupo. A partir de la desviación estándar se observa que hay mayor variación en el segundo grupo, pero es necesario recordar que estamos comparando grupos de personas de diferentes magnitudes debido a su edad. Desde un punto de vista relativo se verá que las estaturas de ambos grupos están muy aproximadas. Se determinaron los coeficientes de variación para cada grupo: % 6 100 100 6 1 = × = CV y % 6 100 150 9 2 = × = CV Como se ve, ambos coeficientes son iguales, por lo que la dispersión relativa de ambos grupos es igual. 1.5.4 Cuantiíles. Un conjunto de puntuaciones o mediciones puede dividirse en un cierto número de partes iguales mediante la selección de valores que correspondan a una posición determinada en dicho conjunto. Por ejemplo, la mediana divide a un conjunto de valores dados en dos partes iguales, y su posición es, en consecuencia, a la mitad del mismo, de manera que 50% de las puntuaciones quedan a uno u otro lado de dicho valor estadístico. En general, se llaman cuantiles a estos valores con posición divisora determinada. Pueden considerarse los siguientes cuantiles, además de la mediana: Se representan por: a) Decil ( o decila)--------------------------------- n D b) Cuartil (o cuartila)------------------------------ n Q c) Centil ( o centila), porcentil (o percentil)---- n P Deciles: Son los cuantiles que dividen una distribución en 10 tantos a intervalos, por lo que tienen 9 puntos de división, los deciles, que originan los 10 intervalos. Los deciles, que se representan por n D , pueden marcarse en una gráfica como la siguiente: Cuartiles: son los puntos que dividen a una distribución de valores en cuatro porciones iguales o intervalos. Se representan por 3 2 1 , , Q Q Q y se ilustran en el esquema siguiente: B Q Q Q A 3 2 1 Ejemplo 1.5.4 En una competencia mundialista, las diferencias en décimas de segundo de la corredora que ganó con respecto a sus contrincantes en los 400 metros planos fueron: 15,48, 56, 59, 78, 96, 124 Encontrar la mediana, el primer y tercer cuartil. Solución Primer paso: Ordenar los datos de menor a mayor Segundo paso: Si el número de datos es impar, la median es el valor que se encuentra en el centro. En este caso la mediana es 59 ~ = x B D D D D D D D D D A 9 8 7 6 5 4 3 2 1 0 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 0 25% 50% 75% 100% Tercer paso: Para determinar el primer cuartil, se toma la mitad de los datos inferiores (todos los valores ubicados por debajo de la mediana) y se encuentra la mediana de éstos. En el caso del ejemplo, la mediana de 15, 48 y 56 es el primer cuartil, esto es: 48 1 = Q Cuarto paso: De manera análoga, el tercer cuartil es la mitad de los datos superiores; es decir, todos los valores mayores que la mediana. En el ejemplo son 78, 96 y 124, donde el tercer cuartil es: 96 3 = Q Finalmente, cabe destacar los valores mínimo y máximo (15 y 24 en el ejemplo de la corredora). Pensando en los cuarteles, éstos dividen los datos en cuatro partes. La mediana divide al conjunto de datos a la mitad, y si tomamos la mitad de una mitad se obtiene un cuarto; éstos son los que deseamos. Interpretación El primer cuartil 48 1 = Q indica que menos del 25% de las corredoras están por debajo de ese registro, lo que señala que esas competidoras estuvieron cerca de la victoria. El valor 96 3 = Q corresponde a 75% de las corredoras y revela que 25% de las competidoras quedaron lejos del primer lugar. En la práctica esta situación sirve de referencia a las competidoras para mejorar sus marcas. Aprender a calcular un cuartil es importante por que permite ganar un mayor conocimiento sobre un problema, o tema de interés a través de la información proporcionada por los datos. Obtención de Cuantíles en datos agrupados. Se utiliza el modelo para calcular la mediana en datos agrupados, donde 1 = r C f f rn L x M aa M · ( ( ( ( ¸ ( ¸ ÷ + = 2 ~ Cuartiles ( Q) C f f rn L Q M aa M r · ( ( ( ( ¸ ( ¸ ÷ + = 4 Donde r =cuartil que se desea calcular, siendo 1, 2, o 3 Ejemplo 1.5.5 Considerando los datos de la siguiente tabla de frecuencias. Categorías Intervalos I L S L Limites reales RI L RS L Marca de Clase Mc Frecuencia i f Frecuencia acumulada ai F A 7 11 6.5 11.5 9 4 4 B 12 16 11.5 16.5 14 8 12 C 17 21 16.5 21.5 19 13 25 D 22 26 21.5 25.5 24 10 35 E 27 31 26.5 31.5 29 15 50 F 32 36 31.5 36.5 34 5 55 G 37 41 36.5 41.5 39 2 57 H 42 46 41.5 46.5 44 3 60 5 ~ C a) Calcular el cuartil 1, 1 = r (el primer 25%) 15 4 ) 60 ( 1 4 = = rn Este valor se busca en ai F de la tabla de frecuencias, en caso de que no se encuentre se considera el valor inmediato superior. Que en este caso es el número 25. 13 5 12 60 5 . 16 = = = = = M aa M f C f n L b) Calcular el cuartil 2, 2 = r (el segundo 25%) 30 4 ) 60 ( 2 4 = = rn Este valor se busca en ai F de la tabla de frecuencias, en caso de que no se encuentre se considera el valor inmediato superior. Que en este caso es el número 35. 10 5 12 60 5 . 16 = = = = = M aa M f C f n L 6538 . 17 5 13 12 4 ) 60 ( 1 5 . 16 1 = · ( ( ( ¸ ( ¸ ÷ + = Q 24 5 10 25 4 ) 60 ( 2 5 . 21 2 = · ( ( ( ¸ ( ¸ ÷ + = Q c) Calcular el cuartil 3, 3 = r (el tercer 25%) 45 4 ) 60 ( 3 4 = = rn Este valor se busca en ai F de la tabla de frecuencias, en caso de que no se encuentre se considera el valor inmediato superior. Que en este caso es el número 50. 15 5 35 60 5 . 26 = = = = = M aa M f C f n L Deciles (D) C f f rn L D M aa M r · ( ( ( ( ¸ ( ¸ ÷ + = 10 Donde r =1, 2, 3, …9 Ejemplo 1.5.6 Calcular el decil 9, es decir, el 90% 54 10 ) 60 ( 9 10 = = rn , Este valor se busca en ai F de la tabla de frecuencias, en caso de que no se encuentre se considera el valor inmediato superior. Que en este caso es el número 55. 5 5 50 60 5 . 31 = = = = = M aa M f C f n L 83 . 29 5 15 35 4 ) 60 ( 3 5 . 26 3 = · ( ( ( ¸ ( ¸ ÷ + = Q 5 . 35 5 5 50 10 ) 60 ( 9 5 . 31 9 = · ( ( ( ¸ ( ¸ ÷ + = D