2.1 INTRODUCCIÓN 2.2 ARREGLO ORDENADO 2.3 DATOS AGRUPADOS Y DISTRIBUCIÓN DE FRECUENCIAS 2.t 2.4 ESTADÍSTICA DESCRIPTIVA: MEDIDAS DE TENDENCIA CENTRAL 2.5 ESTADÍSTICA DESCRIPTIVA: MEDIDAS DE DISPERSIÓN 2.6 RESUMEN INTRODUCCIÓN En el capítulo 1 se estableció que la toma de mediciones y el proceso de conteo producen números que contienen información. El objetivo de la gente que aplica herramientas estadísticas a esos números es determinar la naturaleza de esa información. Esta tarea es mucho más fácil si los números están organizados y resumidos. Cuando se hacen las mediciones sobre entidades de una población o · muestra, los valores resultantes están disponibles para el investigador o estadístico como una masa de datos desorganizados. Las mediciones que no han sido organizadas, procesadas o manejadas de al guna otra forma se les llama datos crudos (materia prima). A menos que el número de observaciones sea extremadamente pequeño, es improbable que esos datos crudos proporcionen suficiente información hasta que sean puestos en algún orden. En este capítulo se enseñan algunas técnicas para organizar y procesar datos de tal manera que sea más fácil determinar qué información contienen. Lo más actual en procesamiento de datos es el cálculo de un número individual que de alguna manera incluye información importante acerca de los datos que sirvieron para calcularlo. A estos números individuales utilizados para describir datos se les llama medidas descriptivas. Después de estudiar este capítulo el estudiante podrá calcular algunas medidas descriptivas tanto para poblaciones como para muestras de datos. El propósito de este capítulo es desarrollar en el estudiante habilidades para poder manejar la información numérica que se encuentre como profesional en ciencias de la salud. Entre mejor capacitado esté para manejar tal información, tendrá una mejor idea del ambiente y de las fuerzas que generan la información. 15 16 2.2 CAPÍTULO 2 ESTADÍSTICA DESCRIPTIVA ARREGLO ORDENADO El primer paso para organizar datos es preparar un arreglo ordenado. Un arreglo ordenado es una lista de valores de un grupo (sea población o muestra) en orden de magnitud de menor a mayor valor. Se recomienda el uso de la computadora si el número de mediciones a ordenar es bastante grande. Un arreglo ordenado permite determinar con rapidez los valores de las medi ciones más pequeñas, de las más grandes, y otros aspectos acerca de los datos arre glados que pudieran necesitarse en caso de urgencia. A continuación se muestra la construcción de un arreglo ordenado con los datos que se estudiaron en el ejemplo 1.4.1. EJEMPLP 2.2.1 La tabla 1.4.1. contiene una lista de las edades de los individuos que participaron en el estudio de residentes de Groenlandia, estudiados en el ejemplo 1.4.1. Como puede apreciarse, esta tabla desordenada requiere de mucha investigación para determinar información básica como la edad de los individuos más jóvenes hasta los más viejos. Solución: La tabla 2.2.1 presenta los datos de la tabla 1.4.1 en forma de arreglo ordenado. Al referirse a la tabla 2.2.1 es posible determinar rápidamen te la edad del individuo más joven (18) y la edad del más viejo (63). También es posible identifü::ar con facilidad que casi tres cuartas partes • de los individuos tienen menos de 40 años de edad. Anií1isisporcomptdadora Cuando se requieren cálculos adicionales y organiza ción de un conjunto de datos en forma manual, el trabajo se facilita mediante un arre glo ordenado. Si los datos son analizados por computadora, esto no es aconsejable TABIA2.2.1 tabla 1.4.1 18 22 24 26 27 29 30 32 37 40 43 47 51 18 23 24 26 27 29 30 33 37 40 43 47 51 Arreglo ordenado de las edades de los individuos de la 19 23 24 26 27 29 31 33 37 40 43 48 .52 19 23 24 26 28 29 31 33 37 40 44 48 52 20 23 25 26 28 29 31 34 37 40 44 48 53 21 23 25 26 28 30 31 34 38 40 44 48 53 21 23 25 27 28 30 31 34 38 41 45 48 53 21 23 25 27 28 30 31 34 38 41 45 48 53 22 24 26 27 28 30 31 34 38 41 45 49 56 22 24 26. 27 28 30 32 35 38 42 46 49 . 61 22 24 26 27 29 30 32 36 39 42 46 50 62 22 24 26 27 29 30 32 36 39 42 47 50 63 22 24 26 27 29 30 32 36 39 42 47 50 63 2.3 DATOS AGRUPADOS Y DISTRIBUCIÓN DE FRECUENCIAS 17 Dialogbox: Manip > Sort II Session command: Sort MTB > Sort Cl C2; SUBC> By Cl. FIGURA 2.2.1 Caja de diálogo para el ejemplo 2.2.1. pata preparar un arreglo ordenado, a menos que se necesite para propósitos de refe rencia o para otro uso. La computadora no necesita que el usuario haga un arreglo ordenado antes de meter los datos para construir la distribución de frecuencias y para hacer otros análisis. Si desea un arreglo ordenado, muchos paquetes de software para computado rá contienen rutinas para construirlo. Por ejemplo, suponga que se usa el MINITAB y que las edades de la tabla 1.4.1 están en la columna l. El comando SORT Cl C2 clasifica las edades y las pone en la columna 2, como lo muestra la tabla 2.2.1. Si se utiliza el paquete MINITAB para Windows, y los datos se colocan en la columna l, el proceso es como sigue: con el mouse haga clic en Manip, luego en Sort, escriba el en la caja etiquetada corno "Sort column[s]", escriba c2 en la caja eti quetada como "Store sorted column[s] in" (para tener los datos clasificados en c2), y escriba el en la caja etiquetada "Sort by column". Si desea ordenar en forma descendente haga clic en "Descending". Si no se selecciona esa opción en este punto, el resultado es una clasificación en orden ascendente. Finalmente, haga clic en OK. La caja de diálogo para el ejemplo 2.2.l se muestra en la figura 2.2.1. 2.3 DATOS AGRUPADOS YDISTRIBUCIÓN DE FRECUENCIAS Aunque un conjunto de observaciones puede hacerse más comprensible y más sig nificativo por medio de un arreglo ordenado, .es más útil el resumen que se obtiene mediante la agrupación de datos. Antes de la era de las computadoras, uno de los principales objetivos de agrupar grandes conjuntos de datos era el de facilitar el cálculo de varias medidas descriptivas, como porcentajes y promedios. Debido a 18 CAPÍTULO 2 ESTADÍSTICA DESCRIPTIVA · que las computadoras pueden ejecutar esos cálculos a partir de grandes conjuntos sin agrupación previa, actualmente el propósito principal de agrupar los datos es el de resumir la información. Se debe tener en mente que los datos contienen infor mación y que el resumen es una forma sencilla para determinar su naturaleza. Para agrupar un conjunto de observaciones se debe seleccionar un conjunto de intervalos contiguos que no se traslapen, para que cada valor en el conjunto de observaciones pueda ser puesto en uno y sólo uno de los intervalos. Estos intervalos normalmente se identifican como intervalos de clase. Una de las primeras consideraciones cuando se agrupan datos es la de cuántos intervalos se deben incluir. Resulta inadecuado incluir pocos intervalos, porque se perdería información. Por otro lado, si se utilizan muchos intervalos, el objetivo de resumir no se consigue. La mejor guía en este caso, así como para la toma de otras decisiones sobre la agrupación de datos, es el conocimiento de los datos. Puede ser que los intervalos de clase queden determinados por los precedentes, como en el caso de las tabulaciones anuales, en las que los intervalos de clase de los años anteriores se conservan para propósitos comparativos. Una regla empírica que habitualmente se sigue establece que deben ser.entre seis y 15 intervalos. Si hay menos de seis intervalos, los datos se han resumido en exceso y la información que contienen se habrá perdido. Si hay más de 15 intervalos, los datos no fueron resumidos lo suficiente. Quienes deseen guías más específicas para decidir cuántos intervalos de clase son necesarios, pueden utilizar la fórmula propuesta por Sturges ( 1 ). Esta fórmula se enuncia k = 1 + 3.322(log 10 n), donde k es el número de intervalos de clase y n es el número de valores en el conjunto de datos en observación. La respuesta que se obtiene con la regla de Sturges no es definitiva, sino que se debe considerar única mente como guía. El número de intervalos de clase especificado por esta regla deberá incrementarse o disminuirse por conveniencia y para lograr una presenta ción más clara. Por ejemplo, suponga que una muestra tiene 275 observaciones para agrupar. El logaritmo base 10 de 275 es 2.4393. Con la aplicación de la fórmula de Sturges se obtiene k = 1 + 3.322(2.4393)::::: 9. En la práctica, otras consideraciones pueden sugerir el uso de 8 o menos, o quizá 10 o más intervalos de clase. Otra pre gunta que se debe responder se refiere a la amplitud del intervalo de clase. Los intervalos de clase generalmente deben ser de la misma amplitud, aun que algunas veces esto es imposible. La amplitud se determina dividiendo el rango entre k, que es el número de intervalos de clase. Simbólicamente, la amplitud de los intervalos de clase está dada por: w R k (2.3.1) donde R (el rango) es la diferencia entre la observación más pequeña y la más grande dentro del conjunto de datos. Por lo general, con este procedimiento se obtiene una amplitud que no es conveniente usar, y de nuevo se debe utilizar el sentido común para elegir la amplitud (normalmente cercana a la que se obtiene con la ecuación 2.3.1) que sea más conveniente. 4.1 para ilustrar la construcción de la distribución de frecuencias. Cuando sea ést el caso. el primer intervalo de clase contiene las mediciones más pequeñas y el último inter e valo contiene las mediciones más grandes. Cuando la naturaleza de los datos los hace adecuados . Suponga que se decide que sea 10. la amplitud de los intervalos de clase de 5 o 1 O unidades y amplitudes múltiplos de 1 O tienden a hacer que el resumen sea más comprensible.322(log 169) = 1 + 3. entonces los intervalos inician con 1O y terminan con 69. Puesto que el valor más pequeño en la tabla 2. EJEMPLO 2.t Se quiere saber cuántos intervalos de clase se tienen en la distribución de frecuen cias de datos y también se quiere saber qué tan amplios deben ser los intervalos. frecuentemente requieren que el usuario registre la amplitud del intervalo y el número de intervalos deseados. se obtiene: R = 63-18 k 8 = 45 8 =5_625 Es evidente que un intervalo de clase con una amplitud de 5 o 1O es más conveniente y significativo para el lector. Ahora es posible construir los intervalos. la aplicación de la regla de Sturges indica: k = 1 + 3.3 DATOS AGRUPADOS Y DISTRIBUCIÓN DE FRECUENCIAS 19 Existen otras reglas empíricas que son de gran ayuda para armar intervalos de clase útiles. Solución: Para tener una idea del número de intervalos a utilizar.2.1 es 18 y el mayor es 63·.3. al dividir el rango entre 8 para darse una idea de la ampli tud de los intervalos de clase.322(2. Generalmente los intervalos de clase se almacenan de menor a mayor: es decir.1 y arregladas en la tabla 2.227886705) "" 8 Ahora. Se obtienen los siguientes intervalos: 10-19 20-29 30-39 40-49 50-59 60-69 .2. Cuando se utilizan estas amplitudes es una buena práctica tener el límite inferiorde cada extremo de intervalo en O o 5. A continua ción se utilizan las 169 edades incluidas en la tabla 1. y el límite superior del últim0 intervalo de clase debe ser mayor o igual que la medición más grande.2. Aunque muchos paquetes de software para microcomputadora contienen ru tinas para construir intervalos de clase. el límite infe rior del primer intervalo de clase debe ser menor o igual que la medición más pequeña en el conjunto de datos. Una tabla de este tipo se conoce como distribución de frecuencias.2781. Finalmente. Si se aplica esto al ejemplo anterior.3. se divide 47 entre 169. Esta información se obtiene dividiendo el número de valores en un intervalo de clase particular entre el número total de valores. es posible determinar la frecuencia de ocurrencia de los valores dentro de cualquiera de los intervalos. el cual se determina sumando los límites extre mos del intervalo de clase y dividiendo entre 2: Por ejemplo. Con lo anterior se puede decir que el 27. · Algunas veces resulta útil referirse al centro llamado punto medio del intervalo de clase. el punto • medio del intervalo de clase 10-19 es (10 + 19)/2= 14.20 CAPÍTULO 2 ESTADÍSTICA DESCRIPTIVA Puede observarse que hay 6 de esos intervalos. a la pro porción de valores que caen dentro de un intervalo de clase se le conoce como la frecuencia relativa de ocurrencias en ese intervalo. TABIA 2. En ella se muestra cómo se distribuyen los valores dentro de los intervalos de clase especifica dos. determinar el número de valores que caen dentro de cada intervalo de clase es sólo un problema de búsqueda en el arreglo ordenado y conteo del número de observaciones que caen en los distintos intervalos. puede ser de utilidad conocer la pro porción. 17/169.2.2781 de los valores caen entre 30 y 39.3.1 Intervalos de clase Frecuencias 10-19 20-29 30-39 40-49 50-59 60-69 4 66 47 36 12 4 Total 169 .1 Distribución de frecuencias de las edades de los 169 individuos incluidos en la tabla 1.1 y2. dos menos que el número de intervalos calculados con la regla de Sturges. en lugar del número. Al consuJtarla.1.5. Frecuencias relativas En ocasiones. inclusive. Al multiplicar . se obtiene la tabla 2.81 por ciento de los individuos tienen entre 30 y 39 años de edad. o 0. Si en el ejemplo ante rior se pretende conocer la proporción de valores entre 30 y 39. Esto indica que 47 de 169.4. de valores que caen dentro de un intervalo de clase en particular. es decir.2781 por 100 se obtiene el porcen taje de valores entre 30 y 39. Cuando se agrupan datos manualmente. para obtener . 5621.t Intervalos de clase Frecuencia Frecuencia acumulada 10-19 20-29 30-39 40-49 50-59 60-69 4 66 47 36 12 4 4 70 117 153 165 169 Total 169 Frecuencia relativa Frecuencia relativa acumulada . 3. frecuencias relativas y frecuen cias relativas acumuladas. El histograma Es posible presentar una distribución de frecuencias ( o una distribución de frecuencias relativas) gráficamente en forma de histograma. se obtiene la suma del número de valores que caen dentro de los intervalos de clase correspondientes.3.0237 . 4 y 5. El procedimiento incluye asignar códigos a los intervalos de clase y meter la información a través del teclado. frecuencia relativa y frecuencia relativa acumulada de las edades de los sujetos descritos en el ejemplo 1.3.4142 . Cuando se asignan los códigos O.1 con lasfrecuencias acumuladas.0000 Para determinar la frecuencia de valores que caen dentro de dos o más in tervalos de clase.9763 1. l .3. a las seis clases de intervalos. entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 2. frecuencia acumulada. . que es un tipo especial de gráfica de barras.6923 .2781 .2.0237 .9763 para obtener .3 21 DATOS AGRUPADOS Y DISTRIBUCIÓN DE FRECUENCIAS TABIA 2. si se pretende conocer la frecuencia relativa de ocurrencia de valores que caen dentro de dos o más interva los de clase. Análogamente. las frecuencias y las frecuencias relativas para facilitar la obten ción de información acerca de las frecuencias o frecuencias relativas de valores dentro de dos o más intervalos de clase contiguos. Se pueden sumar. MINITAB generó los valores de la tabla con las frecuencias relativas y frecuencias relativas acumuladas expresados en por centajes.0710 .0237 . respectivamente.3. los comandos de la sesión y la salida se muestran en la figura 2.0000 1. se suman las frecuencias relativas respectivas.4142 de .2 muestra los datos de la tabla 2.2 Distribuciones de: frecuencia.9053 . La tabla 2.2130 . Se puede utilizar el paquete de software estadístico MINITAB para obtener una tabla comparable con la tabla 2.2 y se resta . entonces.4.3905 . o acumular.2. 2.3. se debe teclear el siguiente comando: MTB> Code (1O:19)0 (20:29)1 (30:39)2 (40:49)3 (50:59)4 (60:69)5 el c2 La caja de diálogo. Si el interés está centrado en la frecuencia relativa de los valores que caen entre 30 y 59.3.1. Verifique Counts.Tally Teclear C2 en Variables. los valores de la variable respectiva se ponen sobre el eje horizontal.00 169 FIGURA 2. Cuando una distribución de frecuencia se construye a par tir de los datos. El nivel de precisión que se observa en los datos obtenidos y que tienen medi ciones �obre una escala continua indica algún orden de redondeo. Counts. se sabe que algunos de los valores que caen dentro del segundo intervalo de clase.3. porcentajes y porcentajes acumulados de las edades de los individuos descritos en el ejemplo 1.22 CAPÍTULO 2 ESTADÍSTICA DESCRIPTIVA Caja de diálogo: Comandos de la sesión: Stat >-. Percents.4.37 CumPct 2. Percents. hasta que intercepte con la frecuencia respectiva. Sobre cada intervalo de clase.30 7.10 2. y las frecuencias (o frecuencias relativas.1 Distribución de frecuencia. El orden de redon deo refleja la preferencia personal del informante o las limitaciones de los instrumentos de medición empleados.05 27. se levanta una barra rectangular.42 69. Las barras del histograma deben ser adyacentes. como algunas veces se le nom bra.37 39.1.23 90. Clic OK MTB> SUBC> SUBC> SUBC> SUBC> C2. Resultados: Resumen estadístico para variables discretas C2 o 1 2 3 4 5 N Count CumCnt 4 4 66 70 47 117 36 153 12 165 4 169 Percent 2. los límites de los intervalos de clase frecuentemente reflejan el grado de precisión de los daws originales. tal como lo construyó el paquete MINITAB.37 41. arriba del eje hori zontal. Cumulative Counts y Cumulative percents en Display. CumPercents.63 100. si así se quiere) de ocurrencia. frecuencias acumuladas.53 97. y es necesario tomar en cuenta los límites correctos de los intervalos de clase para evitar la separación de barras en la gráfica.81 21. Esto mismo se ha efectuado en el ejemplo. en el eje vertical. por ejemplo. Para construir un histograma. Sin émbargo. CumCounts. o celda. probablemente serán un poco menores que 20 mientras que .Tables >-. 5 Total 23 70 60 50 Frecuencias 4 66 47 36 12 4 169 ::¡ ·5 40 30 20 10 14.5/10 en MidPoint/cutPoint positions: Clic OK dos veces. y suponiendo que los datos fueran redondeados al entero positivo inferior más próximo.5 Edad FIGURA 2. FIGURA 2. cuando la medición es precisa.5 54. entonces es lógico suponer que 19. que el último punto medio es 64.3.5-69.5 34. Si se elabora una gráfica utilizando estos límites de intervalos de clase como la base de los rectángulos.3.5 24.2.5/10.3 Caja de diálogo y comandos de la sesión de MINITAB para elaborar el histograma a partir de los datos del ejemplo 1. El mensaje 14.5 64.3. Se con sideró un espacio delimitado por el eje horizontal y el límite exterior formado por las barras en la figu ra 2.5 19.2 Histograma de las edades de 169 individuos a partir de la tabla 2. Clic Options.5 44. Teclear 14. Se almacenaron los datos en la columna 1 y se le nombró "Edad".5 39. Elegir MidPoint.5 59.l.2.. Histogram MTB > Histogram 'Edad'.3. y se obtendrá el histograma que se muestra en la fi gu ra 2.5 49. SUBC> Bar.4.3.2.3.5 29.3. El procedimiento se muestra en la fi gu ra 2. Se utilizó el paquete MINITAB para elaborar el histograma.5 y 29.5-39.5:64:5/10 indica que el primer punto medio es 14.5-19. Teclear Edad en X.3.3. no habrá separaciones entre las barras.3.5 y que los intervalos están igualmente espaciados en incrementos de 10 unidades.3 DATOS AGRUPADOS Y DISTRIBUCIÓN DE FRECUENCIAS TABIA2.l. Al considerar la continuidad implícita de la variable. otros serán un poco mayores que 29. Caja de diálogo: Comandos de la sesión: Graph :.3 Datos de la iabla 2.5:64.5:64.3. SUBC> MidPoint 14.5-59. .5. Los límites correctos para cada intervalo de clase se toman como se muestra en la tabla 2.1 que muestra los límites COI'l-ectos de los interválos de clase Intervalos de clase 9.5 son los límites correctos para este segundo intervalo.5-49..5-29. el histograma tiene en total 1 69 unidades. El porcentaje de una subárea particular del área total del histograma es igual a la frecuencia relativa de ocurrencia de los valores entre los puntos correspondientes sobre el eje horizontal. por ejemplo.5 Histograma y polígono de fre cuencia para las edades de 169 individuos inclui das en la tabla 2. A cada observación se le asigna una unidad de esta área. contiene 66/ 1 69 del área. 1 .5 44.2. Esto permite que el área total sea delimitada. La figu ra 2.5 34. de acuerdo con la frecuencia. La segunda barra. El área total baj o el polígono de frecuencia es i gual al área bajo 70 70 60 60 "' ·a 50 (. 1 .24 CAPÍTULO 2 ESTADÍSTICA DESCRIPTIVA Al espacio entre los límites del histograma se le conoce como área del histograma.2. A partir de esto se observa que las subáreas del histograma definidas por las barras corresponden a las fre cuencias de ocurrencia de valores entre los límites de las áreas de la escala horizon tal.5 Edad FIGURA 2.3.5 44.5 64. (.3.5 54.4 muestra el polígono de frecuencia para los datos de edades de la tabla 2. como se muestra en la figura 2.. representado sobre el �je horizontal de la gráfica.3. Para dibujar este polígono. .1. Puesto que se tienen 1 69 observaciones.5 y 29. primero se hace una marca arriba del punto medio de cada intervalo de clase.) 30 ro 50 e: 40 '5 40 <ll :::. Esto.2.5 24. Observe que el polígono cae sobre el eje horizontal e n los extremos e n los puntos que corresponderían a los puntos medios en caso de haber una celda adi cional en cada extremo del histograma correspondiente.2. La altura con respecto del eje horizontal de una marca dada corresponde a la frecuencia del intervalo de clase. es la fre cuencia de ocurrencia de los valores entre 1 9.5 54.5. 20 20 10 10 o 30 1 4. El polígono de frecuencia Una distribución de frecuencia también puede ser representada gráficamente por medio de un polígono de frecuencia.) !!? !!? u. como ya se estudió.3.5 24. que es una clase especial de gráfica lineal. o 1 4. Al unir las marcas mediante líneas rectas se obtiene el polígono de frecuen cia.5 34. Cada barra contiene cierta proporción del área total.5 64.4 Polígono de frecuencia para las edades de 169 individuos incluidas en la tabla 2.5 Edad FIGURA 2. 2. Los decimales. se tienen tallos y hojas de un dígito cada uno. Un despliegue de este tipo presenta una gran similitud con el histograma y tiene el mismo propósito. no es aconsejable utilizarlos en informes anuales o en otros medios de difusión para el público en general. Como se verá más adelante otra ventaja adicional del despliegue es que puede construirse durante el proceso de marcaje. Otro sistema gráfico muy útil para representar conjuntos de datos cuantitativos es el despliegue de tallo y hojas.4 sobrepuesta al histograma de la figura 2. Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la información contenida en las mediciones individuales.2. los tallos forman una columna ordenada de menor a mayor. Los despliegues de tallo y hojas son más eficientes en conjuntos de datos rela tivamente pequeños. Así.2 Utilice los datos de edades de la tabla 2. Solución: Puesto que todas las mediciones son números de dos dígitos. Los tallos se separan de sus hojas mediante una línea vertical. y las hojas se forman con uno o más de los dígitos restantes. Por ejemplo. aun cuando una medición con ese tallo no esté en el conjunto de datos. muestra la ubicación de la mayor concentración de mediciones y revela la presencia o ausencia de simetría.3.6 muestra el despliegue de tallo y hojas para los datos. Esta fi gura permite observar la rela ción entre las dos formas gráficas para un mismo conjunto de datos. proporciona información respecto al rango del conjunto de datos. Como una norma. La fi gura 2.5 muestra el polígono de frecuencia de la figura 2 . La figurá 2. Tal información se pierde cuando las mediciones son asignadas a los intervalos de clase del histograma. la primera parte se llamatallo y la segunda. Todos los números divididos se muestran en un solo despliegue. cuando ocurren en los datos originales. 3 . Son una ayuda básica para que investigadores y tomadores de decisiones comprendan la natura leza de sus datos. Cuando las hojas se forman con más de un dígito.FRECUENCIAS 25 el histograma. hojas. todos los dígitos después del primero se pueden bo rrar. de tal forma que se elimina el paso intermedio (la preparación de un arreglo ordenado). la medición 1 8 tiene un tallo de l y una hoja de 8.3. Los histogramas son más adecuados para las publicaciones de circulación externa. se omiten en el desplie gu e. l para construir un despliegue de tallo y hojas. El tallo se forma con uno o más dígitos iniciales de la medición. Los renglones del despliegue contienen las hojas ordenadas en una lista a la derecha de sus respectivos tallos.2.3.3. Despliegues de tallo y hojas EJEMPLO 2.3 DATOS AGRUPADOS Y DISTRIBUCIÓN DE . En la columna de tallos se incluyen todos aquellos que se encuentren dentro del rango de los datos. El si gu iente ejemplo ilustra la construcción del despliegu e de tallo y hojas. se observa que un despliegue también es un arreglo ordenado de los datos. Para construir un despliegue se divide cada medición en dos. al igu al que un histograma. Un despliegue construido correctamente. . Comandos de la sesión: Caja de diálogo: >- . unidad de hoja = 1). .Histograin > MTB > Stem-and-Leaf ' Edad ' .3. 1 . llamada "Edad".2. el paquete produce y presenta una salida como la que se muestra en la fi gura 2. 7. El subcomando increment especifica la distancia desde el primer tallo hasta el si guiente.3. Teclear 1 O en Increment. Los números en las columnas del extremo izquierdo de la figura 2. Con los datos en la columna l.6 Despliegue de tallo y hojas para las edades de 1 69 individuos incluidas en la tabla 2. 52 16 4 1 2 3 4 5 6 N= 1 6 9 8899 0 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 77 7 7 8 8 8 8 8 8 8 9 9 9 9 9 9 9 + 0 0 0 0 0 0 0 00 01111111222223334444456 6677777 8 8 8 8 8 9 9 9 0 0 0 0 0 0 1 1 1 2 2 2 2 3 3 3A4 4 5 5 5 6 6 7 7 7 7 8 8 8 8 8 8 9 9 00 0112233336 1233 FIGURA 2.3.3.2. 7 Despliegue de tallo y hojas preparado pór el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 2. Graph Characte� Graphs Stem-and-Leaf >. SUBC> Increment 1 0 . l (unidad de tallo = 1. Clic OK. 0 4 70 (47) . El paquete de software estadístico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas.7 proporcionan información respecto al número de observaciones (hojas) en una línea dada y por encima de ella.26 CAPÍTULO 2 Tallo 1 2 3 4 5 6 ESTADÍSTICA DESCRIPTIVA Hoj a 8899 0 1112222223333333444444444 5 5 5 5 6 6 6 6 6 6 6666677777777 7 7 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 4 4 4 4 4 5 6 6 6 7 7 71 7 8 8 8 8 8 9 9 9 0 0 0 0 00 1 1 1 2 2 2 2 3 3 3 4 4 4 5 5 5 6 6 7 7 7 7 8 8 8 8 8 8 9 9 0 00112233336 1233 FIGURA 2. o el número de observaciones en esa línea y en la de abajo. Teclear Edad en Variables. Resultados: Despliegue en modo carácter de tallo y hojas Stem-and-Leaf of ' Edad ' Leaf Uni t = 1 . En este caso. Los paréntesis indican la línea que contiene la observación central si el número total de observa ciones es impar.2. 1 .3. con intervalos de clase de amplitud = 5. • Una manera para no exceder la capacidad de la línea es tener más líneas. La figura 2. reduciendo la ampli tud de los intervalos de clase. El número entre paréntesis dice que hay 47 observaciones en esa línea. Los pacientes .7 indica que la frecuencia para esa línea (el grupo de edades de 20 a 29) excede la capacidad de la línea. En la línea hay sólo 65 hojas. un 9.3. Stem-and-Leaf o f ' Edad ' Leaf Uni t 1.3. Para este ejemplo. Veronese y Gambacorta (A. es decir.3. Esto se puede hacer acortando la distancia entre las líneas. el número 7 0 sobre l a segunda línea indica que hay 70 observaciones (u hojas) en esa línea y_en la de arriba.0 4 30 70 3 ( O} 69 52 33 16 5 4 1 2 2 3 3 4 4 5 5 6 N 169 8899 0 11 1222222 3 3 3 3 3 3 3 444444444 5 5 5 5 6 6 6 6 6 6 6 6 6 6 67 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 4 4444 5 6 6 67777788888999 0 0 0 0 0 0 1 112 2 2 2 3 3 3 4 4 4 5 5 5 6 6 7 7 7 7 8 8 8 8 8 89 9 00011223333 6 1233 FIGURA 2. o las dos observaciones centrales si el número total de observaciones es par.EJERCICIOS 27 Por ejemplo. así que la distancia entre las líneas es de 5. se puede utilizar un intervalo de clases con amplitud 5.1 En un estudio de la actividad proliferativa del cáncer de seno. que no se muestra. Los investi gadores obtuvieron tej ido tumoral de 203 pacientes con carcinoma de pecho. así que el signo + indica que existe una hoja más. la frecuencia para el grupo de edades de 20-29 es de 66.1 ) utilizaron los métodos inmunohistoquímico y de anticuerpos monoclonal Ki-67. El signo + al final de la segunda línea de la figura 2. El número 52 en la cuarta línea (contando desde arriba) dice que hay 52 observacio nes en esa línea y en todas las de abajo. EJERCICIOS 2.8 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas. y que existe al menos una hoja adicional que no se muestra.8 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 2. 38 42.03 9.2 1 6.60 26.24 2.70 8.30 7. 1 0 2.59 27.60 5.32 9.88 9.23 1 3.00 1 9 .60 1 5 . 14 4.00 25.58 5.00 4.20 2.70 1 5.69 4.69 6.00 14.88 9.97 1 8.87 3.55 3.00 1 3.82 10.99 40. 1 1 1 9 .43 5 1 .30 4.85 5.07 6.84 1 0.37 8.99 30.00 1 3.36 1 1 .00 20.00 5.70 1 6.50 4.00 9.40 2.14 4.80 1 . 1 2 3 .80 44.22 1 2 .00 5.03 1 0.00 9.00 5.42 4.65 9. 1 1 4.4 1 1 4.00 9.28 CAPÍTUL0 2 ESTADÍSTICA DESCRIPTIVA tenían entre 26 y 82 años de edad. 12 7.72 1 3.00 20.20 2.00 1 5. 69 6.07 45.00 9.77 4.00 30.90 4.00 1 0.77 3.30 33.00 20.30 .00 4.80 35.20 50.88 29.60 5.70 29.00 1 0.40 1 1 .30 32.39 2 1 .70 9.00 5.40 1 2.19 2.31 25.50 28.55 19.37 27.55 30.79 1 9.85 24.60 3.00 38:90 6.00 5.55 1 1 .00 4.82 5.00 32.48 5.36 8.00 49.60 35.00 30.09 1 7.76 1 8.07 8. Ph. 70 7.79 1 .00 6.83 20.27 6.40 14.32 12. La siguiente tabla muestra los valores de Ki-67 (expresados en porcentajes) para esos pacientes.63 �1 .37 2.20 2.78 4 1 .50 4.75 1 0:54 23.20 4.00 1 5 .00 43 .60 1 5.74 1 9.00 8. 1 1 3.• 9.12 6.95 1 0.00 8.57 1 .70 6. Veronese.42 7.69 4.50 3.90 1 4.72 8. D.51 8.00 9.96 9.09 1 .80 FUENTE: Utilizado con autorización de Silvio M.00 4.00 75.00 25.80 5.73 9.15 1 9.00 20.1 2 10.10 4.12 5 .07 3 .48 16.92 17.53 5 1 .79 15.42 1 3.90 9.40 4.95 27.50 73.00 29.40 26.65 2 1 .20 29.00 5.00 1 7. 10.00 1 1 . .00 5 .96 1 9. 52 7.42 28.20 1 0.50 4.53 6.35 1 7.89 28. 1 0 1 3 .00 9.84 33.00 1 0.40 1 0. 1 0 5 .00 2.83 9.58 1 4.40 6.33 5.00 4.03 7.00 3.78 3.00 30. 1 0 1 0. 56 70.40 FUENTE: 57.82 79.49 54.EJERCICIOS 29 a) Construya con los datos: Una distribución de frecuencias Una distribución de frecuencias relativas Una distribución de frecuencias acumuladas Una distribución de frecuencias relativas acumuladas Un histograma Un polígono de frecuencia b) ¿Qué porcentaje de las mediciones es menor que 10? e) ¿Qué proporción de individuos tiene mediciones mayores o iguales que 20? d) ¿Qué porcentaje de mediciones está entre 20 y 49. siglas en inglés) en individuos con rinitis alérgica.07 95.38 55.63 149.33 73. 1 5 85. individuos con asma y voluntarios normales.78 77. puede ser simétrica (la mitad izquierda es al menos aproxima damente igual a la mitad de la derecha).79 53.70 1 06.53 47.70 78.2 Jarjour et al.90 9 1 .50 6 1 .20 44.00 61.47 7 1 .05 100.30 82.78 86.23 35.20 67.30 59.06 1 1 4.16 72. o en forma de U (las frecuencias son-altas en cada extremo y cortas en el centro).9 1 128.41 83.40 57.80 6 1 .76 95.60 59.33 77.98 69. Por ejemplo.40 4 1 .20 66. 1 7 58. inclusive? e) ¿cuántas mediciones son mayores que 39? t) ¿Qué proporción de las mediciones es menor que 1 O o mayor que 69? g) Alguien selecciona aleatoriamente una medición de este conjunto de datos y le pide que adivine el valor.36 51.73 57. D. 10 62. ¿Cómo se describe esta distribución? 2.36 59. 1 0 109.90 74. 1 7 55.73 88. M. .32 73.90 72. con inclinación a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tama ño).20 67. con inclinación a la izquierda (las frecuencias tien den a incrementarse conforme· las mediciones se incrementan en tamaño). Una de las mediciones obtenidas es la proteí na total (µg/ml) en muestras de BAL.3.47 5 1 .24 54.50 84. Jarjour. Los siguientes son los resultados de 6 1 muestras analizadas: 76. ¿cuál sería su respuesta? ¿por qué? h) La distribución de frecuencias y sus histogramas pueden ser descritas de varias maneras según su forma.96 54.07 72.60 62.10 63.68 Utilizado con autorización de Nizar N.55 1 53.40 88.70 44.50 62. (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL. 99? f) Remítase al ejercicio 2. Ellis. 1 inciso h para describir la distribución de proteína total en las muestras de BAL en términos de simetría e inclinación. inclusive? e) ¿cuántas mediciones son menores que 95? d) ¿Qué proporción de las mediciones es mayor o igual que 75? e) ¿Qué porcentaje de mediciones es menor que 55 o mayor que 1 1 4.3.3 . a) Construya con los datos: Una distribución de frecuencias Una distribución de frecuencias relativas Una distribución de frecuencias acumuladas Una distribución de frecuencias relativas acumuladas Un histograma Un polígono de frecuencia b) ¿Qué porcentaje de mediciones es menor que 500? e) ¿Qué porcentaje de mediciones está entre 500 y 999. Como parte del estudio. inclusive? .3 Ellis et al. Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresión unipolar. los investigadores obtuvieron los valores máximos de unión a la molécula receptora (BmáJ en estos individuos. 1 074 372 473 797 385 769 797 485 334 670 510 299 333 303 768 FUENTE : 392 475 319 301 556 3 00 339 488 1 1 14 761 571 306 80 607 1017 286 511 147 476 416 528 419 328 1 220 438 238 867 1 657 790 479 1 79 530 446 328 348 773 697 520 341 604 420 397 Utilizado con autorización de Peter E. (A-3) realizaron un estudio para investigar las características de unión de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos.30 CAPÍTULO 2 ESTADÍSTICA DESCRIPTIVA a) Construya con los datos: Una distribución de frecuencias Una distribución de frecuencias relativas Una distribución de frecuencias acumuladas Una distribución de frecuencias relativas acumuladas Un histograma Un polígono de frecuencia b) ¿Qué porcentaje de mediciones está entre 55 y 1 14. 2. (A-4) era determinar la prevalencia de desórdenes mentales severos en una muestra representativa de convictos de tres centros de readaptación social·en Melboume. 18 4955 2 1 90 450 3650 2920 270 1 000 270 180 910 90 253 450 360 1460 1 095 635 1 953 844 360 570 95 1 540 450 450 730 4380 720 730 455 o 540 545 o 1 50 1 825 2920 270 284 330 o 1 000 1 460 360 o 1 20 1 095 330 540 730 o 1 095 365 1 80 2340 360 1 80 2005 717 3710 180 2555 4015 2885 730 3 1 60 910 360 466 2920 240 4745 88 545 90 1 670 360 727 1 275 344 2555 545 90 60 540 90 660 365 3 1 00 1 050 90 450 1 200 1 20 1 460 409 910 o 1 1 25 FUENTE: Utilizado con autorización de Helen Herrman. Además de evaluar la prevalencia de desórdenes mentales entre los individuos. D.4 El objetivo de un estudio de Henman et al. Australia. f) ¿cuántas de las mediciones son menores que 1000? 2. aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar.3 . a) Construya con los datos: Una distribución de frecuencias Una distribución de frecuencias relativas Una distribución de frecuencias acumuladas Una distribución de frecuencias relativas acumuladas Un histograma Un polígono de frecuencia . Los siguientes datos son el tiempo mínimo de sentencia (en días) para cada indivi duo que rehusó la entrevista.EJERCICIOS 31 d ) ¿Qué porcentaje de mediciones e s mayor que 749? e) Describa estos datos con respecto a la simetría e inclinación tal como se estudió en el ejercicio 2. M. los investigadores ob tuvieron información del tiempo de sentencia y tiempo de confinamiento al momento del estudio.1 . Los tres grupos de convictos se clasificaron como: aquellos que estuvieron de acuerdo en ser entrevistados.3. inciso h. 5 2.7 55 55 26 56 57 27 52 40 59 43 45 34 28 58 46 56 54 53 49 54 48 42 54 53 31 45 32 29 30 22 49 59 42 53 31 32 35 42 21 24 57 46 54 34 24 47 24 53 28 57 56 57 59 50 29 a) Construya a partir de estos datos: Una distribución de frecuencias Una distribución de frecuencias relativas Un histograma Un polígono de frecuencia b) Describa estos datos con respecto a la simetría e inclinación tal como se estudió en el ejercicio 2. en 60 hospitales comunitarios: 30 37 32 39 52 2. inciso h.32 CAPÍTULO 2 2. 254 182 1 80 198 222 1 65 265 220 272 232 28 1 210 1 88 190 1 87 194 222 201 195 191 192 235 1 35 151 1 34 206 264 203 227 175 260 239 233 157 193 193 249 172 230 236 212 258 220 204 264 218 175 234 1 68 152 1 79 166 204 238 3 12 198 205 198 232 258 225 159 219 205 214 24 1 252 173 217 1 55 179 1 8 1 149 223 1 86 190 2 1 1 245 1 5 1 229 1 9 1 200 227 190 2 1 2 1 49 164 225 2 1 0 178 1 59 187 1 89 237 249 196 223 2 1 5 197 2 1 0 (Continúa) .3. En un estudio acerca de los niveles de resistencia fisica de estudiantes varones de reciente ingreso a la universidad.3 .3 . 1. Los siguientes datos corresponden al número de niños que nacieron durante un año.6 ESTADÍSTICA DESCRIPTIVA b) Describa estos datos con respecto a la simetría e inclinación tal como se estudió en el ejercicio 2. inciso h.3. se registraron las siguientes puntuaciones con base en algunas rutinas de ejercicios. inciso h.3. 1. 7 5 4 3 8 7 10 12 8 1 1 10 13 3 8 4 12 1 1 4 5 5 7 7 3 3 8 2 7 5 5 8 13 4 1 17 3 7 7 11 8 4 3 1 17 10 a) Construya a partir de estos datos: Una distribución de frecuencias Un histograma Un polígono de frecuencia U na distribución de frecuencias relativas b) Describa estos datos con respecto a la simetría e inclinación tal como se estudió en el ejercicio 2.3. 1 . e) ¿por qué se cree que los datos están inclinados de esa manera? d) ¿cómo podrían utilizar los investigadores esta información en estudios posteriores? e) ¿cuántas mediciones son mayores que 729? f) ¿Qué porcentaje de mediciones es menor que 1 460? La siguiente tabla muestra el número de horas de sueño de 45 pacientes de un hospital como consecuencia de la administración de cierto anestésico. 20 2 14.30 203.90 2 12.70 1 68. 1 .3 .80 1 84.3 . 1.90 2 1 7.70 222.20 190.00 209.00 201.30 1 50.50 1 54.30 245. 35 36 45 36 22 2.40 Hospital B 1 99.90 1 84.40 195.00 1 52.00 190. 1 0 239. Hospital A 249. .40 1 54.40 166.20 2 13.90 1 9 1 . ¿Qué sugiere la comparación de los dos despliegues respecto a los dos hospitales? Describa los dos conjuntos de datos con respecto a la simetría e inclinación tal como se estudió en el ejercicio 2.EJERCICIOS 2 14 218 169 191 25 1 1 88 · 278 252 283 205 2 1 3 172 1 59 203 187 204 180 261 1 24 199 235 1 39 206 173 236 2 1 5 1 95 240 163 208 184 212 236 23 1 228 33 172 228 193 1 30 1 17 1 97 206 1 98 2 1 7 205 2 1 2 2 1 8 1 16 1 82 243 2 1 7 1 83 204 1 86 1 34 a) Construya a partir de estos datos: Una distribución de frecuencias Una distribución de frecuencias relativas Un polígono de frecuencia Un histograma b) Describa estos datos con respecto a la simetría e inclinación tal como se estudió en el ejercicio 2.60 1 86.40 225.90 186.30 202.70 1 35.3.9 32 12 23.70 167. Construya un despliegue de tallo y hojas para cada conjunto de datos.70 229. 2. inciso h. inciso h.3. 45 38 21 54 64 55 35 43 45 10 44 56 39 37 34 55 45 60 53 22 46 57 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgen cias de dos hospitales urbanos.50 2 13. inciso h.30 20 1 .10 1 65.70 1 73.60 .70 1 78.8 Las edades indicadas a continuación corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la noche.3.10 248.50 1 25.80 222.20 1 71.30 1 55.90 2 14. Describir estos datos con respecto a la simetría e inclinación tal como se estudió en el ejercicio 2 .80 205.70 2 1 2.QO 143.50 1 45.40 238. 1 . 10 2 14.50 195 . Construya un despliegue de tallo y hojas con esos datos.50 233. 0990 0.3630 0.6240 0. 1 240 0. 1 050 0. los investigadores calcularon el porcentáje dé inmutabilidad de Smefenitoína hacia R-mefenítoína (porcentaje SIR). 1 080 0 . 1 677 0 .4430 0.3 ..2800 0.3 1 00 0.2420 0. 1 050 0.4980 0.1480 · 0 . 1 090 0.0990 0. inciso h.0990 0.60 1 0 0.0990 0.0900 0. 1 890 . 1 780 0 .5460 0. 1 880 0. 0 . 0 . 1 720 0 .4390 0. 1490 0 . M.3 1 1 0 0.44 1 0 0. 2.2260 0. 1 000 0 .3490 0. 1 740 0. 1 600 0.0 1 20 0. A partir de la información proporcionada por las muestras de orina de 2 1 6 individuos. 1 090 0.0990 0. (A-5) fueron examinar: a) la relación entre el metabolismo de la doroguanida y la eficacia de la profilaxis contra la malaria..49 1 0 0.0990 0.4.7040 0. 1490 .0990 0.3960 0.4080 0.0320 Utilizado con autorización de Erik Skjelbo.0550 0.9090 1 .6380 ú.4300 0.2650 0.0990 0.3070 0.0269 0.4680 0.2540 0.1710 0. 1790 0. 1 230 0.3 1 90 0.3520 0.548Ó 0.4 1 00 0.7200 0.0990 0.0720 0.0990 0. 0700 0. 1 60 0 . 1 1 90 0.6940 0.3 570. 1 090 0. 1 020 0.2070 0.3000 0.3990 0.5220 0.0990 0.48 1 0 0.2970 0.7950 0.6720 0. 1 080 0 . 1 1 60 0.3630 0.2680 0. 1 950 0.0760 0.0990 0.2870 0.9830 0.5340 0.0990 0.0990 0.1 370 0 .4290 0.44 1 0 0.4370 0.8770 1 .6280 0.5920 0.2400 0. 1 780 0.5930 0.0990 0.2620 0.0650 0.3400 0. 1 790 0 .0990 0 .0550 0.0990 0.2470 0.4.4090 0. 10 ESTADÍSTICA DESCRIPTIVA Para este ejercicio es necesario utilizar los datos del ejemplo l .0260 0. 0.3900 0.0990 0 .1810 0 .2570 0.5030 0.2 1 5 0 0.7280 0.4360 0 .69 1 0 0.2 1 00 0. a) Construya intervalos de clase con amplitud 5 para: Una distribución de frecuencias Una distribución de frecuencias relativas Una distribución de frecuencias acumuladas Una distribución de frecuencias relativas acumuladas Un histograma Un polígono de frecuencia b) Describa estos datos con respecto a la simetría e inclinación tal como se estudió en el ejercicio 2.2290 0. 1 920 0.4540 0.2 1 00 0.9520 1 .4260 0.27 1 0 0.4160 0. 0 . 1 670 0 . 1 040 0.5550 0.5060 0.0900 0. 1 desplegados en la tabla 1 . 1 340 0.1970 0.2460 0. -o) el metabolismo de la mefenitoína y su relación con el metabolismo de la cloroguanida entre habitantes de Tanzania.2460 0. 1 1 Los objetivos de una investigación realizada por Skjelbo et al.7860 0.0400 0 . 2390 0.2800 0. 1 690 0.20 1 0 0. 1 650 0.0990 0.0990 0.0990 0. 0850 0. 1 650 0.4870 0.0870 0.42 1 0 0.2430 0 .2450 0.2980 0.4290 0. 1 890 0.3440 0.8200 1 .4080 0.0990 0.4090 0. 1 340 0.3660 0.0670 0.0990 0. 1 500 0.6820 0. D. 1 500 0 . 1 200 0.2 1 60 0.6900 0.34 CAPÍTULO 2 2.0880 0.0990 0.6600 0.9890 0. 1 .3. 1550 0 . 0620 0. 1 540 0 .8040 0.0870 0. 1 670 0 .530 0. 1570 0.1460 0. 1 .3830 0.0990 0.5490 0.2600 0.6870 0.2990 0.2940 0.3480 0.0990 0.32 1 0 0 . Los resultados son los siguientes: 0.8350 1 .2880 0.0990 0.3.3 140 0.9530 FUENTE: 0. 1500 0.0990 0.0990 0.5480 0.0990 0. 1390 0 . 2 140 0.2450 0.2650 0.7 1 20 0.5340 0.3. 880 1 . b) Describa estos datos con respecto a la simetría e inclinación tal como se estudió en el ejercicio 2.820 1 .3 y .840 1 .690 1 .760 1 .800 1 . inclusive. 640 1 . 740 1 .830 1 . 690 1 .720 1 .830 1 .690 1 .710 1 .780 1 .800 1.780 1 .770 1.780 1 .820 1 . inciso h.770 1 .730 1.09 por ciento de individuos de menor estatura? .850 1. y mayores que .780 1 .3.820 1 . frecuencia relativa.800 1.6999. ¿cuántos y qué porcenta je de individuos son metabolizantes de bajo rendimiento? d) ¿Cuántos y qué porcentaje de individuos tienen porcentajes menores que .760 1 .700 1 .12 Schmidt et al. e) Los investigadores definieron como metabolizantes de bajo rendimiento de mefenitoína a cualquier individuo con un porcentaje mefenitoína SIR mayor a . así como las siguientes gráficas: histograma.3.760 1. 680 1 .610 1 .750 1 .960 1. inciso h.805 1 .780 1. b) Describa estos datos con respecto a la simetría e inclinación tal como se estudió en el ejercicio 2. fre cuencia acumulada y frecuencia relativa acumulada.640 1 .720 1 . e) ¿Cómo se puede explicar la forma de distribución de estos datos? d) ¿Qué tan altos son el 6.650 FUENTE: Utilizado con autorización de Henrik Schmidt.760 1 .740 1 .800 1.880 1 .730 1 . (A-6) efectuaron un estudio para investigar si la autotransfusión de sangre extraída del mediastino podía reducir el número de pacientes que necesitaba transfusiones de sangre homóloga y reducir la cantidad de sangre homóloga transfundida utilizando crite rios de transfusión fijos. polígono de frecuencia y despliegtie de tallo y hojas. así como las siguientes gráficas: histograma.630 1 .790 1 . frecuencia relativa.655 1 .630 1 .780 1 .700 1 .820 1 .660 1 .760 1 .810 1 .750 1 .840 1 .760 1 .600 1 .730 1 . La siguiente tabla muestra las estaturas en centímetros de 109 indi viduos de los cuales 97 son varones.710 1 .720 1.730 1 .820 1 .750 1. 7.670 1 .4999? 2.3.710 1 .520 1 .630 1 .850 1 . M.650 1 .1 .800 1 .710 1 . 1.EJERCICIOS 35 a) Construya con los datos las siguientes distribuciones: frecuencia.760 1 . polígono de frecuencia y despliegue de tallo y hojas.840 1 .800 1 .750 1 .690 1 .775 1.820 1 .800 1 .800 1 .720 1.730 1.800 1 .790 1 . 1 .700 1 .690 1 .760 1 .690 1 .740 1 .920 1.770 1 .800 1 .780 1 . D.840 1 .620 1 .810 1.730 1 .42 por ciento de individuos más altos? e) ¿Qué tan altos son el 1 0.900 1.790 1 .720 1 .8 1 0 1 .9. entre .760 1 . 560 1 .800 1 .830 1.700 1 :820 1. 600 1 .700 1. a) Construya con los datos las si guientes distribuciones: frecuencia. fre cuencia acumulada y frecuencia relativa acumulada. 1. es la: posibilidad de condensar datos por medio de un sólo número llamado medida descriptiva.1 Obtenga la edad media de la población de los 169 individuos registrados en la tabla 1. existen muchas situaciones en que se requieren otros tipós de resumen de datos. Lo que se necesita. este capítulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersión.. Solución: Se procede de la sigu iente forma: • 27 + 27 + · · · + 23 + 39 34. de las que se discuten sólo tres. Las medidas de tendencia central conllevan información respecto al valor promedio de un conjunto de valores.302 edad media = .1estra se llama estadística. Puesto que no se estudian otras medias en este libro. no debe ser causa de confusión si al referirse a la media aritmética sólo se dice media. Las medidas descriptivas pueden calcularse a partir de los datos de una muestra o de una población. Una medida descriptiva calculada a partir de los datos de una m1. La medida de tendencia central más conocida es la me dia aritmética. La media se obtiene sumando todos los valores en una población o muestra y dividiendo entre el número de valores sumados.4..4 ESTADÍSTICADESCRIPTIVA: MEDIDAS DE TENDENCIA CENTRAL Aunque las distribuciones de frecuencia sirven a propósitos muy útiles. en la siguiente.36 CAPÍTULO 2 ESTADÍSTICA DESCRIPTIVA 2.4. en muchos casos.--169 Los tres puntos en el numerador representan valores que no se muestran para economizar espacio. Las medidas de tendencia central se consideran en esta sección. únicamente un valor delconjunto de datos se considera como el representati vo del todo. La media aritmética EJEMPLO 2. Para distinguirlas entre sí se tienen las siguientes definiciones: DEFINICIONES l. y las medidas de dispersión. Sin embargo. Tal como se verá. . Algunos tipos de medidas descriptivas se pueden calcular a partir de un con junto de datos.. 2. la palabra promedio se puede definir en diversas formas. El adjetivo aritmética distingue a esta media de otras que se puedan calcular. Las tres medida� de tendencia central de uso más frecuente son: la media. Ésta es la medida descriptiva que la mayoría de las personas tienen en mente cuando se habla de "promedio". Una medida descriptiva calculada a partir de los datos de una población se llama parámetro. la moda y la mediana. En cada una de las medidas de tendencia central. Para referirse al primero. Ahora corrésponde calcular la edad media de los 1 O individuos en la muestra. los símbolos de arriba y de abajo del signo L se omiten. y así sucesivamente. Solución: Las edades (véase la tabla 1 . Ct1ando por el contexto sea obvio cuáles son los valores que se suman. X.6 n 10 10 • .2) n EJEMPLO 2. y el valor final en una población finita de valores. Por lo tanto. a partir de la tabla 1 . un valor común para la variable aleatoria se designa con x. .representarlo en notación de forma más compacta. Se utiliza 3c para identificar a la media de la muestra.4.: significa que todos los valores para la variable se suman desde el El símbolo 1 primero hasta e._ = = . La media de la muestra Cuando se calcula la: media para una muestra de valores.2 se obtiene: n 2.3 ESTADÍSTICA DESCRIPTIVA: MEDIDAS DE TENDENCIA CENTRAL 37 Es conveniente generalizar el procedi Fórmula general para la media miento para obtener la media y. 1 .2) de los 1 0 individuos de la muestra son: x 1 = 42..4. x3 = 28. x4 61. con xN. Los valores específicos para una variable aleatoria se representan con la letra minúscula x. y n para indicar el número de valores en la muestra. x5 3 1 . x8 = 34. . al tercer valor. además .4.4. A este símbolo L se le conoce como signo de sumatoria. Se inicia por designar a la variable aleatoria con la letra mayúscula X. .4.. el procedimiento recién descrito requiere algunas modificaciones en la nota ción.. l se tiene: X1 = 27. al segundo.i:L.!.4.!:'. x6 = 23. En este tjemplo X representa a la variable aleatoria de edad. X 169 = 39 En general.2. la media de la muestra se expresa como sigue: (2. X2 = 27.l últirµo. 1 ) N 2. Ahora se puede escribir la fórmula general para la media de una pobla ción finita como sigue: N L X¡ µ = . Por ejemplo.= 36. donde N es el número de valores en la población. x10 = 37. x7 = 50. se añade un subíndice a la x. Por último. 42 + 28 + ··· + 37 366 x = . x9 = 32. ._ (2. x2 = 28. Al sustituir los datos de la muestra en la ecuación 2.4. se utiliza la letra griega µ para simbolizar la media de la población. y se utiliza extensamente en este libro.2 · En el capítulo 1 se obtuvo una muestra aleatoria simple de 1 O individuos a partir de la población mostrada en la tabla 1. 1 . cuando todos los valores son arreglados en orden de magni tud. El cálculo y comprensión de la media aritmética son sencillos. en algunos casos. 2. si se tienen 1 1 observa ciones. Por ejemplo. no existe un valor medio único.38 CAPÍTULO 2 ESTADÍSTICA DESCRIPTIVA Propiedades de la media La media aritmética tiene ciertas propiedades. Si el número de valores es impar.nuación se muestra un ejemplo de cómo los valores extremos pueden afectar la media. Es única. $75. la mediana es la ( 1 1 + 1 ) / 2 � 6-ésima observación ordenada. la mediana es la ( 1 2 + 1 )/2= 6. Eri tal caso. El único valor atípico del conjunto tuvo el efecto de inflar la media.4. los valores ya están ordenados. Por lo tanto. . la edad me diana de los 1 69 individuos es de 3 1 años.5-ésima observación ordenada y es el valor que está entre la sexta y séptima observación ordenada. la mediana es el valor medio o central siempre y cuando todas las variables sean arregladas eri orden de magnitud. A conti. Cuando el nú mero de valores en el conjunto es par. Puesto que todos y cada uno de los valores en d conjunto de datos entran en el cálculo de la media. sino que existen dos valores medios. la mediana corresponde a la media de esos dos valores centrales. El valor medio es el (n + 1 )/2 =( 169+ 1 )/ 2 1 70/2 85-ésimo. • EJEMPLO 2. Es decir. $80 y $280. La mediana La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos partes iguales.es la (n + 1 ) / 2-ésima observación. algunas deseables y otras no tanto. Solución: En la tabla.4. Simplicidad.2. la mediana del conjunto de datos . un valor que no es muy representativo del con junto de datos. los valores extremos influyen sobre la media y. El cobro medio para los cinco médicos es de $ 1 1 8. Por lo tanto. ésta es afectada por cada valor. EJEMPLO 2. Suponga que se reporta lo siguiente: $75. Contando desde el más pequeño hasta el 85ésimo valor se observa que correspondé al 3 1 .2. Si se tienen 1 2 observaciones. pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central. de forma que el número de valores mayo res o iguales a la mediana es i gual al número deyalores menores o i guales a ésta. Considere la siguiente situación: cinco médicos que trabajan en cierta área son llamados a declarar sus cobros por realizar cierto procedimiento. de modo que sólo se requiere encontrar los qos valores medios. Para un conjunto de datos existe-una y sólo una media aritmética. $80. cuando las observaciones han sido ordenadas.4.4 Obtenga ahora la edad mediana para los individuos de la muestra descrita en el ejemplo 2. 3.3 Encuentre la mediana de los datos contenidos en la tabla 2. Algunas de estas propiedades son las siguientes: l. no existe sólo un valor central. Los valores extremos no tienen efectos importantes sobre la mediana. 50.5 ESTADÍSTICA DESCRIP11VA: MEDIDAS DE DISPERSIÓN G dispersión de un conjunto de observaciones se refiere a la variedad que muestran éstas. Si todos los valores son diferentes. Una medida de dispersión conlleva información respecto a la cantidad total de variabilidad presente en el conjunto de datos. así que • la mediana es (32 + 34)/2 = 33. Una muestra que consista en los valores 1 O.2. síndrome cerebral orgánico. Es única. 22. 24. 32. Por ejemplo. puesto que todos los valores son diferentes. La moda se puede utilizar para describir datos cualitativos. 1 revela que la edad 2 6 ocurre con más frecuencia (l l veces). 37. La moda para esta población de edades • es de 26. no hay dispersión. 28. 2. 2. 6 1 . su ponga que los pacientes de una clínica de salud mental durante un año dado reci bieron uno de los siguientes diagnósticos: retardo mental. Para ilustrar un conjunto de valores que tiene más de una moda. Sin embargo. 33. 42.2. 3 1 . considere un laboratorio con diez empleados cuyas edades son: 20. La figura 2. 1 muestra los polígonos de frecuencia . psicosis. 34.5 Encuentre la edad modal de los individuos cuyas edades se presentan en la tabla 2.4. pero si no todos son i guales.5 ESTADÍSTICA DESCRIPTIVA: MEDIDAS DE DISPERSIÓN 39 Solución: Al arreglar las 1 O edades en orden de magnitud desde el valor más pe queño hasta el más grande se obtiene 23. 2 1 . Por otra parte.2. existe solamente una mediana par} un conjunto de datos. 20.5 . 20. 27. 28. La magnitud de la dispersión es pequeña cuando los valores. 2 1 . 3. aunque dife rentes. Si todos los valores son i guales. lo que sí ocurre con la media. 53 y 54 no tiene moda. 34. Solución: E l conteo d e las edades e n l a tabla 2. _ Propiedades de la mediana cuentran las sigu ientes: Entre las propiedades de la mediana se en- 1. no hay moda. son cercanos entre sí. EJEMPLO 2. 27 y 27. Simplicidad. 1 . entonces existe dispersión en los datos. neurosis y trastornos de personalidad. un conjunto de valores puede tener más de una moda. El diagnóstico que ocurre con mayor frecuencia en el grupo de pacientes se denominaría diagnóstico modal. Se puede decir que estos datos tienen dos modas 20 y 27. La moda La moda de un conjunto · de valores es aquel valor que ocurre con mayor frecuencia. Puesto que se trata de un número impar de valores. Al igual que en el caso de la media. los dos valores del centro son 32 y 34. Es muy sencillo calcularla. el rango calculado es: R = 61 . Si los valores están ampliamente esparcidos.. t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersión. La población B.40 CAPÍTULO 2 ESTADÍSTICA DESCRIPTIVA Población A . Si se representa el rango como R. Soh1ción: Puesto que el individuo más joven en la muestra tiene 23 años y el más viejo tiene 61. el valor mayor como xv y el valor menor como xs. En consecuencia. La variancia Cuando los valores de un conjunto de observaciones se encuen tran ubicados cerca de su media.4.. El hecho de que toma en consider..2.. se puede pensar intuitivamente que es posible medir la disper sión en función del esparcimiento de los valores alrededor de su media. el rango se calrula como sigue: (2.. Éste es la diferencia entre el valor más pe queño y el más grande en un conjunto de observaciones..5.. para dos poblaciones que tienen medias iguales.1 Calcule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 2.23 .ación sólo dos valores hace que sea una medida pobre de dispersión. la dispersión es mayor. Una forma de medir la variación en un El rango o intervalo de variación conjunto de valores es calrulando el rango. Otros términos sinó nimos de dispersión son: variación.5. más variable que la población A.... 38 • La utilidad de rango es limitada.. expansión y dispersión. Esta medí- . pero diferente magnitud de varia bilidad. ' . �. 1) EJEMPLO 2.5. ' Población B '' µ FIGUBA 2. Su ventaja principal es la simplicidad de su cálculo.la dispersión es menor que cuando están esparcidos.. es más dispersa. simplemente se obtiene la raíz cuadrada de la variancia. se resta la media de cada uno de los valores individuales. las diferencias se elevan al cuadrado y después se suman entre sí. por lo que no es una medida adecuada de dispersión si se pretende expresar este concep to en términos de las unidades originales. menos 1 . la fórmula es la s iguiente: N (2.2.6) 2 + (28 .4.36. Los estudiantes interesados en profundizar en este aspecto pueden consultar el artículo de Walker (2). Para obtener la medida de dispersión en unidades originales.5. ( 42 -36.1 . Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamaño de la muestra. En el cálculo de la variancia. dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del uso de la variancia de la muestra en los procedimientos de inferen cia que se estudian posteriormente. en lugar de entre n. para obtener la variancia de la muestra . como hubiera de esperarse.3) La variancia representa unidades al cuadrado. excepto que se resta µ de cada x y se divide entre N en lugar de N-1 . Solución: . es una consideración teórica conocida como grados de libertad. Si se asigna la letra s2 para simbolizar la variancia de la muestra.5. Por ejemplo.2 . entonces se conoce el n-ésimo valor. El Desviación estándar . para calcu lar la variancia de una muestra de valores.5 ESTADÍSTICA DESCRIPTIVA: MEDIDAS DE DISPERSIÓN 41 ción se efectúa mediante lo que se conoce como variancia. Si se cono cen los valores de n 1 de las desviaciones a partir de la media. Calcule la variancia de las edades de los individuos estudiadas en el ejemplo 2.2) EJEMPLO 2.5. Si se asigna el símbolo cr2 para la variancia de una pobla ción finita.933333 • 9 Grados de libertad La razón de dividir entre n .. se si gue el procedimiento recién descrito. .6) 2 + .6) 2 s2 = 1 1 96. + (37 36. El razonamiénto es como sigue: la suma de las desviaciones de los valores individuales con respecto a su media es igual a cero. Desde un punto de vista prácti co.2.1 grados de libertad. el procedimiento descrito se expresa como sigue: i=I s-9 = �- -- n-1 (2. hecho que puede demostrarse. ya que queda determinado automáticamente debido a la restric ción de que todos los valores de n se sumen a cero. El concepto de grados de libertad se tratará de nuevo más adelante. Cuando se calcula la variancia a partir de una población finita de N valores. se puede decir que hay n .399997 --��- 9 1 32. 4) . . Sin embargo. EJEMPLO 2. para una población dada. como la media y las desviaciones estándar se expre san en la misma unidad de medición. Tal medida la constituye el coeficiente de variación. i=l = -- La desviación estándar es útil como medida de variación en un determinado conjunto de datos. los pesos de individuos de 25 años o los de 11 años.5.5. s C.3. aunque se utilice la misma unidad de medición.5) Se aprecia entonces que. el cual expresa la desviación estándar como un porcentaje de la media. debido a que los pesos mismos son mayo res y no porque la dispersión sea mayor. cuando se quiere comparar la dispersión de dos conjuntos de datos. ( X¡ .X) 2 (2. Por ejem plo: se pretende conocer. son más variados que el peso del cuerpo.42 CAPÍTULO 2 ESTADÍSTICA DESCRIPTIVA resultado se llama desviación estándar .5. Además.5. la unidad de medición se cancela al calcular el coeficiente de variación. se encontrará que esta última es numéricamente mayor que la anterior. medido en libras o kilogramos.V.n -1 La desviación estándar de una población finita se obtiene con la raíz cuadrada de la cantidad resultante de la ecuación 2. la desviación estándar de una muestra se obtiene mediante la siguiente fórmula: n _l.3 Los siguientes resultados corresponden a dos muestras formadas por varones: Edad Peso medio Desviación estándar Muestra l Muestra 2 25 años 145 libras 10 libras 11 años 80 libras 10 libras El propósito es saber �uál tiene mayor variabilidad. medidos en miligramos por cada 100 mi. = (100) (2. si los niveles de colesterol en el suero. Lo que se necesita en situaciones como ésta es una medida de variancia rela tiva en lugar de una de variancia absoluta. Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades. En general. la comparación de las dos desviaciones estándar puede dar un resultado equivocado. las dos medias pue den diferir bastante. Si la desviación estándar de los pesos de los niños de primer grado de primaria son comparadas contra la desviación estándar de los pesos de los estudiantes de preparatoria de reciente ingreso. Entonces se obtiene una medida independiente de la unidad de medición. La fórmula es como sigue: El coeficiente de variación -=X . s S 2' '\Jl. 65 Q3 44 .5.NS. 00 FIGURA 2. Por ejemplo. 00 MEAN 36 .5. Con los datos de la columna 1 .4. si se calculan los coeficientes de variación. 60 MAX 61 . N 10 MIN 2 3 .2 La impresión de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 2. 53 SEMEAN 3 . Sin embargo. Debido a que el coeficiente de variación es independiente de la escala de medición.4 muestra.5.v.2.5 80 Si se comparan estos resultados. • El coeficiente de variación también es útil para comparar los resultados obte nidos por diferentes personas que efectúan investigaciones que involucran la mis ma variable. En la fi gu ra 2. Por lo tanto.2 se muestra una impresión de las medidas descriptivas disponibles en el paquete MINITAB. para los mismos datos. TRMEAN significa media arreglada.5 43 ESTADÍSTICA DESCRIPTIVA: MEDIDAS DE DISPERSIÓN Solución: Una comparación de las desviaciones estándar puede conducir a la con clusión de. la salida impresa de SAS® que se obtiene al utilizar la instrucción PROC MEA. m�s variables medidas en escalas diferentes. como medida de tendencia central.9 145 y para los de 1 1 años de edad: 10 c.5. La media arreglada se utiliza algunas ve ces en lugar de la media aritmética.3. el procedimiento MINITAB se mues tra en la fi gura 2. = (1 00) = 1 2. se obtiene para los sujetos de 25. Se calcula después de que algunos valores extremos son excluidos. Esta medida. al igual que la media arreglada. expresados en kilogramos. 00 MEDIAN 33 .v.2. El término SEMEAN si gnifica error estándar de la medi. constituye una estadística útil para comparar la variabilidad de dos o . la media arre glada no tiene la desventaja de ser influenciada indebidamente por los valores ex tremos como en el caso de la media aritmética. En las salidas impresas Ql y Q3 son el primer y tercer cuartil. respectivamen te. que las dos muestras tienen igual variabilidad. podría utilizarse el coefi ciente de variación para comparar la variabilidad de los pesos de una muestra de individuos cuyos P!:SOS se expresan en libras y la variabilidad de los pesos de otra muestra. años de edad: c.4. Análisispor computadora Los paquetes de software para computadora pro porcionan una variedad de posibilidades para el cálculo de las medidas descripti vas. lQ_ (1 00) = 6. 00 TRMEAN 35 . La fi gura 2. 00 2 8 .2 con el paquete de software estadístico MINITAB. la impresión recibida es diferente. se estudiará con detalle en un capítulo próximo. 25 STDEV 1 1 . . Estas medidas se describen más adelante en este capítulo.a. Los datos son las edades correspondientes al ejemplo 2. tal que p por ciento o menos de las observaciones son menores que P y (100 .4. por ejemplo. 9 3 3 3 3 3 3 3 31 . xn. 0 0 0 0 0 0 0 0 6 1 .4. 6 4 6 0 0 2 3 8 3 6 6 . 3 . Elegir Tabular form bajo Display options. el septuagésimo se expresa como P70. y se expresa como Q1 • Al quincuagésimo percentil (la mediana) se le conoce como segundo cuartil o cuartil medio. Por ejemplo. denotado por Q2. Perce. 600 0 0 0 0 0 1 1 . una distribución con una mediana de 100 se localiza a la derecha de una distribución con una mediana de 50. FIGURA 2. ••• . 0 0 0 0 0 00 0 VARIANCE c. con el paquete SAS®. Q 3_ VARIABLE EDADES N 10 MEAN STANDARD DEVIATION MINIMUM VALUE 3 6 . en la gráfica de las dos distribuciones.:. Estas medidas des criptivas se llaman parámetros de localización porque pueden utilizarse para desig nar ciertas posiciones sobre el eje horizontal cuando se elabora una gráfica de la distribución de una variable.44 CAPÍTULO 2 ESTADÍSTICA DESCRIPTIVA Caja de diálogo: Stat Comandos de lá sesión: > Basic Statistics > Descriptive Statistics MTB > Describe C1 Teclear Cl en Variables.J. Clic OK. Se puede definir un percentil como si gue: DEFINICIÓN Dado un conjunto de n observaciones x 1 . . y al septuagésimo quinto percentil se le llama tercer cuartil. El décimo percentil. En ese sentido. los parámetros de localización "ubi can" la distribución sobre el eje horizontal. 2 3 . 502 STD ERROR OF MEAN MAXIMUM VALUE SUM FIGURA 2. Los subíndices en P sirven para distinguir un percentil de otro. y así sucesivamente.4 Salida impresa de las medidas descriptivas c.itiles y cuartiles La media y la mediana son casos especiales de la familia de parámetros conocidos como parámetros de localización.3 El procedimiento del paquete MINITAB para calcular las medidas descriptivas a partir de los datos del ejemplo 2.0 0 0 0 0 0 1 3 2 . Otros parámetros de localización son los percentiles y cuartiles. x2.5. El percentil quincuagésimo es la mediana.alculadas a partir de la muestra de edades del ejemplo 2. y se designa como P50• El vigésimo quinto percentil suele representar el primer cuartil.p) por ciento o menos de las observaciones son mayores que P.2.o percentil P es el valor de X.2. se desi gna como P10. 5 2 9 67 1 87 . 0 0.5.v. el p-ési. lOO(IQR/R) indica que el porcentaje de IQR es de toda la amplitud. y el extremo derecho del cua dro quede alineado con el tercer cuartil Q3 .6) Un IQR grande indica una magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes. y se siguen los cinco pasos que se mencionan a continuación: 1: Representar a la variable de interés sobre el eje de las x. La des ventaja de la amplitud es el hecho de que ésta se calcula a partir de dos valores. de tal forma que el extremo iz quierdo esté alineado con el primer cuartil Q¡. Es decjr. y un IQR pequeño indica una magnitud peque ña de variabilidad entre las observaciones relevantes. . Dibujar una línea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada con la medición más pequeña en el conjunto de datos. se uti lizan las siguientes fórmulas: n+I ' . el más grande y el más pequeño.5 45 ESTADÍSTICA DESCRIPTIVA: MEDIDAS DE DISPERSIÓN Cuando se pretende encontrar los cuartiles para el conjunto de datos. el rango proporciona una medi da no procesada (cruda) de la variabilidad presente en un conjunto de datos. .5. ordenada -. Puesto que estas expresiones son bastante vagas. DEFINICIÓN La amplitµd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil. Una medida similar que refleja la variabilidad entre el 50 por ciento central de las observaciones en el conjunto de datos es la amplitud del intercuartil.2. Dibujar sobre el eje horizontal un cuadro. Dibujar otra línea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medición más grande en el conjunto de datos. = -. Dividir el cuadro en dos partes con una línea vertical que se alinee con la mediana Q 2 • 4. Se puede hacer la comparación for mando la razón del IQR con respecto a la amplitud (R) y multiplicando por 100.-es1ma ob servaoon 4 Q2 = 2(n + l) 4 n+I . 3. . 2.-és1ma observación ordenada 2 Alnplitud del intercuarlil Tal como se ha visto. Para la construcción de esta gráfica se usan los cuartiles de un conjunto de datos.. es decir: (2. Gráfica de caja con valores extrenws (box and whisker) Un disposi tivo visual muy útil para comunicar la información contenida en un conjunto de datos es la gráfica de caja con valores extremos (algunas veces llamada sólo boxplot). 5. es más informativa la comparación de la amplitud del intercuartil con la magnitud del conjunto de datos completo. 11 12 13 14 .0 2.2 1 3.5 2. La barra vertical dentro de la caja muestra que la mediana está cerca de 4.5.0. o 2 3 4 5 6 7 8 9 10 Diámetro (cm) FIGUR.5) == 30 por ciento de la amplitud. 5. (A-7) asegura que "los carcinomas con metaplasia y sarcomas producidos dentro del seno son difíciles de diagnosticar y clasificar con precisión debido a sus variados patrones histológicos y a su rareza". La tabla 2. Solución: La medición más pequeña y la más grande son . Michael J.t Diámett-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres .25)(3. EJEMPLO 2. Robert V.5 6. localización de la concentración y simetría de los datos. Virginia A Rojas. Weiss.75.0 4.5) 4.375.0 2.5.5.4.6 y 6. Kempson y Lawrence M. 95.4 En una revista médica de publicación periódica.5 y 1 3 .5. y el IQR es 1 00(3.5 Caja de valores extremos del ejemplo 2.0 4.0 Fumrn: William C. La mediana es Q 2 = (20 + 1) / 2 = 1 0.2 5 .5 5.5 3. El examen de la gráfica para un conjunto de datos revela información respec to a la magnitud de la dispersión.0 . La caja de valores extremos resultante se muestra en la figu 11 ra 2. los autores investigaron una serie de sarcomas puros y carcinomas que exhibían metaplasia. Frierson. José Esteban. 5-ésima medición igual a 4.5 + (. En un intento por estudiar más detalles de las características biológi cas. Pítts.75-ésima medición igual a 6.75.5 6.46 CAPÍTULO 2 ESTADÍSTICA DESCRIPTIVA TABIA 2�5.0 1 .0 4. El siguiente ejemplo ilustra la construcción de la gráfica de caja con valores extremos.5)(5. La amplitud del intercuartil es IQR = 6. La amplitud es 1 2.375 .75/ 1 2. Rouse. respectivamen te.25-ésima medición.0 7. los valores aproximados del primero y tercer cuartil. Pitts et al. Al examinar la figura 2.0 2. El tercer cuartil es Q 3 = 3(20 + 1 ) / 4 = 1 5.625 = 3. 623-632.5.\.5 se observa que 50 por ciento de las mediciones están entre 2.5.75)(6.5 + (.::.5.4. 2. Henry F.75. la cual es 2.2.5. respectivamente.8 8.0 9.0) = 6.4. El primer cuartil es Q1 = (20 + 1 ) / 4 5. Gaffey. Richard L.0 + (.1 5.5) = 2.0 3. "Carcinomas with Metaplasía and Sarcomas of the Breast".5 6.625. 1 contiene ordenados en centímetros los diámetros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros. AmericanJournal of Clinical Pathology. variancias y cuartiles. 7. medias. construida con MINITAB a partir de los datos de la tabla 2 .5. La línea superior en la figura 2.6 Caja• de valores extremos elaborada con el paquete MINITAB a partir de la tabla 2. MTB > Boxplot 1 Tumsize 1 . Estas técnicas. que incluyen gráficas de tallo y hojas.5. populares debido al resultado del trabajo de Tukey (3). 1 . Se colocan los datos en la columna 1. > FIGURA 2. La línea mayor a la derecha indica que la distribución de diámetros está inclinada hacia la derecha. SUBC > Symbol . La gráfica de caja con valores extremos. .5. Esta instrucción también produce otras medidas des criptivas y desplegados.5. SUBC > Box .6 ejemplifica que la caja de valores extremos pue de desplegarse tanto vertical como horizontalmente.6 sirve para alertar que hay un valor inusualmente mayor que los demás. son ejemplos de lo que se conoce como técnicas de análisis de exploración de datos. sekccionar Outlier Symbol.5. En Data Display 2. SUBC > OUtlier .5. permiten que el investigador examine datos de manera que éstos revelen tendencias y relaciones. llamado outlier (valor muy alejado).5 .5. se renombra la variable con "Tumsize" (tamaño del tumor). la capacidad para construir gráficas de caja con valores extremos. seleccionar IQRange Box. 1. Muchos paquetes de software estadístico tienen. y el valor más grande no se considera que sea un valor muy alejado. identifiquen características únicas del conjunto de datos y faciliten su descripción y resumen.5.2.6. La figura 2. así como la de tallo y hojas. Clic OK.6 se detiene en 9. En Data Display 1. el cual corresponde al melanoma de 13 cm de diámetro. En el paquete SAS® se utiliza la instrucción PROC UNIVARIATE para obtener la gráfica de valores extremos.6 muestra una. 7 > El procedimiento del paquete MINITAB para producir la figura 2. Análisis exploratorio de datos Caja de diálogo: Comandos de la sesión: Stat EDA Boxplot Teclear Tumsíze en Y.5. y se procede como se muestra en la figu ra 2. La figu ra 2.5 ESTADÍSTICA DESCRIPTIVA: MEDIDAS DE DISPERSIÓN 47 14 12 o 10 -¡¡¡ -o 8 E '"' E * 6 4 2 o 1 FIGURA 2. El asterisco en la figura 2.5. e) la varianza. Para los ejercicios que se considere adecuado. g) el coeficiente de variación y h) la amplitud del intercuartil.V Sridharan. Copyright" de la American Society of Human Genetics. prepare una gráfica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para'comprender la naturaleza de los datos. (A. (A-8). Wilkinson y W. C.71 1 .1 1) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sú1drome de fragilidad del cromosoma X. al menos en parte. Dosman.77 1.American Review ofRespiratory Disease.06 2.43 3.57 1 . David B. Cada conjunto de datos debe considerarse como una muestra. Age and Agei:ng.4 Arinami et al. Se estudiaron siete pacientes asmátícos con edades entre 19 y 33 años.76 1 . Badish y Reuben M.90 1. "Pyogenic Liver Abscess in the Elderly". Cockcroft. (A 9) permiten concluir que la aspiración de aire frío incrementa la reacúvidad bronquial al inhalar histamina en pacientes asmáticos.57 1 . Mary M. entre los años de 1980 y mediados de 1988 se les diagnosticó absceso hepático piógeno.48 CAPÍTUL0 2 ESTADÍSTICA DESCRIPTIVA EJERCICIOS Calcule para cada uno de los conjuntos de datos de los siguientes ejercicios. P. Todos los dere chos reservados. en Escocia. f) la desviación estándar. "Auditory Brain-stem Responses in the Fragile X Syndrome".2.5. Los siguientes valores representan la superficie corporal de los pacientes: .74 3.A. 390-394. 2.36 3.78 76 84 67 86 87 76 69 64 FUENTE: G. 45-50.1 0) afirmaron que "la elevada mortalidad por absceso hepático p iógeno se debe. 43.5. Paltiel Weiner. 2.68 1.74 1 . . a) la media. Seleccione para cada ejercicio la medida de tendencia central que pueda ser la más apropiada para describir los datos. 2. Los valores de línea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes: 0 3. 7 1 81 63 84 62 61 . En un artículo de la revista Age and Ageing. 1 0 1. b) la mediana. Sridharan et al. 2. Ephraiin Meltzer. Primrose. S.74 1. c) la moda.65 1 .w of Respiratory Disease.47 2. 199-203. 19. American]ournal ofHuman Genetics. Susumu Nakajima e Ikuko Kondo. W.Iation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation". Hodgson y D. Cherniack. Establezca los razonamientos quejusú fican cada elección.73 FUENTE: Enrique Fernández. 46-51 . Lutz. 144.1 Treinta pacientes con limitaciones crónicas severas de respiración son sujetos de estudio por parte de Fernández et al. Cortesía de Oxford University Press. para invesúgar la eficacia del tramiento para mejorar el inter cambio de gases. d) la amplitud.83 2. murieron.5.3 A 17 pa�ientes internados en los Aberdeen Teaching Hospitals. Miki Sato.5.. ·Publicación de la Universidad de Chicago. Los valores de IQ para cada individuo son los sigi�ientes: 17 22 17 18 17 19 34 26 14 33 21 29 FUENTE: Tadao Arinami.2 Los estudios de Dosman etal.94 1 .78 FuENTE: J. W. Nueve pacientes . "Sustained Improvement in Gas Exchange After Negative Pressure Venti. 144. a la falta de sospecha clínica". "Effect ofColdAir on the Bronchial Response to lnhaled Histamine in Patients with Asthma". American Revie. R. Las 'edades de los individuos estudiados son las siguientes: 72 69 . (A. 5. 1 . (A. 2.2. 1 1 2. Ver el ejercicio 2.5.3. histogramas y polígonos de fre- .6 El objetivo del estudio de Kuhnz et al.5.4. 53 41 46 69 51 5 1 38 40 4 1 46 53 59 45 45 36 38 36 35 41 35 3 1 40 45 60 43 38 FUENTE: Utilizado con autorización de Thomas W Uhde.6.13 2. distribución de frecuencias relativas.12 2.1 3) es analizar ciertos parámetros farmacocinéticos básicos en mujeres tratadas con anticonceptivos trifásicos de ingestión oral.5. Americanjournal of Obstetrics and Gynecology. Tom Louton y Mariane Mahler.6 RESUNIEN En este capítulo se examinan varios procedimientos estadísticos descriptivos que incluyen organización de datos por medio de arreglo ordenado. 1 65. Christiane Gansau.8 2.5. D. Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados: 24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36 FUENTE: Giancarlo Mari. 143.1 5 1 . siglas en inglés de Zung Anxiety Scale). Construya una gráfica de valores extremos con estos datos.2. 2.3.14 Ver el ejercicio 2.3.5. 2. distribución de frecuencias. "Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women: Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum". Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son: 62 53 57 55 69 64 60 59 60 60 FUENTE: Wilhelm Kuhnz. en tanto que el flujo ausente o retrógrado de la arteria umbilical parece que está más correlacionado con las consecuencias fetales adversas".5. American]ournal of Obstetrics and Gynecology.5. Ver el ejercicio 2.14) examinaron el estado dinámico del eje tiroideo-hipotalámico-pituitario en trastornos de pánico mediante el estudio de las respuestas neuroendócrinas al protirelín en una muestra de pacientes con trastornos de pánico y una muestra de controles normales. "Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth'Retarded Fetuses". 7 2. el doctor Giancarlo Mari (A.6 2.10 2.3. Entre los datos recolectados en estos individuos se encontraron puntuaciones de comporta miento como las medidas por la escala de ansiedad de Zung (ZAS.3.3. Ver el ejercicio 2.5. Durda Sostarek.12) describió su estudio de la forma de ondas de la velocidad de flujo arterial san guíneo en la región pélvica y en las extremidades inferiores de fetos con crecimiento retarda do. M. Ver el ejercicio 2. 1 65. Ver el ejercicio 2. Los siguientes valores representan las puntuaciones de ZAS de los 26 indivi duos con diagnóstico de trastornos de pánico.5.7.9 2. Ver el ejercicio 2.5 RESUMEN 49 En un artículo de la revista American Journal of Obstetrics and Gynecology. 596-602.3.5.3. Stein y Uhde (A. En este artículo afirmó que los datos preliminares sugieren que "el índice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas. ¿cuáles son las ventajas y limitaciones de la amplitud como medida de dispersión? 4. variancia y desviación estándar. Se describen los conceptos de tendencia central y variación. mediana. Los siguientes valores corresponden a las puntuaciones de ZAS de 2 1 de estos individuos sanos. En ese estudio también se incluyó a individuos sanos como controles (es decir. D. un histograma y un polígono de frecuencia. 14 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de pánico que participaron en un estudio dirigido por Stein y Uhde (A. la mediana y la moda. Recolecte un conjunto de datos reales o realistas.14). Obtenga los valores reales o realistas a partir de esa población y calcule la media. Localice un artículo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersión.5 . variancia y desviación estándar para los datos del ejercicio 9. M. 9. amplitud. Defina los síguientes conceptos: a) Despliegue de tallo y hojas e) Percentil e) Parámetro de localización g) Arreglo ordenado i) Distribución de frecuencias relativas k) Parámetro m) Límites correctos de intervalos de clase h) Gráfica de valores extremos d) Cuartil t) Análisis exploratorio de datos h) Distribución de frecuencias j) Estadística 1) Polígono de frecuencia n) Histograma 2. moda. desde su propio campo de estudio. Defina y compare las características de la media. ¿Qué otro nombre recibe el quincuagésimo percentil (cuartil central o segundo)? 8. mediana. ¿cuál es el propósito de la regla de Sturges? 7. Explique por qué se utiliza n 5.50 CAPÍTULO 2 ESTADÍSTICA DESCRIPTIVA cuencia. PREGUNTAS Y EJERCICIOS DE REPASO l. ¿cuál es el propósito del coeficiente de variación? 6. Se presenta el análisis exploratorio de datos mediante gráficas de valores extremos y despliegue de tallo y hojas. variancia y des viación estándar. 1 para calcular la variancia. en su campo de estudio para construir una distribución de frecuencias. Describa. 26 28 34 26 25 26 26 30 34 28 25 26 3 1 25 25 25 25 28 25 25 25 FUENTE: Utilizado con autorización de Thomas W Uhde. individuos que no padecen trastornos de pánico). moda. una población de datos donde podría ser útil conocer la tendencia central y la dispersión. . una distribución de frecuencias relativas. moda. 12. 1 1. 3. En el ejercicio 2. y junto con ellos las medidas más generales: media. Calcule la media. 10. Se destaca la importancia que tiene el empleo de la computadora como he rramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos. mediana. Entre los individuos estudiados se encontró a 543 parientes consanguíneos de los pacientes con síndrome de Wolfram. "Psychiatric Dísorders in 36 Families with Wolfram Syndrome". moda. sólo para los 21 controles sanos. variancia y desviación estándar.5. mediana. Diane O. 775-779. A continuación se muestra una distribución de frecuencia de las edades de estos parientes consanguíneos: Edad 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-99 Cantidad 55 93 1 13 90 85 73 29 5 Total 543 FUENTE: Ronnie Gorman Swift. 15. Los siguientes valores son el índice de masa corporal (kg/m2) para los 14 individuos en la muestra: - --····· - - - - . quienes desarrollaban d e tiempo com pleto ocupaciones sedentarias como estudiantes o ayudantes de laboratorio. elabore una distribución de frecuencias relativas. Swif et al. moda. moda. Chase. De acuer do con los investigadores. la media. 1 4 y elabore una gráfica de tallo y hojas. el síndrome de Wolfram es un síndrome neurodegenerativo autosómico recesivo.1 6) fue su preocupación sobre si las recomendaciones vigentes de los requerimientos dieteticos de energía probablemente subesti man el total de energía necesaria en varones adultos jóvenes. mediana. Consulte el ejercicio 1 2 y calcule para los 26 individuos con trastornos de pánico: la media. Perkins. (A. mediana. variancia y desviación estándar. Con base en estos datos. La motivación de un estudio realizado por Roberts et al. 14. la media o la mediana? ¿Por qué? 1 7. describa en una palabra la naturaleza de los datos. una distribución de frecuencias acumuladas y una distribución de frecuencias relativas acumuladas. Americanjoumal ofPsychíatry. 13. Consulte el ejercicio 1 2 y calcule. Charles L. ¿Qué medida de tendencia central considera más adecuada para describir los valores de ZAS. 1 8. ¿cuál de los conjuntos de puntuaciones de ZAS tiene más variabilidad: el integrado por individuos sanos y enfermos. e) ¿Por qué luce así la gráfica del inciso b? d) Para la combinación de datos de ZAS calcule: la media. 148.1 5 ) realizaron un estudio sobre la presencia de importantes enfermedades psi quiátricas en portadores heterocigóticos del gen causante del síndrome de Wolfram. Analice el ejercicio 1 2.PREGUNTAS Y EJERCICIOS DE REPASO 51 a) Combine estos valores con las puntuaciones del ejercicio 2. b) Con base en la gráfica de despliegue de tallo y hojas. el conjunto de control de individuos sanos o el conjunto de pacientes con trastornos de pánico? ¿cómo se justifica la respuesta? 1 6. Debra B. en el que 25 por ciento de los individuos que son homocigóticos para la enfermedad tienen severos síntomas psiquiátricos que los conducen a intentos de suicidio u · hospitalización psiquiátrica. Sadler y Michael Swíft. variancia y desviación estándar. (A. Los sujetos del estudio fueron 1 4 varones adultosjóvenes sanos d e peso corporal normal. Young. desviación estándar y coeficiente de variación.3 69. Como parte de un proyecto de investigación. La siguiente tabla muestra la distribución de edades de los casos de cierta enfermedad re portada durante un año en un estado en particular: Edad Número de casos 5-14 1 5-24 25-34 35-44 45-54 55-64 5 10 1 20 22 13 5 Total 1 75 Para estos datos elabore una distribución de frecuencias acumuladas. William J.1 FUENTE: Susan B.2 56.0 25. (A. Consulte el ejercicio 1 8 .3 65.0 30.7 Estaturas: 1 85 161 99. Americanjournal ofClinical Nutrition. una distribución de frecuencias relativas acumuladas y un histograma. y dentro de tres desviaciones estándar? 19. una distribución de frecuencias relativas.52 CAPÍTULO 2 24. mediana.9 23. peso o estatura? ¿Qué bases tiene su respuesta? 20.8 173 1 74 7 1 . dentro de dos desviaciones estándar. Americanjournal of Clinical Nutrition. Paul Fuss. a) Para cada variable. Nombre los tres sinónimos d e variación (variabilidad). Evans.3 23.4 66.3 79. "Dietary Energy Requirements of Young Adult Men. elabore un despliegue de tallo y hojas. Determined by Using the Doubly Labeled Witer Method". Melvin B. por las siglas en inglés de serum lipid .2 88.8 20.0 64. variancia.4 23. e) Elabore una gráfica de valores extremos.6 1 80 177 63. b) Para cada variable. calcule media. los investigadores obtuvieron los siguientes datos sobre los niveles séricos de peróxido lípido (SLP.9 59. b) Elabore una gráfica de tallo y hojas.8 22. variancia. Heyman. 22. moda. 54. Young. Heyman.9 20. 21. 499-505. 54. d) ¿Qué porcentaje de mediciones está dentro de una desviación estándar de la media.6 70.7 1 68 1 75 1 83 1 84 1 74 1 64 1 69 205 FUENTE: Susan B.2 21. l 2 1 . Paul Fuss. WilliamJ. Evans. Rita Tsay y Vernon R.4 20. mediana. "Dietary Energy Requirements of Young Adult Men. Melvin B.4 26.1 6): Pesos: 83.6 ESTADÍSTICA DESCRIPTIVA 2 1 . y una gráfica de valores extremos. Roberts. Determined by Using the Doubly Labeled Water Method". Los siguientes son los pesos (kg) y estaturas (cm) de los 14 individuos de la muestra estudiada por Roberts et al. e) ¿Qué conjunto de mediciones tiene mayor variabilidad. desviación estándar y coeficiente de variación. 499-505. Roberts. a) Calcule media.8 78. Rita Tsay y Vernon R. 0 20.6 26.2 27. (x . Calcule la media. 1 35. de 30 pacientes en cada uno de los dos grupos. Los siguientes valores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos: 4.5 46.6 28.84.9 52. 3.3 20. 4. x Í:.5 22. 1 7.7 1 .17. Calcule para estos datos la media.8 39. siglas en inglés). 3.7 3 1 .6 49.7 Método 2 56.7 23.07. 5 .83.82.6 45.04. 1 40. mediana.8 46.9 22. Compare las dos gráficas. 3. l 33.3 54. 1 7 .1 38. ¿Jndican alguna diferencia en l a distribución d e los valores d e APTr para ambos métodos? ¿Qué método tiene mayor me diana? Compare el IQR del método 1 con el IQR del método 2. 4.4 56. 1 29.2 Exprese con palabras las siguientes propiedades de la media de la muestra: a) b) e) 27.7 4 1 .6 24.24. variancia y desviación estándar.2 24. 57 53 22 24 Se compararon dos métodos para colectar sangre para estudios de coagulación. 1 2 1 . Con las puntuaciones de cada examen para cada estudian te. 24.8 4 1 .8 30.2 22.09.x) o Un maestro de estadística indica a sus alumnos en el primer día de clases que se aplicarían cinco exámenes durante el curso. a partir d e los informes de laboratorio d e una muestra d e 1 0 individuos adultos que recibían tratamiento para la diabetes mellitus: 5. 1 2 1 .9 20.50. 23. Compare los resultados con los del ejercicio 22.09. Elabore una gráfica de tallo y hojas.9 53.6 38. 3. 2.5 44. 6.2 30. 3 .8 27. ¿Para cuál método es el IQR un mayor porcentaje de R? 20.7 35. mediana.7 22. 23. ¿Qué es lo que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus? ¿Estos resultados proveen suficientes bases para tomar acción médica? Explique su respuesta.9 4 1 . 3. variancia y desviación estándar.2 1 . 7.85.4 35 .37.2 23.4 23.PREGUNTAS Y EJERCICIOS DE REPASO 53 peroxide). Los siguien tes valores son el tiempo parcial de tromboplastina activada (APTT.2 24.7 22.64.83.9 Método 1 34. (x x)2 = un mínimo nx = I. 5. 1 23. Elabore una gráfica de valores extremos a partir de cada conjunto de mediciones. 33 61 23 21 Í:.4 21.8 48. 3. 4. 3 34.2 3 1 .3 1 .3 29. 6. A continuación se muestran las edades de 48 pacientes internados de urgencia en un hospital. ¿cómo describiría la forma de estos datos? 63 46 23 27 32 43 25 17 25. 3. 4.70.6 34.9 28.0 22.3 35 12 21 22 54 13 17 23 38 16 13 61 53 16 30 55 42 31 14 34 51 30 29 42 42 28 16 13 48 28 28 26 29.7 29.4 26.7 39. el profesor calcula una medida de tendencia central que servirá como calificación final . 149 1 50.125 1 25-149 125-150 150. etc. ¿La media. de una población d e mediciones para lo cual la mediana sea una medida de tendencia central mejor que la media. ¿Qué intervalo de clase será el más conveniente para el objetivo? ¿por qué? Establezca espe cíficamente por qué los otros dos son menos convenientes. 34. Entre los datos . Analice los datos en términos de variabilidad. Indique para las siguientes variables cuál puede ser mejor medida de tendencia central: la media. 29. Comente la conveniencia de utilizar estas amplitudes. Antes de tomar el primer examen se debe elegir si se quiere que la calificación sea la media o la mediana de las cinco calificaciones de los exámenes. 33.CAPÍTULO 2 54 ESTADÍSTICA DESCRIPTIVA del curso del estudiante. Compare el IQR con la amplitud. ¿La media. variancia.3. relacionado con ciencias de l a salud. Considere los siguientes intervalos de clases para elaborar una distribución de frecuencias de los niveles séricos de colesterol de los individuos que participaron en una campaña de detección: c) 50-75 h) 50-74 75-99 75. 30. e) Pesos de los jugadores de basquetbol de la escuela preparatoria.1 7 5 150. ¿Qué sugieren las comparacio nes respecto a la variabilidad de las observaciones? Consulte el ejercicio 2. explique por qué. a) Ingreso anual de las enfermeras tituladas en el Sureste. Analice los datos en términos de variabilidad.1 74 175-199 1 75-200 200-225 200-224 225-250 225-249 etc.3. La media es de 95 y la desviación estándar es de 40. Elabore una gráfica de valores extre mos.1 7) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guérin) para prevenir la meningitis tuberculosa. ¿Qué sugieren las comparacio nes respecto a la variabilidad de las observaciones? Thilothammal et al. desviación estándar. Consulte el ejercicio 2. desviación estándar. relacionado con ciencias de la salud. moda y mediana son iguales? Si no. Los estudiantes utili zaron las si guientes amplitudes de los intervalos de clase: a) 1 h) 5 d) 1 5 e) 1 0 f) 25 e) 20 a) 50-74 75-99 1 00. (A. 31. tercer cuartil y amplitud del intercuartil. mediana. 32. 1 1 y calcule: media. pri mer cuartil.1 00 1 00. mediana o moda. tercer cuartil y amplitud del intercuartil. mediana. h) Diagnóstico de pacientes atendidos en el departamento de urgencias del hospital princi pal de la ciudad. moda y mediana son iguales? Si no. variancia. En un examen de estadística se pidió a los estudiantes que elaboraran una distribución de frecuencias de los niveles de creatina en la sangre (unidades/litro) para una muestra de 300 individuos sanos. ¿cuál escogería el lector si fuera uno de los alumnos? ¿por qué? 28.1 74 175-199 200-249 250-274 etc. de una población de mediciones para lo cual la media sea una medida de tendencia central mejor que la mediana. explique por qué. Dé un ejemplo. pri mer cuartil. y explique su respuesta. Compare el IQR con la amplitud.1 24 1 00. D é u n ejemplo. Elabore una gráfica de valores extre mos. 1 2 y calcule: media. 35. 0 65.6 50.3 55.4 72. MA.4 73. American]ournal of Clinical Pathology.9 80. Addison-Wesley.7 76.8 55.0 65. Tukey.9 74. Walker.9 70.5 76.0 56.7 72. 3.5 63. mediana.6 80.0 72. 73.2 9 1 .5 79.BIBLIOGRAFÍA 55 recolectados en cada individuo está l a medición del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real).0 97.7 73.7 64. American Review ofRespiratory Disease.6 123.3 88.7 93.9 82. William ]. "Toe Choice of a Class Interval" .0 76. 1 74.3 80.5 86. tallo y hojas.6 doctor N.9 1 00.4 79.5 68.5 7 1 .0 72.7 78.4 78.0 76.0 77.9 FUENTE: Utilizada con autorización del 67. calcule las siguientes medidas descriptivas: media.3 1 00.6 59. moda. Lawrence B. y valores extremos. Veronese y Marcello Gambacorta. variancia.2 74.0 65.3 1 09. Schwartz y William W.6 85.0 50. Bibliografía de aplicaciones Silvio M. 2.6 70. A. La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio.4 92. primer cuartil. 1 88.8 73. 95.4 84.9 70.7 96.4 66. tercer cuartil e IQR. Helen M. "Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction". 21 .3 76.2 80.6 92.0 60. Sturges.0 68.3 72. Exploratory Data Analysis.7 84. 1 70. Busse. amplitud.3 66.6 72.5 76. ¿Qué sugiere la comparación respecto a la variabilidad de las observaciones? d) ¿Qué proporción de mediciones está dentro de una desviación estándar de la media.9 78.7 67.9 70. polígono de frecuencia. e) Analice los datos en términos de variabilidad.Journal ofthe American Statistical Association. Jarjour.0 83.0 45. . 253-269.4 82.5 67. 30-34. 1 68.0 74.6 55.5 99.9 73.7 89.0 84.0 65. desviación estándar.2 90.5 76. Reading. Bibliografía de metodología H.6 72.9 77. A-2.0 66.3 54.7 73.5 1 30.0 64. A-1.8 74. 83-87.6 64. 65-66.8 80. "Detection of Ki-67 Prolife:ration Rate in Breast Cancer". Nizar N. Calhoun.2 76. John W.0 72. Compare el IQR con la amplitud. a) Para estos datos.6 6 1 . Thilothammal. "Degrees of Freedom".0 76.5 84.8 73.4 58. 31. 144. Thejournal ofEducational Psychology.4 76.9 7 1 .6 59. en dos desviaciones estándar de la media y en tres desviaciones estándar de la media? e) ¿Qué proporción de mediciones es menor que 1 00? f) ¿Qué proporción de mediciones es menor que 50? BIBUOGRAI<iA l. b) Elabore las siguientes gráficas: histograma.6 7 1 .6 50.3 79. Determined by Using the Doubly Labeled Water Method". G. Sadler y Michael Swift. 148-156. Chemiack. "Autotrans fusion After Coronary Artery Bypass Grafting Halves the Number of Patients N eeding Blood Transfusion". "Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses". Roberts. Ruth Beeston y Russell R. American]ournal of Human Genetics. Patrick McGorry. "Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma". Primrose. Archives of Disease in Childhood. Miki Sato. 118. Nielsen. Archives ofGeneral Psychiatry. P. 775-779. Rojas.56 CAPÍTUL0 2 A-3. A-9. Clinical Pharmacology & Therapeutics. A-7. "Hidden Severe Psychiatric Morbidity in Sentenced Prisoners: An Australian Study". José Esteban. A-6. P. 61. "Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation". Cardiovascular. A-12. Young. Thilothammal. "Carcinomas with Metaplasia and Sarcomas of the Breast". Poul Erik Mortensen. Kempson y Lawrence M. Richard L. Cooke. Debra B. Desmond K. Henry F. American journal of Obstetrics and Gynecology. Theonest K. Susan B. American Review of Respiratory Disease. 1 44-147. Uhde. A-8. 390-394. Christiane Gansau. "Pyogenic Liver Abscess in the Elderly". Gaffey. A-16. Virginia A. Ephraim Meltzer. Jensen. ]. Susumu Nakajima e Ikudo Kondo. lb Bygbjerg. A-4. Michael J . A-17.1 1 8 1 . Weiss. Annals of Thoracic Surgery. 304-3 1 1 . Henrik Schmidt. S0ren Lars F0lsgaard y Esther A. V. Enrique Femández. 46-5 1 . 1 43. Robert V. A-15. A-14. Wilkinson y W.Journal ofAjfective Disorders. Tom Louton y Marianne Mahler. A-1 1 . Graham W. Gram y Kim Brl')sen. Paltiel Weiner. "Endocrine. R. 19. 95. 59. . "Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians". 45-50. Welhelm Kuhnz. Durda Sostarek. "Auditory Brain-stem Responses in the Fragile X Syndrome". William C . American Review of Respiratoiry Disease. Diane O. Paul Fuss. Perkins. Heyman. Rita Tsay y Vemon R. Jennifer Milis y Bruce Singh. W. Erik Skjelbo. Rouse. A. David B. "Does BCG Vaccine Prevent Tuberculous Meningitis?". and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder". Age and Ageing. 48. 623-632. A-13. 1 65. 199-203. Mary M. Karin K. 1 48. 1 44. Banu. " Sin gle and Multiple Administration of a New Triphasic Oral Contraceptive to Women: Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum". 105-1 1 O. 43. 236-239. Evans. A-5. 596-602. Americanjournal of Clinical Pathology . W. N. Pitts. Stein y Thomas W. Ronnie Gorman Swift. 54. 144. 22. Mellsop. Lars F. American journal of Psychiatry. "Platelet Tritiated Imipramine Binding in Patients Suffering from Mania". S. 1 1 78. Runyan y K. "Psychiatric Disorders in 36 Families with Wolfram Syndrome". "Dietary Energy Requirements ofYoung Adult Men. Badish y Reuben M. Dosman. t>4urray B. 499-505. Krishnamurthy. 1 65. Charles L. C. V. ESTADÍSTICA DESCRIPTIVA Peter M. Americanjournal of Clinical Nutrition. A-10. Lutz. Ellis. 74. Frierson. Hodgson y D. Mutabingwa. Tadao Arinami. Giancarlo Mari. Americanjournal ofPsychiatry. Sridharan. Cockcroft. Helen Herrman.1 5 1 . American]ournal of Obstetrics and Gynecology . Chase. William J. Melvin B.