ESTADÍSTICA DESCRIPTIVACONTENIDO INTRODUCCIÓN 10 UNIDAD DIDÁCTICA 1 Conceptos Preliminares Y Medidas De Tendencia Central 13 INTRODUCCIÓN A LA UNIDAD 15 OBJETIVOS ESPECÍFICOS 16 1. CONCEPTOS PRELIMINARES Y MEDIDAS DE TENDENCIA CENTRAL 17 1.1. CONCEPTUALIZACIÓN DE TÉRMINOS ESTADÍSTICOS 17 1.1.1. ¿QUÉ ES LA ESTADÍSTICA? 17 1.1.2. CONCEPTOS BÁSICOS 18 1.1.2.1 Aleatoriedad Y Representatividad de la muestra 20 1.1.2.2 Muestra aleatoria simple 20 1.1.2.3 Muestra Aleatoria sistemática 20 1.1.2.4 Muestra Aleatoria Estratificada 21 1.1.2.5 Muestra Aleatoria de conglomerados 21 1.1.2.6 Determinar Población, muestra y tipo de muestreo a utilizar 21 1.1.3. VARIABLES ESTADÍSTICAS 22 1.1.3.1 variables cualitativas 23 1.1.3.2 variables cuantitativas 23 1.1.3.3 escala de medida de variables 23 1.1.4 CARACTERIZACIÓN DE UNA VARIABLE CUALITATIVA 25 1.1.4.1 tablas de frecuencias: 25 1.1.4.2 representaciones graficas: 26 1.1.4.2.1 diagramas de barras 26 1.1.4.2.2 diagrama circular: 28 1.1.4.3 moda 28 1.1.5. TABLAS DE CONTINGENCIA: 28 1.2 INVESTIGACION ESTADISTICA 31 1.2.1 PLANEACION 31 1.2.1.1 Definición del objeto de investigación 31 1.2.1.2 Unidad de investigación 32 1.2.1.3 Clase de investigación 32 1.2.1.4 Las fuentes de información 32 1.2.2. RECOLECCIÓN 33 1.2.2.1 Según la cobertura 33 1.2.2.2 Según la forma de observación 33 1.2.3. ORGANIZACIÓN DE LA INFORMACIÓN 34 1.2.3.1 Combinación o arreglo ordenado 34 1.2.3.2 Arreglo de tallo y hojas 35 1.2.3.3 Tabulación de la información 37 1.2.4 TABLAS DE DISTRIBUCION DE FRECUENCIAS 40 1.2.4.1 Distribuciones de frecuencias 40 1.2.5 PRESENTACIÓN DE LA INFORMACIÓN 47 1.2.5.1 Componentes de una gráfica 47 Pág. 1.2.5.2 Diagrama de frecuencias 48 1.2.5.3 Histograma de frecuencias 50 1.2.5.4 Polígono de frecuencias 51 1.2.5.5 Ojiva 52 1.2.5.6 Gráficos de línea 54 1.2.5.7 Diagramas de barras 55 1.2.5.8 Diagrama circular 58 1.2.5.9 Pictogramas 59 1.2.5.10 Mapas estadísticos o cartogramas 59 1.3 MEDIDAS DE TENDENCIA CENTRAL O DE POSICION 60 1.3.1 ESTADIGRAFOS 60 1.3.2 MEDIA ARITMÉTICA 61 1.3.3 MEDIANA 64 1.3.4 MODA 68 1.3.5 OTRAS MEDIDAS DE TENDENCIA CENTRAL 71 ACTIVIDADES DE AUTOEVALUACIÓN DE LA UNIDAD 1 81 BIBLIOGRAFÍA DE LA UNIDAD 96 UNIDAD DIDACTICA 2 MEDIDAS DE DISPERSIÓN Y ESTADÍSTICAS BIVARIANTES 98 INTRODUCCION A LA UNIDAD 100 OBJETIVOS ESPECIFICOS 101 2. MEDIDAS DE DISPERSIÓN Y ESTADÍSTICAS BIVARIANTES 102 2.1 MEDIDAS DE DISPERSIÓN Y ASIMETRIA 102 2.1.1 RANGO O RECORRIDO 102 2.1.2. VARIANZA Y DESVIACIÓN ESTÁNDAR 104 2.1.2.1 Desviación típica o estándar 106 2.1.3 COEFICIENTE DE VARIACIÓN Y DESVIACIÓN MEDIA 107 2.1.3.1. Desviación media 108 2.1.4 PUNTAJE TÍPICO O ESTANDARIZADO 110 2.1.5 MEDIDAS DE ASIMETRÍA Y APUNTAMIENTO 112 2.1.5.1 Asimetría 112 2.1.5.2 Apuntamiento o curtosis 113 2.1.5.3 Lógica Matemática 115 2.1.5.4 Competencias Comunicativas 116 2.1.5.5 Cultura Política 118 2.1.5.6 Estadística Descriptiva 119 2.1.5.7 Herramientas Informáticas 120 2.2 MEDIDAS ESTADÍSTICAS BIVARIANTES 120 2.2.1 REGRESIÓN Y CORRELACIÓN 120 2.2.2 DIAGRAMA DE DISPERSIÓN 121 2.2.3 REGRESIÓN LINEAL SIMPLE 122 2.2.4 CORRELACIÓN 126 2.2.5 REGRESIÓN MÚLTIPLE 129 2.3 NÚMEROS INDICE 132 2.3.1 CONSTRUCCIÓN DE NÚMEROS ÍNDICE 133 2.3.2. TIPOS DE NÚMEROS ÍNDICES 134 2.3.3. ÍNDICES SIMPLES 134 2.3.4 ÍNDICES COMPUESTOS 135 2.3.5. USOS DE LOS NÚMEROS ÍNDICES 140 2.3.5.1. Calculo del salario y del ingreso 140 2.3.5.2 Poder de compra o poder adquisitivo o valor del dinero 141 2.3.5.3. Porcentaje de desvalorización 141 2.3.5.4. Porcentaje de variación y de devaluación 142 ACTIVIDADES DE AUTOEVALUACION UNIDAD 2 143 BIBLIOGRAFÍA DE LA UNIDAD 153 ANEXOA 154 Resumen de cálculos.7.3.3. Clasificación de empleados por cargo 39 Tabla 2. Distribución de frecuencias agrupadas 66 Tabla 3.2.8. ejemplo 15. Gastos indirectos de producción 131 Tabla 5.1. Distribución de frecuencias agrupadas de la velocidad de pulsaciones 45 Tabla 2. Distribución de frecuencias de las calificaciones de estudiantes de Estadística 106 Tabla 4.4. Clasificación de la estatura de los estudiantes de un grupo de Quinto grado 39 Tabla 2.7. Cálculo de Z para la distribución de frecuencias de las calificaciones de Competencias Comunicativas 117 Tabla 4. Distribución de frecuencias agrupadas 63 Tabla 3. Distribución de frecuencias absolutas. relativas y acumuladas ascendentes de la velocidad de pulsaciones 45 Tabla 2.10.1 Número de egresados del SENA en el período 1994-2004 38 Tabla 2. Número de intervalos de clases sugerido en función del tamaño de la muestra 43 Tabla 2.3.1.5. Cálculo de Z para la distribución de frecuencias de las calificaciones de Estadística Descriptiva 119 Tabla 5.2 Tabla de Contingencia de Frecuencia Relativas 30 Tabla 1. Clasificación de estudiantes Tabla 2. 77 UNIDAD 2 Medidas De Dispersión Y Estadísticas Bivariantes Tabla 4. Ventas por departamento al contado y a crédito en marzo de 2005 56 Tabla 3. Distribución de frecuencias simple de visita al odontólogo de niños entre los 6 y 12 años 49 Tabla 2.6.5. Distribución de frecuencias simple de latidos cardiacos de 30 personas 41 Tabla 2. mediana y moda 71 Tabla 3.2.3. Grado de correlación lineal 128 Tabla 5. Egresados del SENA en el período 2000-2004 54 Tabla 2. Distribución de frecuencias agrupadas de la asistencia a cine 69 Tabla 3.5. Distribución de frecuencias agrupadas 76 Tabla 3.2. Comparación de la media. Relación de ventas de un producto y la emisión del comercial en televisión 124 Tabla 5. Distribución de frecuencias de las calificaciones de estudiantes de Estadística 103 Tabla 4. Distribución de frecuencias agrupadas 72 Tabla 3.4. Conceptos Preliminares Y Medidas De Tendencia Central Tabla 1.3 Tabla de Contingencia de porcentajes 30 Tabla 2. Precios y cantidades vendidas en una farmacia en 2003 y 2004 138 . Distribución de frecuencias de las calificaciones de primer semestre en Valledupar 115 Tabla 4.9.6.4.1 Tablas de contingencia 29 Tabla 1.LISTA DE TABLAS UNIDAD DIDÁCTICA 1 Pág.4.11. Distribución de frecuencias de la asistencia a cine 69 Tabla 3.1.4.2.8. 13.1. Diagrama circular para el estado civil de 1250 aspirantes a empleo 58 Figura 2.5.8.1.LISTA DE FIGURAS Pág. Polígono de frecuencias de calificaciones de Cultura Política 118 Figura 4.3.2.4. 36 Figura 2.12.7. (a) positiva.3.2. Ojiva descendente de la velocidad de pulsaciones 53 Figura 2.2. Diagrama de barras segmentadas de las ventas por departamento al contado y a crédito en marzo de 2005 57 Figura 2. Polígono de frecuencias de calificaciones de Estadística Descriptiva 120 Figura 5. Polígono de frecuencias absolutas de la velocidad de pulsaciones 52 Figura 2.2 Diagrama Circular medios Comunicación 28 Figura 2.5. Ojiva ascendente de la velocidad de pulsaciones 53 Figura 2. Egresados del SENA en el período 2000-2004 55 Figura 2.4.1.1. UNIDAD DIDÁCTICA 1 Conceptos Preliminares Y Medidas De Tendencia Central Figura 1. Curva asimétrica negativa.1.11. (a) Sesgada a la derecha. (b) negativa 126 . (c) Simétrica 70 Figura 3. Curva simétrica leptocúrtica.2. Diagrama de frecuencias absolutas de visita al odontólogo de niños entre los 6 y 12 años 49 Figura 2.3. Bolivia y Colombia 59 UNIDAD 2 Medidas De Dispersión Y Estadísticas Bivariantes Figura 3. Diagrama de tallo y hojas para los datos de pulsaciones del ejemplo 8. (b) Sesgada a la izquierda. (c) sin relación 122 Figura 5. Diagrama de frecuencias absolutas acumuladas de visita al odontólogo de niños entre los 6 y 12 años 50 Figura 2. Pictograma para el número de árboles talados en Argentina. (a) lineal. Diagrama de flujo para el K-ésimo percentil 77 Figura 4. Gráficas de dispersión.1. Ojiva porcentual ascendente 77 Figura 3. Diagrama de Barras – Medios de Información 27 Figura 1. Curva normal o campana de Gauss 110 Figura 4.9. Gráficas de dispersión lineal. Polígono de frecuencias de calificaciones de Competencias Comunicativas 117 Figura 4. Distribuciones sesgadas. 37 Figura 2. Curva asimétrica positiva. Histograma de frecuencias absolutas de la velocidad de pulsaciones 51 Figura 2. Diagrama de líneas.14. Diagrama de doble tallo y hojas para los datos de pulsaciones del ejemplo 8.6. Ojiva ascendente y descendente de la velocidad de pulsaciones 54 Figura 2.3.1. Diagrama de barras agrupadas de las ventas por departamento al contado y a crédito en marzo de 2005 57 Figura 2. (b) curvilínea. Diagrama de dispersión de ventas de un producto y la emisión del comercial en televisión 124 Figura 5.10. Polígono de frecuencias de calificaciones de Lógica Matemática 116 Figura 4. Curva simétrica platicúrtica. INTRODUCCIÓN La Estadística es una disciplina que se aplica en muchos campos de la actividad del ser humano. Enfrentarse con datos de muy diversa índole es cosa de todos los días en cualquier práctica del ser humano. no siempre se comprende el real alcance de lo que dicen. suele venir precedido de otro: la Estadística Descriptiva. cuáles difieren grandemente del resto. Las interpretaciones que generan los datos pudieran ser erróneas para aquellas personas que no cuentan con criterios válidos para captar la información. llamado Inferencia Estadística. destacando hechos de posible interés. la clasificación de personal en una empresa para efectos de una buena y sana política laboral. Sin embargo. entre otros. Es por ello que con este módulo se pretende que el estudiante se adentre a los conocimientos básicos de la Estadística Descriptiva. Y es precisamente allí donde resalta la importancia de la Estadística Descriptiva como primer paso en la determinación de decisiones e inferencias que pueden concluirse de la variada información que nos llega en forma de datos numéricos. Es muy frecuente encontrarse en las diferentes disciplinas del saber con incertidumbres como el pronosticar el crecimiento poblacional de un país. dado la cantidad innumerable de estos. en el que los datos son ordenados. técnicas y tecnologías para el óptimo análisis de datos justifica que un profesional disponga de una sólida fundamentación conceptual para que realice apropiadamente su evaluación y aporte sustentaciones a su decisión. intentando descubrir de esta manera posibles relaciones entre los datos. el propósito de la Estadística Aplicada es el de sacar conclusiones de una población en estudio. se busca que el estudiante se encuentre en capacidad de interpretar. Como parte de una base cultural necesaria para desempeñarse en el mundo de hoy. Con el presente módulo. etc. resumidos y clasificados con objeto de tener una visión más precisa y conjunta de las observaciones. control y toma de decisiones económicas. el conocer la efectividad de diferentes abonos en el campo agrario. Este proceso. Los procesos de planeación. el crecimiento económico de una empresa o el crecimiento de producción y venta de un producto específico. viendo cuáles toman valores parecidos. es requisito desarrollar una capacidad personal para extraer y describir información presente en un conjunto de datos. discriminar y relacionar los fundamentos básicos de la Estadística Descriptiva. examinando solamente una parte de ella denominada muestra. En todos los campos de la investigación se requiere a menudo el uso racional de los Métodos Estadísticos. a través del análisis de datos tomados de un fenómeno propio de su . el determinar la tendencia de contaminación del agua o el aire. administrativas y financieras se basan en resultados obtenidos mediante el análisis estadístico de los fenómenos en ellos involucrados. Habitualmente. El acelerado desarrollo de métodos. enfocado en el autoaprendizaje y en relación directa con la Guía de Actividades referenciada en el protocolo del presente curso. Además. El módulo no pretende reemplazar las diferentes referencias bibliográficas clásicas de la Estadística. para que con ellas refuerce en conceptos y definiciones.. en articulación con las intencionalidades formativas. la correlación y los números índice. como medidas estadísticas bivariantes. Al final de cada tema. dato. Apunta al manejo estadístico de datos. Como Anexo y complemento a esta segunda unidad. ponderada y múltiple). Este texto busca aportar las herramientas teóricas y prácticas a los estudiantes para que logren. pero no únicas. la recolección de la información. considera los Conceptos Básicos necesarios para el cumplimiento de los propósitos y objetivos del curso. la interpretación de diferentes fenómenos propios de su disciplina de formación y del entorno social. muestra. las medidas de dispersión y las de asimetría y apuntamiento y. variable. modificaciones y actualizaciones cognitivas y nuevas actuaciones o competencias por parte del estudiante. organizados y desarrollados a partir de palabras clave tomados como conceptos que los tipifican.disciplina y que describa. y se reconocen cada uno de los pasos a seguir para una correcta y acertada investigación estadística como son la planeación. mediante análisis cuantitativos. En esta unidad se identifican algunos conceptos estadísticos como población. . dar las pautas en la recolección planeada de los mismos y proporcionar un conjunto de técnicas a partir de las cuales se logra presentar. 1 1 Conjunto de conocimientos seleccionados. el estudiante encontrará las referencias bibliográficas básicas. Al final de cada unidad. etc. busca entregar los conceptos de un modo más didáctico. tanto univariantes como bivariantes. se trabaja la regresión lineal (simple. destinadas a potenciar y hacer efectivo el aprendizaje mediante el desarrollo de operaciones. La primera de ellas. examine y sintetice adecuadamente la información mediante métodos estadísticos sencillos. su organización y su presentación gráfica. esta evaluación será retroalimentada en la información de retorno que encontrará al final de cada unidad didáctica. económico y político. Este texto contiene dos unidades didácticas11. encontrará una serie de páginas web recomendadas que amplían los temas tratados. encontrará ejercicios de aplicación que buscan evaluar el grado de conocimiento adquirido. correlacionadas directamente con el número de créditos académicos asignados al curso académico. resumir e interpretar datos que pueden corresponder a una muestra o a un grupo total. Entre las primeras se contemplan las medidas de tendencia central. En la segunda unidad didáctica se reconocen algunas de las medidas estadísticas más comunes. se incluyen algunos elementos básicos de la matemática: la sumatoria y productoria. INVESTIGACIÓN ESTADÍSTICA Lección 6 Planeación Lección 7 Recolección. GENERALIDADES Y VARIABLES ESTADÍSTICAS Lección 1 Que es la estadística? Lección 2 Conceptos Básicos Lección 3 Variables estadísticas Lección 4 Caracterización de una variable cualitativa Lección 5 Tablas de contingencia CAPITULO 2. MEDIDAS DE TENDENCIA CENTRAL O DE POSICIÓN Lección 11 Estadígrafos. CAPITULO 3.Unidad Didáctica Uno UNIDAD 1. Lección 12 Media Aritmética Lección 13 Mediana. CONCEPTOS PRELIMINARES Y MEDIDAS DE TENDENCIA CENTRAL CONCEPTOS PRELIMINARES Y MEDIDAS DE TENDENCIA CENTRAL CAPITULO 1. Lección 10 Presentación de la información. Lección 14 Moda Lección 15 Otras medidas de tendencia central. Lección 9 Tablas de distribución de frecuencias. Lección 8 Organización de la información. . muestra. muestra. UNIDAD . es por esto que se recomienda al lector iniciar el capítulo repasando la sumatoria como propiedad aritmética fundamental para entender las medidas estadísticas de una población o muestra. Todo cuanto tiene que ver con sumatoria y productoria puede ser repasado y consultado en el anexo A. Pero cualquier investigación estadística requiere seguir unos pasos y procedimientos establecidos para que esta tenga validez. •Establecer los conceptos de población. marca de clase y distribución de frecuencias a un conjunto de datos estadísticos. • Aplicar los conceptos de frecuencia. variable. etc. • Construir diferentes tipos de distribuciones de frecuencias para conjuntos de datos. • Reconocer algunas características que debe tener una gráfica para que represente mejor una situación. OBJETIVOS ESPECÍFICOS •Conocer el significado de la palabra estadística. De igual manera. cualquiera que sean sus actividades siempre hay aplicaciones estadísticas en ellas. su organización y su presentación gráfica y en el capitulo III se mencionaran las medidas de tendencia central y de posición para lo cual se hace indispensable recordar algunas nociones aritméticas y algebraicas básicas en estadística..INTRODUCCIÓN A LA UNIDAD La investigación estadística es necesaria para cualquier individuo en el mundo de hoy. En el capítulo dos se reconocerán cada uno de los pasos a seguir para una correcta y acertada investigación estadística como son la planeación. dato y parámetro. En el capítulo uno se ampliará algunas definiciones de términos básicos de la estadística como población. • Manejar los diferentes métodos de recolección de información para la investigación estadística. se presentan los elementos iniciales básicos y necesarios para la comprensión y aplicación de la estadística en cualquier campo. la recolección de la información. • Advertir la importancia de las distribuciones de frecuencias para la descripción de datos. • Representar gráficamente distribuciones de frecuencias dadas o calculadas. buscando que el estudiante los identifique en ejemplos sencillos de la vida diaria. dato. variable. En esta unidad se desarrollarán en forma introductoria y general algunos conceptos preliminares con el fin de utilizar un mismo lenguaje en cuanto se refiere a esta disciplina. • Diferenciar entre los conceptos de Estadística Descriptiva y Estadística Inferencial. que se encuentra al final del texto. 1. •Identificar las etapas que sugiere una investigación estadística. La Estadística es un método científico de operar con un grupo de datos y de interpretarlos. Es decir. Aunque también puede darse en muchos caso que. se divide en dos ramas: la Estadística Descriptiva o deductiva y la Inferencia Estadística o estadística inductiva. se puede concluir sobre el grupo de datos sobrepasando los límites del conocimiento inicial que estos suministran. por lo que se hace necesario dar a conocer. en qué consiste la Inferencia Estadística.1. la estadística. Es por ello que a la Inferencia Estadística también se le conoce como Estadística Analítica. Este curso se dedica a la Estadística Descriptiva. actividad que la hacia confundir con el papel que cumple la ”historia“ de observar y describir el hecho. La Estadística. Pero. LECCION 1. se verá más adelante el marco en que éste método se desarrolla y las “leyes” que lo rigen. denominado población. en términos generales. ¿Qué es la Estadística? Antes de dar a conocer los conceptos de los términos estadísticos que lleven a entablar el lenguaje común que se utilizará en adelante.1. partiendo de una investigación realizada en un grupo menor. examinando solamente una parte de la población denominada muestra. Esto se reconoce en muchos casos de la vida cotidiana que involucran información numérica y el contexto en que esta información es dada a conocer. ya que permite obtener conclusiones para un grupo mayor. La Inferencia Estadística comprende en un todo articulado el método y las técnicas necesarias para explicar el comportamiento de un grupo de datos en un nivel superior de lo que estos datos pueden dar a conocer por sí mismos.CONCEPTOS PRELIMINARES Y MEDIDAS DE TENDENCIA CENTRAL 1. Si bien esta definición parece un poco ambigua. obedecen a otros fenómenos de disciplinas relacionadas con —pero que no conforman— la Estadística propiamente dicha.1. por ahora. Empíricamente se sabe que la Estadística tiene que ver con datos y la manera en que estos son agrupados. CAPITULO 1. denominado muestra cuyos elementos se seleccionan aleatoriamente o al azar. si bien están relacionados con la estadística. o el método de la estadística. además de ser descriptiva. . considerándose esta ultima como la función mas importante que realiza. es analítica. 1. hoy en día. En su origen las estadísticas era históricas . se deja abierta al cuestionamiento del estudiante la gama de posibilidades que abarca esta definición. es necesario saber qué es la Estadística y en qué consiste la Estadística Descriptiva. GENERALIDADES Y VARIABLES ESTADÍSTICAS En un principio se consideraba que la función de la estadística era la descripción de las características de grupo. De la población es extraída la muestra. originales. Parámetro son aquellos valores que caracterizan numéricamente a la población como tal. Para que los resultados de la muestra puedan generalizarse a la población. cuando están agrupados según una característica determinada. LECCIÓN 2. sólo puede tener un valor de entre cierta cantidad de valores dados. A este tipo de muestra se le denomina muestra aleatoria. El parámetro poblacional de interés es único (media. por lo que cambiando la muestra cambiará . entonces esta variable será continua.. pero una población puede tener muchas características —o parámetros— de interés. cuando se le aplica un tratamiento especial a las unidades muestreadas. es decir. es necesario que la muestra sea seleccionada adecuadamente. de encuesta. Si por el contrario. un estadístico es una magnitud correspondiente a una muestra aleatoria extraída de la población. cuando son recopilados por otra persona o entidad diferente al investigador. Estos pueden ser experimentales. 1. individuos u objetos que comparten una característica en común. tipo de unidades y elementos. Variable es una característica susceptible de tener distintos valores en los elementos de un grupo o conjunto. Los datos son todas aquellas características o valores susceptibles de ser observados. anotados u observados por primera vez. primarios. Si la variable tiene la capacidad de tomar cualquier valor que exista entre dos magnitudes dadas. Es por ello que la Estadística Descriptiva es el punto de partida del análisis de un grupo de datos que involucran una cierta complejidad. ¿qué le corresponde entonces a la Estadística Descriptiva? Esta tiene por fin elevar los aspectos característicos del grupo de datos pero sin intentar obtener más conocimiento del que pueda adquirirse por sí mismos. clasificados. ubicación espacial y ubicación temporal. cuando son tomadas sin ningún tratamiento. etc. entonces será discreta.Si esto es así. La unidad estadística es el elemento de la población que reporta la información y sobre el cuál se realiza un determinado análisis.). o secundarios. de modo que cualquiera de los elementos de la población tengan la misma posibilidad de ser seleccionados. cuando son recogidos. CONCEPTOS BÁSICOS Población es el conjunto de medidas. varianza. clasificados y contados. La población se basa en cuatro características: contenido.2. información que no ha recibido ningún tratamiento estadístico. o bien puede ser el todo de un análisis básico y limitado del grupo de datos. Los resultados obtenidos en la muestra sirven para estimar los resultados que se obtendrían con el estudio completo de la población. Por el contrario. Muestra es un conjunto de elementos extraídos de la población.1. 2. • Después de esto el coordinador selecciona los datos necesarios para el estudio. Es común designar los parámetros con letras minúsculas del alfabeto griego y los estadísticos con letras de nuestro alfabeto. etc. El coordinador zonal de biblioteca es designado para este trabajo y decide hacer la investigación el día 14 de mayo de 2005. SENA desea establecer cuántos Aprendices hacen uso de la biblioteca en el Centro de gestión Industrial. • Cada uno de los estudiantes seleccionados para la observación representa la unidad estadística de estudio de la población. En la Unidad Didáctica Dos. 1. • Como el coordinador zonal de biblioteca no puede revisar todo el día quienes acceden a la biblioteca. El muestreo aleatorio puede ser: 1.). se ampliará más estos dos conceptos.1.3 Muestra Aleatoria sistemática .1 Aleatoriedad Y Representatividad de la muestra La muestra asociada a un estudio debe ser representativa y aleatoria. • Identificada la población y la muestra. pues debe estar formada por un número razonable de elementos y aleatoria porque debe ser escogida al azar. varianza muestral. razón por la cual visita la biblioteca. Cada elemento de la población debe tener la misma oportunidad de ser seleccionado. decide entonces establecer períodos de tiempo para realizar el conteo. se ubica la unidad estadística.2. en este caso específico sólo requerirá del número de aprendices que acceden a la biblioteca. como se puede ver. identifica la ubicación espacial.entonces el estadístico (media muestral. • En esta investigación se considera que el total de cada aprendiz que hacen uso de la biblioteca es la población en estudio. el coordinador zonal puede además. • Y la variable será el número de aprendices seleccionados de la muestra. etc. selecciona una muestra.1. En otras palabras. • CGI. Representativa. edad. una variable discreta. EJEMPLO 2. En pocas palabras se puede decir que parámetro es a población como estadístico es a muestra.1.2. tiene igual probabilidad de ser seleccionada. • El día 14 de mayo de 2005 indica la ubicación temporal. Sin embargo. tomar otro tipo de datos como sexo. de tal manera que quien realiza el estudio no pueda influir en la elección de los individuos por encuestar. libros más consultados. del mismo tamaño. 1.2 Muestra aleatoria simple Si cada posible muestra de la población. en este caso el objeto de medición es cada uno de los aprendices seleccionados de la muestra.1. se toman todos los elementos. La muestra estará formada por los pacientes seleccionados en los seis hospitales y que además tienen la enfermedad.6. El comité científico de una reconocida multinacional de medicamentos desea promover un producto que ha sido efectivo en el tratamiento de la malaria en varios países. basados en muestras estratificadas usualmente. La manera en que se realiza la selección depende del número de elementos en la población y el tamaño de la muestra.4 Muestra Aleatoria Estratificada Cuando la selección tiene en cuenta los diferentes grupos o estratos que conforman la población. 1. • Las zonas de mayor registro de contagio en Colombia son la costa pacífica. de los grupos seleccionados para conformar la muestra. hora. En este caso. EJEMPLO 2. Dado que la población está dividida en tres grandes zonas. o parte de ellos al azar o por un método sistemático. muestra y tipo de muestreo a utilizar • La población está formada por todas las personas que habitan en Colombia y que han contraído la malaria.1.2. 1.2.1. tienen mayor precisión (o menor error muestral) que cuando se seleccionan por muestreo aleatorio simple. Determinar: población. Para esto dicho comité decide realizar una campaña en seis hospitales que están ubicados en tres de las zonas colombianas donde se ha detectado la enfermedad. la población se encuentra organizada por algún código ya sea por fecha. orden de llegada o algún otro aspecto.5 Muestra Aleatoria de conglomerados Si para su selección se tiene en cuenta el siguiente procedimiento: En primer lugar. produce un mayor error muestral que una muestra aleatoria simple del mismo tamaño.2. 1.1. Los estudios de la población. por último. Los elementos de la muestra se seleccionan de cada grupo en forma aleatoria o por un método sistemático. se selecciona una parte de los grupos al azar o por un método sistemático. la costa atlántica y la Amazonía. Luego. es posible seleccionar dos hospitales por zona y luego en forma . se divide la población en grupos que sea conveniente para el muestreo. Una muestra de conglomerados usualmente.2. entonces se dice que la muestra puede tomarse de forma aleatoria simple y todos los individuos de la población tienen la misma probabilidad de ser seleccionados en la muestra. Si la población no tiene ninguna organización interna.Cuando los elementos son seleccionados de una manera ordenada. se puede seleccionar la muestra. decide encuestar a 400 de los usuarios que normalmente acuden al hospital en un mes.3. LECCIÓN 3. gaseosa preferida. preferencias u opiniones.aleatoria. en las cuales el individuo que suministra la información pueda elegir una de ellas.. sólo puede tener una valor de entre cierta cantidad de valores dados. EJEMPLO 2. por ejemplo: tipo de sangre. • En este caso.1. Por ello. .3. etc. Las variables estadísticas se clasifican en cualitativas y cuantitativas 1. 1.1. la muestra será tomada de forma estratificada. 1. Por ello.3. La muestra estará formada por los 400 usuarios encuestados. • Si por el contrario. entonces esta variable será continua. • Si la variable tiene la capacidad de tomar cualquier valor que exista entre dos magnitudes dadas. VARIABLES ESTADÍSTICAS Una variable es una característica que va a sr estudiada en una población. si se puede escribir como una pregunta cuyas respuestas pueden ser tabuladas o clasificadas en determinados rangos.2 VARIABLES CUANTITATIVAS Una variable es cuantitativa si la característica que se va a estudiar se pude medir en una escala numérica. la muestra será tomada de forma aleatoria simple.3. lo cual indica que no se requiere de una estratificación. la característica fundamental del estudio (el tipo de sangre) hace que no haya una distinción especial en la población.1.1 VARIABLES CUALITATIVAS Una variable es cualitativa si en la característica que se va a estudiar se busca conocer gustos. Determinar: población. muestra y tipo de muestreo a utilizar • La población incluye a todos los usuarios que normalmente acuden al hospital en un periodo de un mes. Cuando una variable es cualitativa es necesario determinar las posibles respuestas. Una variable es estadística. Para mejorar el servicio a los usuarios. el director de un hospital realizará un estudio relacionado con el tipo de sangre que ellos tienen Dada la gran cantidad de pacientes a los cuales se les presta el servicio. color de cabello. entonces será discreta. o si pertenecen a una pregunta cuya respuesta tiene un valor correspondiente a una escala numérica. Una variable cualitativa es estadística cuando es posible clasificar los datos obtenidos de la muestra en clases bien definidas. es posible considerar las mediciones en centímetros o en metros. Es cuantitativa y discreta 4. Los datos asociados a un estudio deben estar en las mismas unidades.3 ESCALA DE MEDIDA DE VARIABLES Una escala es la relación numérica entre la longitud real y la longitud que se asigna en el plano en el cual se va a representar su gráfica. la variable estatura es cuantitativa y continua ya que los datos que resultan son números reales. 3. En este caso.1. La variable es consumo de gas. CARACTERIZACIÓN DE UNA VARIABLE CUALITATIVA . 4. en centímetros cúbicos. 1. identificar la variable de estudio. En un barrio de la ciudad se aplicó una encuesta para conocer el consumo. El profesor de educación física puede usar un escala de 1: 10 en la cual cada 10 centímetros de altura están representados en 1 cm del gráfico. En cada una de las siguientes situaciones. de tal manera que sea posible asignarles una escala a todos. LECCIÓN 4. El alcalde de la ciudad quiere revisar la situación de violencia intrafamiliar en las familias de estrato 3. 1. La variable es variedad de café. Es cualitativa 3. EJEMPLO 3. 2.1.2. La variable es situación de violencia. Solución 1.1. En un café gourmet. Es cualitativa. Es cuantitativa y continua 2. se decidió preguntar por el tipo de variedad que más consumen sus clientes.1. del servicio de gas natural. Las variables cuantitativas pueden ser consideradas en diferentes escalas teniendo en cuenta las unidades asociadas a la población que se encuentra en estudio.4. Determinar si es cualitativa o cuantitativa. La variable es número de hermanos. 4.3. El número de hermanos de cada jugador del equipo de fútbol. Suponiendo que los estudiantes de primaria tienen alturas entre 100 cm y 140 cm se hace la representación gráfica de la escala 1:10 EJEMPLO 3. 5. La notación de una escala es de la forma 1: n. Los profesores de Educación Física de un colegio medirán la estatura de los niños de secundaria en cada uno de los grados. lo cual indica que n unidades de medida están representadas en el gráfico e una sola. EJEMPLO 4. cada opción de respuesta de la variable se relaciona con el número de datos correspondiente. Frecuencia: es el número de datos que pertenece a cada clase. Para ello. preferencias.4.1. Para caracterizar una variable cualitativa se utilizan tres herramientas: •Tablas de frecuencias •Representaciones gráficas •La moda 1. de tal manera que al obtener una lista de preferencias. gustos. según algunos parámetros establecidos. Una agencia de noticias quiere saber cuál es el medio de comunicación por el cuál se informan las personas. Se obtuvo la siguiente lista de datos.Caracterizar una variable significa describir su comportamiento en la población. . Una tabla de frecuencias contiene: Clases: que corresponde a opiniones.1 TABLAS DE FRECUENCIAS: Una distribución o tablas de frecuencias es un resumen de los datos en el cual. realizó un estudio a cuarenta personas a quienes se les preguntó por su medio de información de noticias preferido. La frecuencia se simboliza con f. sobe las noticias del país.1. El conteo de la frecuencia de cada clase se puede registrar mediante marcas en grupos. El estudio de una variable cualitativa requiere de la incorporación de algunos criterios. cualidades o gustos. cualidades o características. se pueda analizar su comportamiento en la población. El tipo de variable que se registra en este estudio es cualitativa. De acuerdo con el tipo de variable estadística que se desee estudiar existen distintas técnicas para caracterizarla. puesto que pregunta por el medio de información. Frecuencia Relativa: es el cociente entre la frecuencia y el número total de datos, se simboliza fr . La frecuencia relativa representa un porcentaje, que se haya multiplicando por 100 al cociente indicado de la frecuencia relativa. La siguiente tabla de frecuencias corresponde a los datos de la variable medio de comunicación del ejemplo 4.1 Medio de información Televisión Radio Internet Prensa f 15 13 4 8 fr 15/40 13/40 4/40 8/40 % 37.5 32.5 10.0 20.0 Es necesario interpretar la información contenida en las tablas de frecuencia, para deducir cuales son las principales características de la variable en estudio. Por ejemplo, en la tabla anterior se puede apreciar que: • La mayoría de personas el 37.5% se informan de las noticias por medio de la televisión y la menor cantidad un 10,8% se informa haciendo uso de la internet. • Hay un 52,5% de personas que se informan de las noticias haciendo uso de la radio o de la prensa. 1.1.4.2 REPRESENTACIONES GRAFICAS: Un gráfico estadístico es un resumen visual de la tabla de frecuencias. Hay varios tipos de representaciones gráficas para las variables cualitativas: los diagramas de barras, los diagramas circulares, entre otros. 1.1.4.2.1 Diagramas de barras: un diagrama de barras es una representación gráfica de los datos asociados a una variable cualitativa. La gráfica se realiza en sistema de coordenadas cartesianas, en el eje horizontal se representan las clases correspondientes a la variable y en eje vertical se representan las frecuencias correspondientes a cada clase. El diagrama de barras (figura 1.1) correspondiente a la variable medios de comunicación de nuestro ejemplo es el siguiente: FIGURA 1.1 1.1.4.2.2 Diagrama Circular: un diagrama circular es la representación gráfica de los datos en un círculo. El diagrama circular presenta los porcentajes correspondientes a cada clase. En un diagrama circular, la información correspondiente a cada clase se representa usando sectores circulares, por lo cual es necesario hallar el ángulo correspondiente a cada frecuencia, (ver figura 1.2) FIGURA 1.2 1.1.4.3 MODA La moda es el dato que tiene mayor frecuencia, es decir, el dato que más se repite. Para el ejemplo 4.1, la moda corresponde a informarse de las noticias por medio de la televisión; es decir, si se encuesta a una persona al azar la probabilidad que se informe por las noticas es alta, ya que corresponde al 37.5% del total. Hay estudios en los cuales no existe la moda, ya que todas las clases tiene una misma frecuencia, y hay casos en los cuales existen varias modas, pues varias clases pueden tener la misma frecuencia. 1.1.5. LECCIÓN 5. TABLAS DE CONTINGENCIA: En una tabla de contingencia o tabla cruzada las filas corresponden a las clases de una variable cualitativa y las columnas corresponden a las clases de la otra variable cualitativa. La tabla de contingencia, también es una tabla de frecuencias, ya que la información contenida en cada una de las casillas corresponde a la cantidad de personas o individuos que poseen ambas características. En general, la tabla de contingencia ofrece una completa distribución de la información, ya que tiene en cuenta las diferentes clases que se pueden establecer para cada una de las variables en estudio. EJEMPLO 5.1. Con el fin de determinar que materias opcionales, en deportes, se podrían proponer a los Aprendices del SENA, se hizo necesario hacer un estudio acerca de la actividad física que ellos realizan en su tiempo libre, para ello, hizo una encuesta entre 156 estudiantes de varias carreras y se les preguntó acerca de su deporte preferido para practicar en tiempo libre. Los resultados se muestran en la siguiente tabla de contingencia. (Ver tabla 1.1) TABLA 1.1 TABLAS DE CONTINGENCIA DEPORTE PREFERIDO fútbol Baloncesto Voleibo Atletism G Otros Total Hombre Mujer Total 35 3 38 14 38 52 l 6 19 29 o 6 13 19 7 11 18 72 84 156 En la tabla de contingencia se observa: Hay dos variables cualitativas que son género y deporte favorito •Para la variable género hay dos clases hombre y mujer • En la variable deporte preferido hay 5 clases: futbol, baloncesto, voleibol, atletismo y otros. • Correspondiente, al cruce de las clases de las dos variables en estudio. Por ejemplo el número 38 corresponde al número de mujeres que prefieren el baloncesto. • Las sumas de filas corresponde a la cantidad de hombres y a la cantidad de mujeres que participaron en la encuesta, sin discriminar el deporte preferido. Se puede decir que participaron 72 hombres y 82 mujeres en el estudio. • Las sumas de columnas corresponde a la cantidad de personas que prefieren cada uno de los deportes sin distinguir el género. Por ejemplo: hay 38 personas que prefieren futbol, 52 personas prefieren baloncesto, 29 personas prefieren el voleibol, 19 el atletismo y 18 personas prefieren otros deportes. • El número total de personas que participaron en el estudio debe ser igual tanto en la suma correspondiente a la variable género (vertical), como en la suma correspondiente a la variable deporte preferido (horizontal). En ambos casos, la suma es 156 personas. • A partir de la información de la tabla anterior se puede construir la tabla de contingencia de frecuencias relativas , en este caso se debe escribir un cociente entre la información contenida en cada celda y el número total de personas que participaron en la encuesta. TABLA 1.2 TABLA DE CONTINGENCIA DE FRECUENCIA RELATIVAS DEPORTE PREFERIDO fútbol Baloncesto Voleibo Atletism Otros Total l o Hombre 35/156 14/156 10/156 6/156 7/156 72/156 Mujer 3/156 38/156 19/156 13/156 11/156 84/156 Total 38/156 52/156 29/156 19/156 18/156 156/156 G Ya que cada uno de los cocientes mostrados tiene su equivalencia en porcentaje, se puede construir la tabla de contingencias de porcentajes como se muestra en la tabla 1.3 TABLA 1.3 es una operación compleja.INVESTIGACIÓN ESTADÍSTICA La investigación estadística. los procedimientos a seguir y resolver los aspectos logísticos.85% de los hombres se inclinan por el atletismo y el 1.92% 38/156 12. o inclusive para un país. la investigación debe seguir una orientación en su planteamiento y resolución. físicos y humanos siguiendo un presupuesto de costos establecido. los censos agrícolas o industriales que tengan importancia estratégica para una región. que requiere atender múltiples aspectos.18% 11.36% de la personas que fueron encuestadas fueron mujeres que prefieren practicar el baloncesto • El 3. es el baloncesto con un 33.05% 24.33% 18.97% 6. 1. Pero. Definición del objeto de investigación . procedimientos y acciones que conlleven a la resolución satisfactoria para la cual se estableció la investigación. • El 24. el fin que persigue. el cual es el porcentaje mas bajo de la muestra.33%.15% 53. A continuación se presentan algunos aspectos básicos que se deben seguir para desarrollar un trabajo así. 1.41% 3.G Hombre Mujer Total TABLA DE CONTINGENCIA DE PORCENTAJES DEPORTE PREFERIDO fútbol Baloncesto Voleibol Atletismo Otros 22. de la naturaleza de los fenómenos que se desean estudiar y de la facilidad que se tenga para observar los elementos.18% 8. PLANEACIÓN La planeación de una investigación estadística debe abarcar el conjunto de lineamientos.85% 100.36% 33. La investigación estadística puede ser tan sencilla y poco compleja como la recopilación ordenada y coherente de datos que se encuentren en instituciones estatales o privadas que las suministren.00% Un buen análisis incluye la descripción de los porcentajes más altos.1. por sencilla que sea.2. LECCION 6. CAPITULO 2 .85% 4. la fuente o fuentes de información. y que genera muy variadas funciones. Es por ello que el plan de investigación debe fijar concretamente su objeto.44% 8.1.2. o bien pueden ser tan elaboradas y complejas como lo son los censos poblacionales. El resultado depende en gran parte de la finalidad que se persiga. sea como fuere.54% Total 46.33% 7.2. 1. los más bajos y aquellos que tiene mayor representación. • El deporte que mas practican independientemente del género.59% 12.49% 1.1.92% de las mujeres prefieren el futbol. . adecuada. La unidad o elemento de investigación debe ser clara.2. 1. Cuando no sea posible. el cómo y establecer el momento correcto para hacerse. referidos a lo que la gente piensa respecto a algo. Este tipo de fuentes son las mejores. Una fuente de información estadística directa es aquella en donde el hecho se produce. Se trata entonces de definir las fuentes de información. 1.Debe responder el qué. pero no siempre son posibles. 1. De igual manera.2. Cuando son secundarios ellos provienen de una fuente interna.2. debe también tenerse en cuenta el tipo de investigación que se va a realizar. motivos. En muchos casos este tipo de fuentes son complementarias de las primeras. o bien. provocada por el investigador en condiciones controladas. es por ello que no puede haber ambigüedad en sus planteamientos y alcances. o bien pueden provenir de una fuente externa. en la que se busca conocer por qué causa se produce un caso particular. Debe determinarse la naturaleza cuantitativa o cualitativa de esta unidad. que consiste en obtener información con respecto a grupos.1. Es este punto el núcleo de la investigación. que permite establecer comparaciones y verificar hipótesis. cuando los datos son recopilados por la misma entidad en los registros básicos de la misma organización. Unidad de investigación Se trata del elemento de la población que origina la información. cuando los datos se recopilan por otra entidad diferente a la que hace la investigación. es decir. se emplea una fuente de información estadística indirecta. se debe preguntar el dónde conseguir la información requerida. Ésta puede ser descriptiva.1.4 Las fuentes de información Después de determinar el qué y el por qué de la investigación estadística. razones que explican por qué se actúa de una manera u otra. información cotidiana y fácil de identificar. opiniones. mesurable y comparable.1. explicada o analítica. Cuando los datos son primarios.3 Clase de investigación En la planeación. Estas pueden ser directas o indirectas. experimental o controlada. debe también restringir el espacio físico o geográfico donde se llevará a cabo.2. aquella donde el hecho se refleja. es necesario delimitar esta unidad en el tiempo y en el espacio. ellos pueden provenir de muchas fuentes como: hechos. y a veces en el número. También ha de considerarse la posibilidad o viabilidad de la investigación y si estos aspectos pueden ser conocidos con precisión. definir qué aspectos de la unidad de investigación son cuantitativos (registrados por medio de números) o cualitativos (recogidos mediante anotaciones literarias). 3. LECCION 7 RECOLECCIÓN Después de planeada la investigación. Si se hace de manera que la fuente de información se da cuenta de la medición que efectúa.2. Si. Esta consiste en un conjunto de operaciones de toma de datos que puede ser por observación. Para esto se debe depurar y clasificar la información aplicando técnicas adecuadas. por conveniencia o por cuotas. entrega personal de cuestionario. entrevista. en cambio. se hace una enumeración parcial de las fuentes de información.2. 1. el muestreo es el método más utilizado. es decir contar con todos los elementos de las fuentes de información. motivación. por encuesta o tomada de publicaciones y/o fuentes confiables que han efectuado investigaciones estadísticas. mayor rapidez y menor número de personas que intervienen en la investigación. Para esto se selecciona el método de recolección de la información acorde a las necesidades de la investigación. El otro método de recolección de información es por observación. Este método se basa en el registro de los eventos que ocurren. Éstas se pueden realizar por correo. se usa el censo.2. que se clasifican según su cobertura y según su forma de observación. El muestreo puede ser de dos tipos: muestreo probabilístico o al azar.2. LECCION 8 ORGANIZACIÓN DE LA INFORMACIÓN Luego de tomar la información necesaria en la investigación que se sigue. de manera que las muestras no son seleccionadas aleatoriamente y los resultados no ofrecen confiabilidad alguna. cuando el investigador selecciona los datos a su propio criterio. Este método puede ser también indirecto cuando la recolección consiste en corroborar los datos que otros han observado. teléfono. cuando cada uno de los elementos tiene la misma probabilidad de ser escogido obteniendo así una muestra aleatoria. se usa el muestreo. 1. simplemente se observa la acción del estudiante al entrar a la biblioteca: si hace o no la consulta que se investiga. 1.2.2. . de manera caprichosa. en donde la medición se realiza sin que la fuente de información se dé cuenta del hecho. se obtiene una gran cantidad de datos que requieren ser interpretados y sobre los cuales se busca concluir algo específico. y muestreo no probabilístico.4 Según la forma de observación En este método se tiene en cuenta la forma de medición del dato. comienza la recolección de los datos. Si lo que se desea es atender a una cobertura total.1.2. Por su menor costo. etc.3 Según la cobertura Se trata de decidir si se va a estudiar a la población en su totalidad o sólo una parte de ella. por ejemplo cuando se examina el número de estudiantes que entran a la biblioteca con el fin de hacer una consulta referida a las Ciencias Sociales. se dice que se toman los datos por encuesta. A continuación estos datos son presentados como una combinación ordenada en forma ascendente (de menor a mayor): 58 60 62 64 68 70 74 75 76 76 80 82 82 82 84 85 85 85 87 88 88 91 91 92 92 94 95 95 95 110 A partir de esta lista ordenada se pueden concluir varias cosas: •La más alta evaluación de latidos es 110 •La más baja evaluación de latidos es 58 •La mitad de la combinación se encuentra entre 82 y 85 •Hay una predominancia en los latidos con una evaluación entre 80 y 95 • Hay un “vacío” entre el valor 95 y el valor 110. permite un rápido análisis e interpretación de estos. otro de los métodos usados es el uso de tablas y más específicamente la tabla de frecuencias.La organización y el resumen de la información son dos procesos distintos que se desarrollan por separado. el resumen implica la condensación de varias mediciones en una forma compacta.1. La información estadística puede organizarse de diversas maneras: ordenando el conjunto de datos como una combinación ordenada o en un arreglo denominado tallo y hojas. De ahí que se tome primero la forma de organizar la información tomada en una investigación estadística.2. . En cambio.4. EJEMPLO 8. 1. La organización hace referencia al arreglo de los datos en un formato lógico para su interpretación. A continuación se hace un acercamiento a las diferentes formas de organizar los datos estadísticos tomados en el proceso de recolección de una investigación estadística. Los siguientes datos representan la evaluación de los latidos cardíacos de un grupo de 30 personas después de cierta actividad física. ya sea gráfica o numéricamente. es decir hay una cierta continuidad en los valores entre 58 y 95. 82 82 91 87 110 95 95 82 80 60 92 70 94 68 75 62 85 76 58 88 85 84 88 76 64 92 95 91 85 74 Es muy poca la información que arroja este conjunto de datos cuando se encuentran sin un tratamiento.1 Combinación o arreglo ordenado El sólo hecho de tener ordenado un conjunto de datos en forma ascendente o descendente. pero 110 se encuentra más alejado del grupo de datos. Figura 2. En la columna de las hojas. denominada tallo. Para una mejor ilustración. irán las correspondientes decenas.1. y se resalta cómo el valor de 110 se encuentra aislado del resto de conjunto de datos.2 Arreglo de tallo y hojas El arreglo de tallo y hojas es una técnica que resume de manera simultánea los datos en forma numérica y presenta una ilustración gráfica de la distribución. • La mayoría de los registros de latidos cardiacos del grupo de 30 personas se encuentra entre los ochentas. unidades o décimas. permite una visualización del comportamiento de estos. La primera. se puede observar que éstos tienen un rango desde los cincuentas hasta los ciento diez. el que registra el valor 110.. Se trata de organizar los datos numéricos en dos columnas divididas por una línea vertical. Con este se pueden confirmar muchas de las afirmaciones que se hacían en el ejemplo 8. Ellos se pueden presentar como un arreglo de tallo y hojas en una columna de números del 5 al 11 y trazando una línea vertical a su derecha. Es posible que esta persona tenga perturbaciones cardíacas. •La forma general del conjunto de mediciones es asimétrico.2. Diagrama de tallo y hojas para los datos de pulsaciones del ejemplo 8.2.4. EJEMPLO 8.1. Tomando la serie de datos del ejemplo 8.• Hay una evaluación atípica dentro del grupo de 30 personas.1. corresponderá a las decenas. Estos números representarán el tallo.1. Sin embargo. • Se ve más claramente el “vacío” que existe entre los valores 95 y 110. en el siguiente ejemplo se continuará con los datos del ejemplo 8. 1. se enlistan las unidades (de manera ordenada) de cada uno de los datos registrados y correspondientes con su respectiva decena. es necesario ampliar la información antes de lanzar un juicio apresurado. Para construir el correspondiente arreglo de tallo y hojas. llamada hojas.1. centenas o unidades que representan el grupo de datos y en la segunda. . Tallo 5 6 7 8 9 10 11 Hojas 8 0 2 4 0 4 5 0 2 2 1 1 2 0 8 6 6 2 4 5 5 5 7 8 8 2 4 5 5 5 Observe que el diagrama de tallo y hojas al mismo tiempo que ordena los datos de forma ascendente. 4. La primera posición del tallo dispone las hojas 0.1.1. Tallo 5 5 6 6 7 7 8 8 9 9 10 10 11 Hojas 8 0 8 0 5 0 5 1 5 0 2 4 4 6 2 5 1 5 6 2 2 4 5 7 8 8 2 2 4 5 Observe ahora que esta subdivisión más fina entrega más detalles del conjunto de datos.4. ¿Qué puede concluir usted? 1. 1. En ellos se plasman las series estadísticas.2. Una serie cronológica es aquella donde se analiza un fenómeno a través del tiempo en un espacio determinado. y la segunda posición dispone las hojas 5. el número de egresados del SENA en el período 1994-2004 (ver tabla 2. Figura 2. Diagrama de doble tallo y hojas para los datos de pulsaciones del ejemplo 8.3 Tabulación de la información Una de las mejores técnicas usadas en la estadística es la elaboración de tablas o cuadros.1. 8. Por ejemplo. una sucesión de datos referentes a un fenómeno observado a través del tiempo y del espacio. se usa un diagrama de doble tallo. 9.Si se quisiera clasificar más ampliamente los datos.2. 7. en grupos de cinco hojas. Que consiste en dividir en dos cada posición del tallo. 6. 3.) Tabla 2. 2. Número de egresados del SENA en el período 1994-2004 Año Número de egresados 1994 338 1995 424 1996 556 1997 971 1998 1358 2119 1999 2000 3328 . 2. Por ejemplo.3. independiente del tiempo y del espacio.4. Por ejemplo. Tabla 2. los empleados de una empresa clasificados por cargo. independiente del tiempo y del espacio. Tabla 2. la estatura en centímetros de un grupo de estudiantes de quinto grado. el total de estudiantes del SENA en la Zona Occidente en el primer semestre de 2005. Clasificación de Aprendices SENA en la durante el primer semestre de 2005 SENA Número de estudiantes Medellín 1507 Pereira 1850 La Dorada 350 Turbo 371 Total 4078 Una serie cualitativa es aquella donde se estudia un atributo o característica de la población investigada. Tabla 2. Clasificación de la estatura de los estudiantes de un grupo de quinto grado .2001 2002 2003 2004 Total 4357 3400 3697 4774 25322 Una serie espacial es aquella donde se estudia un fenómeno a través del espacio en un tiempo determinado. Clasificación de empleados por cargo Cargo Cantidad Administrador 1 Jefe de producción 1 Contador 1 Secretaria 2 Supervisor 5 Operario 45 Vigilante 3 Total 58 Una serie cuantitativa es aquella donde se expresa numéricamente un atributo o característica de la población en estudio. Por ejemplo. .4. es necesario manejar algunos conceptos con suficiente claridad.1. Para comprender la técnica de la distribución de frecuencias y dominar sus aplicaciones. Tabla 2. poco puede ayudar en la toma de decisiones.1.2.5. Y para ello se parte del concepto básico en la distribución de frecuencias: el número de veces que un dato se repite de un conjunto de datos se le denomina frecuencia.2. Un conjunto de datos puede organizarse de diferentes maneras.5 LECCIÓN 9 TABLAS DE DISTRIBUCION DE FRECUENCIAS 1. Es este el tipo de distribución de frecuencias más utilizado en estadística. en muchos casos. organice los datos en una distribución de frecuencias simple.1 Distribuciones de frecuencias Una tabla de frecuencias es otro de los formatos que se usan para organizar y resumir los datos. pues permite conocer el comportamiento de un conjunto determinado de datos y no se ocupa de detalles individuales que. Continuando con la serie de datos del ejemplo 8. que indica las frecuencias con que aparecen los datos. EJEMPLO 9. Distribución de frecuencias simple de latidos cardiacos de 30 personas Velocidad Frecue Velocidad de Frecu Velocidad de Frecuen de ncia pulsaciones encia pulsaciones cia pulsaciones 58 1 76 2 94 1 59 0 77 0 95 3 60 1 78 0 96 0 61 0 79 0 97 0 62 1 80 1 98 0 63 0 81 0 99 0 64 1 82 3 100 0 65 0 83 0 101 0 . Una de ellas es construir una distribución de frecuencias simple.Estatura (en centímetros) 125 — 129 129 — 133 133 — 137 137 — 141 141 — 145 145 — 149 149 — 153 Total Número de estudiantes 1 4 9 24 28 22 12 100 1. tamaño o amplitud del intervalo de clase.322 log n Donde n es el tamaño de la muestra. y que permite sugerir el número de intervalos de clase . Si de este cálculo resulta un número decimal. llamados límites de clase (límite inferior y límite superior). • Seleccionar el número de intervalos de clase (k). ¿Qué propiedades posee cada intervalo? Las siguientes pautas resuelven estas inquietudes.66 67 68 69 70 71 72 73 74 75 0 0 1 0 1 0 0 0 1 1 84 85 86 87 88 89 90 91 92 93 1 3 0 1 2 0 0 2 2 0 102 103 104 105 106 107 108 109 110 TOTAL 0 0 0 0 0 0 0 0 1 30 Observe que esta manera de agrupar se vuelve engorrosa cuando se tienen muchísimos datos. que indica las frecuencias con que aparecen los datos agrupados en lo que se denomina intervalos de clase. Cada intervalo de clase está limitado por dos valores. Este número depende de la cantidad de datos disponibles. ¿Cuál debe ser el tamaño de cada intervalo?. Y se interpreta como el valor que corresponde asignar a cada uno de los elementos del intervalo de clase. A. La diferencia entre estos límites en cada intervalo de clase se denomina ancho. Esta regla afirma que el número de intervalos de clase (k). El rango o recorrido es la diferencia entre los valores extremos de todo el conjunto de datos. Clase es. El valor correspondiente al punto medio de un intervalo de clase es la marca de clase y su valor es igual a la mitad de la suma de los límites de clase del intervalo de clase. Otra forma de organizar un conjunto de datos es construir una distribución de frecuencias agrupadas. viene dado por: k = 1+ 3. Esta fórmula ha sido usada para obtener los números de intervalos de clase que aparecen en la tabla 2. entonces. Una de las técnicas usadas es la Regla de Sturges (desarrollada por H. en él se encuentran distribuidos todos los datos. En la construcción de la distribución de frecuencias se deben responder a estos interrogantes fundamentales: ¿Cuántos intervalos de clase crear?. Sturges en 1926).6. un grupo que presenta una característica común cuantificable del conjunto de datos. • Hallar el rango (R) o recorrido del conjunto de datos. éste de redondearse al entero superior. Los intervalos de clase tienen por lo general el mismo ancho. Si este cociente no es un entero. • Hallar el ancho o amplitud del intervalo de clase (A). Exceso = R − R* Este valor debe distribuirse lo más equitativo posible. Dado que los intervalos de clase son mutuamente excluyentes. iniciando por el límite inferior del rango. puede determinarse bien por la Regla de Sturges o bien por la tabla 2. conviene redondear al entero superior. Contando el número de observaciones que cae dentro de cada intervalo de clase. se determinan los límites reales de clase. de modo que al fijarse el número de clases se obtiene éste por una operación aritmética simple: A =R/k Donde R es el rango o recorrido y k es el número de clases. Número de intervalos de clases sugerido en función del tamaño de la muestra . Este exceso es calculado restando el rango del nuevo rango. esto no quiere decir que sea repartido en partes iguales a los datos extremos. es decir.6. Se agrega A −1 al límite inferior de cada clase. es considerado el límite superior de la clase como valor de esta. De manera que el rango es alterado y requiere. •Construir la tabla de distribución de frecuencias agrupadas. En muchos casos se permite que se repita el límite superior de una clase y el límite inferior de la clase siguiente. De esta manera. no permiten ambigüedad en los límites cuando estos se repiten como inferior de un intervalo y como superior en el siguiente intervalo. haciendo la salvedad de cuál clase será tomada por dicho límite. se trata de distribuir el exceso entre el límite inferior y el límite superior de modo que sea considerado la tendencia general de los datos. En general. por tanto. se tendrá entonces un exceso que deberá distribuirse entre el límite superior y el límite inferior. • Determinar la frecuencia de clase. • Formar los intervalos de clase. efectuar un ajuste: R* = (A)(k) • Con este nuevo rango. Estos corresponden al punto medio entre el límite superior de una clase y el límite inferior de la clase siguiente. • Fijar los límites reales de cada intervalo de clase. Tabla 2.que debe usarse de acuerdo al tamaño de la muestra. el cálculo del número de intervalos de acuerdo al tamaño de la muestra.6. En este caso. .67 9 • Como se ha redondeado. = 110+ 1=111 Si en el cálculo del exceso. Queda a criterio del investigador la decisión.. • Amplitud de los intervalos de clase. este hubiera sido un número impar. esta indica que deben usarse 5 clases. se seguirán los pasos propuestos: • Rango = 110 – 58 = 52 • Número de clases.Tamaño muestral Menos de 16 16 – 31 32 – 63 64 – 127 128 – 255 256 – 511 512 – 1023 1024 – 2047 2048 – 4095 4096 – 8190 Número de intervalos de clase Datos insuficientes 5 6 7 8 9 10 11 12 13 EJEMPLO 9. [54 – 52 = 2]. Elabore una tabla de distribución de frecuencias agrupada. la distribución entre los límites se calcularía considerando hacia dónde se agrupan más los datos.322 log 30 = 5.91 ≈ 6 Si se usa la tabla 2. = 58−1=57 Máx.1.6. Para los datos del ejemplo 8. A = 52/6= ≈8. los datos tienen una mayor tendencia hacia el límite inferior de modo que el exceso mayor se repartiría en él. Este exceso debe distribuirse quitando 1 al límite inferior y agregando 1 al límite superior: X mín. Aplicando la Regla de Sturges: k = 1+ 3. En este caso se trabajará con el resultado que arroja la Regla de Sturges. Para esto. debe hallarse el nuevo rango: R* = (9)(6) = 54 • Existe pues un exceso de 2.2. 2. Se agrega A −1 = 9 −1 = 8 al límite inferior de cada clase.5? Cuando se habla de la frecuencia de una clase. 56. 74.5? La tabla 2.8 de distribución de frecuencias . pulsaciones menores de 92.5 – 83. f es la frecuencia absoluta de clase y n es el tamaño de la muestra. Así: 57 + 8 = 65 66 + 8 = 74 75 + 8 = 83 84 + 8 = 92 93 + 8 =101 102+8 =110 • Límites reales.7 indica que son 7 personas pero ¿Qué porcentaje es ese? Y.5 1 Total 30 Al obtener la tabla de distribución agrupada como en el ejemplo 9.5 • Frecuencias de clase en cada intervalo. pero si ésta se da en términos del total de frecuencias se tiene entonces la frecuencia relativa. Distribución de frecuencias agrupadas de la velocidad de pulsaciones Intervalos de clase Frecuencia (Velocidad de pulsaciones) (Número de personas) 56. por ejemplo.5. En la tabla 2.…. f r = f/n ×100 Donde fr es la frecuencia relativa de clase.5.5 3 74. más aún ¿Qué porcentaje de la muestra presentan.7.5 – 65.5 – 110.5 y 83. 110. son muchos los interrogantes que continúan sin responderse como: ¿Qué porcentaje del grupo de personas evaluadas presentan pulsaciones entre 74. Así: 56 + 57/ 2 = 56.5 65 + 66/2 = 65.5 – 74.5 – 101.5 7 83. Que se obtiene de calcular la suma de cada límite y dividirlo entre dos.5.5 11 92. iniciando por el límite inferior del rango.5.5 – 92.5 74 + 75/2 = 74. 65.5 4 65.• Intervalos de clase. Esta se obtiene en porcentaje al dividir la frecuencia de clase entre el número total de frecuencias (o tamaño de la muestra).5 4 101.. se refiere a la frecuencia absoluta. Tabla 2. 3% registran valores altos.5 11 36.5 3 10% 7 23. • De las 30 personas.1.4% del total.8. En la tabla 2.7% 101.5 y 110. 25 de ellas no superan registros de 92.5 – 101. entre 101.5 – 110. La última frecuencia absoluta acumulada corresponderá al número total de frecuencias.5? ¿A cuántas personas corresponde? ¿Qué porcentaje registra valores de más de 75? .5 4 13. Construya la distribución de frecuencias absoluta acumulada descendente y relativa acumulada descendente con los datos de la velocidad de pulsaciones.3% 29 96. la frecuencia relativa acumulada es una acumulación sucesiva en forma ascendente o descendente de frecuencias relativas.4% 92.7% de las personas evaluadas registran pulsaciones entre el 83.3% 30 100% Total 30 100% La distribución de frecuencias acumuladas se construye con el cálculo de la frecuencia absoluta acumulada y la frecuencia relativa acumulada.agrupadas de los datos del ejemplo 8. se calculan las correspondientes frecuencias relativas de cada intervalo de clase. la última frecuencia relativa acumulada tendrá un valor del 100%.5 – 92. Si es ascendente.5 y sólo el 3.5 4 13.5 1 3.7% 83.5 – 65.5 7 23. Si la frecuencia absoluta acumulada es ascendente.1. Tabla 2. se expresan estos tipos de frecuencia tomando los datos del ejemplo 8.3% 65.4% 14 46. y así sucesivamente.3% 74.7% 25 83.5. esto corresponde al 83. Distribución de frecuencias absolutas. La segunda acumulada se obtiene sumando las dos primeras absolutas. Esta tabla arroja información tan completa que permite concluir afirmaciones tales como: • El 36.5 – 83.5 – 74.3% 4 13. La primera es la acumulación sucesiva en forma descendente o ascendente de las frecuencias absolutas.5 pulsaciones. relativas y acumuladas ascendentes de la velocidad de pulsaciones Intervalos de Frecuencia Frecuencia Frecuencia Frecuencia clase (Número de relativa (%) absoluta relativa (Velocidad de personas) acumulada acumulada pulsaciones) Ascendente Ascendente 56. De la misma manera. ¿Qué porcentaje de la muestra registra valores superiores a 92. la primera frecuencia absoluta corresponderá a la primera frecuencia absoluta acumulada.5 y 92.8.. sea esta cual fuere.2. se tratarán las partes más fundamentales de una gráfica y los aspectos a tener en cuenta para su construcción. •Toda gráfica debe tener un título que aclare su contenido. • Toda gráfica debe ir acompañada de convenciones para identificar las características que se grafican. • La mejor gráfica es la más sencilla. • En los diagramas.1. el lugar de exposición y otros factores de logística que intervienen en la decisión del mejor diseño. identificar los ejes coordenados (X y Y) e indicar sus magnitudes correspondientes. Evite saturar la gráfica de datos o textos innecesarios. el polígono de frecuencias. Una gráfica siempre debe poseer un título que indique la descripción del contenido de ella. • La lectura de la escala del eje horizontal se hace de izquierda a derecha y la del eje vertical se hace de abajo hacia arriba. el año del registro y otros indicadores que resulten importantes para la investigación. En muchas ocasiones. debe ser el complemento.2.5 LECCIÓN 10 PRESENTACIÓN DE LA INFORMACIÓN Anteriormente se mencionó que la organización y el resumen de la información son dos procesos distintos que se ejecutan en forma independiente. Se trata pues de conocer algunas técnicas de construcción de gráficas. Ya se ha desarrollado todo cuanto tiene que ver con la organización de la información.5. sin embargo debe tenerse en cuenta para quién va dirigida ésta. deben tenerse en cuenta ciertos aspectos con el fin de mejorar su apariencia y mostrar con claridad lo que se quiera que ella refleje. lineales. A continuación. los gráficos de puntos. Haga uso de sólo lo estrictamente necesario. las líneas de la ordenada y la abscisa que llevan escala. La escala se aplica para saber la dimensión del fenómeno graficado. deben ser más gruesas que las demás. Existen ciertos principios generales que se deben tener en cuenta en el logro de una buena gráfica: • Si en la investigación se tienen varias gráficas.6 Componentes de una gráfica Cuando se diseña una gráfica. estas deben estar enumeradas en forma consecutiva. Es decir. se verá ahora lo que implica el resumen o presentación de la información. •La gráfica no sustituye el cuadro o la tabla. . que indique de dónde han sido tomados los datos incluyendo el tipo de publicación. que es la mejor manera para resumir una investigación estadística. luego se presentarán los distintos tipos de gráficas usadas más comúnmente en estadística entre las cuales se encuentran el histograma. Otro aspecto importante a tener en cuenta es la fuente de información. la ojiva. es importante indicar la escala con la que se trabaja. La forma y el tipo de la gráfica que se seleccione depende en gran parte del investigador o de quien la elabora. 1. de barras y circulares y los pictogramas. ya sean absolutas o relativas.5. Este último diagrama. 1. genera una serie de líneas horizontales que dan la sensación de los peldaños de una escalera. notas. Si la representación se refiere a las frecuencias acumuladas (absolutas o relativas). aclarar las escalas. ubicando en el eje vertical los valores de la frecuencia acumulada.9. leyendas. •Las gráficas nunca preceden al texto. Diagrama de frecuencias absolutas acumuladas de visita al odontólogo de niños entre los 6 y 12 años .2. • En toda gráfica se debe explicar la fuente de donde fueron obtenidos los datos. denominado diagrama de frecuencias acumuladas. Tabla 2.3. cuya altura está dada por los valores de las frecuencias.•La representación del hecho debe variar sólo en una dimensión. llamadas y convenciones que ayuden a identificar e interpretar las características presentadas. Diagrama de frecuencias absolutas de visita al odontólogo de niños entre los 6 y 12 años Figura 2. Construya un diagrama de frecuencias absolutas y un diagrama de frecuencias absolutas acumuladas. esta se hará por medio de líneas horizontales. Figura 2.7 iagrama de frecuencias Los diagramas de frecuencia se representan por medio de líneas verticales. Distribución de frecuencias simple de visita al odontólogo de niños entre los 6 y 12 años Edad del niño (Años) 2 3 4 5 6 7 8 9 10 11 12 Total Frecuencia absoluta (Número de visitas) 3 1 2 3 7 9 4 0 1 0 0 30 Frecuencia absoluta acumulada 3 4 6 9 16 25 29 29 30 30 30 Esta tabla de frecuencias indica las veces que un grupo de 30 niños de 6 a 12 años de edad visitó en los últimos 6 meses al odontólogo.4. rápidamente se puede concluir que los niños de 7 años de edad son los que más han asistido al odontólogo en los últimos seis meses de la muestra tomada. De igual manera se percibe un agrupamiento a la izquierda de los datos. respectivamente.4.5.4. En cambio.3. la forma de representación gráfica más común. En la figura 2. existe un gran “salto” a los 7 años. se conoce con el nombre de histograma de frecuencias.2. las dos últimas líneas horizontales son de mayor tamaño que las demás. ¿sabe usted por qué? 1. Histograma de frecuencias absolutas de la velocidad de pulsaciones 1. En la figura siguiente se registra el diagrama de frecuencias absolutas del grupo de datos del ejemplo 8.3. Nótese el origen o punto de partida de la variable es cero y luego aparece un corte o puente. Se puede ver también que estas dos últimas líneas están menos separadas que las otras.1. Figura 2. Pero se grafican las marcas de clase de cada intervalo. generando una secuencia de puntos que se unen en segmentos de recta para formar un polígono. 11 y 12 años.En las figuras 2.9 Polígono de frecuencias Describe también la información de la distribución de frecuencias absolutas o relativas. y 2. esto se debe a que no hay registro de niños que asisten al odontólogo con edades de 9. Esta convención también puede usarse en el eje vertical u ordenada. de manera que permite acortar la distancia entre el origen y el primer valor de la variable.8 Histograma de frecuencias En el caso de las distribuciones de frecuencia agrupada. es decir no es simétrica la gráfica.5. se reflejan los diagramas de frecuencia absoluta y frecuencia absoluta acumulada. de ahí el nombre.2. Estos se construyen representando los intervalos de clase en la escala horizontal y las frecuencias de clase (absolutas o relativas) en la escala vertical y trazando rectángulos cuyas bases equivalen a la amplitud de los intervalos de clase y sus alturas corresponden a las frecuencias de cada clase. Obsérvese que a partir de la figura 2. .5. pues el “salto” se debe a que existe un niño de la muestra de 10 años que sí ha asistido al odontólogo. Este tipo de gráficos suelen llamarse asimétricos sesgados a la izquierda. Obsérvese que ellas se cortan en un punto M. se unen los centros de las bases superiores de los rectángulos. con la ordenada correspondiente a la frecuencia relativa o absoluta. ya sean relativas o absolutas. según los máximos o picos que presenten. La ojiva es el gráfico de una distribución de frecuencias acumuladas (relativas o absolutas) y puede ser descendente o ascendente. En el primer caso. diferentes curvas lo que no permite el histograma de frecuencias.9. bimodales o multimodales. este punto se denomina mediana. Observe las siguientes figuras. Luego se unen estos puntos en una curva suavizada. se obtiene la figura 2.2 2 Algunos autores consideran que la ojiva no es una curva suavizada. . Ojiva descendente de la velocidad de pulsaciones Si ambas ojivas se dibujan en un mismo gráfico. Polígono de frecuencias absolutas de la velocidad de pulsaciones 1. Las curvas en estadística tienen diversas formas: estas se clasifican de acuerdo a la forma en simétricas y asimétricas siendo estas últimas sesgadas a la derecha o a la izquierda.1. En este módulo se trabajará como curva suavizada. partiendo desde el límite inferior del primer intervalo.8.5.6. se unen los puntos de intersección de la abscisa. y. Ojiva ascendente de la velocidad de pulsaciones Figura 2. Ella permite presentar en un mismo gráfico. La figura 2.5.10 Ojiva Contrario al polígono de frecuencias. representa el polígono de frecuencias de los datos graficados en el histograma de la figura 2. la ojiva es una curva suavizada2. En el eje horizontal se ubican el límite superior de cada intervalo de clase y en el vertical. las respectivas frecuencias acumuladas. concepto que se discutirá en la siguiente unidad didáctica y que representa el valor del término de la mitad de la distribución.6. que está compuesta de segmentos rectilíneos. No se trata aquí de crear una discusión sobre ello pero queda al lector la decisión si elabora la ojiva como curva suavizada o como la unión de segmentos de líneas. que representan la ojiva ascendente y descendente de los datos tomados de velocidad de pulsaciones de una muestra de 30 personas (ejemplo 8.7. en el segundo caso.) Figura 2.El polígono puede dibujarse sobre el histograma de frecuencias o de manera independiente.2. que corresponde a la marca de clase. en unimodales. Figura 2. generalmente durante un tiempo. generalmente a través del tiempo (series cronológicas). cuando se dibuja una sola serie de datos o compuestos. Pueden ser simples.2 Tabla 2. Diagramas de barras . 1. Sirven para describir los cambios o fluctuaciones que sufre un fenómeno. discriminados por facultad.10. También se puede leer de este tipo de gráficos que.9.Figura 2.10. Diagrama de líneas Egresados del SENA en el período 2000-2004 De allí se puede ver cómo en 2004 hubo un aumento considerado en todas las facultades. Gráficos de línea Está compuesta de segmentos de líneas que unen los pares ordenados a representar. En el siguiente gráfico de puntos. EJEMPLO 10.2004. cuando se comparan dos o más series de datos. independiente de las fluctuaciones en el tiempo. la Facultad de Ciencias Administrativas es la que reporta mayor número de egresados anuales.10. se ve claramente el comportamiento y fluctuación en el tiempo de cada facultad respecto a sus egresados.5. indica el número de egresados del SENA en el período 2000.2. Ciencias Básicas e Ingeniería y por último Ciencias Agrarias. seguida de Ciencias Sociales Humanas y Educativas.5.7. mientras que en Ciencias Básicas e Ingeniería se daba un ascenso. de igual forma en 2002 disminuyó estrepitosamente el número de egresados en las facultades de Ciencias Administrativas y Ciencias Sociales Humanas y Educativas. Figura 2. Ojiva ascendente y descendente de la velocidad de pulsaciones 1.2.6. Egresados del SENA en el período 2000-2004 ESPECIALIDAD 2000 2001 2002 2003 2004 QUIMICA INDUSTRIAL 1391 2192 1549 1773 2383 CONTROL AMBIENTAL 533 603 708 517 830 MANTENIMIENTO 161 147 130 197 280 PRODUCCION 1243 1415 1013 1210 1281 La tabla 2. ¿Cómo sería esta gráfica? Figura 2. en este tipo de gráficos se ubica la variable o atributo en el eje horizontal y la altura está dada por los valores o cantidades que toma dicha variable. la correspondiente al total de ventas. Tabla 2. Es muy semejante al histograma de frecuencias.11. al contado y a crédito. EJEMPLO 10. y 2. Los valores representan las ventas en millones de pesos.3 La siguiente información corresponde a las ventas por departamento.11.Es una de las gráficas más usadas para representar tanto características cuantitativas como cualitativas. en la figura 2. Para diferenciar una característica de otra en la misma barra se recurre a diferenciarlas usando colores.12.. o bien describir y comparar dos o más características de ella de forma segmentada o agrupada. aunque sean visualmente diferentes.11.12. de un almacén de cadena en la ciudad de Bucaramanga en el mes de marzo de 2005. Diagrama de barras segmentadas de las ventas por departamento al contado y a crédito en marzo de 2005 . sombrándolas o rellenándolas con tramas. sin embargo son más comunes las verticales. Obsérvese que tanto la figura 2. ¿es clara la información? ¿Cuál tipo de diagrama de barras elegiría usted para una investigación? ¿Por qué? Obsérvese además. Las barras son rectángulos con alturas proporcionales a las frecuencias o magnitudes correspondientes. Diagrama de barras agrupadas de las ventas por departamento al contado y a crédito en marzo de 2005 Figura 2. la cual permitiría una comparación eficiente de las ventas del almacén. El diagrama de barras se puede trabajar para describir una sola característica de la variable. que también se puede graficar una barra más. pero el diagrama de barras no requiere que la información esté agrupada en tablas de frecuencias.. diagrama de barras simple. Inténtelo haciendo los diagramas de forma horizontal. pueden construirse en forma vertical u horizontal. Ventas por departamento al contado y a crédito en marzo de 2005 Departamento Contado Crédito Total Alimentos 200 120 320 Ropa 180 110 290 Calzado 150 90 240 Electrodomésticos 300 210 510 Los siguientes diagramas de barras verticales describen las ventas por departamento del almacén.11. ofrecen los mismos resultados. 11. debe pues plantearse una regla de tres simple: Porcentaje 100% 50% Grados 360º X Donde: 50 × 360 = 180º X = 100 De la misma manera. Diagrama circular Es otro tipo de gráfico que permite observar los componentes de un total. Los ángulos de los sectores son proporcionales a los componentes del total. Una mayor apreciación se logra coloreando distintivamente los sectores o dándole una trama a cada sector. Pictogramas .13. y con ella elabore por lo menos dos diagramas de barra diferentes en los que muestre el porcentaje de ventas de contado y a crédito alcanzadas durante ese mes en el almacén de cadena para cada uno de los departamentos evaluados. como sectores de un círculo. 1. Compruébelo.5.2. meses o días se quieran representar en la secuencia. 25% solteros. mostrando en cada uno la correspondiente distribución porcentual.4 En una entrevista masiva de una multinacional. EJEMPLO 10. 15% separados y 10% en unión libre. De ellas el 50% eran casados. se debe tener en cuenta que los 360º del círculo equivalen al 100%. tantos como años.8. Elabore una pequeña síntesis de los resultados que arrojan las gráficas que ha construido. Es una forma efectiva de representar distribuciones de frecuencias en las que la característica es cualitativa. Diagrama circular para el estado civil de 1250 aspirantes a empleo Unión libre Este tipo de gráficos es inconveniente cuando se tienen varias partes y cada una representa una pequeña proporción o cuando son muchas las partes que se van a representar. el 25% equivale a 90º en el círculo. se grafica el diagrama circular: Figura 2. Si se le quiere emplear en secuencias cronológicas. Se utiliza para representaciones gráficas de distribuciones porcentuales. Se construye subdividiendo los 360º de un círculo.2. 1. 15% a 54º y 10% a 36º.9. proporcionalmente al número o al porcentaje de cada una de las clases en que se ha dividido la observación. Así pues.Construya una tabla de frecuencias relativas para los datos de la tabla 2. Si se quisiera mostrar en un diagrama circular estas proporciones. asistieron 1250 personas con expectativas de emplearse.5. se dibujan círculos de igual radio. Así es como se encuentran pictogramas señalando la población de un país. en un mapa de Colombia. que se encuentra al final del texto. cuando se indica por ejemplo.3. CAPITULO 3 .Es una forma de representar los datos por medio de símbolos o dibujos donde cada uno representa la misma información con un valor fijo. círculos. Mapas estadísticos o cartogramas Este tipo de gráficos muestra la información cuantitativa o cualitativa sobre bases geográficas dentro de las cuales se ubican símbolos o figuras como puntos. etc. es por esto que se recomienda al lector iniciar el capítulo repasando la sumatoria como propiedad aritmética fundamental para entender las medidas estadísticas de una población o muestra. 1. suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. organizar y presentar los datos en cualquier tipo de investigación estadística. Entre las medidas de tendencia central tenemos: •media aritmética •media ponderada •media geométrica •media armónica •mediana •moda. Es muy común en la prensa o boletines de información. Todo cuanto tiene que ver con sumatoria y productoria puede ser repasado y consultado en el anexo A. para tal fin. Este número que. En este caso se incluyen también los cuartiles entre estas medidas. 1. se indican con figuras humanas las zonas en conflicto o en disputa con los diversos grupos armados del país.MEDIDAS DE TENDENCIA CENTRAL O DE POSICION Al describir grupos de observaciones. barras. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución.5.2.10. ESTADIGRAFOS En el capitulo anterior nos dedicamos a estudiar los métodos que deben ser aplicados en el proceso de agrupar. se habla de estas medidas como medidas de posición. 1.3. colores. Los pictogramas son usados comúnmente en el diseño publicitario. el informe del estado del tiempo o. Pero antes de iniciar con estos nuevos conceptos.1 LECCIÓN 11. con frecuencia es conveniente resumir la información con un solo número. . se hace indispensable recordar algunas nociones aritméticas y algebraicas básicas en estadística. ya que se consideran más expresivos. donde una figura humana representaría un millón de personas. independientemente de que esta esté más o menos centrada. 1 El precio de la bolsa de un litro de leche en diferentes supermercados fue: $1. Si bien es cierto que los cuadros y graficas describen el fenómeno.325. por letras minúsculas.3.350 + 1.325 5 La media aritmética tiene la propiedad de asignar a cada elemento de la suma el mismo valor. los símbolos que se refieren a la población se representan generalmente por letras griegas o por las letras mayúsculas de nuestro alfabeto y los que se refieren a la muestra.300. no lo hacen en forma satisfactoria.Ahora trataremos de presentar otros métodos para estudiar o medir el comportamiento de los elementos que constituyen una población. $1.325 =$1. y por tanto hay necesidad de acudir a ciertas medidas denominadas parámetros de la población.400 + 1. El valor promedio o media aritmética es entonces: = 1. Teniendo en cuenta la anterior la clasificación. $1. =i=1nXi /n donde: n = cantidad de elementos Xi = valor de cada elemento x = media aritmética. .300 + 1.350. Para el análisis de una variable o de una distribución unidimensional se consideran las siguientes clases de medidas: •Medidas de tendencia central •Medidas de posición •Medidas de dispersión •Medidas de asimetría y apuntamiento 1.250 + 1. o simplemente media EJEMPLO 12. Los estadígrafos permiten hallar un valor numérico. el mismo que representa a la muestra. cuando corresponden a una parte de la población o muestra. o sea el valor promedio. $1.2 LECCIÓN 12 MEDIA ARITMÉTICA Es la medida más conocida y la más fácil de calcular.400 y $1.250. Se define como la suma de los valores de una cantidad dada de números dividido entre la cantidad de números. cuando se hacen sobre el total de ésta y estadígrafos. Esta similitud entre la media de una distribución de frecuencias agrupadas y la media aritmética ponderada se muestra en el siguiente ejemplo. es válida para datos agrupados o no agrupados.Si se conoce el valor de la media y el número n de elementos u observaciones. recordando que la marca de clase es el valor promedio de un intervalo de clase. las desviaciones con respecto a la media deben ponderarse. la media o promedio aritmético es la medida de tendencia central más comúnmente usada. Esto quiere decir que sólo la media aritmética hace mínima la suma de los cuadrados de las desviaciones en torno a ella. El caso general se expresa así: Un caso similar al anterior consiste en la media de una distribución de frecuencias agrupadas. en este caso es la media aritmética. se hace necesario considerar algunas de sus propiedades: • La suma de las desviaciones respecto a la media aritmética es igual a cero. Esta propiedad. Una desviación es la diferencia que se presenta entre los valores que toma la variable y un valor constate. Si la distribución es simétrica no hay necesidad de ponderar. Dada la importancia que tiene el cálculo de la media aritmética y su frecuente uso. Esta importante propiedad se retomará más adelante cuando se estudie regresión lineal y el método de los mínimos cuadrados para ajuste de curvas. En síntesis. Y en términos aritméticos ella plantea: Σ(X − ) = 0 Tenga en cuenta que cuando los datos están agrupados en una tabla de frecuencias. Esto es: i=1nXi=n La media ponderada se halla al realizar el cociente entre la suma de los productos de los valores por sus respectivos pesos y la suma de los pesos. al igual que las demás. Sin embargo no siempre es recomendable usarla como un promedio. se puede conocer el valor de la suma total multiplicando la media por el número de elementos. además de ser la única de las medidas de tendencia central que permite un tratamiento algebraico. ya que es muy sensible a los valores extremos del . • La suma de los cuadrados de las desviaciones respecto a la media es siempre menor que la suma de los cuadrados de las desviaciones con respecto a cualquier otro valor. donde los pesos o ponderaciones corresponderían a las frecuencias de los valores de las marcas de clase. el valor del medio de estos datos es la mediana. se encuentra en el centro de la distribución. 20. 26.6 LECCIÓN 13 MEDIANA Se define como el valor que divide una distribución de datos ordenados en dos mitades. 18.1 a. en las frecuencias acumuladas. que bien podrían ser bastantes. se considera que los valores en esa clase se distribuyen uniformemente de modo que se pueda calcular la mediana por el método de la interpolación lineal. la media es ligeramente más difícil de calcular a mano que las otras medidas que se verán en seguida. 28. 23. En este caso se toman los dos valores del medio y se promedian: Me = 20 + 23 = 21.5 2 Cuando los datos se encuentran agrupados. . puesto que requiere sumar todo el conjunto de datos. se calcula el valor de n/2 y con él se busca. determinar su media. Hallar la media del siguiente conjunto de datos ordenados: 14 15 18 19 20 23 26 28 30 32 Observe que son 10 datos. EJEMPLO 13.conjunto de datos. 15. Para su cálculo es necesario que los datos estén ordenados. la mediana se calcula hallando el valor medio entre los dos valores centrales y no coincidirá con ninguno de los valores del conjunto de datos. Identificada la clase de la mediana. Es menos usada que la media aritmética. es decir. el intervalo de clase en donde este se encuentra o se aproxime mejor. Cuando la cantidad de datos es impar. Esta clase recibe el nombre de clase de la mediana. En muchas referencias bibliográficas se expone una ecuación para el cálculo de la mediana cuando los datos se encuentran agrupados. pero cuando el número de datos es par. 1. La mediana se simboliza como Me. Dados los valores: 19. En el siguiente ejemplo se describe paso a paso el cálculo de esta medida de tendencia central. Por otra parte. un número par de datos. b.3. 14. fácilmente se identifica la mediana. puesto que deja cuatro valores por debajo y cuatro valores por encima. y dividir entre el número de elementos del conjunto. 30. Este valor es 20. Lo primero que debe hacerse es ordenar los datos: 14 15 18 19 20 23 26 28 30 Como el número de datos es 9. . por lo que el conjunto de datos recibe el nombre de multimodal o polimodal. todos los valores son modas. Cuando más de dos valores ocurren con la misma frecuencia y ésta es la más alta. usando un histograma de frecuencias o un polígono de frecuencias. El cálculo de la mediana es simple. Es simbolizada como Mo. EJEMPLO 14. Generalmente las curvas de frecuencia presentan un solo pico.1 Las siguientes tablas de frecuencias indican el número de personas de acuerdo a su edad que asistieron al estreno de una película. es decir con la distribución de frecuencias relativas. pues en su cálculo sólo intervienen los valores más centrales sin tener en cuenta los demás y su comportamiento general.3. la moda es 22. Cuando los datos se encuentran agrupados la moda es la marca de clase del intervalo de clase que contiene la mayor frecuencia. la mediana será el valor de la abscisa cuya ordenada es el 50%. valor correspondiente a la mayor frecuencia que es 5. . Cuando la distribución de los datos es muy simétrica. sean estos grandes o pequeños. condición que no requiere el cálculo de la media. pero siempre requiere que los datos se encuentren ordenados. Ya se vio algo cuando se estudiaba la ojiva: al graficar en un mismo eje coordenado la ojiva ascendente y descendente. leyendo el valor en el eje horizontal. Si dos valores tienen la misma frecuencia se dice que el conjunto es bimodal.3. se podría decir que la mediana no es una medida muy confiable para describir el conjunto de datos. es decir puntos que corresponden a una mayor densidad de frecuencias. el punto donde estas dos curvas se encuentren corresponde a la mediana de los datos agrupados. pero a veces se encuentran series con dos o más picos. Finalmente. La barra más alta o el pico más alto corresponden al valor que más se repite. Se considera como el valor más representativo o típico de una serie de valores. Esto sucede cuando se trabaja con grupos de datos heterogéneos. No influencian en lo absoluto como sí lo hacen en el cálculo de la media. Se concluye entonces que la mediana no está afectada por los valores extremos del conjunto de datos. 1.Otra manera para hallar la mediana de un conjunto de datos agrupados es el método gráfico. no hay casi diferencia entre la media y la mediana. La moda también puede determinarse gráficamente. donde los datos están sin agrupar. Si se trabaja en cambio con la ojiva porcentual. En la tabla 3.7 LECCIÓN 14 MODA Se trata del valor más frecuente en un conjunto de datos. mediana y moda. de cómo estos se agrupan. Su cálculo es poco preciso debido a que no se puede expresar en términos algebraicos.5 Marca de clase 15 18 21 24 27 30 Total 43 Frec.3. Para encontrarla se requiere que los datos estén ordenados.5 19. es decir.4.5 =21 9+9 Obsérvese que aunque sean el mismo conjunto de datos. la moda se encuentra en el intervalo de clase 19. Se han visto hasta ahora tres medidas de tendencia central: media.5 25..5 22. a .5 28. la moda varía dependiendo de su tratamiento. usando la ecuación para el cálculo de la moda.5 – 19.5 – 22. se tiene: Mo = 9 × 3 + 19.5 16.5 – 28. Determinar cuál de ellas usar en un tratamiento estadístico depende mucho de la información que se tenga y del objetivo que se persigue. La media.5 – 31.5 – 22. 2 9 13 9 9 1 asistencia a cine La moda no es tan usada como la media o la mediana.En la tabla 3. Distribución de frecuencias agrupadas de la asistencia a cine Intervalos de clase 13.5 y corresponde a la marca de clase que es 21. los datos se encuentran agrupados. Distribución de frecuencias de la X 14 15 16 17 18 19 20 21 22 f X 1 23 0 24 1 25 2 26 3 27 4 28 4 29 4 30 5 31 Total 43 F 4 3 2 4 3 2 0 0 1 Tabla 3.5 – 16. Tabla 3. Además.5 – 25.4. la mediana como la medida que permite dividir el área bajo la curva de distribución en dos parte iguales y la moda como el pico más alto de la curva de distribución. mediana y moda en términos de ventajas y desventajas para su cálculo y uso en la investigación estadística. presenta una ligera estabilidad en el muestreo. puede resultar más fácil calcular la media aritmética que la mediana. Ellas tres son las medidas de tendencia central3 3 más comúnmente usadas. el cálculo de la moda se hace más preciso. . mediana y moda Medida de tendencia central ¿Qué tan común es? ¿Existe siempre? ¿Toma en cuenta cada ¿Se ve afectada por los valores ¿Requiere que los datos estén Ventajas y desventajas 3 Modificado de Probabilidad y estadística. es por eso que su uso es más frecuente. Esta relación es utilizada para calcular cualquiera de ellas. El cuadro siguiente3 resume y compara de una manera didáctica y práctica la media. Mientras que los datos sesgados a la derecha (sesgo positivo) poseen una cola derecha más larga y su mediana y media están a la derecha de la moda. es más recomendable emplear la mediana o la moda como medidas de posición. Cuando la distribución es asimétrica a la derecha se cumple que Mo < Me < x . cualquiera de ellas puede usarse y resultarán aproximadamente iguales. Si la distribución es casi simétrica. Pearson & AddisonWesley. Triola. México. Comparación de la media. Mario F.diferencia de la mediana y la moda. en el tema siguiente se estudiarán otras medidas no menos importantes pero si menos usadas en el tratamiento estadístico. se puede entender la media aritmética como el punto de equilibrio del conjunto de datos (como el centro de gravedad de un cuerpo). Se dice entonces. Y será simétrica cuando la mitad de su histograma es aproximadamente igual a su otra mitad. Tabla 3. Si la distribución no es simétrica. Los datos sesgados a la izquierda (sesgo negativo) presentan una cola izquierda más larga y su media y mediana se encuentran a la izquierda de la moda. si en cambio es asimétrica a la izquierda x < Me < Mo .5. Cuando los datos no están ordenados. Cuando los datos no están agrupados. Novena edición. En cualquier distribución el valor de la mediana se localiza entre la media y la moda. 2004. La relación de Pearson afirma que la distancia entre la media y la moda es tres veces la distancia entre la media y la mediana. conociendo las otras dos medidas. que una distribución está sesgada si no es simétrica y si se extiende más hacia un lado que hacia el otro. −Mo = 3( −Me) → Mo = 3Me − 2 En resumen. Se simboliza Mg y se define como la raíz n-ésima de la productoria de los n valores de la variable. o cuando se quiere determinar el valor medio para un conjunto de porcentajes. . Se utiliza preferiblemente para conjuntos de datos que consisten en tasas de cambios.8 LECCIÓN 15 OTRAS MEDIDAS DE TENDENCIA CENTRAL La media geométrica se utiliza para promediar crecimientos geométricos de la variable. Si No es muy confiable para describir el conjunto de datos.valor? Media Es la más común De uso común Si Si extremos? Si Mediana Si No No Moda Usada en ocasiones Podría no existir o haber más de una No No ordenados ? No Presenta una ligera estabilidad frente al muestreo. Se simboliza Mh y se define como: La media armónica es muy influenciable por los valores extremos de la serie. Suele utilizarse en negocios y economía para calcular las tasas de cambio promedio. pues en su cálculo sólo intervienen los datos más centrales Si Es más precisa cuando los datos no están agrupados 1. especialmente los más pequeños. Cuando los datos no son agrupados.3. la media geométrica se define como la raíz nésima de la productoria de los valores de la variable (marca de clase) elevadas cada una de ellas a su correspondiente frecuencia absoluta. o cuando se quiere dar importancia a valores pequeños. las tasas de crecimiento promedio o tasas promedio. Cuando los datos están agrupados. como la velocidad. La media armónica de un conjunto de datos es el recíproco de la media aritmética de los recíprocos de los números de la serie de datos. la media geométrica se calcula hallando el producto de todos los elementos y extrayendo la raíz del orden del número de observaciones. teniendo en cuenta qué porcentaje representa. Distribución de frecuencias agrupadas Con las frecuencias relativas acumuladas se construye la ojiva porcentual ascendente. Para calcular los cuartiles se divide la distribución en cuatro partes iguales. del quinto es el 50% y el noveno corresponderá al 90%.. Una vez construida. es superado por el 75% restante. el tercero 75%. Obsérvese que D1=P10. el primer decil representa el 10%. El primer percentil (P1) es igual al valor que supera al 1% de las observaciones y es superado por el 99% restante y así sucesivamente. se inicia el proceso de identificar cada valor pedido. El cuartil inferior (Q1) es aquel valor de la variable que representa el 25% de las observaciones y a la vez. Es decir. D2=P20. El segundo cuartil (Q2) corresponderá a la mediana de la distribución. de manera que cada una tendrá el 25% de las observaciones. El método más sencillo para identificar tanto cuartiles.Los cuartiles. Para calcular estos tres promedios se procede de manera semejante al cálculo de la media aritmética. mientras que el percentil 5 representa al 5% y el 95 al 95%. Los tres puntos de separación de los valores son los cuartiles. Para calcular los deciles se divide el conjunto de datos en 10 partes iguales. Su cálculo es muy semejante al de los cuartiles. El primer decil (D1) es igual al valor que supera al 10% de las observaciones y es superado por el 90% restante y así para cada uno de los deciles. El tercer cuartil (Q3) es aquel valor que representa el 75% y es superado por el 25% restante de las observaciones. deciles y percentiles son medidas que se utilizan para determinar los intervalos dentro de los cuales quedan proporcionalmente repartidos los términos de la distribución.. de manera que se obtienen nueve valores que dividen la frecuencia total en diez partes iguales. deciles y percentiles es el gráfico. el primer cuartil representa el 25%. . haciendo uso de la ojiva porcentual ascendente. De igual manera se puede calcular el centil o percentil al dividir en cien partes iguales la distribución. el segundo 50%.. Sólo requiere buscar en el eje vertical el porcentaje que se busca y leer en el eje horizontal su correspondiente valor. html http://www. Primer Curso.ing.htm http://www.mx/SerEst/MAP/METODOS%20CUANTITATIV OS/Pye/tema_11. (1999). Susan (1999). Estadística y Muestreo. Santa fe de Bogotá.cl/eduteca/estadistica/ http://www. McGraw Hill. Madrid: McGraw Hill — Interamericana.BIBLIOGRAFÍA DE LA UNIDAD BEJARANO BARRERA. Estadística. Santa fe de Bogotá: UNISUR.htm .com/descriptiva. Hernán (1995). Howard B. México: McGraw Hill. México: Editorial Trillas.216.aulafacil. (1991).htm http://www.html#tema2 http://personal5. Santa fe de Bogotá: ECOE Ediciones.cl/estentrada. PORTUS GOVINDEN.com/estadistica_15. Santa fe de Bogotá.hrc. Enrique (1980). Estadística Paso a Paso. Primera edición. Estadística Básica Aplicada.eneayudas.unp. Murria R.htm http://www. (1992). MARTÍNEZ BENCARDINO.ar/estadisitio/estaddes.es/rd/Recursos/rd98/Matematicas/01/matematicas-01. Bogotá: Nueva Editorial Interamericana. Santa fe de Bogotá: ECOE Ediciones.edu.edu. SPIEGEL.mx/matematicas/estadisticas/xu3.com/CursoEstadistica/CursoEstadistica.uaq. SMITH.html http://www. MARTÍNEZ BENCARDINO. CHRISTENSEN.htm http://www.html http://thales. Ciro (2004). Editorial Addison – Wesley Iberoamericana.rincondelvago. MILTON.83/estadistica/descriptiva. J.htm http://html. Introducción a la Estadística. Serie de compendios Schaum.es/bioest/M_docente.educarchile. Lincoyán (2001).10. Ciro (2003). Stanley. Segunda edición. Estadística Descriptiva.elosiodelosantos. Estadística. Estadística para biología y ciencias de la salud.html http://148. http://www.universidadabierta. Curso de Estadística Elemental para las ciencias aplicadas.es/ztt/Tem/T11_Estadistica_Introduccion. A. PORTILLA CHIMAL.iddeo.cica. MEDIDAS DE DISPERSIÓN Y ESTADÍSTICAS BIVARIANTES Lección 16 Rango o Recorrido Lección 17 Varianza Lección 18 Coeficiente de variación Lección 19 Puntaje típico o estandarizado Lección 20 Medidas de asimetría y apuntamiento Lección 21 Regresión y correlación Lección22 Diagrama de dispersión Lección 23 Regresión lineal simple Lección 24 Correlación Lección 25 Regresión múltiple Lección 26 Construcción de números índice Lección 27 Tipos de números índice Lección 28 Índices Simples Lección 29 Índices compuestos Lección 30 Uso de los números índice .Unidad Didáctica Dos MEDIDAS DE DISPERSIÓN Y ESTADÍSTICAS BIVARIANTES UNIDAD 2. en donde interviene una variable. En el primer capítulo. •Calcular la ecuación de regresión para dos variables. •Identificar hechos que admitan intuitivamente un comportamiento lineal simple. Se ha visto que tanto las tablas como las muy diversas formas de graficar la información describen fenómenos de una población o muestra. a fin de determinar si existe alguna relación entre sí y de cuantificar dicho grado de relación. •Interpretar y manejar los conceptos de regresión y correlación. • Comparar las medidas de dispersión y seleccionar la más útil para una determinada aplicación. •Interpretar y utilizar las medidas de dispersión. OBJETIVOS ESPECÍFICOS •Ejecutar las operaciones indicadas por la notación sumatoria y productoria. En los capítulos cinco y seis. •Identificar e interpretar correctamente números índices. Esta unidad tiene como propósito indicar otros métodos para medir e interpretar el comportamiento de un conjunto de datos dados. •Desarrollar destrezas para calcular algunas medidas de dispersión. • Desarrollar destrezas necesarias para elaborar y aplicar números índices en circunstancias específicas. •Desarrollar destrezas para calcular algunas medidas de tendencia central. medidas de dispersión y de asimetría. •Identificar los tipos de asimetría y apuntamiento en una distribución de datos. organización y presentación de ella. es allí donde se hace visible la importancia de las medidas estadísticas bien sean univariantes. o bivariantes cuando lo hacen dos. . Esta Unidad Didáctica se ha dividido en tres grandes capítulos: Medidas Estadísticas Univariantes que pueden ser medidas de tendencia central vistas en el capitulo 3. se considerarán las medidas: de dispersión o variabilidad. •Dibujar y aplicar gráficos de dispersión. Medidas Estadísticas Bivariantes y números índices. de asimetría o de deformación y de apuntamiento o curtosis. • Comparar las medidas de tendencia central y seleccionar la más útil según las circunstancias.INTRODUCCIÓN A LA UNIDAD La Unidad Didáctica 1 se dedicó a explicar los métodos que deben aplicarse en una investigación estadística tales como la planeación. se estudiará el comportamiento de dos variables. • Reconocer que las medidas de dispersión complementan la descripción que proporcionan las medidas de tendencia central. recolección. Se desarrollarán aquí los conceptos de regresión y correlación de dos variables y el concepto y usos de los números índices. pero no siempre lo hacen en forma satisfactoria. obedeciendo al número de variables que intervienen en estos cálculos aritméticos. •Calcular el coeficiente de correlación entre dos variables. •Interpretar las medidas de tendencia central y comprender sus aplicaciones. Ambas medidas son más confiables como variabilidad comparadas con el rango. sólo requiere que los datos estén ordenados.1. Se estudiará a continuación cómo resolver este tipo de problemas y qué medidas de dispersión usar. UNIDAD MEDIDAS DE DISPERSIÓN Y ESTADÍSTICAS BIVARIANTES 2.0 ya que no le termina de aclarar si el grupo completo está muy cerca de esa nota.2 LECCIÓN 17 VARIANZA Y DESVIACIÓN ESTÁNDAR Es una de las medidas más usadas en estadística. Por ejemplo. pero también se descubrió que los datos extremos podían estar bastante alejados de esa tendencia central. sin embargo presentan inconvenientes para su uso puesto que no consideran todos los valores de la distribución y puede ocurrir que los valores inferiores a Q1 o superiores a Q3 estén o muy compactos o muy dispersos sin que esto afecte a QD y no sea reflejado en su resultado. es común hacer uso del rango intercuartílico que consiste en determinar la diferencia entre el tercer cuartil y el primero. 2.2.0 hasta 5. Se trata de la diferencia entre el límite superior y el límite inferior de un conjunto de datos. o si al contrario existe tanta variabilidad en las notas de los estudiantes que puede ir desde 1. MEDIDAS DE DISPERSIÓN Y ASIMETRÍA Se veía en el tema anterior la tendencia que tiene un conjunto de datos dado a agruparse hacia el centro.1 LECCIÓN 16 RANGO O RECORRIDO Sobre esta medida ya se había trabajado en la construcción de las tablas de frecuencia agrupada. a un profesor de Estadística poco le dice la media aritmética al afirmar que el promedio de los estudiantes tiene el curso en 3.0. La información que arrojan las medidas de tendencia central no siempre proporcionan conclusiones contundentes frente al conjunto de datos. Pero es poco usada como medida de dispersión porque se deja afectar fácilmente de los valores extremos de poca frecuencia. Es la medida de dispersión más fácil de calcular.1 CAPITULO 4.1. sea por encima o por debajo de ella. De la misma manera. Medir esa variación respecto a los promedios es un cálculo importante en el tratamiento estadístico de datos. ella a su vez da origen a otra mucho más significativa: la desviación típica o estándar. Se define como la media . el rango interdecil corresponde a la diferencia entre el noveno y el primer decil: 2. medidas a las que se les denomina de dispersión o de variación. Por último se mencionarán unas nociones básicas sobre curvas asimétricas. Para eliminar la influencia de los extremos en el cálculo del rango. ) 2.1.aritmética de los cuadrados de las desviaciones respecto a la media aritmética. Cuando el coeficiente de variación es muy alto se dice que la media aritmética no es lo suficientemente representativa en la distribución. Las unidades de la varianza son los cuadrados de las unidades de los datos: pesos cuadrados. etc. este indica mayor variación en el grupo de datos. Si las unidades de observación de los conjuntos de datos son iguales. • El valor de la desviación estándar siempre es positivo y sólo es igual a cero cuando los valores de los datos son iguales. Para comparar dos distribuciones. en cuanto a su variabilidad absoluta. Para efectuar comparaciones entre series de observaciones distintas..3 LECCIÓN 18 COEFICIENTE DE VARIACIÓN Y DESVIACIÓN MEDIA Las medidas de dispersión que se han estudiado son medidas absolutas y se expresan en las mismas unidades con las que se mide la variable. Se simboliza s2 para la varianza muestral y σ2 para la varianza poblacional. no es posible compararlas con estas medidas absolutas. • Si el valor de la desviación estándar es muy grande. La varianza indica la desviación de los datos respecto a la media.3. centímetros.1. en estadística se usa el coeficiente de variación y así se puede determinar cuál serie tiene mayor o menor variabilidad relativa. 2. De allí que la varianza de origen a la desviación típica o estándar. Es importante tener en cuenta las siguientes propiedades de la desviación estándar: • La desviación estándar es una medida de variación de todos los valores con respecto a la media. Cuando se comparan dos o más conjuntos de datos con unidades de medida de observación diferentes. • Las unidades de la desviación estándar son las mismas de los datos originales (pulgadas. etc. de lo contrario estas apreciaciones no aportarán una buena conclusión sobre las series que se comparan. se pueden utilizar sus varianzas de manera que el resultado indique cuál de ellas es más homogénea o cuál es más heterogénea. alumnos cuadrados. medidas difíciles de interpretar.1 Desviación media . estos pueden compararse usando cualquiera de estos estadísticos (como en el ejemplo anterior) pero siempre y cuando la media aritmética sea la misma. • El valor de la desviación estándar puede incrementarse drásticamente cuando se incluye uno o más datos distantes. denominada distribución normal.Se define como la media aritmética de las desviaciones respecto a la media. En ella la media aritmética se localiza en la mitad de la distribución. a la desviación media puede calculársele el coeficiente de desviación media: CVM= DM/ ×100% 2.1. puesto que se toman los valores absolutos. Cuanto mayor sea el valor de la desviación media. Es una de las medidas más fáciles de calcular y por ello. s Z= X s Por ser adimensional. Su valor siempre será menor que la desviación estándar. muy usada. sin embargo este valor no proporciona una relación matemática precisa con la posición de un dato dentro de la distribución y. mayor será la dispersión de los datos. El puntaje estandarizado mide la desviación de una observación con respecto a la media aritmética. se simboliza por t. es una medida de dispersión muy utilizada como variable estadística en este tipo de distribución. su polígono de frecuencias revelará una forma de campana muy común en estadística. determinándose así la posición relativa de una observación dentro del conjunto de datos. Esta curva es llamada curva normal. en unidades de desviación estándar. así como diferentes medias y desviaciones estándar. el puntaje Z es útil para comparar datos individuales de distribuciones que tienen distintas unidades de medida. pero cuando el tamaño de la muestra es menor de 30. Por lo general se simboliza por Z. En el eje horizontal se ubican los valores que toma la variable y en el vertical la frecuencia absoluta o relativa.1 Asimetría . de probabilidad o campana de Gauss. Ella toma todos los valores de la variable y es menos afectada que la desviación estándar por los valores extremos. El área bajo la curva tendrá un valor del 100% El puntaje típico o estandarizado o variable normalizada. De la misma manera que la desviación estándar.1. tomadas en valor absoluto5. las más importantes son que su media es cero y su desviación estándar y varianza es uno.4 LECCIÓN 19 PUNTAJE TÍPICO O ESTANDARIZADO Cuando se tiene una distribución simétrica. mide la desviación de una observación sin determinar si está por encima o por debajo de la media aritmética. Dentro de sus propiedades. 2.5. de error. etc. entre otras. mediana y moda (ver sección 1. las calificaciones en pruebas. porque con frecuencia es más fácil obtener valores excepcionalmente grandes que valores excepcionalmente pequeños. Varía entre ±1 y es 0 en la distribución normal. en tanto que la moda no es influenciada ni por las frecuencias ni por los valores extremos . de la Unidad Didáctica uno). las siguientes medidas para calcular el grado de la asimetría: • Coeficiente de Pearson. la mediana también se corre pero menos que la media ya que en ella sólo influyen las frecuencias.4. Ejemplo de ello es la distribución de valores en los consumos de servicios públicos. La distribución es asimétrica positiva cuando presenta un alargamiento o sesgo a la derecha y: Mo < Me < Será asimétrica negativa cuando presenta un alargamiento o sesgo a la izquierda y: < Me < Mo Las asimetrías positivas son las más frecuentes que las sesgadas hacia la izquierda.1. los sueldos.Ya se ha mencionado algo sobre los efectos de la asimetría respecto a la media.5. En una distribución simétrica se tiene que: = Me = Mo En las distribuciones asimétricas la media se corre en el sentido del alargamiento o sesgo por efecto de las frecuencias y de los valores extremos de la variable. Varía entre ±3 y es 0 en la distribución normal.2 Apuntamiento o curtosis . 2.3.1. Se reconocen. Asimetría en función de la media y la moda. • Media cuartil de asimetría o media de Bowley. son negativos y por tanto la recta . etc. nos indica que tanto la covarianza. La palabra regresión la utilizamos para significar la estimación de una variable en función de otro valor conocido. La curtosis es la medida de la altura de la curva y esta dada por: 2. En este capítulo se estudiará el comportamiento de dos variables: distribuciones bivariantes. Muchos de estos comportamientos tienen una tendencia lineal. no basta con calcular la varianza explicada.2 CAPITULO 5 MEDIDAS ESTADÍSTICAS BIVARIANTES Hasta ahora se ha estudiado el análisis de una sola variable. calculando los estadísticos de muestras que permiten describir e interpretar la distribución de esa variable. en este curso sólo se trabajará sobre variables con correlación lineal. como los coeficientes angulares.2. Si la curva es más plana que la normal se dice que la curva es platicúrtica. con el fin de determinar si existe alguna relación entre las variables. Decimos que la mejor línea que se ajusta a un conjunto de puntos es aquella en donde la suma de los cuadrados de las diferencias entre los valores reales y los estimados es mínima. se requiere conocer la relación entre dos o más variables como la relación entre producción y consumo. Si el coeficiente de correlación r es igual o menor que uno. A continuación se describirá brevemente en qué consiste un diagrama de dispersión y cuáles son los criterios que deben tenerse en cuenta para hallar la mejor línea o línea de tendencia del comportamiento de las variables. comparadas con la curva de distribución normal.Las curvas de distribución. sin embargo. frecuentemente se utiliza un coeficiente de correlación rectilíneo. correspondiente a la otra variable. pues existe el coeficiente de determinación o coeficiente de correlación al cuadrado. Esta agudeza en la cima se observa en la moda. la altura de un árbol y el diámetro de su tronco. pueden presentar diferentes grados de apuntamiento o altura de la cima de la curva. o también una de ellas discreta y la otra continua. salarios y horas de trabajo. el nivel socioeconómico de una persona y su grado de depresión. aunque hay muchos otros que lo hacen de forma curva. En este capítulo se desarrolla el tema de la Regresión y Correlación lineal y los Números Índice.1 LECCIÓN 21 REGRESIÓN Y CORRELACIÓN En muchos casos se requiere conocer más que el comportamiento de una sola variable. 2. recibe el nombre de apuntada o leptocúrtica. que bien pudieran ser ambas discretas o continuas. si es más aguda que la normal. Para determinar el grado de correlación entre las variables. la curva se conoce también como mesocúrtica. r siendo este un valor entre -1 y 1. salarios y productividad. oferta y demanda. Si la distribución es normal. después de una inspección en la gráfica de dispersión. Se habla así de una regresión de Y sobre (o en función de) X.será descendente. cuando se trabaja más de dos variables). La regresión es un método que se emplea para pronosticar o predecir el valor de una variable en función de los valores dados de la otra (o de las otras. curvilínea o poligonal. los valores de la segunda variable.2. dado que los puntos se ubican de forma dispersa en el plano cartesiano. exponencial. nos indica que existe una perfecta correlación en otras palabras. 2. que puede ser lineal (hacia arriba o hacia abajo).3 . con el objeto de estudiar las variaciones de la primera cuando la otra permanece constante. Y. Cuando se considera. LECCIÓN 23 REGRESIÓN LINEAL SIMPLE La regresión examina la relación entre dos variables restringiendo una de ellas respecto a la otra. Cuando se trata de dos variables. por ser la pendiente negativa. La mejor línea es aquella que hace mínima la suma de los cuadrados de las diferencias entre los puntos dados y los obtenidos mediante la línea ajustada o estimada. ubicando en el eje horizontal o abscisa los valores de la primera variable denominada X y en el eje vertical u ordenada. Se trata pues de una dependencia funcional entre las variables. A este conjunto de puntos o nube de puntos se le denomina diagrama de dispersión. que una línea recta es la mejor curva que se ajusta al conjunto de puntos se procede entonces a emplear el método de la regresión lineal simple. y por tanto la varianza residual es igual a cero.2 LECCIÓN 22 DIAGRAMA DE DISPERSIÓN Una distribución bidimensional o bivariante puede representarse gráficamente en un plano cartesiano. 2. Además si es igual a -1. El mejor ajuste se hace cuando se elabora bien la gráfica. La ecuación de la recta estimada está dada por: .2. Es por eso que a este método también se le conoce como el método de los mínimos cuadrados. se conoce la distribución y se va adquiriendo experiencia en su cálculo y determinación. Parte del análisis estadístico que hace el investigador es determinar cuál es la mejor línea o curva que representa a ese conjunto de datos. cada valor de la variable deberá ser exactamente igual al estimado. y la varianza explicada igual a la varianza total. De manera pues que se grafican tantas parejas ordenadas como observaciones hayan de las variables. En muchos casos el sólo diagrama de dispersión indica una tendencia de agrupación de los puntos. una (la X) será la variable independiente mientras que la otra (la Y) será la variable dependiente. se dice que el modelo de regresión lineal ajustado tiene un alto grado de confiabilidad. la nube de puntos tiene forma ascendente y por tanto la recta que se ajusta tendrá una pendiente positiva. Se trata pues de medir el grado de confiabilidad de la ecuación de la recta estimada. Su magnitud indica el grado de asociación entre las variables. En cambio. El error estándar indicará la dispersión o la variabilidad de los valores observados alrededor de la línea de regresión. es necesario medir qué porcentaje de la información es recogida o explicada por el modelo de regresión escogido.4 LECCIÓN 24 CORRELACIÓN La correlación entre dos variables busca determinar el grado de relación que existe entre ellas dos. Los coeficientes de correlación son números que varían entre +1 y -1. Se dice que existe una correlación lineal positiva entre dos variables. Para determinar el coeficiente de correlación. cuando al aumentar los valores de la variable independiente disminuyen los valores de la variable dependiente. o viceversa. Cuando el R2 es cercano a 1. buscando así la mejor recta que se ajuste a los datos. que deben determinarse aplicando el criterio de los mínimos cuadrados. En un gráfico de dispersión. Una vez obtenido el error estándar del estimado. es necesario conocer primero el error estándar del estimado de la recta ajustada. de determinar las variaciones de la variable dependiente mediante el coeficiente de determinación (R2). Ella se calcula con los coeficientes de correlación. En este caso la nube de puntos descenderá de izquierda a derecha y la pendiente de la recta ajustada será negativa.Yˆ = a + bX Donde: Yˆ: Variable dependiente (la que se va a predecir) a : Intercepto de la variable Y X: Variable independiente b : Pendiente de la recta En esta ecuación hay dos valores desconocidas: a y b. Se trata pues. . si al aumentar o disminuir los valores de la variable independiente aumentan o disminuyen los de la variable dependiente. 2.2. si es 0 indica que no existe relación alguna y los valores extremos +1 y -1 indican una correlación perfecta positiva o negativa respectivamente. si al contrario este se acerca a 0 su grado de confiabilidad es muy bajo y se recomienda no utilizar el modelo de regresión estimado. se dice que la correlación lineal es negativa. Ya se mencionaba que el coeficiente de correlación lineal oscila entre +1 y -1. Una vez obtenida la ecuación de regresión.90 < r < 1 0. X 1 X 2 Valores de las dos variables independientes.30 -0.60 < r < 0. que consiste en el mismo procedimiento de una regresión lineal simple: describir la ecuación de regresión. La ecuación de regresión está dada por: Y = a + b 1X 1+ b 2X2 Donde: Yˆ : Variable dependiente. se determina el error estándar de la estimación de regresión múltiple: BIBLIOGRAFÍA DE LA UNIDAD BEJARANO BARRERA.80 0. Howard B. determinar el error de estimación y analizar la correlación entre las variables.60 0 < r < 0.30 < r < 0. El coeficiente de correlación lineal r. México: Editorial Trillas. Siendo r = R2 . 2.80 < r < 0. Ciro Martínez Bencardino.90 -0. A continuación se desarrollarán estos conceptos suponiendo dos variables independientes.90 < r < 0. es también conocido como coeficiente de Pearson. se puede entonces interpretar el grado de correlación partiendo de los siguientes límites de referencia: Tabla 5.2. Grado de correlación lineal Interpretación Valores de Correlación perfecta Correlación excelente Correlación aceptable Correlación regular Correlación mínima No hay correlación Valores de r (+) =1 0.30 < r 0 Tomado de “Estadística Básica Aplicada”.80 < r < 0. b 1b 2 Pendientes asociadas con cada variable independiente. Estadística Paso a Paso.60 -0.90 0. a : Intercepto de la variable Y. (1999).En la práctica es más frecuente usar r . Estadística Descriptiva.60 < r < 0. CHRISTENSEN. . Santa fe de Bogotá: UNISUR. denominado el coeficiente de correlación lineal.5 LECCIÓN 25 REGRESIÓN MÚLTIPLE Cuando se emplea más de una variable independiente para evaluar una variable dependiente es conveniente utilizar un método de regresión múltiple. Hernán (1995). sólo basta con seguir los mismos pasos. respectivamente.80 -0. Para más variables independientes.1.30 r (-) =1 -1 < r < 0. (2004). Probabilidad y Estadística. Pearson Educación. Lincoyán (2001). Santa fe de Bogotá: ECOE Ediciones. Ciro (2003).com. Santa fe de Bogotá: ECOE Ediciones. Primer Curso.aulafacil.co/~cescobar/Bioestadistica/bioestadistica.edu. SMITH. Santa fe de Bogotá.htm http://www. PORTILLA CHIMAL. MARTÍNEZ BENCARDINO. Curso de Estadística Elemental para las ciencias aplicadas. A.html http://www.htm http://cosmech. Estadística. Madrid: McGraw Hill — Interamericana.tripod. Introducción a la Estadística.universidadabierta.elosiodelosantos. PORTUS GOVINDEN. MILTON.unalmed. Estadística.htm http://server2.htm .com/CursoEstadistica/CursoEstadistica. J. Estadística y Muestreo. McGraw Hill. (1992).MARTÍNEZ BENCARDINO. México. Murria R. Estadística para biología y ciencias de la salud. México: McGraw Hill.htm http://eris. Stanley.com/regresionlineal.southlink. MARIO F. Editorial Addison – Wesley Iberoamericana. SPIEGEL.com/Estadistica/medidas1. http://www. Primera edición. Bogotá: Nueva Editorial Interamericana.edu. Estadística Básica Aplicada.ar/vap/MEDIDAS. (1991). Segunda edición. Ciro (2004). Susan (1999). Santa fe de Bogotá. TRIOLA.mx/SerEst/MAP/METODOS%20CUANTITATIV OS/Pye/tema_12. Novena edición. Serie de compendios Schaum. Enrique (1980).