UNIDADES TECNOLÓGICAS DE SANTANDERAPUNTES DOCENTES ASIGNATURA: ESTADÍSTICA PROFESOR: GERMÁN ERNESTO RINCÓN REY DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 1 UNIDADES TECNOLÓGICAS DE SANTANDER DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 2 UNIDADES TECNOLÓGICAS DE SANTANDER Introducción La estadística es una herramienta de máxima utilidad para todos aquellos que tienen que tomar decisiones, en condiciones de riesgo, porque suministra un método científico para recolectar y luego extraer información de los datos relacionados con una situación o fenómeno que sea del interés de la persona o equipo de personas que buscan optimizar el uso de los recursos de las unidades económicas o sociales que dirigen. Para facilitar y agilizar el proceso de enseñanza-aprendizaje de la asignatura de Estadística, es conveniente contar con un material de apoyo cercano al desarrollo del programa institucional de esta asignatura y ubicado en el contexto en el cual ejercerán su actividad los egresados de los programas de tecnología La finalidad de estos Apuntes de Estadística es reducir la dependencia exagerada de los notas que toman los estudiantes en clase, suministrando un material de apoyo conceptual para la asignatura de Estadística, que sea ágil, intuitivo y veraz, que se convierta en una guía clara y amigable para adquirir las competencias de la asignatura. Estos apuntes, se desarrollan de manera paralela al programa de la asignatura, por lo que. lo mismo que ésta, se compone de cinco unidades: las tres primeras se refieren a la estadística descriptiva y la cuarta y quinta a Estadística Inferencial. DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 3 .........5 CARACTERÍSTICAS DE LOS CONJUNTOS DE CLASES ESTADÍSTICAS .....8 MÉTODO ESTADÍSTICO ............................................................................................................................5 COMO SE DEFINE UNA POBLACIÓN .......2 ELEMENTO .......2........... 17 1............ 17 1...................................................................................................2.......................................1 Variables cualitativas o categóricas: ....................................................................................................................................................................3.........................................................................12 PARÁMETRO .................2......2 CONCEPTOS BÁSICOS..14 TIPOS DE ESTUDIOS ESTADÍSTICOS.......................................3... 14 1..................2................1...... 21 1.....................................2..............................................................................2...................... 16 1.......3........................................................................................................................................................................................................................ 14 1.......... 18 1.............................2............................... 10 1.....................................................6 NÚMERO DE CLASES ......................11 TAMAÑO DE LA MUESTRA ........ 17 1............................................. 10 1.......................................................... 18 1................................ 23 1....................................................................................................8 CARACTERÍSTICAS OBSERVABLES EN UNA POBLACIÓN ............................................................................ 21 1..3...........7 INFERENCIA ESTADÍSTICA ..............................................13 ESTADÍSTICO ..2..............................................................8.................................... 10 1.....................2 POR QUÉ NOS INTERESAN LOS FENÓMENOS ......................8.....1 ASPECTOS GENERALES DE LA ESTADÍSTICA ...............1................. 13 1..........................................2.......... 16 1........................................2...........2............10 MUESTRA ................................................................................2................................................................2 CONCEPTO DE CLASE O CATEGORÍA ............................... 15 1.7 EJEMPLO PRÁCTICO .................................2...............................................................................2..3 ARREGLO DE DATOS DE VARIABLE CONTINUA ...2..........2.....................3....2.....1 INTRODUCCIÓN.................................................................................... 21 1...................... 17 1.... 9 1...............................2............ 10 1............... 22 1............................UNIDADES TECNOLÓGICAS DE SANTANDER TABLA DE CONTENIDO 1........... 14 1....................................2.............................................................................. 17 1.............................................2 CARACTERÍSTICAS VARIABLES ...................................................... 16 1.............. 24 DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 4 ....................4 POBLACIÓN ..................... 11 1...........................3 DEFINICIÓN DE ESTADÍSTICA ...............................................................7..................2 Poblaciones infinitas .... 21 1............................................6 TAMAÑO DE UNA POBLACIÓN..............................6 ESTADÍSTICA DESCRIPTIVA .................................................................................... 9 1........................................................2.......................1........................................... 23 1............................3...8................................................... 9 1.............................................................15 UNIDAD DE OBSERVACIÓN O DE INVESTIGACIÓN ...................................8........... 17 1................ 18 1. 11 1...8.......9 CENSO ................................... 23 1................................................................4 AMPLITUD DE CLASE O INTERVALO DE CLASE .3.......3 CLASE ESTADÍSTICA O CATEGORÍA ESTADÍSTICA .................1.7 CLASES DE POBLACIONES ..................5 DIVISIÓN DE LA ESTADÍSTICA ............................ 13 1..................................................................7.................................................................................................................................... ARREGLO Y PRESENTACIÓN DE DATOS ........................1 Poblaciones Finitas .......................................................................................... 15 1....3..................16 ESTADÍSTICAS ........... 21 1...........................................................................................................................................................................................2...........2.... 15 1.................................................................................2................2...................................................................1...........1.......................................................................................................3..........1 DATO .......................................................... 13 1............8 FASES DE UNA INVESTIGACIÓN ESTADÍSTICA ................................................................3 Variables cuantitativas categóricas: .......................3 EJEMPLOS DE ELEMENTOS .............1........... 21 1...................10 DESARROLLO DEL EJEMPLO ..................1 CARACTERÍSTICAS CONSTANTES ..................................................................................2............................9 PROCEDIMIENTO PARA CONSTRUIR UN CONJUNTO DE CLASES ESTADÍSTICO PARA VARIABLE CONTINUA ..................................................................4 IMPORTANCIA DE LA ESTADÍSTICA ..................................................................................................................17 EJERCICIOS RESUELTOS: ............................................................................................................................. 15 1..........1 LOS FENÓMENOS ...... 9 1.. 14 1....... 18 1..2.........................3......................................................2........................... 18 1........................................................................................................1..................................................................................2 Variables cuantitativas:............................................................................................................... ....1.....................1....5............4..........................................................................1 FORMAS ESTADÍSTICAS DE DESCRIBIR UN FENÓMENO ................................. 46 2..........1 HISTOGRAMA .......................... 29 LA OJIVA .............................................................................................. 44 2.............................1..................................3................................... 37 1.....1....................................................................................................................20 1............................................1............................... 43 2..............12 1..............................................................8 MEDIDAS PARA POBLACIONES Y MEDIDAS PARA MUESTRAS .1................................... 33 1.................................................................14 LA MEDIA GEOMÉTRICA ............................................................... 39 2 MEDIDAS DE TENDENCIA CENTRAL.......15 1.........UNIDADES TECNOLÓGICAS DE SANTANDER 1.......................... 27 EL POLÍGONO DE FRECUENCIAS .......................................................................................... 34 1....17 1...........................................................................................................................1..................................................... 31 1..13 1........1.........1.........................................5................................................. 46 2......................................................................................10.................................................................................................................................1................1.......................................2 CONCEPTO DE MEDIDA EN ESTADÍSTICA ...2 POLÍGONO DE FRECUENCIAS ................................ 41 2...........................................................9 CLASES DE MEDIDAS DE TENDENCIA CENTRAL ................................................... 42 2.............................................................................7 EJERCICIOS RESUELTOS .................................................21 CONSTRUCCIÓN DE LA DISTRIBUCIÓN DE FRECUENCIAS.................... 43 2..........4..............17 USOS DE LA MEDIA GEOMÉTRICA ..........................................................................................................4 ARREGLO DE DATOS DE VARIABLE DISCRETA ...................................3...........................1. 27 COMO INTERPRETAR UN HISTOGRAMA O UN POLÍGONO DE FRECUENCIAS ...............3 PARÁMETROS Y ESTADÍSTICOS . 42 2................................................1.... 42 2...... 42 2............................................................................................................................. 42 2...........................................................................................................................................................................................................1.......3.... 33 1.............. 31 1.. 26 LA TABLA MENOR QUE ..........................3............................3........................................... 45 2......... 41 2... 48 2..........................................14 1.................................................................. 49 DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 5 ............................4...........3..................................................... 36 1....................................................... DE POSICIÓN Y DE DISPERSIÓN ..................1 MEDIDAS DE TENDENCIA CENTRAL ...........................................................................................................3...........18 1................3 DESARROLLO DEL EJEMPLO ....................................................6 LAS MEDIDAS DE TENDENCIA NO CENTRAL O DE POSICIÓN ................16 PROPIEDADES DE LA MEDIA GEOMÉTRICA ......................... 26 LECTURA DE LA DISTRIBUCIÓN DE FRECUENCIAS ............................................................... 41 2.............................................. 31 1............................................................................................................................4...........5 LAS MEDIDAS DE TENDENCIA CENTRAL ........................1 PROCEDIMIENTO PARA COSNTRUIR UN CONJUNTO DE CLASES ESTADÍSTICO PARA VARIABLE DISCRETA .............................4......4 CONSTRUCCIÓN DE LA DISTRIBUCIÓN DE FRECUENCIAS ...........................................4.........1 MEDIA ARITMÉTICA PARA DATOS NO AGRUPADOS ..................................................................... 29 1......15 CÁLCULO DE LA MEDIA GEOMÉTRICA .........3......................16 1..................................................................1.....................................3....................................................3....................................................................1..............................1....................1....... 26 REPRESENTACIÓN GRÁFICA DE LA SITUACIÓN EN ESTUDIO ..................2 MEDIA ARITMÉTICA PARA DATOS AGRUPADOS ..................19 1....................10 LA MEDIA ARITMÉTICA ........ 27 MARCA DE CLASE .....11 SIGNIFICADO DE LA MEDIA ARITMÉTICA .................................................................10.. 41 2.......6 ARREGLO DE DATOS CUALITATIVOS ................................13 PROPIEDADES DE LA MEDIA ARITMÉTICA .....1........................................... 31 1....................................................................................7 LAS MEDIDAS DE DISPERSIÓN ..........................................................................4.................................... 25 LOS TIPOS DE FRECUENCIAS ............1..............................................................5.............4.. 32 1............................................................................ 48 2....................5 REPRESENTACIÓN GRÁFICA .................5 ARREGLO DE DATOS PARA VARIABLE DISCRETA EN CLASES DE AMPLITUD CERO ...................................3................4 CLASES DE MEDIDAS EN ESTADÍSTICA .... 46 2.... 35 1................ 42 2. 43 2.....................19 INTERPRETACIÓN DE LA MEDIANA................... 29 LA INTERPOLACIÓN .12 MEDIA ARITMÉTICA PONDERADA ....................... 26 EL HISTOGRAMA ......... 49 2......................................................11 1.........................18 LA MEDIANA................... 45 2............3 OJIVA ............2 EJEMPLO PRÁCTICO ....................1................. ....................................................................2 Segundo caso ............................................................... 51 2......................................12.......................... 68 2................... 62 2................................................1............................23.................................................22........................................................................................... 79 DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 6 ...................................................................... 53 2.......23................................. 51 2............................................1..................................................................................................................2.................................................................. 59 2....................4...................................1............................UNIDADES TECNOLÓGICAS DE SANTANDER 2............................... 69 2................................23.........1......................1 Número impar de datos ....................................... CUARTILES Y PERCENTILES .1..........................28 MODA PARA DATOS AGRUPADOS ..................... 76 3 REGRESIÓN Y CORRELACIÓN......................................................... 67 2....... 56 2............................................. 75 2............. 69 2.. 75 2..................28.............................1 PRIMER CASO........1......................................................................... 73 2..................................................................................28...............................................4.........1 POR QUÉ SE REQUIERE MEDIR LA DISPERSIÓN .........2 LOS PERCENTILES ..........................................................1....................25 LA MODA ..2 CASOS ESPECIALES DE LA MEDIANA .........................................9 CARACTERÍSTICAS DEL RANGO ................................................22 CÁLCULO MEDIANA PARA DATOS AGRUPADOS ........1.....................................................7 CLASES DE MEDIDAS DE DISPERSIÓN..............1....23.........................1....12....................3 LA VARIABILIDAD.......................2 PERCENTILES PARA DATOS AGRUPADOS ..........................................4..............................................21................................................ 70 2......................................................1 DESVIACIÓN ESTÁNDAR PARA POBLACIONES ............................................................... 53 2...........................13...........................................................4.................................................... 70 2................................................................................................28.......................................................................................4................ 73 2..........4................... 50 2.. 71 2.............................................3 EJEMPLOS RESUELTOS..........29 PROPIEDADES DE LA MODA ..................1 PERCENTILES PARA DATOS NO AGRUPADOS ...................................................................................20 SÍMBOLO DE LA MEDIANA .......................2.............................................................................................2 Datos de variable cualitativa .......................14 EL COEFICIENTE DE VARIACIÓN..........1..........................4.........................11 LA DESVIACIÓN MEDIA .................................... 52 2....................... 56 2...........23...................1 LOS CUARTILES..................... 51 2.................................................................................................21.................................... 55 2..................................................4................................................................. 56 2............................ 58 2............................1............................................................ 66 2............................1........................... 68 2.............................................4...................................................8 EL RANGO ........................................................................1 Primer Caso .............4...............................................................................................................................................6 LAS MEDIDAS DE DISPERSIÓN ................................13 LA DESVIACIÓN ESTÁNDAR .1..2 DESVIACIÓN ESTÁNDAR PARA MUESTRAS ............4...........................................................4..........................................24 PROPIEDADES DE LA MEDIANA........ 54 2...............................................................................................1 CUARTILES PARA DATOS NO AGRUPADOS.........................3 Datos de variable discreta o continua agrupados en clases de amplitud mayor que cero ....................1..................................... 60 2....2 VARIANZA MUESTRAL . 58 2.......................................... 69 2............21 CÁLCULO DE LA MEDIANA PARA DATOS NO AGRUPADOS ....12 LA VARIANZA ......... 49 2..5 IMPORTANCIA DE LA DISPERSIÓN.......2.....................4...............1..................................................4..............................1..........................................13..26 SÍMBOLO DE LA MODA ........1 VARIANZA POBLACIONAL .....................2....2 Número par de datos .............................................................................23 MEDIDAS DE TENDENCIA NO CENTRAL O DE POSICIÓN ..... 52 2...................................................................................... 66 2.........................................1 Datos de variable discreta agrupados en clases de amplitud igual a cero ................................. 57 2..23.......... 57 2.4........ 54 2..4.......................... 56 2......22....1..........................1.....................2 CUARTILES PARA DATOS AGRUPADOS .....27 MODA PARA DATOS NO AGRUPADOS........................................... 60 2....................................... 49 2............ 69 2.............................2 SEGUNDO CASO ................................................ 76 2........................4 LA DISPERSIÓN .........................................................1.4..................................1.......................................... 60 2............................................1..................................................4 MEDIDAS DE DISPERSIÓN ............................... 74 2.....................1...................1.......................2 CONCEPTO DE DISPERSIÓN ...4............................................. 49 2.......................10 EL RANGO INTERCUARTÍLICO ...........1......................................................................................... ................................................................ 95 4..............1 EL COEFICIENTE DE CORRELACIÓN ..................................................................7 TIPOS DE REGRESIÓN ..........4 TÉCNICAS DE CONTEO ....................................................... 79 3............... 90 4 INTRODUCCIÓN AL CÁLCULO DE PROBABILIDADES.......... 100 DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 7 ...... 80 3...............................................................1................... 93 4....................................1....................................5 GRÁFICO DE DISPERSIÓN..............................2.......................... 93 4................................................................................................................................................... 89 3.............................................................. 96 4.....................................2.................................................................................. 98 5 BIBLIOGRAFÍA..........................................................................8 LA REGRESIÓN LINEAL .....................6 TEOREMA DE BAYES ....6 TIPOS DE RELACIÓN ENTRE DOS O MÁS VARIABLES....................................5 OPERACIONES CON PROBABILDADES ..............................................................1 PRINCIPIOS DE PROBABILIDAD ......................................................................................................1.................................UNIDADES TECNOLÓGICAS DE SANTANDER 3..................................................................................................................................... 89 3..................................2 CONCEPTO DE REGRESIÓN .....1......................... 86 3.................................................................. 97 4.......................................1.................................................................................2 EL COEFICIENTE DE DETERMINACIÓN....................................................................................................................... 94 4.........................1........ 79 3...................................................................................................3 IMPORTANCIA DE LA REGRESIÓN ..................................4 VARIABLES DEPENDIENTES E INDEPENDIENTES ............................................................................................................... 79 3......1........................................................................ 79 3............................... 79 3................................................................ 80 3.....................2 LA CORRELACIÓN ........................................1 INTRODUCCIÓN.........................................1.........................................1 REGRESIÓN ................................................................................................................................ 81 3............................................2 ASIGNACIÓN DE PROBABILIDADES .............3 EL DIAGRAMA DE ÁRBOL ....................... UNIDADES TECNOLÓGICAS DE SANTANDER DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 8 . es decir.UNIDADES TECNOLÓGICAS DE SANTANDER 1.2 POR QUÉ NOS INTERESAN LOS FENÓMENOS Por muchos motivos los seres humanos desean poseer información sobre el comportamiento de diversos fenómenos y para ello realizan registros sobre el estado de estos fenómenos en diferentes momentos o espacios. Un fenómeno es cualquier manifestación de las actividades humanas o de la naturaleza que puede ser percibido por los sentidos o la razón. Siempre que sea viable extraer datos de un fenómeno. utilizando algún proceso. DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 9 . que son afectadas por una enfermedad Los accidentes de tránsito en diferentes lugares de una ciudad La variación mensual del costo de vida Palabras sinónimas de fenómeno son: suceso.1.1. en esta ciencia. elegir la alternativa más favorable dentro de una amplia gama de posibilidades.1 ASPECTOS GENERALES DE LA ESTADÍSTICA LOS FENÓMENOS Una de las aplicaciones de la estadística es describir el comportamiento de los fenómenos en los que se interesan los seres humanos. hecho o acontecimiento 1. por fenómenos.1 1. es posible. por día. convertir estos datos en información y es esta información la que nos permite tomar decisiones eficientes. ARREGLO Y PRESENTACIÓN DE DATOS 1. Algunos ejemplos de fenómenos son los siguientes: El crecimiento de una planta El comportamiento del clima Las ventas por periodo de una empresa Las personas. por lo que es importante precisar que se entiende. 1. Una de las técnicas más valiosa que ayudan en los procesos de toma de decisiones es la Estadística. 1.5 DIVISIÓN DE LA ESTADÍSTICA La Estadística se divide en dos grandes ramas: La Estadística Descriptiva La Inferencia Estadística 1.1. organización y presentación numérica y gráfica de los datos. Una de las formas como se pueden tratar los datos para extraer la información que ellos contienen es utilizando las técnicas estadísticas 1.1.UNIDADES TECNOLÓGICAS DE SANTANDER Estos registros o mediciones generan diversos volúmenes de datos y para que estos datos se conviertan en información se deben procesar de diferentes maneras. y dada la complejidad creciente de las operaciones empresariales. Por lo que es indispensable que los hombres y mujeres que dirigen organizaciones o que de alguna manera participan en la toma de decisiones estén familiarizados con las técnicas estadísticas para poder determinar cuándo se puede examinar un problema existente mediante la aplicación del análisis estadístico. los procesos de decisión se ven sometidos a presiones extraordinarias.3 DEFINICIÓN DE ESTADÍSTICA Es una ciencia que estudia cómo debe emplearse información para facilitar la toma de decisiones en situaciones prácticas que se manifiestan bajo incertidumbre 1. Los análisis que se hacen con las herramientas de la estadística descriptiva se limitan. Dado el enorme aumento de la disponibilidad de datos (gracias a los sistemas de información).6 ESTADÍSTICA DESCRIPTIVA Son los conocimientos y métodos que tratan de la recolección. únicamente.4 IMPORTANCIA DE LA ESTADÍSTICA La actividad más importante para las personas que trabajan en las organizaciones empresariales es la toma de decisiones. al DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 10 .1. son los que se registran en forma de palabras. los objetivos que se pretenden alcanzar o el contexto en que se realiza la investigación. tales como. se han obtenido a través de DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 11 . Recolección de los datos 3. de la correcta elaboración y desarrollo. Los conceptos de: Población y Unidad de Investigación se tratarán en el siguiente módulo. Tabulación. los han obtenido. Las fuentes de información son secundarias cuando los datos. Los datos de naturaleza cualitativa o datos cualitativos. Planeamiento Fin de la investigación Definir la población Unidad de investigación Naturaleza o clase de los datos Fuentes de la información Procedimiento para recolectar los datos Diseño de instrumentos Presupuesto 2. el estado civil de las personas.UNIDADES TECNOLÓGICAS DE SANTANDER conjunto de datos que se recolectaron. Estas conclusiones se obtienen bajo incertidumbre. gráficas y medidas 5.1. Aquí se presenta una de estas posibilidades: 1. Crítica y codificación 4. tales como.1. las profesiones u oficios de las personas o el nivel educativo. Todos los datos. depende la calidad de los resultados que se obtengan. Análisis e interpretación La fase de planeamiento es la más importante de todo el proceso. El fin de la investigación se refiere al resultado concreto que se va a obtener del estudio estadístico. directamente. Estimar el comportamiento futuro de un fenómeno 1.8 FASES DE UNA INVESTIGACIÓN ESTADÍSTICA Las fases o pasos que se deben incluir en un estudio estadístico son muy variadas y dependen de diferentes circunstancias. Las fuentes de información de donde se pueden obtener los datos son de dos clases: Fuentes de información primarias Fuentes de información secundarias Las fuentes de información son primarias cuando los datos.7 INFERENCIA ESTADÍSTICA Son los conocimientos y métodos que permiten: Sacar conclusiones sobre el comportamiento total de un fenómeno basándose únicamente en la información recolectada sobre una parte de ese mismo fenómeno. de las etapas que componen esta fase. los realizadores del estudio. que se recolectan sobre un fenómeno. que se procesan. Usualmente se formula en forma de una pregunta que se llama Pregunta de Investigación. que se procesan. se pueden clasificar básicamente en dos categorías: datos de naturaleza cualitativa y datos de naturaleza cuantitativa. 1. UNIDADES TECNOLÓGICAS DE SANTANDER otras de otras personas o entidades, como por ejemplo, El Banco de la República, El DANE, las cámaras de comercio o cualquier otro estudio ya realizado. El procedimiento para recolectar los datos se refiere a las actividades que se van a ejecutar para recolectar estos datos. Estas actividades pueden ser: La observación directa Las encuestas que pueden ser personales o virtuales Las entrevistas individuales o grupales La experimentación El diseño de instrumentos se refiere al diseño de los soportes donde se van a registrar los datos, como por ejemplo, el diseño de los formatos para registrar las observaciones, el diseño de las encuestas o la lista de temas que se van a tratar en una entrevista y la forma como se van a registrar las respuestas u opiniones del entrevistado. El presupuesto se refiere a la estimación o cálculo del costo, de las diferentes etapas del estudio. La recolección de los datos o trabajo de campo, es la etapa donde se aplican las encuestas, se registran las observaciones o se realizan las entrevistas. La crítica se refiere a la apreciación de la veracidad, autenticidad y pertinencia de los datos recolectados. La tabulación, gráficas y medidas se refiere a los procesos, a través de los cuales, los datos se convierten en tablas, cuadros resúmenes, gráficas representativas o números que permitan describir y comprender el fenómeno que se está estudiando. Análisis e interpretación es la etapa donde se concreta el fin de la investigación, ya sea, respondiendo a la pregunta de investigación, describiendo el fenómeno en estudio o sacando algún tipo de conclusiones sobre él. Estos análisis pueden tener 2 tipos de alcance: Análisis e interpretación descriptivos: cuando los análisis e interpretaciones se circunscriben únicamente a los datos recolectados. Análisis e interpretación inferencial: cuando los análisis e interpretaciones se extienden a todos los elementos de la población o cuando se hacen estimaciones sobre el comportamiento futuro del fenómeno en estudio. DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 12 UNIDADES TECNOLÓGICAS DE SANTANDER 1.2 CONCEPTOS BÁSICOS Para iniciar el estudio de la estadística, se requiere precisar el significado, que tienen en esta ciencia, ideas, palabras y conceptos que en otros campos o en nuestras actividades cotidianas, tienen sentidos que van desde ligeramente diferentes a diametralmente opuestos. 1.2.1 DATO En términos generales un dato es un registro o anotación que se hace del estado de un fenómeno en un momento determinado 1.2.2 ELEMENTO En general, un elemento es una parte indivisible de un todo o un componente indivisible o básico de un cuerpo. Pero, en estadística se llama elemento a las entidades que tienen una o varias características cuyo estado nos interesa registrar. El registro del estado de estas características es lo que constituye los datos. Estos elementos pueden ser individuos, objetos o sucesos. Los individuos pueden ser personas o seres vivos animales o vegetales. Los sucesos pueden ser, por ejemplo, los accidentes de tránsito, los encuentros deportivos, los recorridos que realiza un vehículo o los días del año DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 13 UNIDADES TECNOLÓGICAS DE SANTANDER 1.2.3 EJEMPLOS DE ELEMENTOS En una investigación sobre el comportamiento de los salarios de trabajadores los elementos son los trabajadores (personas), y la característica que se observa a cada elemento es el valor de su salario. En una investigación sobre comportamiento de las ventas de una comercializadora los elementos podrían ser las facturas (un objeto), y la característica observada es el valor de cada factura. También, En una investigación sobre comportamiento de las ventas de una comercializadora los elementos podrían ser los meses (un suceso), y la característica observada el valor de las ventas de cada mes En una investigación sobre los accidentes de tránsito los elementos son los accidentes (un suceso), y la característica observada podría ser el número de personas lesionadas por accidente observado Los fenómenos se producen cuando el estado de las características observadas varía, usualmente, de un elemento a otro 1.2.4 POBLACIÓN En estadística el concepto de Población es mucho más amplio que el que se utiliza en el lenguaje corriente. En esta ciencia, cuando se habla de Población nos referimos a: Todos los elementos que presentan una característica común Es el conjunto de todos los elementos que hacen parte de una situación que se está estudiando y sobre la cual se intenta sacar conclusiones Las poblaciones se deben definir con toda claridad de tal manera que no exista confusión sobre si un determinado elemento pertenece o no a la población 1.2.5 COMO SE DEFINE UNA POBLACIÓN Las poblaciones se deben definir con toda claridad de tal manera que no exista confusión sobre si un determinado elemento pertenece o no a la población. Para facilitar esta definición, en muchos casos, las palabras que la componen se pueden ordenar de acuerdo a la siguiente sintaxis: TODOS(AS) + DESCRIPCIÓN DEL ELEMENTO + CONDICIÓN RESTRICTIVA Significa que una definición de población debe empezar por la palabra “Todos” o “Todas” seguida de una descripción del elemento que se está observando mas una restricción al alcance de la palabra Todos(as) EJEMPLO En un estudio del nivel salarial de los operarios del sector de confecciones de la ciudad, una definición de población podría ser la siguiente: Todos los operarios del sector de confecciones de la ciudad 1.2.6 TAMAÑO DE UNA POBLACIÓN Es el número total de elementos que componen una población. El tamaño de una población se suele representar por la letra N DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 14 2.2.UNIDADES TECNOLÓGICAS DE SANTANDER EJEMPLO: Para indicar que una población tiene 670 elementos se indica así: N = 670 1.1 Poblaciones Finitas Son las poblaciones a las cuales se les pueden determinar fácilmente el número de elementos que las componen. Es imposible determinar cuántos elementos tiene esta población EJEMPLO: Situación: Número promedio de hijos por pareja de un barrio de la ciudad Población: todas las parejas que habitan en el barrio Tipo de población: Infinita.7 CLASES DE POBLACIONES Las poblaciones se dividen en dos clases: Poblaciones finitas Poblaciones infinitas 1.7.7.2.2 Poblaciones infinitas Son las poblaciones que físicamente es imposible numerarlas o determinar su tamaño Son las poblaciones que aunque se puede determinar su tamaño. su tamaño EJEMPLO: Situación o fenómeno: La edad de los estudiantes de las UTS Población: Todos los estudiantes de las UTS Tipo de población: Finita. es decir. no es conveniente hacerlo por razones económicas o de tiempo EJEMPLO: Situación: Accidentes por día en un cruce de calles de la ciudad Población: Todas los días mientras exista este cruce Tipo de población: Infinita. porque fácilmente se pueden contabilizar sus elementos acudiendo a la oficina de la institución que registra estos datos 1.2. Es muy costoso o demanda mucho tiempo determinar su tamaño 1.8 CARACTERÍSTICAS OBSERVABLES EN UNA POBLACIÓN DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 15 . La calidad de un producto: Bueno. defectuoso o al contrario.2.UNIDADES TECNOLÓGICAS DE SANTANDER A los elementos de una población se les observan sus características o la intensidad con que se presenta una magnitud.(Significado matemático) La estadística solamente estudia las características variables Estas características variables. comúnmente denominadas variables.1 Variables Nominales: Son las que no tienen una forma particular de organizar sus categorías. 1.1 Variables cualitativas o categóricas: Son las que describen el estado de la característica únicamente mediante palabras. regular.2. regular. por ejemplo. Los datos que se registran cuando las variables son cualitativas o categóricas corresponden a la cantidad o proporción de elementos que caen dentro de cada categoría que toma la variable. El estado civil de un grupo de personas: Soltero.2.2. casado. 1. rojo. bueno. defectuoso. regular. lectura. bueno o excelente. verde.1 CARACTERÍSTICAS CONSTANTES Una característica es constante cuando el valor que presenta esta característica no varía de un elemento a otro o varía muy poco. cada una de estas variables se expresa a través de dos o más modalidades o categorías: soltero. Las categorías con las que se califica el servicio que presta una EPS se pueden ordenar como pésimo. la proporción de productos defectuosos. insípido. etc. Las variables categóricas se pueden a su vez subdividir en variables nominales y variables ordinales. malo. regular. regular o defectuoso Como se puede observar. Se refieren a atributos. pueden ser de dos clases: Variables cualitativas o categóricas Variables cuantitativas 1. ácido El color favorito de un grupo de individuos: Blanco.1. 1. no existe una forma común de ordenar los colores o el estado civil de las personas. en defectuoso.2. El sabor de las naranjas de una cosecha: dulce.8. Por ejemplo. panadero. unión libre.2 Variables ordinales: Cuando existe una forma común de organizar las categorías que toma la variable. etc. casado. reuniones sociales.8. bueno.2 CARACTERÍSTICAS VARIABLES Es una característica que cambia frecuentemente de valor cuando se observa en algunos o en todos los elementos de la población. De acuerdo con su comportamiento las características que se observan en los elementos de una población se pueden clasificar en constantes o variables 1. cualidades. etc.8. la estatura de una persona adulta observada en los últimos 20 meses o la profesión de un graduado universitario. por ejemplo: el número de abogados o de maestros.1. Por ejemplo: las modalidades como se puede expresar la calidad de un producto se pueden ordenar como bueno. Es un símbolo que puede tomar diversos valores dentro de un conjunto determinado de valores que reciben el nombre de dominio de la variable. ingeniero.2.2. el número de individuos que prefieren el color blanco. etc. DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 16 . maestro.8. Pasatiempos de un grupo de estudiantes: Deportes. actitudes o preferencias de los elementos que se están estudiando EJEMPLOS: Las profesiones u ocupaciones de un grupo de personas: Abogado.8.2. unión libre. en los ejemplos. labores manuales. 1. Por ejemplo.8.50 metros y menos de 1.2.9 CENSO Es cuando se observa y registra el estado de una característica examinado a todos los elementos de una población Los censos rara vez se realizan debido al tiempo que demandan y a la cantidad de recursos que necesitan por lo que se recurre a tomar datos del estado de la variable en algunos de los elementos de la población 1. el número de vehículos que vende un concesionario.3 Variables cuantitativas categóricas: Cuando se quiere facilitar el manejo de los datos o aumentar la comprensión de un fenómeno.2.70 metros o más se clasifican como de estatura alta.2. en discretas o continuas: 1.12 PARÁMETRO Es el resultado de una medida o cálculo que se hace utilizando los datos relacionados con el valor que toma una característica variable cuando se observan todos los elementos de una población.2.2. cuando se hace un censo. la edad promedio de los niños que cursan primer grado. las variable cuantitativas se pueden convertir en categóricas.11 TAMAÑO DE LA MUESTRA Es el número de elementos que componen la muestra. los saldos de las cuentas de ahorro de una entidad financiera o el tiempo que dura el recorrido de un bus urbano.8. Las variables cuantitativas se pueden clasificar.2.2.2. como cuando las personas que miden menos de 1. por ejemplo. 1.2. los saldos de las cuentas por cobrar de una empresa. etc. también. en todas las DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 17 .UNIDADES TECNOLÓGICAS DE SANTANDER 1.8. es decir.50 metros se clasifican como de estatura pequeña.70 se clasifican como de estatura mediana y las personas que miden 1. las personas que visitan por día un museo. este año. 1. el peso de los paquetes que moviliza una empresa transportadora. Se suele indicar con la letra n EJEMPLO: Para indicar que una muestra tiene 350 elementos se indica así: n = 350 1.1 Variables cuantitativas discretas: Son las que únicamente pueden tomar valores enteros tales como el número de vehículos que vende un concesionario o el número de personas que asisten a una sala de cine 1. la edad de los empleados de una empresa.8.2.2.2.2.10 MUESTRA Es cuando se observa y registra el estado de una característica variable examinado a una parte de los elementos que pertenecen a una población Las muestras deben ser representativas y para esto se requiere que las características de la población estén representadas en la muestra.2. las personas que miden entre 1.2 Variables cuantitativas continuas: Son las que se refieren a mediciones de magnitudes físicas o a características apreciables en unidades monetarias y admiten valores fraccionarios o decimales tales como el peso de los paquetes que moviliza una transportadora. en la misma proporción en que están incluidas en la población.2 Variables cuantitativas: Son las que se describen por medio de números. 17 EJERCICIOS RESUELTOS: Primer caso Se encuestaron a 200 personas escogidas al azar entre todas las personas que visitaron un centro comercial de la ciudad. cuándo se tomen otras muestras? k) ¿Se realizó un censo o un muestreo? l) ¿Qué tipo de estudio se realizó? DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 18 . El estadístico es un valor que varía de muestra en muestra 1. El parámetro siempre es un valor constante.2. Por ejemplo. preguntando lo siguiente: ¿Qué día de la semana prefiere para visitar el centro comercial? ¿Realiza alguna compra cada vez que visita el centro comercial? ¿Cuándo realiza alguna compra a qué valor puede ascender esta compra? a) ¿Cuáles son los elementos de este estudio? b) Defina la población en estudio c) ¿De qué tipo es esta población? d) ¿Cuál es la muestra de este estudio? e) ¿Cuál es el tamaño de esta muestra? f) ¿Cuál es el tipo exacto de cada una de las variables del estudio? g) ¿Cuáles son las categorías de cada una de las variables cualitativas? h) ¿Cómo se pueden categorizar cada una de las variables cuantitativas? i) Sí el valor mínimo de compra. El estudio estadístico de observación mas común es la encuesta.13 ESTADÍSTICO Es el resultado de una medida o cálculo que se hace utilizando los datos relacionados con el valor que toma una característica variable cuando se observan algunos de los elementos de una población. la edad promedio de los niños de primer grado de algunas escuelas oficiales de la ciudad escogidas al azar. 1.UNIDADES TECNOLÓGICAS DE SANTANDER escuelas oficiales de la ciudad. que se le da a los elementos cuya característica se está registrando A la entidad que se investiga o de la que se recolectan los datos Al soporte de donde se extraen los datos 1. encontrado en el estudio fue de $10.2.000 ¿Cómo se llama en estadística a este valor? j) ¿Qué comportamiento puede tener el valor del punto anterior.15 UNIDAD DE OBSERVACIÓN O DE INVESTIGACIÓN Se llama Unidad de Observación o de Investigación a alguno de los siguientes conceptos: Al nombre genérico.14 TIPOS DE ESTUDIOS ESTADÍSTICOS Los estudios estadísticos pueden ser experimentales y de observación En los estudios estadísticos experimentales el investigador controla o manipula una o varias variables con el fin de determinar su comportamiento en determinadas condiciones En los estudios estadísticos de observación el investigador registra el estado de la característica variable que le interesa sin ejercer ninguna influencia sobre ella.16 ESTADÍSTICAS Es cualquier conjunto ordenado de datos como por ejemplo las estadísticas de un torneo de fútbol.2. 1.2. o sea.2. una muestra. las estadísticas de ventas de una empresa o las estadísticas de accidentes 1. donde 1 es pésimo. etc. preguntando lo siguiente: ¿Cuánto tiempo hace que está afiliado a la cooperativa? ¿Cuántos créditos ha solicitado en el último año? Califique de 1 a 5 el servicio que recibe de la cooperativa. Domingo Realiza alguna compra: Sí.0000 a $20.0000 de $15.0000 a $25. etc i) j) k) l) Estadístico Comportamiento variable Un muestreo Un estudio observacional Segundo caso la cooperativa de ahorro y crédito “COOPERCRÉDITO”.000 a $15. por ejemplo: de $10. por ejemplo: de 0 a 1 créditos de 2 a 3 créditos de 4 a 5 créditos.0000 de $20. Sábado. Viernes. 3.000. No h) Valor de la compra. Créditos solicitados. Martes. 4. Miércoles. encuestó a todos sus 750 afiliados. 3 es regular y 5 es excelente.UNIDADES TECNOLÓGICAS DE SANTANDER SOLUCIÓN a) Las personas b) Todas las personas que visitan ese centro comercial c) Infinita d) Las 200 personas escogidas e) n = 200 f) Día de la semana que prefiere para visitar el centro comercialVariable ordinal ¿Realiza alguna compra cada vez que visita el centro comercial? Variable nominal Valor de la compra Variable continua g) Días de la semana: Lunes. 5 h) Tiempo de afiliación. a) ¿Cuáles son los elementos de este estudio? b) Defina la población en estudio c) ¿De qué tipo es esta población? d) ¿Se realizó un censo o un muestreo? e) ¿Cuál es el tamaño de la población? f) ¿Cuál es el tipo exacto de cada una de las variables del estudio? g) ¿Cuáles son las categorías de cada una de las variables cualitativas? h) ¿Cómo se pueden categorizar cada una de las variables cuantitativas? i) Sí como máximo los afiliados han solicitado 5 créditos en el último año ¿Cómo se llama en estadística a este valor? j) ¿Qué comportamiento tiene el valor del punto anterior? k) ¿Qué tipo de estudio se realizó? SOLUCIÓN a) Los afiliados b) Todos los afiliados a la cooperativa COOPERCRÉDITO c) Finita d) Un censo e) N = 750 f) Tiempo de afiliación Continua Créditos solicitados Discreta Calificación del servicio Ordinal g) Calificación del servicio: 1. 2. DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 19 . Jueves. por ejemplo: de 0 a 2 años de 2 a 4 años de 4 a 6 años. etc. UNIDADES TECNOLÓGICAS DE SANTANDER i) j) k) Parámetro Es una constante Un estudio observacional DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 20 . 1 ARREGLO DE DATOS DE VARIABLE CONTINUA INTRODUCCIÓN Para visualizar las características de una situación representada por un conjunto de datos o establecer el patrón de comportamiento de esta situación. los datos se deben organizar de alguna manera.000 ) 1.3.2 CONCEPTO DE CLASE O CATEGORÍA En general. llamamos A a la amplitud de la clase. y un límite superior ( $800. La Estadística propone una metodología que consiste en agrupar los datos recolectados en conjuntos de categorías o clases estadísticas y con este conjunto construir una tabla que se llama Distribución de Frecuencias 1.000 = $300. a un conjunto de datos que están dentro de un intervalo determinado de valores.3. para datos correspondientes a ingresos de personas podemos crear una clase de las personas que tienen ingresos entre $500.3 CLASE ESTADÍSTICA O CATEGORÍA ESTADÍSTICA En estadística se llama clase. tienen.UNIDADES TECNOLÓGICAS DE SANTANDER 1. LS al límite superior de la clase y LI al límite inferior de la clase.000 − $500. DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 21 .5 CARACTERÍSTICAS DE LOS CONJUNTOS DE CLASES ESTADÍSTICAS Un conjunto de clases o categorías es considerado como un conjunto de clases estadístico sí todas las clases. las siguientes tres características: Amplitud constante Mutuamente excluyentes Exhaustivas Amplitud constante se refiere a que la amplitud de todas las clases de un conjunto de clases en que se agrupa un determinado grupo de datos debe ser la misma para todo el conjunto. En el ejemplo anterior la amplitud de la clase de ingresos es de $300. por lo tanto. Es decir.000.000.3 1.4 AMPLITUD DE CLASE O INTERVALO DE CLASE Es la distancia o diferencia que hay entre los límites de una clase. un límite inferior ( $500. una clase o categoría es un conjunto de elementos que tienen una o varias características en común.3. expresando aritméticamente la amplitud de la clase así: 𝐴 = 𝐿𝑆 − 𝐿𝐼 Para el ejemplo: 𝐴 = 𝐿𝑆 − 𝐿𝐼 = $800. Por ejemplo. para visualizar las características de un conjunto de datos. por ejemplo. las personas mayores de 60 años pertenecen a la clase de la tercera edad 1. Toda clase estadística tiene. la Estadística propone que se agrupen estos datos en intervalos de valores o “clases” 1.3. las personas que compiten en algún deporte pertenecen a la clase de los deportistas. del conjunto. únicamente.3. que para calcular la amplitud de clase se resta del límite superior de la clase el límite inferior. simultáneamente.000 ).000 y $800. Para expresar estas ideas en símbolos.000 Entonces. se deben agrupar los datos. 1. Hay dos criterios para resolver este problema como se presenta en la siguiente gráfica: Los criterios propios se aplican cuando una circunstancia técnica o alguna otra razón hacen deseable un determinado número de clases para agrupar los datos del fenómeno en estudio.3𝑙𝑜𝑔(𝑛) En la expresión. debe corresponder únicamente a una sola clase Conjunto de clases exhaustivas cuando el conjunto de clases puede contener a todos los datos de una muestra. de la cantidad de datos que se hayan recolectado sobre ese fenómeno. las alternativas. cuando se aplica el segundo criterio son: La norma empírica de la estadística indica que el número de clases en que se deben agrupar cualquier conjunto de datos debe ser como mínimo 5 ó 6 clases y como máximo alrededor de 20 clases La fórmula exponencial que tiene la siguiente expresión: 𝑁0 𝐶 = 2𝑘 La fórmula logarítmica que tiene la siguiente expresión: 𝑁0 𝐶 = 1 + 3.3. más usuales. El criterio del volumen de datos se refiere a que el número de clases en que se van a agrupar los datos. En general.UNIDADES TECNOLÓGICAS DE SANTANDER Conjunto de clases mutuamente excluyentes se refiere a que cualquier dato. También. 𝐶 es la abreviatura de número de clases y 𝒌 indica la cantidad de clases en que. de algún fenómeno en estudio. de un grupo de datos en estudio. según esta expresión. para un estudio que contiene 155 datos esta expresión funciona así: DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 22 .6 NÚMERO DE CLASES Una de las primeras inquietudes que surge cuando se van a agrupar un conjunto de datos en clases estadísticas es en cuantas clases es conveniente o adecuado agrupar estos datos. 𝑵𝟎 𝑪 = 𝟐𝒌 𝑁0. Por ejemplo. se aplican criterios propios cuando se desea facilitar la comparación del estudio actual con otro realizado en alguna época anterior. depende exclusivamente. 9 6.6 2. 1. 𝑁0 𝐶 = 28 = 256 como 256 > 155 el número de clases igual a 8.3. 𝑁0 𝐶 = 26 = 64 como 64 < 155 Sí 𝑘 = 7 clases.8 2. conveniente.3 4.7 4.9 3.23 Otros criterios pueden ser. que se desean agrupar Por ejemplo. como el anterior. se suelen manejar volúmenes de datos muy superiores al del presente ejemplo 1. las siguientes preguntas: ¿De qué tipo es la variable? ¿En cuántas clases o categorías es más conveniente agrupar los datos? ¿Cuál es la amplitud de clases más conveniente? ¿Cuáles deben ser los límites de la primera clase? Para resolver estas preguntas se propone el siguiente procedimiento: 1.3 6. en primera instancia.9 6. por ejemplo.7 3.1 3. para el estudio de 155 datos se tiene: 𝑁0 𝐶 = 1 + 3.9 5. en un autoservicio. entonces.1 Este ejemplo es útil para fines de aprendizaje.8 4. Para realizar este proceso se deben resolver.0 2.8 2. Para establecer el número de clases teniendo en cuenta el volumen de datos.6 3.6 4.2 3. números de clases que hacen que los límites de las clases sean muy fáciles de establecer o que las clases automáticamente queden mutuamente excluyentes.0 2. 𝟑𝒍𝒐𝒈(𝒏) 𝑵𝟎 𝑪 es también.8 MÉTODO ESTADÍSTICO Como se dijo al comienzo de este tema.0 2.9 3.7 EJEMPLO PRÁCTICO La siguiente tabla se refiere a los galones de gasolina corriente que tanquearon la semana pasada. para agrupar estos 155 datos es de 8 clases = 8.7 2. para describir una situación representada por un conjunto de datos.0 2.3 4.5 2.0 2.8 5. una muestra de vehículos escogidos al azar 3.5 1.0 5.3. entonces.UNIDADES TECNOLÓGICAS DE SANTANDER Sí 𝑘 = 6 clases. la abreviatura de número de clases.4 2.0 2.1 3.3. según este procedimiento. Tipo de variable relacionada con la situación en estudio (Revisar el tema en el módulo CONCEPTOS BÁSICOS) 2. la estadística propone agrupar los datos en un conjunto de clases o categorías y con este conjunto construir una tabla que se llama Tabla de Frecuencias o Distribución de Frecuencias.9 2. porque en situaciones reales. En la expresión 𝑵𝟎 𝑪 = 𝟏 + 𝟑.3𝑙𝑜𝑔(155) quiere decir que el número conveniente de clases.6 2.6 2. es conveniente. entonces. 𝑁0 𝐶 = 27 = 128 el número de clases igual a 6 no es como 128 < 155 el número de clases igual a 7 no Sí 𝑘 = 8 clases.0 1. se escoge.9 PROCEDIMIENTO PARA CONSTRUIR UN CONJUNTO DE CLASES ESTADÍSTICO CON VARIABLE CONTINUA 1. 𝒍𝒐𝒈(𝒏) se refiere a logaritmo con base 10 y 𝒏 es la cantidad o volumen de datos.4 4.0 3. es al más adecuado para agrupar los 155 datos del estudio. a criterio del DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 23 .8 1. 1.3𝑙𝑜𝑔(𝑛) entonces. Determinar el número de clases Como se indicó anteriormente el número de clases se puede determinar de acuerdo a los siguientes criterios. Para establecer la amplitud de las clases: Determinar los valores máximo y mínimo del conjunto de datos que llamaremos aquí: 𝑥𝑚𝑎𝑥 y 𝑥𝑚𝑖𝑛 Calcular el Rango. sea un valor fácil de manejar 4. entonces. entre la fórmula exponencial o la fórmula logarítmica 3. Construcción de las clases o categorías: específicos para variable continua DEPARTAMENTO DE CIENCIAS BÁSICAS el número de clases igual a 5 no 𝑁0 𝐶 = 1 + 3. números enteros o valores terminados en número par Que la marca de clase. el límite inferior de la primera clase debe ser menor que el 𝑥𝑚𝑖𝑛 Una vez realizado el cuarto paso se agregan las demás clases.25 quiere decir Estos pasos se presentan en la siguiente tabla y son VERSIÓN 12 FECHA: 2015 Página 24 . faltantes. que se estudiará más adelante. Tipo de variable en estudio: en este caso es variable continua 2. Cuando se haya establecido el conjunto de clases en que se van a agrupar los datos del estudio. que el número de clases conveniente es de 6 3.3𝑙𝑜𝑔(39) = 6. R o distancia entre el valor más pequeño y el valor más grande de los datos de la muestra con la expresión: 𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 𝑅 Calcular la amplitud de las clases con la expresión: :𝐴 = 𝑁0 𝐶 Modificar la amplitud calculada en el paso anterior. A esta amplitud la llamaremos: 𝐴𝑚𝑜𝑑 Existen varios criterios para realizar este último paso. Por criterios propis: Cuando exista alguna circunstancia que haga conveniente o deseable un determinado número de clases Norma empírica: Se puede escoger cualquier número de clases entre 6 y 20 dependiendo del criterio o preferencia personal del analista y se hacen varios tanteos hasta encontrar un número de clases satisfactorio Aplicando las fórmulas exponencial o logarítmica Aplicando la fórmula 𝑁0 𝐶 = 2𝑘 Para 𝑘 = 5 clases.3. entonces. el límite superior de una clase debe coincidir con el límite inferior de la siguiente. Por ejemplo. variable continua.10 DESARROLLO DEL EJEMPLO 1.UNIDADES TECNOLÓGICAS DE SANTANDER analista. se debe verificar que reúnan las tres condiciones de todo conjunto de clases estadístico. conveniente de clases 𝑁0 𝐶 = 25 = 32 como 32 < 39 𝑁0 𝐶 = 26 = 64 como 64 > 39 quiere decir que 6 es el número Aplicando la fórmula 𝑁0 𝐶 = 1 + 3. Sí 𝑘 = 6 clases. teniendo en cuenta que para. entre los cuales se encuentran: Que la amplitud tenga la misma precisión de los datos del estudio Que los límites de las clases resultantes sean números fáciles de manejar. Para realizar este paso se recomienda que siempre que sea posible. Establecer los límites de primera clase. es conveniente. 9 4.7 = 5.C = 0.7. Con mucha frecuencia.86666667 Sí para modificar la amplitud. 1.7 R = A = Xmax .2 Restar esta diferencia al Xmin. entonces. Establecer los límites de la primera clase Para establecer los límites para la primera clase dijimos que se recomienda que el límite inferior.2 = 0.2 X´min se refiere al límite inferior de la primera clase El límite superior de la primera clase se obtiene sumándole al límite inferior la amplitud modificada. para variable continua.1.Xmin = R / No. que llamaremos Rango Modificado decir: ( Rmod ). que este conjunto.7 – 0. teniendo en cuenta que. pero.2 = 1.UNIDADES TECNOLÓGICAS DE SANTANDER TABLA No.8. orienta a la analista. el límite superior de una clase es igual al límite inferior de la clase siguiente y teniendo el cuidado de revisar.2 / 6 = 5.9 Xmin = 1. es Rmod = Amod x No. sobre cuál puede ser ese valor. la amplitud debe ser igual a 0. utilizamos el criterio de que debe tener la misma precisión de los datos del estudio.5 por lo que el límite inferior de la primera clase podría ser 1.2 = 0.11 CONSTRUCCIÓN DE LA DISTRIBUCIÓN DE FRECUENCIAS Para realizar este proceso se siguen los siguientes pasos: Establecer el número de observaciones dentro de cada clase ( FA ) ( tabla de conteo ) Calcular la frecuencia relativa ( FR ) DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 25 .3. con la amplitud modificada. en este caso. un número inferior a 1. sea un número inferior al Xmin. Se puede.4 Hallar la diferencia entre el rango modificado y el rango original. en este caso. por lo que la amplitud modificada queda así: Amod = 0. como hay más dígitos después del primer decimal. reúna las tres condiciones de todo conjunto de clases estadístico. es decir: X´min = 1. terminar de construir el conjunto de clases.5 como se observa en la tabla No. ahora. de esta clase. siempre se ajusta hacia arriba.1 No. si no se tiene ninguna idea sobre este aspecto se puede utilizar el siguiente procedimiento: Recalcular el rango.9 .4 – 5.9x6 = 5. pero.C = 6 Xmax = 6. el contexto en el que se desarrolla el estudio.R = 5.C 6. es decir: Rmod . 13 LECTURA DE LA DISTRIBUCIÓN DE FRECUENCIAS Esta tabla permite describir la situación histórica de la venta de gasolina en esta estación de servicio. Observando esta tabla se puede ver que el 59% de los vehículos de la muestra tanquearon menos de 3.3. dividiendo la frecuencia absoluta de la clase.13 0.05 0.3.1 6.5 2. la mayoría de los vehículos de la muestra.23 0.74 0. FR.87 0.3 4. entre el total de datos de la muestra.59 0.36 0. FA.1 galones 1. la columna de frecuencia relativa acumulada. sumando la frecuencia absoluta de la clase. sumando la frecuencia relativa de la clase. el 5% de los vehículos de la muestra tanquearon entre 5.4 3.0 galones. 1.3 galones de gasolina o que el 13% de los vehículos de la muestra tanquearon mas de 5.9 FA 9 14 6 5 2 3 39 FAA 9 23 29 34 36 39 TABLA No.08 1. para cualquier clase. Es práctico que los valores de la frecuencia relativa se tomen con dos decimales y su suma se ajuste para que dé exactamente uno Frecuencia Relativa Acumulada FRA: Se calcula. para cada clase.9 FRA 0.5 2. con la frecuencia absoluta de la clase anterior Frecuencia Relativa FR: Se calcula. FR y FRA se expone a continuación 1. tanquearon entre 2.59 0.4 2. 1 2 3 4 5 6 CLASES 1. un 36%.4 y 3.3. Esta tabla se encuentra al lado de la tabla de distribución de frecuencias y se utilizó.12 LOS TIPOS DE FRECUENCIAS Los tipos de frecuencias que se presentan en la tabla No.92 1. FA.0 6.2 5.15 0. para cada clase.UNIDADES TECNOLÓGICAS DE SANTANDER Ajustar la frecuencia relativa para que la suma de igual a 1 Calcular la frecuencia relativa acumulada ( FRA) TABLA No.74 0.2 son los siguientes: Frecuencia Absoluta FA: Es la cantidad de datos de la muestra que corresponden a cada clase.87 0.2 5.4 3.23 0.0 6. con el fin de facilitar la descripción de la situación utilizando estas frecuencias.3 4.3 galones de gasolina.3. por ejemplo.2 DISTRIBUCIÓN DE FRECUENCIAS No.1 6.0 6.15 REPRESENTACIÓN GRÁFICA DE LA SITUACIÓN EN ESTUDIO La Estadística Descriptiva utiliza tres tipos de gráficos para representar cualquier situación o fenómeno en DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 26 . FAA y FRA.1 y 6.23 0.00 Menor Que 1. en este caso.0 galones de gasolina y fue la clase con menor frecuencia de tanqueo.3 FR 0.1 5.00 La tabla No. Solamente tres vehículos de la muestra tanquearon más de 6.00 FRA 0 0. Se obtiene por conteo Frecuencia Absoluta Acumulada FAA: Se obtiene. con la frecuencia relativa de la clase anterior 1.3 3.2 recibe el nombre de DISTRIBUCIÓN DE FRECUENCIAS o TABLA DE FRECUENCIAS y los detalles de su construcción serán explicados por el docente en la exposición que haga sobre este tema y el significado de las columnas FA.92 1.14 LA TABLA MENOR QUE Es una tabla auxiliar que se construye a partir de las distribuciones de frecuencias acumuladas.2 4. por debajo del límite inferior de la clase más baja Para construir el polígono de frecuencias necesitamos introducir el concepto de Marca de Clase 1.10 0.35 0.3.18 MARCA DE CLASE Es el punto medio de una clase. donde las clases se representan mediante rectángulos.25 0.3. dos clases adicionales.5 2.4 3.05 0.15 0.23 0.17 EL POLÍGONO DE FRECUENCIAS Se hace a partir del histograma uniendo las marcas de clase proyectadas sobre el lado superior de los rectángulos y agregando.30 0. por encima del límite superior de la clase más alta y la otra.05 0.9 GALONES 1. FR. Se calcula sumando los límites de cada clase y dividiendo este total por 2.2 5. FA o la frecuencia relativa.1 6.15 0.08 0. El símbolo que usualmente se utiliza para representar la marca de clase es Xi La expresión matemática de la marca de clase es: Xi = 𝐿𝑆 + 𝐿𝐼 2 DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 27 .36 FRECUENCIA RELATIVA 0. una.UNIDADES TECNOLÓGICAS DE SANTANDER estudio: El histograma El polígono de frecuencias La ojiva Estos gráficos permiten visualizar de manera fácil y rápida los resultados que se presentan en la distribución de frecuencias 1.3.3 4.16 EL HISTOGRAMA Es un gráfico de frecuencia absoluta.0 6.13 0. para cerrar la figura. El siguiente histograma se refiere al ejemplo práctico y se utilizó la frecuencia relativa HISTOGRAMA 0.20 0.40 0.00 1. UNIDADES TECNOLÓGICAS DE SANTANDER Donde LS es el límite superior de la clase y LI es el límite inferior de la clase. Por ejemplo, para construir la marca de clase de la primera clase se procede así: Xi = 1,5 + 2,4 2 = 1,95 Las marcas de clase se utilizan, también, cuando se requiere representar todos los valores de una clase por un solo número. Por ejemplo, 1,95 galones representa todos los valores de la muestra que se encuentran entre 1,5 galones y 2,4 galones Se puede construir, entonces, con las marcas de clase, una tabla auxiliar de cálculos que permita elaborar fácilmente el polígono de frecuencias, como se presenta a continuación: TABLA AUXILIAR DE CÁLCULOS Marca de No. CLASES clase FR 0 0,6 1,5 1,05 0,00 1 1,5 2,4 1,95 0,23 2 2,4 3,3 2,85 0,36 3 3,3 4,2 3,75 0,15 4 4,2 5,1 4,65 0,13 5 5,1 6,0 5,55 0,05 6 6,0 6,9 6,45 0,08 7 6,9 7,8 7,35 0,00 Obsérvese que la tabla tiene ahora 8 clases porque se han agregado dos clases, la número cero y la número 7. A estas clases se les llama clases falsas porque no hay observaciones para ellas; su finalidad es presentar el polígono de frecuencias como una figura cerrada POLÍGONO DE FRECUENCIAS 0,36 FRECUENCIA RELATIVA 0,40 0,30 0,23 0,20 0,15 0,10 0,13 0,05 0,08 0,00 0,00 0,00 1,05 1,95 2,85 3,75 4,65 5,55 GALONES 6,45 7,35 Tanto el histograma como el polígono de frecuencias permiten visualizar algunas de las características de la situación o fenómeno que se está estudiando, tales como: El rango de los datos Alrededor de qué valores tienden a agruparse los datos Valores de la muestra que se presentan con más o menos frecuencia A qué lado de la gráfica parecen agruparse más los datos Los demás detalles de la construcción del polígono de frecuencias serán explicados por el docente en la exposición que haga sobre este tema DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 28 UNIDADES TECNOLÓGICAS DE SANTANDER 1.3.19 COMO INTERPRETAR UN HISTOGRAMA O UN POLÍGONO DE FRECUENCIAS Los histogramas y los polígonos de frecuencias facilitan a las personas que tienen que tomar decisiones sobre una determinada situación una visión rápida del comportamiento y características de la situación que se estudia. Algunas de las preguntas que se pueden responder observando estas gráficas son: ¿Cuál es el rango de los datos? ¿En qué clases se concentran el mayor número de datos? ¿Cuál clase contiene menos datos? ¿Qué valores de la muestra se presentan con más o menos frecuencia? ¿A qué lado de la gráfica parecen concentrarse más los datos? ¿Se presentan huecos o clases vacías? ¿Se presentan valores aislados de los demás? ¿La gráfica presenta subidas o bajadas bruscas o suaves? ¿Cuántos picos tiene la gráfica? ¿Es simétrica la gráfica? 1.3.20 LA OJIVA La ojiva es un gráfico de frecuencias acumuladas que describe que cuantas unidades o qué porcentaje de unidades se encuentran por encima o por debajo de un determinado valor de la variable. Este gráfico se construye a partir de la tabla MENOR QUE, utilizando la frecuencia absoluta acumulada, FAA o la frecuencia relativa acumulada, FRA. En el gráfico que se presenta a continuación se utilizó la frecuencia relativa acumulada. OJIVA FRECUENCIA RELATIVA ACUMULADA 1,2 1,00 1 0,87 0,92 0,74 0,8 0,59 0,6 0,4 0,23 0,2 0 0 1,5 2,4 3,3 4,2 5,1 6,0 6,9 GALONES Los detalles sobre la construcción de estos gráficos serán explicados por el docente en la exposición que haga sobre este tema 1.3.21 LA INTERPOLACIÓN En general, la interpolación, es un método de cálculo para establecer el valor de la ordenada de un valor de DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 29 UNIDADES TECNOLÓGICAS DE SANTANDER la variable que se encuentra “dentro” de otros valores ya calculados en una tabla. En el caso de la Estadística Descriptiva, se utiliza para calcular valores de la frecuencia absoluta acumulada, FAA o de la frecuencia relativa acumulada, FRA, correspondientes a valores de la variable que no se encuentran en la tabla MENOR QUE, pero que están dentro de los valores mínimo y máximo recolectados en el estudio. Por ejemplo, si se quiere saber qué porcentaje de los vehículos tanquearon mas de 4,8 galones de gasolina, al buscar este valor en la tabla MENOR QUE se detecta que aunque no está tabulado, se encuentra entre los valores de la variable 4,2 y 5,1 galones. Con esta información se pueden disponer los datos existentes y los buscados de la siguiente manera: X0 = 4,2 X1 = 4,8 X2 = 5,1 Y0 = 0,74 Y1= ? Y2 = 0,87 La expresión matemática que permite realizar el cálculo de interpolación es la siguiente: Y´1= Y0 + (𝑋1 −𝑋0 ) (𝑋2 −𝑋0 ) (Y2 - Y0) Reemplazando los símbolos por los valores se tiene: Y´1= 0,74 + ( 4,8 −4,2 ) ( 0,87 - 0,74 ) = 0,827 ≈ 0,83 ( 5,1 − 4,2 ) Esto quiere decir que el 83% de los vehículos de la muestra tanquearon menos de 4,8 galones, pero, como se quiere saber es que porcentaje tanqueó más de 4,8 galones, se debe restar el resultado anterior de 1 1 - 0,83 = 0,17 = 17% que es, entonces, porcentaje de vehículos de la muestra que tanquearon mas de 4,8 galones DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 30 3 68 56 91 81 84 76 79 78 54 36 71 62 49 90 67 60 64 91 77 51 41 87 72 63 45 91 66 63 52 61 67 74 68 75 57 85 DESARROLLO DEL EJEMPLO 1. que por ser variable discreta. R o distancia entre el valor más pequeño y el valor más grande de los datos de la muestra con la expresión: 𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 𝑅 Calcular la amplitud de las clases con la expresión: :𝐴 = 𝑁0 𝐶 Tomar como amplitud modificada solamente la parte entera Aquí se debe revisar si la amplitud modificada es un valor impar. teniendo en cuenta. Norma empírica 5. Para establecer la amplitud de las clases: Determinar los valores máximo y mínimo del conjunto de datos que llamaremos aquí: 𝑥𝑚𝑎𝑥 y 𝑥𝑚𝑖𝑛 Calcular el Rango.4.1 ARREGLO DE DATOS DE VARIABLE DISCRETA PROCEDIMIENTO PARA COSNTRUIR UN CONJUNTO DE CLASES ESTADÍSTICO PARA VARIABLE DISCRETA 1.4 1. Por conveniencia 4. se debe hacer una corrección como se muestra en el desarrollo del Ejemplo Práctico 4.4. Para establecer el número de clases: 3. Tipo de variable relacionada con la situación en estudio (Revisar el tema en el módulo CONCEPTOS BÁSICOS) 2. Determinar el número de clases Como se indicó anteriormente el número de clases se puede determinar de acuerdo a los siguientes criterios.2 EJEMPLO PRÁCTICO Una muestra de 41 días del número de transacciones que se realizan por día en un cajero automático se presenta en la siguiente tabla: 73 83 87 47 80 1. Fórmulas exponencial o logarítmica 3. las clases no pueden ser contiguas.UNIDADES TECNOLÓGICAS DE SANTANDER 1. Establecer los límites de la primera clase: Se toma como límite inferior de la primera clase el 𝑥𝑚𝑖𝑛 El límite superior de la primera clase se obtiene sumándole al límite inferior la amplitud modificada. Cuando se da este caso. Por conveniencia: Cuando exista alguna circunstancia que haga conveniente o deseable un DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 31 . Tipo de variable en estudio: en este caso es variable discreta 2. por lo que el límite inferior de cualquier clase es igual al límite superior de la clase anterior más uno 1.4. Las demás clases se construyen. calculada Cuando la amplitud modificada es un número impar. Utilizando la fórmula logarítmica se tiene: 𝑁0 𝐶 = 1 + 3. como ocurre en este ejemplo.4 = 36 CONSTRUCCIÓN DE LA DISTRIBUCIÓN DE FRECUENCIAS Se siguen los siguientes pasos: Establecer el número de observaciones dentro de cada clase ( FA ) ( tabla de conteo ) Calcular la frecuencia relativa ( FR ) Ajustar la frecuencia relativa para que la suma de igual a 1 Calcular la frecuencia relativa acumulada ( FRA) : El resultado de este proceso se presenta en la tabla No. como se presenta a continuación. son valores fraccionarios. para el mismo ejemplo. se borra toda la parte decimal de la amplitud.4 : DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 32 . 3. A.36 = 55 A = R / No. Establecer los límites de la primera clase: El límite inferior de la primera clase es 𝑥𝑚𝑖𝑛 1. que se utilizan para representar a las clases. Establecer la amplitud de las clases: No.3 que indica que un número conveniente de clases para esta cantidad de datos es de 6 clases.3𝑙𝑜𝑔(41) = 6. por lo que se prefiere agrupar los datos en clases que sean de amplitud par.C = 6 Xmax = 91 Xmin = 36 R = Xmax .UNIDADES TECNOLÓGICAS DE SANTANDER determinado número de clases Norma empírica: Se puede escoger cualquier número de clases entre 6 y 20 dependiendo del criterio o preferencia personal del analista y se hacen varios tanteos hasta encontrar un número de clases satisfactorio Aplicando las fórmulas exponencial o logarítmica.Xmin = 91 . las marcas de clase.C = 55 / 6 = 9. esto hace que el número de clases pase de 6 a 7 Amod = 8 4. esta situación es incómoda porque no refleja la realidad en los casos de variable discreta. donde la amplitud se cambió de 9 transacciones por día a 8 transacciones por día.16666667 Amod = 9 En el cálculo anterior se puede observar que para construir la amplitud modificada.4. UNIDADES TECNOLÓGICAS DE SANTANDER TABLA No.53 0. También se puede ver que el límite superior de la última clase. que el límite inferior de cada clase es igual al límite inferior de la clase anterior más uno. porque en cada clase se contabilizan todos los datos incluidos entre los dos límites de la clase.22 0.1 0.00 TABLA No.00 Se observa. (91). no coincide con el Xmax.90 1. nótese que el último valor de la columna Menor Que.2 0.05 0.5 Menor Que 36 45 54 63 72 81 90 99 FRA 0.4 No. recibe también el nombre de DIAGRAMA DE FRECUENCIAS y en él las clases se encuentran separadas. como se puede observar.22 0. También se observa que la tabla MENOR QUE.4.15 0.75 0. estas clases.25 0.15 0.1 HISTOGRAMA Para el caso de variable discreta el histograma. sino a ése valor más uno . de los datos. Sin embargo.53 0. no es igual al límite superior de la última clase. mutuamente excluyentes y exhaustivas.31 0. son de amplitudes constantes.90 1.15 0.5 REPRESENTACIÓN GRÁFICA 1.31 0.05 0.05 0. se construye de manera un poco distinta a como se hizo para el caso de variable continua.12 0.14 0.00 FRA 0 0.5.22 0. 1 2 3 4 5 6 7 CLASES 36 44 45 53 54 62 63 71 72 80 81 89 90 98 FA 2 5 6 9 9 6 4 41 FR 0.12 0.17 0.1 0. 1. (98).05 0.14 0.4.05 0 36 44 45 53 54 62 63 71 72 80 81 89 90 98 Número de transacciones DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 33 . como se ve en el siguiente gráfico: DIAGRAMA DE FRECUENCIAS Frecuencia Relativa 0. Las clases construidas de esta manera se llaman CLASES CERRADAS.17 0. también.75 0. de los datos y el límite inferior de la primera clase es el Xmin (36).22 0.10 1. como se hizo en el caso de variable continua. es más práctico utilizar la marca de clase. en la muestra. en el 14% de los días de la muestra se realizaron 58 transacciones.UNIDADES TECNOLÓGICAS DE SANTANDER Con frecuencia.22 0.14 0.12 0.05 0.15 0.00 40 49 58 67 76 85 94 Número de transacciones Ahora es mucho más fácil leer el diagrama de frecuencias. fue de 40 transacciones por día 1.10 0.12 0.2 POLÍGONO DE FRECUENCIAS Se construye de la misma manera.2 0. como se muestra en este gráfico.00 0 31 40 49 58 67 76 85 94 103 Número de Transacciones DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 34 .14 0.10 0.25 0.5.15 0.15 0.10 0.1 0.05 0. Nótese que en esta gráfica se presenta una distorsión debido a que las clases no son adyacentes Polígono de Frecuencias Frecuencia Relativa 0. a continuación Diagrama de Frecuencias Frecuencia relativa 0.22 0.20 0.22 0.05 0 0.22 0. por ejemplo. el número de transacciones por día menos frecuente. a partir del diagrama de frecuencias y las marcas de clase.4. en lugar de identificar cada clase con sus límites de clase.05 0.15 0.25 0. 8 0. porque la variable sólo toma valores enteros. aquí también.6 0.3 OJIVA Cuando la variable es discreta.2 1.53 0.4 0.00 1 0. la ojiva se construye de forma diferente. como en este caso.4. por lo que no tiene sentido interpolar para este tipo de variable.5.75 0.17 0.9 0. la ojiva para variable discreta es una función discontinua.05 0 36 45 54 63 72 81 90 99 Número de transacciones Se puede observar.31 0.2 0. este gráfico se construye a partir de la tabla MENOR QUE OJIVA Frecuencia Relativa Acumulada 1.UNIDADES TECNOLÓGICAS DE SANTANDER 1. DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 35 . aunque. Los resultados se presentan en la siguiente tabla: 1 2 0 4 2 0 0 1 3 1 2 0 1 1 0 1 0 3 X 0 1 2 3 4 FA 25 19 10 4 2 60 2 1 0 0 3 1 FR 0.97 1.00 1 4 1 1 0 0 MENOR QUE 0 1 2 3 4 5 0 0 2 0 2 1 0 0 2 0 2 1 1 0 0 1 0 1 FRA 0 0. de errores DEPARTAMENTO DE CIENCIAS BÁSICAS 3 VERSIÓN 12 4 FECHA: 2015 Página 36 .00 Diagrama de Frecuencias 30 25 No.31 0.90 0. como se muestra en el siguiente caso.90 0. son mutuamente excluyentes y son exhaustivas EJEMPLO Se tomó una muestra de 60 facturas registrando el número de errores por factura.73 0.42 0. Aquí X simboliza los valores que toma la variable que son al mismo tiempo las clases estadísticas. de facturas 25 19 20 15 10 10 4 5 2 0 0 1 2 No.42 0. es más práctico agrupar los datos en clases de amplitud cero.97 1.5 ARREGLO DE DATOS PARA VARIABLE DISCRETA EN CLASES DE AMPLITUD CERO Cuando el intervalo de valores que toma la variable es reducido y la variable es discreta.03 1.UNIDADES TECNOLÓGICAS DE SANTANDER 1.07 0. Estas clases cumplen con las tres características de una clase estadística: son de amplitud constante.42 0.00 0 0 1 0 3 2 FAA 25 44 54 58 60 0 1 0 0 1 2 FRA 0.17 0.73 0. 03 0.08 1. Adicionalmente.03 0. se utilizan en estos casos otros tipos de gráficos como se presenta en el siguiente ejemplo: EJEMPLO Se interrogó a una muestra de clientes de una cafetería sobre el tipo de bebida gaseosa que prefieren obteniéndose los siguientes resultados: Cocacola Quatro Pepsicola Cocacola Postobón Link Postobón Postobón Pepsicola Seven Up Pepsicola Cocacola Cocacola Quatro Quatro Link Cocacola Postobón Pepsicola Sprite Pepsicola Sprite Cocacola Postobón Cocacola Postobón Cocacola Postobón Cocacola Quatro Pepsicola Link Cocacola Postobón Sprite No.2 0.1 0.UNIDADES TECNOLÓGICAS DE SANTANDER ARREGLO DE DATOS CUALITATIVOS 1.15 0.17 0.29 0.17 0. 1 2 3 4 5 6 7 CLASES Cocacola Link Pepsicola Postobón Quatro Seven Up Sprite FA 10 3 6 8 4 1 3 35 FR 0. el arreglo y presentación de datos estadístico es limitado.29 0.23 0.3 0.11 0.35 0.00 Diagrama de Frecuencias Frecuencia Relativa 0. Sólo se pueden construir distribuciones de frecuencias con las frecuencias absolutas y relativas y diagramas de frecuencias.05 0 Cocacola Link Pepsicola Postobón Quatro Seven Up Sprite Tipo de bebida DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 37 .11 0.09 0.25 0.6 Cuando la variable es cualitativa.23 0.08 0.09 0. UNIDADES TECNOLÓGICAS DE SANTANDER Seven Up 0.23 Link Pepsicola 0.08 Sprite 0.09 0.03 0.17 DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 38 .11 Coca cola Quatro Postobón 0.29 0. 18 16.86 14. escogidos al azar.7 17. se presenta en la tabla de la derecha a) Construya la columna de la frecuencia relativa.3 19.46 12.1 12.88 0.04 17.76 19.01 10.62 23. de citas por día 119 131 132 144 145 157 158 170 171 183 184 196 197 209 210 222 Ventas/cliente (Millones de pesos) 10.3 12. Diseñe un conjunto de clases estadísticas para agrupar estos datos SOLUCIÓN n No.62 21.9 13.47 kilogramos. en una muestra de 153 cajas escogidas al azar.C = Xmax = Xmin = R= A= Amod = Amod(2) = Amod(3) = = 139 8 (8. dio un valor máximo de 25.1 13.07195) 210 119 91 11.32 12.46 Clase No.9 FECHA: 2015 No. con dos decimales y con el menor error de redondeo posible y agregue también. 1 2 3 4 5 6 7 8 Peso / caja (Kilogramos) 10.48 25.5 17.7 15.20948) 25. en una muestra de 139 días. 1 2 3 4 5 6 7 8 No.76 21. Diseñe un conjunto de 8 clases estadísticas para agrupar estos datos SOLUCIÓN n = No. dio un valor máximo de 210 citas por día y un mínimo de 119 citas por día.UNIDADES TECNOLÓGICAS DE SANTANDER 1.1 22. de citas por día 119 129 130 140 141 151 152 162 163 173 174 184 185 195 196 206 207 217 Tercer caso Las compras.C = Xmax = Xmin = R= A= Amod = Rmod = Rmod-R = X'min = 153 8 (8.87 1. de una muestra de los clientes de una empresa.5 19.48 23.375 11 10 12 Clase No. del año pasado.32 14.34 10. 1 2 3 4 5 6 7 8 9 No.1 21.9 15.34 Segundo caso El número de citas por día que recibió un centro médico.18 14.47 14. de Clientes 10 28 20 13 11 8 7 97 Página 39 .3 21.90 17.85875 1. la frecuencia relativa acumulada DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 Clase No.04 16.7 EJERCICIOS RESUELTOS Primer caso El peso de las cajas que despacha una fábrica a sus clientes.90 19.34 kilogramos y un peso mínimo de 10. 85 0.10 0.3 0 12.9 No.9 1.1 0.60 17.21 0.1 22.3 21.39 15.89% Respuesta: Sí se debe cambiar la estrategia de mercadeo porque solamente el 12% de los clientes de la muestra están comprando más de $20 millones DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 40 .7 17.00 Respuesta: El 74% de los clientes de la muestra compraron $17.29 0.07 1.74 19. de Clientes 10 28 20 13 11 8 7 97 FR 0.93 1.08 0.1 13.1 21.1189 = 11.00 b) MENOR QUE FRA 10.00 FRA 0.10 0.3 Y0 = X1 = 20 Y1 = X2 = 21.3 12. el año pasado.74 0.39 0.85 0.Y'1 = 0.9 13. ¿Qué recomienda usted al gerente? ¿Por qué? SOLUCIÓN a) Ventas/cliente (Millones de pesos) 10. compraron más de $20 millones.3 19.UNIDADES TECNOLÓGICAS DE SANTANDER b) ¿Qué porcentaje de los clientes de la muestra compraron $17.93 Y'1 = 0. del tercer punto. el gerente de la empresa debe cambiar toda su estrategia de mercadeo.8811 1 .7 0.5 millones o menos? c) Sí sólo el 13% o menos de los clientes de esta muestra.9 0.85 21.93 22.3 0.5 17.1 Y2 = 0.10 13.14 0.7 15.11 0.5 0.5 19.5 millones o menos c) X0 = 19.1 0.60 0.9 15.1 12. UNIDADES TECNOLÓGICAS DE SANTANDER 2 MEDIDAS DE TENDENCIA CENTRAL.1 2.1.2 CONCEPTO DE MEDIDA EN ESTADÍSTICA En estadística se llama medida a un cálculo o proceso que se realiza sobre un conjunto de datos para extraer alguna información DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 41 .1 MEDIDAS DE TENDENCIA CENTRAL FORMAS ESTADÍSTICAS DE DESCRIBIR UN FENÓMENO Anteriormente se vio que los fenómenos o hechos se pueden describir con tablas y gráficos.1. DE POSICIÓN Y DE DISPERSIÓN 2. 2. En esta unidad aprenderemos que también se pueden describir con números. UNIDADES TECNOLÓGICAS DE SANTANDER EJEMPLOS Calcular la estatura promedio de un grupo de personas Hallar la diferencia entre el mayor y el menor valor de un conjunto de datos Establecer el valor que más se repite dentro de un conjunto de datos 2. es decir. pero.1.5 LAS MEDIDAS DE TENDENCIA CENTRAL Son tres valores. en algunos casos.6 LAS MEDIDAS DE TENDENCIA NO CENTRAL O DE POSICIÓN Son. Los cálculos de las medidas de tendencia central y de dispersión para poblaciones. el comportamiento de una muestra o de una población. 2. una muestra. parcialmente. valores con los que se pretende describir parcialmente el comportamiento de los datos referidos a un fenómeno o hecho.1. con cada uno de los cuales. son diferentes de los cálculos de las medidas de tendencia central y de dispersión para muestras. símbolos diferentes para cada tipo de medida. 2. a diferencia de las medidas de tendencia central.1.8 MEDIDAS PARA POBLACIONES Y MEDIDAS PARA MUESTRAS Las medidas de tendencia central y de dispersión pueden clasificarse como Parámetros o Estadísticos.1. según sea que los datos utilizados correspondan a una población o a una muestra. reciben este nombre porque al representar el resultado de un cálculo en un gráfico de una distribución de frecuencias (histograma o polígono de frecuencias). en estos casos. Los parámetros son valores constantes Estadísticos: Cuando el cálculo se realiza con una parte de los datos de la población. se pretende describir. DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 42 . Las medidas tendencia central. Los estadísticos son variables 2. por lo que se utilizan.4 CLASES DE MEDIDAS EN ESTADÍSTICA En estadística existen tres clases de medidas: Las medidas de tendencia central Las medidas de tendencia no central o de posición Las medidas de dispersión 2. estos valores se suelen situar en los bordes de la distribución de frecuencias que los representa.7 LAS MEDIDAS DE DISPERSIÓN Las medidas de dispersión son cálculos o valores que indican que tan concentrados están los datos alrededor de un valor especial que se toma como referencia 2. el valor calculado siempre se sitúa hacia el centro de la gráfica.1. también.3 PARÁMETROS Y ESTADÍSTICOS En la unidad anterior se vio que los cálculos o medidas que se realizan con los datos referidos a una situación pueden clasificarse de dos maneras: Parámetros: Cuando el cálculo se realiza con todos los datos de la población.1. A la media aritmética simple se le llama usualmente La Media y la forma de calcularla depende de sí los datos están o no agrupados en clases. simboliza la media aritmética calculada para una población 𝑥̅ Se lee equis trazo o equis barra.UNIDADES TECNOLÓGICAS DE SANTANDER 2. se calcula sumando los valores registrados de la variable en estudio y dividiendo entre el total de estos valores registrados. en la población 𝒏 Es el número de valores que toma la variable.1. los datos en columna como se muestra a continuación SOLUCIÒN: DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 43 . en la muestra 𝑥𝑖 Es cada uno de los valores que toma la variable en la muestra o en la población EJEMPLO Las comisiones que un vendedor ha recibido en los 6 primeros meses del año se presentan en la siguiente tabla: MES Ingresos (Miles de $ ) Enero Febrero Marzo 800 950 920 Abril Mayo Junio 1000 830 900 Calcular la media aritmética interpretar el significado La expresión para calcular la media aritmética indica que se deben sumar todos los valores que toma la variable y dividir por el número de datos 𝑥̅ = 800+950+920+1000+830+900 6 𝑥̅ = $900 miles e Como esta forma de cálculos es poco práctica se suman.1.9 CLASES DE MEDIDAS DE TENDENCIA CENTRAL Existen tres clases de medidas de tendencia central: La media aritmética o promedio La mediana La moda 2.10 LA MEDIA ARITMÉTICA Existen dos tipos de media aritmética: la Media Aritmética Simple y la Media Aritmética Ponderada.1 MEDIA ARITMÉTICA PARA DATOS NO AGRUPADOS La media aritmética. 2. simboliza la media aritmética calculada para una muestra 𝑵 Es el número de valores que toma la variable.10. en estudio. en estudio.1. para datos no agrupados. tal como se indica a continuación: 𝜇= ∑ 𝑥𝑖 𝑁 𝑥̅ = Para poblaciones ∑ 𝑥𝑖 𝑛 Para muestras El significado de los símbolos es el siguiente: µ: Es la letra del alfabeto griego “mu”. La expresión matemática de este cálculo tiene dos presentaciones: una sí los datos registrados corresponden a una población y otra sí los datos corresponden a una muestra. mejor. de (Miles de $) Facturas 30 36 25 36 42 48 54 60 42 48 54 60 66 38 49 51 32 29 224 Calcular la media aritmética interpretar el significado Ventas No.1. en miles de pesos.764 FECHA: 2015 Página 44 .482 2.UNIDADES TECNOLÓGICAS DE SANTANDER MES Ingresos (Miles de $ ) Enero Febrero Marzo 800 950 920 𝑥̅ = Abril Mayo Junio 1000 830 900 Interpretación: La media aritmética es el mismo promedio y es como sí en cada uno de los 6 meses el comisionista hubiera ganado $900.000 Suma ∑ 𝑥𝑖 = 5400 ∑ 𝑥𝑖 𝑛 5400 = 6 = $900 𝑚𝑖𝑙𝑒𝑠 5400 2. simboliza la media aritmética calculada para una muestra Es el tamaño de la población 𝑛 Es el tamaño de la muestra 𝑥𝑖 Es la marca de clase de cada una de las clases en que se han agrupado los datos 𝐹𝐴𝑖 Es la frecuencia absoluta de cada una de las clases en que se han agrupado los datos EJEMPLO Una muestra del valor de las facturas. que se cancelan con tarjetas de crédito en una cadena de almacenes de modas se presenta en la siguiente tabla: Como se debe calcular la marca de clase de cada clase y multiplicar cada uno de esto valores por su respectiva frecuencia absoluta.827 224 DEPARTAMENTO DE CIENCIAS BÁSICAS Xi VERSIÓN 12 10.2 MEDIA ARITMÉTICA PARA DATOS AGRUPADOS La media aritmética se calcula sumando los productos de las marcas de clase por sus respectivas frecuencias absolutas y dividiendo esta suma por el número total de datos registrados el significado de los símbolos es el siguiente: 𝜇= 𝜇 𝑥̅ 𝑁 ∑ 𝑥𝑖 𝐹𝐴𝑖 𝑁 𝑥̅ = Para poblaciones ∑ 𝑥𝑖 𝐹𝐴𝑖 𝑛 Para muestras Es la letra del alfabeto griego “mu”. estas operaciones es más práctico realizarlas en forma tabular.601 1. simboliza la media aritmética calculada para una población Se lee equis trazo o equis barra.10.205 2. como se muestra a continuación: Ventas No. de (Miles de $) Facturas e XiFAi 30 36 42 48 54 36 42 48 54 60 25 38 49 51 32 33 39 45 51 57 825 1.824 60 66 29 63 1. 054 miles Interpretación: El valor de promedio de cada factura pagada con tarjeta de crédito es de $48. que es como si cada factura fuera de este valor 2.1.9. se utiliza una variante de la media aritmética que recibe el nombre de Media Aritmética Ponderada o Promedio Ponderado.1 Quiz No.2 Quiz No.0) Representa el valor relativo de cada uno de los datos. lo que no ocurre para el caso del polígrafo donde.5 4.0 CRÉDITOS 2 4 3 En el caso de los quices no existe ninguna información que permita pensar que estas tres notas tienen diferente nivel de importancia. cuya expresión matemática es la siguiente: 𝑥̅𝑝 = 𝑥̅𝑝 𝑥𝑖 𝑤𝑖 ∑ 𝑥𝑖 𝑤𝑖 ∑ 𝑤𝑖 Media aritmética ponderada Es el símbolo que se usa. para calcular el promedio. en casos como este.764 224 = $48. 3. extraídas del polígrafo correspondiente.UNIDADES TECNOLÓGICAS DE SANTANDER SOLUCIÒN: El total de la cuarta columna es ∑ 𝑥𝑖 𝐹𝐴𝑖 = 10. llamados Factores de Ponderación. para la media ponderada Representa los valores que toma la variable.4 3. En el ejemplo. por lo que su promedio se puede calcular utilizando la fórmula de la media para datos no agrupados.9 3. la nota de la asignatura B vale el doble que la nota de la asignatura A. por ejemplo.054 miles. En el ejemplo. los créditos de cada una de las asignaturas. en estas notas.3 ASIGNATURA A B C NOTA FINAL 4. es decir.1 3.12 MEDIA ARITMÉTICA PONDERADA Existen situaciones en las cuales los datos registrados sobre una situación traen in formación adicional que indica que estos valores no tienen la misma importancia relativa. 4 y 3 Aplicando la fórmula al ejemplo se tiene: DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 45 . como se presenta en el siguiente caso: EJEMPLO Las notas obtenidas por un estudiante en 3 quices de un corte y las notas finales. n. por lo que la media aritmética buscada es: 𝑥̅ = 10. es 224. del semestre.3 Promedio NOTA 3.1. se presentan en la siguiente tabla: PRUEBA Quiz No. las notas (4.764 y el total de datos.11 SIGNIFICADO DE LA MEDIA ARITMÉTICA La media aritmética o promedio calculada para un conjunto de datos significa que al remplazar el valor promedio por cada uno de los datos se obtiene el mismo resultado general 2.1 2. los valores 2.1 y 3. Sí los factores de crecimiento son 2. entonces. ignorando la información de los créditos.2 9. FC2…. para el Factor de Crecimiento es: DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 46 ..1...47 Sí para este caso del polígrafo el promedio se calculara como media aritmética simple.0 31.0 2 4 3 9 𝑥𝑖 𝑤𝑖 ∑ 𝑥𝑖 𝑤𝑖 = 31. .2 ∑ 𝑤𝑖 = 9 𝑥̅𝑝 = 31.1. la expresión. 2. Los factores de crecimiento. En tales casos el procedimiento de cálculo de la media.8 12.. FCi.1.FCn se llaman Factores de Crecimiento El índice de la raíz depende del número de factores de crecimiento..13 PROPIEDADES DE LA MEDIA ARITMÉTICA El cálculo de la media aritmética tiene en cuenta todos los valores de la variable en estudio registrados A todas las variables cuantitativas se les puede calcular la media aritmética Un conjunto de datos sólo tiene una media La media permite hacer comparaciones entre poblaciones o muestras La media se puede trabajar matemáticamente La media es afectada por los valores extremos No se puede calcular la media en distribuciones de frecuencias que tienen clase de extremo abierto 2. puede apartarse de los resultados reales sí la variabilidad de los datos es alta. entre otros. más apropiada. este cálculo daría 3.. sí los factores de crecimiento son 6 la raíz es sexta y así sucesivamente.....UNIDADES TECNOLÓGICAS DE SANTANDER ASIGNATURA A B C Suma NOTA FINAL CRÉDITOS 𝑥𝑖 𝑤𝑖 4. una expresión matemática especial para calcular promedios en los casos en que los datos provengan de tasas de interés. A este expresión matemática se le llama la media geométrica y se suele representar por la letra G G = n ( FC1)( FC 2)( FC3).15 CÁLCULO DE LA MEDIA GEOMÉTRICA Existe.14 LA MEDIA GEOMÉTRICA En muchas situaciones los datos se presentan en valores relativos tales como porcentajes o proporciones.9 3.7 que es diferente del promedio ponderado que da un valor de 3.. se determinan con la siguiente expresión: 𝐹𝐶 = 1 + 𝑉𝑎𝑙𝑜𝑟 𝑒𝑛 𝑃𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑗𝑒 100 Como el valor en porcentaje se llama comúnmente Tasa.4 9.( FCn) G Es el símbolo de la media geométrica FC1. la raíz es cuadrada. que se ha estado utilizando hasta ahora.2 9 = 3. porcentajes o números índices.47 2.1 3. 856% ≅ 0.7% 3 -2% 0. que son valores 2001 68 absolutos. para convertir este resultado en tasa.00856 – 1 ) x 100 = 0. los factores de crecimiento se determinan como se indica en el siguiente ejemplo: EJEMPLO Las ventas anuales de una empresa.2 VERSIÓN 12 FECHA: 2015 Página 47 .9% semanal Cuando los datos se presentan en valores absolutos. pero. las tasas de rentabilidad se deben convertir a factores de Rentacrecimiento Semana bilidad Renta 1 3% Semana bilidad FC 2 1% 1 3% 1.015 ¿A qué tasa promedio semanal ha estado variando la rentabilidad de este título? 6 1% 1. se presentan en la tabla No. ¿A qué tasa promedio anual están variando las ventas de esta empresa? TABLA No.7% 1.1.01 Con los factores de crecimiento.01)(0.01 4 0. se debe calcular un porcentaje promedio.9% Respuesta: El título ha estado aumentado a una tasa promedio del 0.03 3 -2% 2 1% 1.01) G = 1. AÑO s) Para convertir las ventas. en millones de pesos. el factor de crecimiento del año 2005 73 2006 2007 92 108 DEPARTAMENTO DE CIENCIAS BÁSICAS 2004 se consigue dividiendo 59 entre 32 Los demás cálculos se muestran en la tabla No.008557 (Factor de crecimiento promedio) Como las unidades de este cálculo son Factores de Crecimiento. en factores de crecimiento. 2003 32 2004 59 Por ejemplo.5% 1.UNIDADES TECNOLÓGICAS DE SANTANDER 𝐹𝐶 = 1 + 𝑇𝑎𝑠𝑎 100 EJEMPLO La rentabilidad de un título valor ha estado variando en las últimas semanas como se presenta en la siguiente tabla: Para aplicar la fórmula.03)(1. que es un valor relativo y no la Ventas venta promedio anual.98 5 1.1 Obsérvese que se pide la tasa promedio de crecimiento.98)(1.5% 4 0. se 2002 75 divide el valor de un periodo cualquiera entre el valor del periodo inmediatamente anterior. se despeja ésta de la última fórmula 𝑇𝑎𝑠𝑎 FC = 1 + ====>Tasa = ( FC – 1 )x100 100 Por lo tanto: Tasa promedio = (1.007)(1.015)(1. se calcula G G= 6 √(1. de la tercera columna. que es un valor (Millone absoluto.007 6 1% 5 1. 1. por lo tanto.08017 – 1) x 100 = 8.2373 1. es decir: G ≤ 𝑋̅ 2.8% mensual.08017 (Factor de Crecimiento promedio) Tasa Promedio = (1.1. FC. como se puede ver en el siguiente ejemplo: EJEMPLO Una persona invirtió $25 millones a 3 años. recibiendo al final de este periodo la suma de $33.UNIDADES TECNOLÓGICAS DE SANTANDER TABLA No. se calcula G G = 6√(1.8% Es decir.1029 2003 2004 2005 2006 2007 32 59 73 92 108 0.8438)(1. la inversión está creciendo.2603)(1.306 millones ¿A qué tasa promedio mensual creció esta inversión? La expresión de la media geométrica para casos como este es la siguiente: G= valor final valor inicial n Donde n es el número de periodos de tiempo durante el intervalo de la inversión Para el caso del ejemplo la expresión se aplica así: G= 36 33.1029)(0.2373)(1.17 USOS DE LA MEDIA GEOMÉTRICA La media geométrica se utiliza para calcular promedios de cantidades expresadas en porcentajes o en DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 48 .8438 1. el índice de la raíz es 36 Para calcular la tasa promedio se aplica la expresión: Tasa = ( FC – 1 )x100 Tasa promedio = (1.008 – 1) x 100 Tasa promedio = 0.4267 1.16 PROPIEDADES DE LA MEDIA GEOMÉTRICA La media geométrica siempre es menor o igual a la media aritmética.2 Obsérvese que no se puede calcular el factor de crecimiento del año 2001 porque no se conocen las ventas del año 2000.1739) G = 1. 2. AÑO Ventas (Millone s) FC 2001 2002 68 75 1.017% Respuesta: Las ventas están creciendo a una tasa promedio del 8% anual También se puede calcular la media geométrica para el caso de valores que varían en función del tiempo y sólo se conocen los valores iníciales y finales del periodo.2603 1.4267)(1. en promedio al 0.00800 (Factor de Crecimiento promedio) Como la tasa que se pide es mensual el número de periodos es 36.306 √ 25 = 1.1739 Con los datos de la tercera columna. 18 LA MEDIANA La mediana es el valor que ocupa la posición central de un conjunto de datos cuando estos están ordenados de menor a mayor.7 3.8 o por encima de 3.8 porque por debajo de él hay 4 datos y por encima otros 4.21.0 4.7 4.UNIDADES TECNOLÓGICAS DE SANTANDER proporciones 2.5 3.1. Castellanos A.19 INTERPRETACIÓN DE LA MEDIANA El docente que tomó la muestra podría describir el comportamiento de los estudiantes en la prueba diciendo que la mitad de las notas de la muestra se encuentran por debajo de 3.7 2.2 1. Zárate G. DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 49 .1.8 4. para situaciones que representen un mayor número de datos existe una expresión matemática que es la siguiente. 3. para representar la mediana es: 𝑋̃una equis con una onda en la parte superior que se lee equis mediana El cálculo de la mediana para el caso de las notas se expresa así: 𝑥̃ = 3.21 CÁLCULO DE LA MEDIANA PARA DATOS NO AGRUPADOS 2. pero.8 4.8 2. como se vio anteriormente. la mediana.20 SÍMBOLO DE LA MEDIANA El símbolo utilizado.1.3 1. Rueda J.9 3. Torres Z. el docente podría haber utilizado el promedio o media aritmética para describir el comportamiento de los estudiantes en la muestra.8 es el valor mediano 2. entonces.5 ESTUDIANTE L. Para aclarar este concepto veamos el siguiente ejemplo: EJEMPLO La siguiente tabla presenta las notas obtenidas por una muestra de estudiantes en un examen ESTUDIANTE R. la mediana se puede calcular por simple inspección como se hizo anteriormente.3 4. León NOTA 4.1 Número impar de datos Cuando en número de datos que componen la muestra es impar.1.2 4. Benítez NOTA 2.9 4. Manjarrés O.0 1.7 Ordenando estos datos de menor a mayor donde el menor está en el extremo izquierdo y el mayor en el extremo derecho de la fila se tiene: 1. en estas notas.8 3. Ardila M. Martínez P. por lo tanto. como en el ejemplo de las notas. Pero.8 El número que ocupa la posición central es 3.8 Alternativamente.1. es otra manera de describir una situación que es diferente de la media aritmética 2. en esta ocasión.77 X10 1.65 R.71 Al ordenar estos datos de forma ascendente e indicar la posición de cada uno de ellos se llega a la siguiente tabla: X1 1. la expresión para calcular la mediana es la siguiente.62 F. por lo que para establecer su valor se promedian 1.68 X5 1. Núñez 1.3 X8 4. entonces. Orduz 1.1. Rojas 1.75 G.57 D.8 X6 4.81 Como se puede observar.8 Los Xi indican la posición de cada dato.5 X5 3.77 J.71 X7 1.3 ocupa la séptima posición cuando los datos están ordenados de forma ascendente Como el número de datos es 9.69 X6 1. X 7 indica que 4.69 L.9 X4 3.2 Número par de datos Cuando el número de datos sin agrupar es par. esto quiere decir que el valor mediano es el valor que ocupa la quinta posición cuando los datos están ordenados de menor a mayor 𝑥̃ = X5 = 3.2 X2 1.73 P. García 1.57 X2 1.8 tal como se había establecido anteriormente por simple inspección 2. López 1.68 H.0 X7 4. Pinzón 1. por ejemplo. entonces (n+1)/2 es igual a 5.75 X9 1. 𝑥̃ = X n / 2 X n / 21 2 Esto quiere decir que el valor mediano es el resultado de promediar los valores que ocupan las posiciones X n / 2 y X n / 21 Para explicar esta expresión veamos el siguiente ejemplo: EJEMPLO Una muestra de las estaturas. en metros. Acevedo 1.62 X3 1.65 X4 1. Rodríguez 1.69 y 1.7 X3 2. de 10 estudiantes de una clase se presentan en la siguiente tabla: ESTUDIANTE ESTATURA ESTUDIANTE ESTATURA M.81 T. Sánchez 1.7 X9 4.71 así: DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 50 . no existe un valor único que se localice en el centro del conjunto de datos ordenado.21.UNIDADES TECNOLÓGICAS DE SANTANDER 𝑥̃ = Xn+1 2 Esta expresión indica que el valor mediano ocupa la posición (n + 1)/2 cuando los datos están ordenados en orden ascendente Para aplicar esta expresión es preciso ordenar. los datos en orden ascendente e indicar la posición u orden de cada dato como se muestra a continuación: X1 1.73 X8 1. los valores X5 y X6 ocupan el centro de este conjunto y la mediana se localiza en el punto medio entre estos dos datos . Díaz 1. en millones de pesos.5 2. De tabernas 6 11 18 25 29 20 11 120 FAA 6 17 35 60 89 109 120 Como se puede observar el número de datos de la muestra n es 120. FAA.22. es decir. no coincide con el valor de la frecuencia absoluta acumulada. que como ejercicio.UNIDADES TECNOLÓGICAS DE SANTANDER 𝑥̃ = X5 X6 2 = 1.9 1.2 2. ( n / 2).8 millones 2.1.2 Segundo caso El cálculo del total de datos de la muestra dividido entre 2.69 1. verifique que la expresión de la mediana para número par de datos produce el mismo resultado anterior 2. En este caso la mediana es igual al límite superior de la cuarta clase.1 Primer Caso La frecuencia absoluta acumulada. hasta la cuarta clase.70 metros se deja al lector de estas notas.6 1.8 3. n/2.1 3. n/2 es 60 y este valor coincide con la frecuencia absoluta acumulada.1.4 3.9 2. 1 2 3 4 5 6 7 Ingresos (Millones de $) 1.22 CÁLCULO MEDIANA PARA DATOS AGRUPADOS Recordemos que cuando se habla de datos agrupados nos referimos a datos agrupados en clases Se presentan dos casos para el cálculo de la mediana 2. es decir: 𝑥̃ = Límite superior de la clase = $2.1. de la distribución de frecuencias. por lo tanto.7 Suma No. como se puede ver en el siguiente ejemplo: EJEMPLO Los ingresos en una semana. coincide con la cantidad total de datos dividida entre 2.71 = 1. de ninguna de las clases Para calcular la mediana en este caso se utiliza la siguiente fórmula de interpolación: n / 2 FAAi 1 FAi 𝑥̃ = 𝐿𝐼𝑖 + A DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 51 . hasta alguna de las clases. FAA.4 3. FAA.8 2.70 2 Este valor se interpreta como que la mitad de los estudiantes de esta muestra miden menos de 1.22.8 millones Este valor se puede interpretar diciendo que la venta mínima de la mitad de las tabernas de la muestra fue de $2. de una muestra de tabernas se presenta en la siguiente tabla: clase No.5 2.2 2.1 3. 800 2. con las frecuencias absolutas acumuladas. con la particularidad de que dividen el conjunto de datos en cuatro partes iguales cuando este conjunto está ordenado en forma ascendente.200 miles.1 LOS CUARTILES Los cuartiles son tres valores que se determinan o calculan a partir de un conjunto de datos. en términos de la expresión anterior. La mediana se encuentra en la clase cuya frecuencia absoluta acumulada. inferior a $1.400 19 262 9 Mas de 2. Estos valores son: Primer cuartil o Q1: Es el valor por debajo del cual se encuentran la cuarta parte de los datos o 25% de los datos cuando están ordenados de menor a mayor Segundo cuartil o Q2: Es el valor por debajo del cual se encuentran la mitad de los datos o 50% de los DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 52 . Reemplazando estos datos en la expresión de la mediana se obtiene lo siguiente: 139.500 37 191 6 1. FAA.1.100 22 243 8 2. inmediatamente superior a éste es $154 miles. El valor. por lo tanto. La clase anterior a ésta es la tercera clase y su frecuencia absoluta acumulada hasta aquí es $112 miles.5 miles. Esta es entonces la clase i.23. FAA.23 MEDIDAS DE TENDENCIA NO CENTRAL O DE POSICIÓN 2.400 17 279 El número total de datos de la muestra es 279 depósitos.200 1. se presentan en la siguiente tabla: SALDO Clase MENSUAL No. (Miles de $) depósitos FAA 1 0 300 25 25 2 300 600 36 61 3 600 900 51 112 clase i . es decir. sea inmediatamente superior a n/2.100 2. que la clase en la que se encuentra la mediana es la cuarta clase que va de $900 a $1. n/2 es $139.096.1 4 900 1.5 112 = $1.UNIDADES TECNOLÓGICAS DE SANTANDER 𝑳𝑰𝒊 es el límite inferior de la clase que contiene la mediana A es la amplitud de las clases 𝒏⁄𝟐 es la cantidad total de datos de la muestra dividida entre 2 𝑭𝑨𝑨𝒊−𝟏 es la frecuencia absoluta acumulada hasta la clase anterior a la clase que contiene la mediana 𝑭𝑨𝒊 es la frecuencia absoluta de la clase que contiene la mediana Para saber cuál es la clase que contiene la mediana se compara n/2. de los bancos locales.500 1. A esta clase. al final del mes observado.000 2.200 42 154 clase i 5 1.096 miles 42 𝑥̃ = 900 + 300 esto quiere decir que la mitad de los clientes de la muestra tenían un saldo. y la clase anterior a esta se le llama la clase i-1 Para aclarar estos conceptos revisemos el siguiente ejemplo: EJEMPLO Los saldos de los depósitos al finalizar un mes en las cuentas de ahorro de un número de cuentahabientes. el tamaño de la muestra dividido entre 2.800 30 221 7 1.1. De No. de la distribución de frecuencias. FAA. se le llama la clase i. escogidos al azar. de la frecuencia absoluta acumulada. 50 o 75 n es el tamaño de la muestra En este caso el cuartil buscado es igual al límite superior de la clase EJEMPLO: Las utilidades por acción del portafolio de inversiones de una empresa se presenta en la siguiente tabla: UTILIDAD POR ACCIÓN Cálculo del primer cuartil: No.23.1.500 VERSIÓN 12 FECHA: 2015 Página 53 . es la misma mediana Tercer cuartil o Q3: Es el valor por debajo del cual se encuentran las tres cuartas partes de los datos o 75% de los datos cuando están ordenados de menor a mayor Precisemos estas ideas con el siguiente ejemplo: EJEMPLO El número de clientes que atendieron en un día once vendedores de un centro comercial escogidos al azar se presenta en la siguiente tabla 15 5 20 Número de clientes atendidos por vendedor 10 23 8 3 13 18 28 32 Este conjunto de datos ordenando de menor a mayor se muestra en la siguiente tabla: 3 5 8 Número de clientes atendidos por vendedor 10 13 15 18 20 23 28 32 Q1 Q2 Q3 Como se puede observar los números 8. de estos mismos apuntes 2. DE ACCIONES FAA 𝑄𝑖𝑥𝑛 100 1300 1400 1500 1600 1700 1400 1500 1600 1700 1800 100 175 230 190 150 100 275 505 695 845 1800 1900 130 975 1900 2000 125 1100 1100 DEPARTAMENTO DE CIENCIAS BÁSICAS = 25 x 1100 100 = 275 Como 275 es la FAA hasta la segunda clase. Estos valores reciben. los nombres de Primer Cuartil.UNIDADES TECNOLÓGICAS DE SANTANDER datos cuando están ordenados de menor a mayor.1.500 Una interpretación: El 25% de las acciones.1. el primer cuartil es igual al límite superior de esa clase.1 CUARTILES PARA DATOS NO AGRUPADOS Revise el material “CUARTILES Y PERCENTILES PARA DATOS NO AGRUPADOS”. es decir. de este portafolio. Segundo Cuartil y Tercer Cuartil 2. es decir: 25. dan una utilidad inferior a $1. 15 y 23 dividen el conjunto en cuatro partes iguales. es decir: Q1 = 1. entonces.2 CUARTILES PARA DATOS AGRUPADOS Primer caso: La frecuencia absoluta acumulada hasta alguna de las clases coincide con el valor de la operación Qi x n 100 Donde: Qi es el valor del cuartil que se pretende calcular.1.23. respectivamente. FAA. 𝑳𝒍𝒊 Es el límite inferior de la clase que contiene el cuartil A es la amplitud de las clases 𝑸 𝒙 𝒏⁄𝟏𝟎𝟎 Es el producto del valor del cuartil que se quiere calcular por el tamaño n de la muestra dividido entre 100.Reemplazando en la fórmula se tiene: Clase i Q3 = 1700 +100 [ 1100 825 − 695 150 ] Q3 = $1787 Interpretación: El 75% de las acciones tienen una utilidad inferior a $1787 2. en estos mismos apuntes DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 54 . el cálculo del cuartil se hace de manera parecida al segundo caso del cálculo de la mediana.2 LOS PERCENTILES Los percentiles son valores que dividen un conjunto de datos en 100 partes iguales. se encuentran el 30% de los datos. según que el cuartil que se pretenda calcular sea Q1.UNIDADES TECNOLÓGICAS DE SANTANDER Segundo caso: La frecuencia absoluta acumulada. La expresión que se utiliza es la siguiente: Qxn / 100 FAAi 1 FAi 𝑄𝑖 = 𝐿𝑙𝑖 + A 𝑸𝑖 Es el cuartil que se quiere calcular. quiere decir que por debajo del valor 200. 𝑭𝑨𝑨𝒊−𝟏 Es la frecuencia absoluta acumulada hasta la clase anterior a la clase que contiene el cuartil 𝑭𝑨𝒊 Es la frecuencia absoluta de la clase que contiene el cuartil EJEMPLO Utilizando el mismo ejemplo del primer caso Cálculo del tercer cuartil: UTILIDAD POR No. cuando este conjunto está ordenado de menor a mayor Un percentil. por lo tanto. DE ACCIÓN ACCIONES FAA 1300 1400 1500 1600 1700 1800 1400 1500 1600 1700 1800 1900 100 175 230 190 150 130 100 275 505 695 845 975 1900 2000 125 1100 𝑄𝑖𝑥𝑛 100 = 75 𝑥 1100 100 = 825 El tercer cuartil se encuentra en la clase cuya FAA es inmediatamente superior a 825. del conjunto ordenado de datos.23. 2. A esta Clase i-1 clase se le llama clase i .23.1. Por ejemplo: P30 = 200 que se lee: “Percentil 30 igual a 200”. Q2 o Q3.1 PERCENTILES PARA DATOS NO AGRUPADOS Revise el material “CUARTILES Y PERCENTILES PARA DATOS NO AGRUPADOS”. 50.2. hasta cualquiera de las clases no coincide con el valor de la operación Qixn/100 En este caso. Q toma el valor de 25. es un valor por debajo del cual se encuentra un determinado porcentaje de los datos. respectivamente Esta operación se utiliza para localizar la clase donde se encuentra el cuartil. ó 75.1. 0 2. del tiempo que duraron las llamadas telefónicas realizadas por el personal de oficina de una empresa Duración llamadas en minutos No.0 8. de la muestra. el percentil 20 es igual al límite superior de esa clase.0 10. FAA.0 6.2. Sí el percentil que se quiere calcular es igual al límite superior de la clase cuya frecuencia absoluta 𝑃𝑥𝑛 acumulada.0 8. hasta cualquiera de las clases no coincide con el valor de la 𝑃𝑥𝑛 operación 100 En este caso.0 4. A esta clase. se le llama la clase i.0 46 67 44 31 25 46 113 157 188 213 Mas de 10.0 4. de la distribución de frecuencias. coincide con el valor de la operación 100 . y la clase anterior a esta se le llama la clase i-1 Para aclarar estos procedimientos utilizamos el ejemplo de las llamadas telefónicas DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 55 . al azar. FAA. entonces.23. el cálculo del percentil se hace de manera parecida al segundo caso del cálculo de la mediana.0 6. en términos de la expresión anterior. el valor del percentil buscado es igual al límite superior de la clase EJEMPLO La siguiente tabla se refiere a una muestra.0 17 230 230 𝑃𝑥𝑛 100 = 20 𝑥 230 100 = 46 Como 46 es la FAA hasta la primera clase. FAA.1. La expresión que se utiliza es la siguiente: Pxn / 100 FAAi 1 FAi Pi = 𝐿𝐼𝒊 + A 𝑳𝑰𝒊 es el límite inferior de la clase que contiene la mediana A es la amplitud de las clases 𝑷𝒙𝒏⁄𝟏𝟎𝟎 es la operación que se hace para saber en qué clase se encuentra el percentil 𝑭𝑨𝑨𝒊−𝟏 es la frecuencia absoluta acumulada hasta la clase anterior a la clase que contiene el percentil 𝑭𝑨𝒊 es la frecuencia absoluta de la clase que contiene el percentil Para saber cuál es la clase que contiene el percentil se compara la operación 𝑃𝑥𝑛⁄100 con las frecuencias absolutas acumuladas. FAA.0 minutos Segundo caso: La frecuencia absoluta acumulada. El percentil se encuentra en la clase cuya frecuencia absoluta acumulada.0 Interpretación: el 20% de las llamadas. duraron menos de 2. es decir: P20 = 2. sea inmediatamente superior al valor de esta operación.2 PERCENTILES PARA DATOS AGRUPADOS Primer caso: Pxn La frecuencia absoluta acumulada hasta alguna de las clases coincide con el valor de la operación: 100 Donde: P es el percentil que se quiere calcular n es el tamaño de la muestra.UNIDADES TECNOLÓGICAS DE SANTANDER 2. de Llamadas Cálculo el percentil 20: P20 FAA 0. entonces.0 2. es el valor que más se repite dentro de ese conjunto. cuartiles y percentiles no los afectan los valores extremos La mediana.0 44 31 25 17 157 188 213 230 Cálculo del Percentil 70. cuartiles y percentiles no se pueden operar matemáticamente Para calcular la mediana.24 PROPIEDADES DE LA MEDIANA. A esta clase se le llama clase i.0 10.0 [ 161 − 157 31 ] P70 = 6. P70: 𝑃𝑥𝑛 100 Clase i - 1 Clase i 230 Interpretación: El 70% de las llamadas.1. cuartiles y percentiles se pueden calcular en distribuciones de frecuencias que tengan clases de extremo abierto Los cálculos de la mediana.0 6.0 Mas de 6.25 LA MODA La moda. cuartiles y percentiles los datos deben estar ordenados 2.0 8.0 8. por lo tanto.26 minutos = 70 𝑥 230 = 161 100 El percentil buscado se encuentra en la clase cuya FAA es inmediatamente superior a 161. de Llamadas FAA 0. para representar la moda es: ̂ 𝑿 que se lee equis moda 2. fue inferior a 6. de la muestra.0 +2.0 2. lo que quiere decir que se requiere calcular el percentil 60 2.26 minutos EJEMPLO Para el mismo ejemplo de la duración de las llamadas ¿Cuál fue la duración mínima del 40% de las llamadas? El valor que se pide es menor que el 40% de las llamadas.0 4. este valor es superior al 60% de las llamadas de la muestra.UNIDADES TECNOLÓGICAS DE SANTANDER EJEMPLO Duración llamadas en minutos No.1.0 2.1.27 MODA PARA DATOS NO AGRUPADOS Cuando los datos no están agrupados la moda se establece a simple vista. en esta notas. 2. cuartiles y percentiles son más complejos que los de las demás medidas de tendencia central La mediana.0 46 67 46 113 4. Reemplazando en la fórmula se tiene: P70 = 6.1. de un conjunto de datos.0 10. CUARTILES Y PERCENTILES A la mediana. DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 56 .26 SÍMBOLO DE LA MODA El símbolo que se va a utilizar. 4 6. en las pruebas de ingreso.5 A simple vista se puede establecer que ninguno de los datos se repite por lo que este conjunto de datos no tiene moda.1 6.1. el valor que más se repite es 22 años por lo que éste es el valor modal.6 6. por lo que el conjunto de datos tiene 2 modas. en horas.4 5.8 5. se llama conjunto de dato Polimodal Interpretación: Cuando un conjunto de datos tiene más de una moda. es decir: 𝑥̂1 = 57 puntos 𝑥̂2 = 68 puntos Cuando un conjunto de datos tiene más de una moda.6 6. como en este caso.28 MODA PARA DATOS AGRUPADOS 2. no se puede utilizar la moda para describir el comportamiento de los datos de esta muestra 2.UNIDADES TECNOLÓGICAS DE SANTANDER EJEMPLO Una muestra de las edades de la última promoción de graduados se presenta en la siguiente tabla: 25 27 20 21 21 22 19 23 21 23 22 19 22 18 21 26 22 24 28 20 30 22 19 28 25 31 22 24 22 26 A simple vista. se presenta en la siguiente tabla: 6.8 5.2 6.5 6.7 5.0 6.5 6. por los aspirantes a trabajar en una empresa se presentan en la siguiente tabla: 71 36 57 68 68 51 85 39 70 57 50 45 55 68 49 57 57 40 68 25 A simple vista se puede establecer que los puntajes que más se repiten son el 57 y el 68.9 5.1 5. es decir: 𝑥̂ = 22 años Interpretación: la edad más común en la muestra de egresados es 22 años Observación: En este caso hay un solo valor modal EJEMPLO Los puntajes alcanzados.0 5. en una escala de 100 puntos. en una muestra de recorridos escogidos al azar.4 6.1. que gastan los buses de una empresa de transportes en realizar el viaje entre dos ciudades determinadas.28.7 7. Por lo tanto.1 Datos de variable discreta agrupados en clases de amplitud igual a cero En este caso la moda corresponde al valor de la variable que tiene la frecuencia más alta DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 57 . con una frecuencia de 4 puntajes.9 7. esta medida de tendencia central no es útil para describir el comportamiento de los datos EJEMPLO El tiempo.3 7. 1. G. es decir: Sony Motorola L. es Nokia 2. por lo tanto. la moda corresponde al valor de la variable que tiene la más alta frecuencia EJEMPLO Se preguntó a una muestra de profesionales. esta es la moda. Nokia Samsung 18 32 15 47 30 𝑥̂ = Nokia iPhone Otras marcas 10 5 Como se puede observar se puede calcular la moda para datos de variable cualitativa Interpretación: La marca de celular que con más frecuencia utilizan los profesionales. Los resultados están en la siguiente tabla: DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 58 . de Profesionales La más alta frecuencia corresponde a la marca Nokia. por lo que la moda es 4. por la marca de celular que utilizan y el resultado se presenta en la siguiente tabla: Marca de Celular No. es decir: 𝑥̂ = 4 motocicletas por semana Interpretación: El volumen de venta más frecuente es de 4 motos por semana 2.1.28.28. en kilómetros por hora.UNIDADES TECNOLÓGICAS DE SANTANDER EJEMPLO Una muestra del número de motocicletas que vende por semana un distribuidor se presenta en la siguiente tabla: No. de Motos No. de la muestra.3 Datos de variable discreta o continua agrupados en clases de amplitud mayor que cero Se aplica la fórmula como se muestra en el siguiente ejemplo EJEMPLO Utilizando un radar de carretera los agentes de tránsito tomaron una muestra de la velocidad. de Semanas 0 1 2 3 4 5 6 1 3 5 12 19 16 10 más de 6 4 La más alta frecuencia corresponde a 19 semanas y el valor de la variable para esta frecuencia es de 4 motos por semana. también. a la que se desplazan los vehículos al pasar por un puente.2 Datos de variable cualitativa Aquí. escogidos al azar. de Vehículos 1 2 3 Hasta 40 50 40 50 60 7 36 44 4 5 6 7 60 70 80 Más de 70 80 90 90 61 55 19 14 En este caso.UNIDADES TECNOLÓGICAS DE SANTANDER Clase No. Velocidad (Kmts / hora) No. Esta clase es la No.1. Para saber en qué punto de este clase se encuentra la moda se aplica la siguiente expresión: [𝑑 𝑥̂ = LI + A 𝑑1 1 + 𝑑2 ] LI es el límite inferior de la clase que contiene la moda A es la amplitud de las clases 𝒅𝟏 es la diferencia entre la frecuencia absoluta de la clase que contiene la moda y la frecuencia absoluta de la clase anterior a la clase que contiene la moda 𝒅𝟐 es la diferencia entre la frecuencia absoluta de la clase que contiene la moda y la frecuencia absoluta de la clase posterior a la clase que contiene la moda Aplicando la fórmula al ejemplo se tiene: 𝑑1 = 61 – 44 = 17 𝑑2 = 61 – 55 = 6 Interpretación: Lo más común es que los vehículos de la muestra se desplacen por el puente a 67.39 Kmts / hora 𝑥̂ = 60 + 10 2.29 PROPIEDADES DE LA MODA La moda se puede calcular en situaciones de variables cualitativitas y cuantitativas A la moda no la afectan los valores extremos La moda se puede calcular en distribuciones de frecuencias que tengan clases de extremo abierto Existen conjuntos de datos que no tienen moda o que tienen más de una moda La moda no se puede operar matemáticamente DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 59 . la moda se encuentra en la clase que tiene la más alta frecuencia.39 Kmts / hora 17 [17+6] = 67.4 que corresponde al intervalo de 60 a 70 kilómetros por hora. De vendidas tiendas 0 1 1 12 2 18 3 23 4 21 5 19 6 18 112 La distribución de frecuencias acumuladas de este ejemplo se presenta en la siguiente tabla. De unidades No. Por lo tanto la mediana es 4. algún DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 60 .UNIDADES TECNOLÓGICAS DE SANTANDER 2. De unidades No. De vendidas tiendas 0 1 1 12 2 18 3 23 4 21 5 19 6 18 112 FAA 1 13 31 54 75 94 112 Como se observa ningún valor de FAA coincide con n/2 en este caso la mediana se encuentra en la clase cuya FAA sea más próxima por arriba a n/2. donde se encuentra que n/2 es igual a 112/2 = 56 No. entonces. Este valor es 75.2.2. n/2 EJEMPLO La siguiente tabla se refiere a una muestra del número de computadores que vendieron en un mes 112 tiendas de tecnología del país escogidos al azar No.2 SEGUNDO CASO Algún valor de la frecuencia absoluta acumulada coincide con n/2 Este caso se da cuando en la distribución de frecuencias de la frecuencia absoluta acumulada.. cuando se tienen distribuciones de frecuencia con amplitud igual a cero y datos correspondientes a variable discreta se tiene dos casos 2. la mediana se encuentra en la clase 4 (LI=4 y LS=4). FAA. es decir: 𝑥̃ = 4 2.1 PRIMER CASO La frecuencia acumulada hasta cualquiera de las clases es diferente de n/2 Este caso se presenta cuando ninguno de los valores de la columna de frecuencias relativas acumuladas o FAA coincide con el tamaño de la muestra dividida entre 2.2 CASOS ESPECIALES DE LA MEDIANA DISTRIBUCIONES DE FRECUENCIAS DE VARIABLE DISCRETA CON AMPLITUD IGUAL A CERO Para calcular la mediana. es decir. 𝑥̃ = (12 +13)/2 = 12.5 Este resultado se puede interpretar de dos maneras así: La mitad de los distribuidores de la muestra vendieron 12 o menos unidades La mitad de los distribuidores de la muestra vendieron 13 o más unidades DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 61 . es decir. De unidades No. FAA 10 12 12 11 18 30 12 17 47 13 22 69 14 15 84 15 10 94 94 Como se puede ver un valor de la columna FAA coincide con n/2.UNIDADES TECNOLÓGICAS DE SANTANDER valor de esta columna. De vendidas distrbiud. De vendidas distribuid. n/2 EJEMPLO Se tomó una muestra del número de estufas eléctricas que vendieron en el año una muestra de distribuidores escogidos al azar No. es igual al tamaño de la muestra dividido por 2. 10 12 11 18 12 17 13 22 14 15 15 10 94 n/2 es igual a 94/2 = 47 No. De unidades No. En este caso la mediana se encuentra entre las clases 12 y 13 y para calcularla se promedian estos dos valores. DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 62 .150 $2. como el número de operarios de cada sección es diferente.88 1. salario por hora.84 1. ¿Le conviene a la empresa esta propuesta? ¿Por qué? SOLUCIÓN Se necesita describir esta situación con un solo valor que sea equivalente a los salarios por hora de las tres secciones.800 22.160 17.53 16. en un determinado mes.100 18.97 1.88 1.060 29.40 2.36 1.62 1. de vendedores 17 22 20 13 10 8 7 97 Con la información disponible ¿A cuánto pueden ascender los ingresos totales.49 1.40 2.07 = $1.10 1.510 El sindicato de la empresa propone que todas las operaciones sean remuneradas con un mismo salario por hora y propone que este valor sea $2.700 por hora.01 2.734 $2. por comisiones. se presentan en la siguiente distribución de frecuencias Ingresos / vendedor (Millones de pesos) 0.62 1. de 20 de los vendedores de esta muestra? SOLUCIÓN Se necesita un valor que sea equivalente a los ingresos de los 97 vendedores de la muestra. de operarios 12 29 46 87 Salario por hora $3. de vendedores 17 22 20 13 10 8 7 97 𝑥𝐼 𝑥𝑖 𝐹𝐴𝑖 0.36 1.27 2. los valores de la variable.66 No.10 1.36 1.14 2.567 𝑚𝑖𝑙𝑙𝑜𝑛𝑒𝑠 97 Ingresos de los 20 vendedores = 20x1.07 152.750 20.88 2.3 EJEMPLOS RESUELTOS Primer caso: Los ingresos por comisiones.36 1. Este valor es el salario promedio.62 1.14 2.14 2.62 1.40 2.567 = $31.40 2.710 152.66 𝑥̅ = No.14 2.490 27.10 1.75 2.UNIDADES TECNOLÓGICAS DE SANTANDER 2.355 millones Segundo caso En la siguiente tabla se presentan los salarios por hora del personal de una fábrica: Sección Corte Armado Terminado No.10 1. Pero.84 1. de una muestra de vendedores de electrodomésticos de la ciudad.88 2. Ese valor es el valor promedio o media aritmética simple Ingresos / vendedor (Millones de pesos) 0.23 1. 734 $2.UNIDADES TECNOLÓGICAS DE SANTANDER tienen diferente importancia relativa por lo que este promedio es un caso de media ponderada.510 𝑥𝑖 𝑤𝑖 $37.460 $232.546 ∑ 𝑥𝑖 𝑤𝑖 232.800 $79. por lo que no le conviene la propuesta del sindicato de $2.700 por hora porque el salario por hora aumentaría Tercer caso Una máquina que se compró hace 15 años en $123 millones.150 $2.10487 − 1)100 ≅ 10. de operarios Salario por hora 𝑤𝑖 𝑥𝑖 12 29 46 87 $3.5% 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 = 549(1.105) = 606.673 por hora. Sección Corte Armado Terminado 𝑥̅𝑝 = No.645 ≅ $607 𝑚𝑖𝑙𝑙𝑜𝑛𝑒𝑠 Cuarto caso Una muestra del tiempo que se demora un restaurante en despachar los domicilios que recibe se presenta en la distribución de frecuencias de la derecha: Sí el tiempo que se demoró en despachar la mitad de los domicilios de la muestra fue superior a 15 minutos se debe reorganizar el proceso de despachos del restaurante.286 $115. Sí no se espera ningún cambio las condiciones que establecen el precio ¿En cuánto se puede estimar que cueste esta máquina el próximo año? SOLUCIÓN Se necesita establecer a qué tasa promedio anual ha estado creciendo el precio de esta máquina 𝑛 𝐺= √ 15 549 𝑣𝑎𝑙𝑜𝑟 𝑓𝑖𝑛𝑎𝑙 = √ = 1.10487 𝑣𝑎𝑙𝑜𝑟 𝑖𝑛𝑖𝑐𝑖𝑎𝑙 123 𝑇𝑎𝑠𝑎 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 = (1.246 = = $2. Cuál es su recomendación? ¿Por qué? DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 Tiempo/domicilio No. de (Minutos) domicilios 1 4 3 4 7 6 7 10 11 10 13 13 13 16 22 16 19 18 19 22 15 Mas de 22 9 97 FECHA: 2015 Página 63 . hoy está costando $549 millones.673 ∑ 𝑤𝑖 87 RTA: El salario promedio de todos los empleados de esta empresa es de $2. 5 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 2 2 𝑥̃ = 13 + 3 [ 48. de las que emite el restaurante SABROSURA.UNIDADES TECNOLÓGICAS DE SANTANDER SOLUCIÓN Se debe revisar sí la mediana es superior a 15 minutos Tiempo/domicilio No. de facturas 17 20 14 10 7 5 2 75 VERSIÓN 12 FAA 17 37 51 61 68 73 75 FECHA: 2015 Página 64 . de (Minutos) domicilios 1 4 3 4 7 6 7 10 11 10 13 13 13 16 22 16 19 18 19 22 15 Mas de 22 9 97 FAA 3 9 20 33 55 73 88 97 𝑛⁄ = 97 = 48. la administración del restaurante debe cambiar la carta que ofrecen. de facturas 17 20 14 10 7 5 2 75 Sí el 80% de las facturas de esta muestra fue inferior a $95 mil. ¿Cuál es su recomendación? ¿Por qué? b) ¿Cuál fue el valor más común de las facturas de la muestra? SOLUCIÓN a) Se está pidiendo que se calcule el percentil 80 a) Valor / factura (Miles de pesos) 16 38 60 82 104 126 148 DEPARTAMENTO DE CIENCIAS BÁSICAS 38 60 82 104 126 148 170 No. Quinto caso Los valores de una muestra de 75 facturas escogidas al azar.114 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 22 RTA: La mediana es superior a 15 minutos. se presentan en la siguiente distribución de frecuencias: Valor / factura (Miles de pesos) 16 38 38 60 60 82 82 104 104 126 126 148 148 170 No.5 − 33 ] = 15. por lo que se debe rediseñar el proceso de despachos. b) Se está pidiendo la moda 𝑥̂ = 38 + 22 [ 3 ] = $45.800 por lo que no se recomienda cambiar la carta que ofrecen.8 𝑚𝑖𝑙𝑒𝑠 10 RTA: El 80% de las facturas de esta muestra fueron de valores inferiores a $101.333 𝑚𝑖𝑙𝑒𝑠 3+6 DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 65 .UNIDADES TECNOLÓGICAS DE SANTANDER 𝑃𝑥𝑛 = 60 100 𝑃80 = 82 + 22 [ 60 − 51 ] = $101. 4.7 0.4 2.2 = 3.2 Notas del grupo B 2. Para verificar esta conclusión vamos a representar estos datos en la siguiente gráfica: Como se puede observar. de estas muestras. de dos empresas se presentan en las siguientes tablas: DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 66 .0 5.4 3.1 2.1 MEDIDAS DE DISPERSIÓN POR QUÉ SE REQUIERE MEDIR LA DISPERSIÓN Antes de aprender a calcular la dispersión de una muestra o de una población. también. se presentan a continuación: Notas del grupo A 3.0 4. es preciso aclarar por qué se requiere.3 3.7 = 3. Para introducir el concepto de dispersión se presenta el siguiente caso: Segundo Ejemplo Las ventas mensuales. Presentaremos estas ideas a través de dos ejemplos que se presentan a continuación: Primer ejemplo. de esta otra medida para describir completamente el comportamiento de un fenómeno o hecho. Las notas obtenidas. aunque las muestras tienen igual promedio. Sin embargo.UNIDADES TECNOLÓGICAS DE SANTANDER 2.3 3. el comportamiento de un conjunto de datos que pertenezcan a una muestra o a una población. la distribución de los datos es muy diferente en las dos muestras. en una prueba. en millones de pesos. nos llevaría a la conclusión de que las dos muestras tuvieron idéntico desempeño en la prueba. esta capacidad descriptiva de las medidas de tendencia central es parcial porque es necesario complementarla con otra característica de las muestras y poblaciones que es la dispersión. por muestras tomadas a dos grupos de estudiantes. Se había dicho anteriormente que el objetivo de las medias de tendencia central es describir (parcialmente).8 1.2 Como se ve la nota promedio de las muestras de los dos grupos es 3.5 4.9 3.7 3.2. Sí utilizamos únicamente el promedio para comparar el desempeño de los estudiantes. por lo que. Pero. encontramos que esto no es así La diferencia se encuentra.UNIDADES TECNOLÓGICAS DE SANTANDER La venta promedio de estas dos empresas. en que las dos muestras tienen diferente “dispersión” de sus datos alrededor de la media 2. de estas dos muestras. durante los meses considerados.4. lo que se puede entender por “variabilidad” DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 67 . ateniéndonos únicamente a la descripción del valor promedio. es igual a $19. primero.2 CONCEPTO DE DISPERSIÓN El concepto de dispersión lo vamos a abordar considerando. indicaría que las dos empresas tienen un desempeño de ventas idéntico. como se muestra en la siguiente gráfica. si observamos los polígonos de frecuencias. entonces.395 millones. 8 3.8 1 3. existe una pequeña variabilidad entre los datos de la segunda muestra con respecto a los datos de la primera.8 3. por lo que comparando las tres muestras de notas.8 3.4 LA DISPERSIÓN La dispersión se refiere a qué tan parecidos o diferentes son los datos de una muestra o población con respecto a un valor que se toma como referencia.8 10 3.9 En esta tercera muestra.7 3. comparándolos con los datos de otras muestras o poblaciones. la menos variable es la primera y la más variable es la tercera.8 3.8 3. la más variable es esta última.8 3. por lo tanto.8 2.4.5 NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES 3 4 5 6 7 8 9 3.8 4.8 3. siempre se evalúan comparando los datos de más de una población o muestra 2. 1 3.0 2 3. Es preciso resaltar.9 10 1. a qué tan diferentes son entre sí los datos de una muestra o una población.8 3. no hay ninguna variabilidad. NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES 2 3 4 5 6 7 8 9 3.8 3.UNIDADES TECNOLÓGICAS DE SANTANDER 2.7 4.4.8 10 3.8 3.8 3.8 3.8 En este caso todas las notas son iguales. comparando estas tres muestras.3 LA VARIABILIDAD La variabilidad hace referencia.5 3. hay un aumento notorio en la variabilidad entre los datos. DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 68 . que la variabilidad y la dispersión son conceptos relativos. como se puede ver en los siguientes ejemplos: NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES 2 3 4 5 6 7 8 9 3.8 1 3. usualmente. por lo tanto.7 3.8 3.8 3. Podemos concluir diciendo que.8 Ahora hay una nota diferente a las demás. 5 𝑥̅ 1 2 3 4 5 6 7 8 9 10 0. Por lo tanto. Por lo tanto. el valor del promedio es similar o está cerca de los valores de la muestra. es decir la letra R.6 3. En términos estadísticos se dice que los datos del grupo A tienen menos dispersión alrededor de su media aritmética. se toman como referencia las medidas de tendencia central.5 3. de una muestra o población.7 3.4.1 3. es decir.6 LAS MEDIDAS DE DISPERSIÓN Son valores que se obtienen como resultado de cálculos o procesos con los datos y que indican que tan parecidos son los datos. que el promedio del grupo B a los datos de su muestra.9 Como se puede observar.9 0. 2. ninguno de los valores de la muestra es parecido al valor de la media. comparadas con los datos del grupo B.4.8 EL RANGO Es la diferencia o distancia entre el mayor valor.8 3.UNIDADES TECNOLÓGICAS DE SANTANDER Usualmente.7 5. en la muestra de baja dispersión.5 IMPORTANCIA DE LA DISPERSIÓN Para que una medida de tendencia central sea representativa de los datos que la originaron se requiere que su valor sea similar a los datos de esa muestra o población que pretende describir. por lo tanto se utilizará para enunciarlo el mismo símbolo. a la medida de tendencia central con la que se describe el comportamiento de estos datos. es importante porque entre mayor sea la dispersión de un conjunto de datos.5 3.7 CLASES DE MEDIDAS DE DISPERSIÓN Las medidas de dispersión que se van a estudiar en estos apuntes son las siguientes: El Rango El Rango Intercuartílico La Desviación Media La Varianza La desviación Estándar 2.0 4.2 3. el promedio del grupo A representa mejor a los datos de esta muestra. En la gráfica anterior. como se puede ver en el siguiente ejemplo: MUESTRA DE BAJA DISPERSIÓN MUESTRA DE ALTA DISPERSIÓN NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES 1 2 3 4 5 6 7 8 9 10 3. se puede observar. El concepto de dispersión. de un conjunto de datos y el valor menor.6 = 2. en la muestra de alta dispersión.5 0.8 3.0 1. el promedio de la primera muestra es verdaderamente representativo de los datos de esta muestra y el de la segunda muestra no lo es.Xmin DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 69 .7 4.9 3. Este concepto ya se había mencionado para agrupar los datos en clases estadísticas. 2. en cambio.8 3.4. entonces. que las notas del grupo A son más parecidas o están más cerca de su promedio. R = Xmax .4.8 3. que las notas del grupo B. menor es la fuerza representativa que tiene la medida de tendencia central calculada con esos datos 2.9 3.9 𝑥̅ = 3. 2 3. los valores máximo y mínimo. por lo que no indica cómo están distribuidos internamente los datos.0 .8 3.5 3.30 = $36 miles Como no se tiene el rango de otro conjunto de datos o un valor de referencia.8 3. Esta desventaja se puede corregir con el rango intercuartílico Para simbolizar el rango intercuartílico se utiliza.9 R = 3.UNIDADES TECNOLÓGICAS DE SANTANDER EJEMPLO Calcular el rango de los siguientes conjuntos de datos NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 3. para comparar. entonces.7 3.0 1.10 EL RANGO INTERCUARTÍLICO Una de las desventajas del rango es que solamente se tienen en cuenta. RQ y se calcula restando la diferencia entre el primero y el tercer cuartil.5 0. es decir: RQ = Q3 . En símbolos: R = LS clase más alta .0.2 = 0. para su cálculo.9 0.7 5.0 4.9 3.8 3.1 = 4.9 .7 R = 5. medida por el rango. en estas notas.Q1 Este rango muestra la dispersión de la porción más central de los datos que abarca el 50% del total DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 70 . no se puede decir sí este conjunto de datos es o no disperso 224 2.LI clase más baja EJEMPLO Una muestra de las facturas que se cancelan con tarjetas de crédito en una cadena de almacenes de modas se presenta en la siguiente tabla Ventas No. es menor que la dispersión de la muestra de la derecha El cálculo anterior se realizó con muestras de datos que no están agrupados.5 0.LI clase más baja R = 66 . de (Miles de $) Facturas 30 36 25 36 42 48 54 60 42 48 54 60 66 38 49 51 32 29 R = LS clase más alta .9 3.3.1 3.6 3.5 3.4.9 CARACTERÍSTICAS DEL RANGO Es fácil de entender y de calcular Da una idea rápida de la dispersión En el cálculo únicamente se tienen en cuenta los valores máximo y mínimo Varía mucho de una muestra a otra No se puede calcular con distribuciones de frecuencia que tienen clases de extremo abierto 2.9 La dispersión de la muestra de la izquierda. Cuando los datos ya están agrupados en clases el rango se establece restando del valor del límite superior de la clase mas alta el valor del límite inferior de la clase más baja.7 4.4.8 3. se presenta en la siguiente tabla 3 14 24 9 7 12 Hallar la desviación media de esta muestra DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 71 .7 Kmts RQ = 16.11 LA DESVIACIÓN MEDIA Es la diferencia promedio.9 Kmts Q3 = 67.0 Kmts Q1 = 47. De (Kilómetros) Vehículos 25 35 3 35 45 7 45 55 11 55 65 19 65 75 7 75 85 6 53 MUESTRA A Distancia No. en valor absoluto.05Kmts Como se ve. que duran las llamadas que se hacen desde un teléfono.4.Xmin = 60 Kmts Q1 = 48.9 Kmts RQ = 20. al azar. del tiempo. en minutos.UNIDADES TECNOLÓGICAS DE SANTANDER EJEMPLO Las distancias en kilómetros. lo que indica que la muestra B es menos dispersa que la muestra A 2. de los datos de la muestra o población con respecto a su propia media.Xmin = 60 Kmts R = Xmax . La forma de la expresión de cálculo varía dependiendo de que se trate de datos no agrupados o datos agrupados El símbolo que se utiliza en estos apuntes para la desviación media son las iniciales DM Desviación media para datos no agrupados DM = ̅| ∑|𝒙𝒊 − 𝒙 𝒏 Dónde: DM: Símbolo de la desviación media 𝑥𝑖 : Cada uno de los datos de la muestra 𝑥̅ : La media aritmética de la muestra n: El número de datos La razón por la cual se extrae el valor absoluto es porque los números tienen una propiedad que consiste en que la suma de las diferencias de un conjunto de números con respecto a su media siempre da igual a cero EJEMPLO Una muestra. el rango intercuartílico es diferente. R.75 Kmts Q3 = 64. recorrida en un día por dos muestras de vehículos se presentan en la siguiente tabla MUESTRA B Distancia No. aunque las dos muestras tienen el mismo rango. De (Kilómetros) Vehículos 25 35 3 35 45 7 45 55 12 55 65 15 65 75 10 75 85 6 53 R = Xmax . 48 = $30.08 38.080 38.5 |𝑥𝑖 − 𝑥̅ | 8.92 1.5 4.5 2.7 miles La desviación media tiene en cuenta. Esta medida de DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 72 .04 628. para su cálculo.92 41.7 miles 125 En promedio. del ejemplo anterior.2 minutos Desviación media para datos agrupados Dónde: DM : símbolo de la desviación media DM = ∑|𝑋𝑖 −𝑋̅|𝐹𝐴𝑖 𝑛 𝑥𝑖 : La marca de clase de la clase i 𝑥̅ : La media aritmética de la muestra 𝐹𝐴𝑖 : La frecuencia absoluta de la clase i n: El número de datos EJEMPLO La siguiente tabla es una muestra.8 504.48 200 220 12 200 220 12 220 240 15 220 240 15 240 260 23 240 260 23 260 280 22 260 280 22 280 300 20 280 300 20 300 320 18 300 320 18 320 340 15 320 340 15 125 𝑥̅ = $271.92 18.UNIDADES TECNOLÓGICAS DE SANTANDER 𝑥̅ 𝑥𝑖 3 14 24 9 7 12 = 11. la operación del valor absoluto para soslayar la propiedad anteriormente mencionada de los de los números.08 743.080 58. Obsérvese que no se sabe sí la diferencia de $30. los arriendos de la muestra.5 0.5 0.08 58.5 12.2 minutos 6 Interpretación: En promedio. Parta evitar este inconveniente existe otra medida de dispersión que aprovecha otra propiedad de los números que consiste en que todo número elevado al cuadrado tiene signo positivo.5 2. es por encima o por debajo de la media.920 -41. la diferencia de cada llamada con respecto a la media es de 5.5 31 𝑥𝑖 − 𝑥̅ -8.24 361.92 miles 125 DM = 3836.16 42.44 871.7 miles.5 12. Pero. se diferencian de la media en $30.92 21.920 -1.080 61. Datos Tabla de Cálculo Valor arriendo No. todos los datos de la muestra y es fácil de interpretar. da una descripción incompleta de la situación. en miles de pesos. del valor del arriendo mensual de vivienda del estrato tres.5 -4. De Valor arriendo (miles de pesos) viviendas (miles de pesos) 𝐹𝐴𝑖 𝑥𝑖 𝑥𝑖 − 𝑥̅ |𝑥𝑖 − 𝑥̅ | |𝑥𝑖 − 𝑥̅ |𝐹𝐴𝑖 210 230 250 270 290 310 330 -61.5 DM = 31 = 5.6 685.920 -21.5 2.920 18.5 -2.2 3836. estas desviaciones se elevan al cuadrado. las desviaciones de los datos con respecto a la media.5 42. se puede decir que la varianza es el promedio de las desviaciones. en este caso.25 𝜎 2= 681.5 puntos 𝑥𝑖 𝑥𝑖 − µ (𝑥𝑖 − µ)2 60 -18. pero. se registró el peso en kilogramos de todos los empleados de una empresa DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 73 . con respecto a la media elevadas al cuadrado.12 LA VARIANZA La Varianza.5 2. Por lo tanto.5 156. lo mismo que para las medidas de dispersión estudiadas anteriormente. adicionalmente. el cálculo de la varianza es ligeramente diferente según se trate con poblaciones o muestras. pero.12.5 132.5 342.25 77 -1. de los datos.5 Varianza poblacional para datos agrupados ∑(𝑥𝑖 − µ)2 𝐹𝐴𝑖 𝜎 2= 𝑁 𝑥𝑖 = Es la marca de clase de c/u de las clases en que se agrupa la población µ = La media de la población 𝐹𝐴𝑖 = Es la frecuencia absoluta de cada clase N = El tamaño de la población EJEMPLO En un programa sobre riesgo cardiovascular.UNIDADES TECNOLÓGICAS DE SANTANDER dispersión es la varianza. se debe tener en cuenta sí los datos están o no agrupados.58 puntos al cuadrado 681. al igual que la desviación media utiliza.25 91 12.5 6 𝜎 2= 113.25 72 -6. Para el cálculo de la varianza. 2.25 81 2. por lo que se utilizan símbolos diferentes para indicar cada una de estas dos situaciones 2.4.5 6.25 90 11.4.1 VARIANZA POBLACIONAL Es la varianza que se calcula utilizando todos los datos de una población 𝜎2 Símbolo: Varianza poblacional para datos no agrupados 𝜎 2= Dónde : ∑(𝑥𝑖 − µ)2 𝑁 𝑥𝑖 = Cada dato de la población µ = La media de la población N = El tamaño de la población EJEMPLO Los siguientes datos corresponden a los puntajes obtenidos por los aspirantes a un cargo en una empresa Tabla de cálculo PUNTAJES 60 81 77 72 91 90 µ = 78. para medir la dispersión. 5 15006.2 0.2 VARIANZA MUESTRAL Es la varianza que se calcula sobre los datos de una muestra. menos una unidad. que es el tamaño de la muestra.44 59 69 50 64 -10.687. El concepto de estimador insesgado se estudia en el curso de Estadística Inferencial. s .5 (6 − 1) 𝑠 2 = 28.12. 2.4.36 151 151 𝜎 µ = 74.2 kilogramos 2 31894.04 1.04 5202.20 49 59 11 54 -20.25 532 319. ahora es (n – 1). EJEMPLO Los saldos de las cuentas de ahorro.00 69 79 31 74 -0.04 = = 211.1 es porque. n.UNIDADES TECNOLÓGICAS DE SANTANDER Datos Peso en Tabla de cálculo Peso en No.10 miles de pesos al cuadrado 143.04 7056.8 96.5 22650.25 200 -12.2 408.24 79 89 27 84 9.8 888. es un “estimador insesgado” de la varianza de la población de la cual se extrajo la muestra.08 89 99 18 94 19.04 31894.25 𝑠2= 143.5 462.25 𝑥̅ = 62 234 532 200 $212.50 DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 74 .5 156.2 104. de esta manera. de una muestra de las cuentas de ahorro de una cooperativa.04 7992. el tamaño de la población.5 102080.435.04 4488.72 99 109 9 104 29.5 miles 90 (𝑥𝑖 − 𝑥̅ )2 234 21. escogidas al azar. de Kilogramos Kilogramos Empleados 39 49 5 49 59 11 59 69 50 69 79 31 79 89 27 89 99 18 99 109 9 𝐹𝐴𝑖 𝑥𝑖 𝑥𝑖− µ (𝑥𝑖 − µ)2 (𝑥𝑖 − µ)2 𝐹𝐴𝑖 39 49 5 44 -30.2 912.22 Kilogramos al cuadrado 151 Nótese que si la población es infinita no se puede calcular la varianza poblacional porque el valor de N sería infinito. Símbolo: 𝑠2 Varianza muestral para datos no agrupados Dónde: 2 𝑥𝑖 : Es cada uno de los datos de la muestra 2 = ∑(𝑥𝑖 − 𝑥̅ ) 𝑛− 1 𝑥̅ : Es la media de la muestra n : Es el tamaño de la muestra 𝑠 2 La razón por la cual se divide entre n .435.04 4560.25 62 -150.25 90 -122. de empleados.5 3080. El cálculo con respecto a la varianza poblacional difiere en que. se presentan en la siguiente tabla: Tabla de cálculo SALDOS DE LAS CUENTAS EN MILES DE PESOS 𝑥𝑖 𝑥𝑖 − 𝑥̅ 157 157 -55.04 2593.8 392. el divisor de la expresión ya no es N. 29 189.05 10 26 9 2.13 LA DESVIACIÓN ESTÁNDAR Conocida también como Desviación Típica. la desviación estándar es la raíz cuadrada de la varianza. en horas.3 10.1 DESVIACIÓN ESTÁNDAR PARA POBLACIONES Datos no agrupados σ = √𝜎 2 = √ Datos agrupados ∑(𝑥𝑖 −µ)2 𝑁 DEPARTAMENTO DE CIENCIAS BÁSICAS σ = √𝜎 2 = √ VERSIÓN 12 ∑(𝑥𝑖 − µ )2 𝐹𝐴𝑖 FECHA: 2015 𝑁 Página 75 . de Tiempo (Horas) pedidos (Horas) 𝐹𝐴𝑖 𝑥𝑖 𝑥𝑖 − 𝑥̅ (𝑥𝑖 − 𝑥̅ )2 (𝑥𝑖 − 𝑥̅ )2 𝐹𝐴𝑖 0 2 10 0 2 10 1 -5. para cálculo de la dispersión en poblaciones y s.UNIDADES TECNOLÓGICAS DE SANTANDER Varianza muestral para datos agrupados Dónde: 2 𝐹𝐴 ( ) ∑ 𝑥 − 𝑥̅ 𝑥𝑖 : Es la marca de clase de c/u de las clases en que se agrupa la muestra 𝑖 𝑖 𝑠2 = (𝑛 − 1) 𝑥̅ : Es la media aritmética de la muestra 𝐹𝐴𝑖 :Es la frecuencia absoluta de cada clase n : Es el tamaño de la muestra EJEMPLO Una muestra del tiempo.49 22.3 28.3 1. esta en una de las razones por las cuales. Los símbolos que se utilizan son σ.24 4 6 33 4 6 33 5 -1.09 220.4. para el cálculo de la dispersión en muestras 2.7 0. todas las unidades de la desviación estándar están elevadas al cuadrado por lo que es difícil interpretar el significado del valor de la varianza.7 22.69 55.89 174.77 6 8 45 6 8 45 7 0.13.7 7.90 2 4 16 2 4 16 3 -3. para medir la dispersión.54 12 10 11 4. se prefiere otra medida que es la Desviación Estándar 2.4.40 = 6.8 horas al cuadrado Como se puede observar.3 horas 𝑠2 = 943. que demora el almacén de materiales de una fábrica en surtir los pedidos que recibe: Datos Tabla de cálculo Tiempo No.40 (140 − 1) 943.90 8 10 26 8 10 12 10 10 140 140 𝑥̅ = 6.09 280. en los ejemplos anteriores. 8 horas al cuadrado Por lo tanto: s= √𝑠 2 = √6. en horas.2 DESVIACIÓN ESTÁNDAR PARA MUESTRAS Datos no agrupados Datos agrupados ∑(𝑥𝑖 − 𝑥̅ )2 (𝑛 − 1) ∑(𝑥𝑖 − 𝑥̅ )2𝐹𝐴𝑖 (𝑛 − 1) s=√𝑠 2 = √ s=√𝑠 2 = √ Las tablas de cálculo para la desviación estándar son idénticas a las que se utilizan para la varianza. los detalles de la forma como se ejecutan estas funciones.8 = 2. lo mismo se hizo en la sección de materiales pesados. de la misma bodega y para ambas muestras se calculó su peso promedio y la desviación estándar.58 = 10. con un cálculo adicional: extraer la raíz cuadrada de la varianza EJEMPLO En un ejemplo anterior se vio que los puntajes de los aspirantes a un cargo. 2. σ = √𝜎 2 = √113.14 EL COEFICIENTE DE VARIACIÓN Para introducir el concepto del coeficiente de variación se analiza la siguiente situación: En la sección de materiales livianos del almacén de materiales de una fábrica se tomó una muestra del peso de elementos de esa sección escogidos al azar. en la práctica. a ciencia cierta.13. por lo que se debe consultar. como se obtienen la cifras de los cálculos de la media aritmética y la desviación estándar.4. en una empresa fueron: y se calculó que: 𝜎 2 = 113.6 horas 140 Aunque es indispensable que se conozca. que demora el almacén de materiales de una fábrica en surtir los pedidos que recibe Tiempo No. Los resultados son los que se presentan a continuación: DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 76 . la tecnología disponible permite que estas operaciones se hagan de forma más rápida y segura utilizando las funciones estadísticas de las calculadoras científicas o de las hojas electrónicas de los programas de computador. en los manuales de las calculadoras.7 puntos PUNTAJES 60 81 77 72 91 90 EJEMPLO En otro caso se estableció que el tiempo.58 puntos al cuadrado Por lo tanto. por lo menos.4. de (Horas) pedidos 0 2 10 2 4 16 4 6 33 6 8 45 8 10 26 10 12 10 Y se calculó que: 𝑠2 = 6.UNIDADES TECNOLÓGICAS DE SANTANDER 2. en la sección de materiales pesados la desviación estándar equivale únicamente a 1/25 del peso promedio de los paquetes.22 = 57 90 10 $47. en miles de pesos. la desviación estándar del vendedor A es mayor que la desviación estándar del vendedor B. porque el coeficiente de variación de las ventas del vendedor A es menor que el coeficiente de variación de las ventas del vendedor B EJEMPLO Una muestra de las ventas por día de un almacén de ropa de moda y un gran distribuidor textil se presentan en la siguientes tablas. de dos vendedores de una empresa.1 miles CV = 0. la estadística dispone de un indicador para medir la dispersión. sin embargo. es mucho más alta la dispersión de la sección de materiales livianos. las ventas de la muestra del vendedor A son menos dispersas que las ventas de la muestra del vendedor B. Sin embargo. se puede ver que en el caso de la sección de materiales livianos.UNIDADES TECNOLÓGICAS DE SANTANDER SECCIÓN DE MATERIALES LIVIANOS SECCIÓN DE MATERIALES PESADOS 𝑥̅ = 4 Kilos 𝑥̅ = 50 Kilos S = 2 Kilos S = 2 kilos La primera impresión que se obtiene de una observación desprevenida de estos resultados es que las dos muestras tienen la misma dispersión porque sus desviaciones estándar son iguales. Este indicador es el Coeficiente de Variación y se calcula con la siguiente expresión: COEFICIENTE DE VARIACIÓN PARA POBLACIONES COEFICIENTE DE VARIACIÓN DE MUESTRAS SÍMBOLO : CV SÍMBOLO : CV CV = 𝜎 CV µ = 𝑠 𝑥̅ El coeficiente de variación es un número sin dimensiones por lo que se puede expresar en fracciones decimales o en porcentaje EJEMPLO Se tomaron muestras de las ventas diarias. ¿Cuál de los dos promedios de ventas por día es más confiable? DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 77 . Para resolver este inconveniente. si se examina con más atención. ¿Cuál de las dos muestras es más dispersa? VENTAS DEL VENDEDOR A 500 450 390 𝑥̅ 600 290 VENTAS DEL VENDEDOR B 400 440 80 25 23 𝑥̅ = = $438. la desviación estándar equivale a la mitad del peso promedio de los materiales de la muestra. Por lo que comparadas las dos desviaciones estándar con la magnitud de su respectivo promedio.70 Como se puede notar.6 miles S = $96. no permite comparar la dispersión de dos muestras y se puede agregar que esta dificultad se presenta cuando las medias de las muestras que se están comparando son muy diferentes entre sí. En cambio. De este análisis se concluye que la desviación estándar en casos como el del ejemplo.5 miles $33.5 miles S CV = 0. 5 25 1.4 16 1.5 1.4 12.9 1.5 25 11.2 10.0 9.75 1.7 1.706306306 CV = 0.30489321 𝑋̅ = 12.7 15.8 9 15.1 20 2.95 1.85 1.9 2.15 1.6 12.2 91 111 𝑋̅ = 1.5 13.9 29 13.5 16 11.8 2.2 10.7 15.5 13.7 23 1.6 14.1 3 1.6 14. de por día días Xi 0.7 1.13255294 = 1.1 20 14.05 1.3 11.25 2.2 10.5 1.17868609 S = 0.26428571 S CV = 0.7 10 14.3 12 9.4 12.9 29 1.1 3 9.3 11 9 91 111 Solamente se necesita establecer la marca de clase de ambas tablas y el resto de los cálculos se realizan directamente aplicando las funciones estadísticas de las calculadoras científicas JEANS AND BREECHES DISTRIMODA VENTAS POR DÍA VENTAS POR DÍA (Millones de pesos) (Millones de pesos) Ventas No.9 2.3 9 10.62566714 Respuesta: Es más confiable el promedio diario de Distrimoda porque tiene el menor coeficiente de variación DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 78 .8 13.6 19 1.3 1.1 2.6 19 13.0 14.3 12 1.1 1.7 10 1.4 11.4 16 10.7 23 12.3 9 1. de Ventas No.1 2.3 11.UNIDADES TECNOLÓGICAS DE SANTANDER JEANS AND BREECHES DISTRIMODA VENTAS POR DÍA VENTAS POR DÍA (Millones de pesos) (Millones de pesos) Ventas No. de por día días por día días 0. de por día días Xi Ventas No.9 1.5 16 1.3 1.3 11 2.1 1. 1.1.1 REGRESIÓN INTRODUCCIÓN En muchas circunstancias de las actividades administrativas o cotidianas se encuentra que el comportamiento de dos o más hechos o situaciones parece estar relacionado de alguna manera.UNIDADES TECNOLÓGICAS DE SANTANDER 3 REGRESIÓN Y CORRELACIÓN 3.1 3. A la variable que ocurre primero o que determina el comportamiento de otra se le llama Variable Independiente y se suele representar por la letra X y a la otra variable se le llama Variable Dependiente y se suele representar por la letra Y EJEMPLOS: Tasa de desempleo y ventas del comercio: La variable independiente o variable x es la tasa de desempleo y la variable dependiente o variable y es las ventas del comercio Accidentes de tránsito y ventas de licor: La variable independiente es las ventas de licor y la variable dependiente los accidentes de tránsito El número de personas que se movilizan en bus puede depender de las ventas de motocicletas y del estado del clima. Esta relación entre las variables se establece a través de una ecuación que se llama Ecuación de Regresión 3.1. que la observación o el sentido común indican que tienen comportamientos que están relacionados 3.3 IMPORTANCIA DE LA REGRESIÓN Este método aplicado al análisis estadístico permite predecir matemáticamente el comportamiento de una variable a partir del comportamiento conocido de otra u otras variables. Estas situaciones reciben el nombre de variables 3.4 VARIABLES DEPENDIENTES E INDEPENDIENTES Al establecer la relación entre dos variables se encuentra que el comportamiento de una variable depende del comportamiento de otra u otras variables o que la manifestación de una variable ocurre primero que la manifestación de otra u otras variables.1. por lo que el número de personas que utilizan el servicio de bus es la variable dependiente y las otras dos son las variables independientes DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 79 .2 CONCEPTO DE REGRESIÓN Es un método de cálculo para establecer la relación matemática que existe entre dos o más situaciones o variables. como por ejemplo en los siguientes casos: El número de vehículos que circulan por las vías de una ciudad y los índices de contaminación de la misma La tasa de desempleo y las ventas del comercio Las ventas de licor y el número de accidentes de tránsito Las horas de tutorías y el número de estudiantes que reprueban los parciales El número de apartamentos construidos en un determinado periodo y las ventas de muebles El número de personas que se movilizan en bus y las ventas de motos y el estado del clima Existe una técnica para establecer matemáticamente la relación que puede existir entre situaciones como las señaladas anteriormente. 95 8.55 2.6 TIPOS DE RELACIÓN ENTRE DOS O MÁS VARIABLES La relación entre dos o más variables que como dijimos anteriormente matemáticamente recibe el nombre de regresión se puede clasificar de dos formas: Atendiendo a la cantidad de variables que se relacionan se clasifica en Regresión Univariada o Regresión Multivariada Atendiendo a la representación gráfica de la ecuación de regresión se clasifica en Regresión Lineal o Regresión Curvilínea DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 80 .85 6. como se presenta en la siguiente tabla: Kilómetros X 30 50 10 40 60 20 Galones Y 5. de los valores que toman la variable independiente (x) y la variable dependiente (y) EJEMPLO Se tomaron datos sobre el kilometraje recorrido por un vehículo y el consumo de gasolina. en el plano cartesiano.35 9.1.5 GRÁFICO DE DISPERSIÓN Es la representación gráfica.25 13.UNIDADES TECNOLÓGICAS DE SANTANDER 3. en galones. en forma simultánea.75 La representación gráfica de los valores de esta tabla en el plano cartesiano.1. recibe el nombre de Gráfico de Dispersión como se muestra a continuación: Gráfico de dispersión Galones consumidos 16 14 12 10 8 6 4 2 0 0 10 20 30 40 50 60 70 Kilómetros recorridos 3. como se puede ver en el siguiente gráfico DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 81 .7 TIPOS DE REGRESIÓN Regresión Univariada Se presenta cuando sólo interviene una variable independiente Regresión Multivariada Se presenta cuando interviene más de una variable independiente Regresión lineal Se presenta cuando la representación gráfica de la ecuación de regresión es una línea recta. una recta parece describir de manera apropiada la relación entre estas variables.UNIDADES TECNOLÓGICAS DE SANTANDER Esta clasificación se puede visualizar en la siguiente gráfica: 3. Por lo tanto. proporcionalmente. el valor de la variable dependiente. Regresión Curvilínea Se presenta cuando la representación gráfica de la ecuación de regresión es una curva Tanto la regresión lineal como la curvilínea tienen dos formas de manifestarse: en forma directa o en forma inversa Regresión Lineal Directa Ocurre cuando al aumentar el valor de la variable independiente aumenta.1. que mejor describe la relación entre estas dos variables. se presenta en la gráfica de la izquierda 6 5 4 3 2 1 0 0 5 10 15 20 25 30 Variable X DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 82 .UNIDADES TECNOLÓGICAS DE SANTANDER 10 Y 5 4 3 9 7 5 9 8 7 Variable Y X 8 13 6 24 18 20 6 5 4 3 2 1 0 0 5 10 15 20 25 30 Variable X 10 9 8 variable Y 7 La curva de regresión (una recta). UNIDADES TECNOLÓGICAS DE SANTANDER Regresión Lineal Inversa Ocurre cuando al aumentar el valor de la variable independiente disminuye el valor de la variable dependiente en una proporción similar Y 9 24 11 6 14 30 25 20 Variable Y X 19 3 16 24 8 15 10 5 0 0 5 10 15 20 25 30 Variable X La curva de regresión (una recta). se presenta en la siguiente gráfica: 30 25 variable Y 20 15 10 5 0 0 5 10 15 20 25 30 Variable X DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 83 . que mejor describe la relación entre estas dos variables. UNIDADES TECNOLÓGICAS DE SANTANDER Regresión Curvilínea Directa Ocurre cuando al aumentar de valor la variable independiente. la variable dependiente aumenta mas que proporcionalmente Y 12 21 6 7 17 8 25 20 Variable Y X 16 18 8 12 17 10 15 10 5 0 0 5 10 15 20 Variable X La curva de regresión. se presenta en la siguiente gráfica 25 Variable y 20 15 10 5 0 0 5 10 15 20 Variable X DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 84 . que mejor describe la relación entre estas dos variables. se presenta en la siguiente gráfica: 20 18 16 Variable Y 14 12 10 8 6 4 2 0 0 5 10 15 20 25 Variable X DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 85 .UNIDADES TECNOLÓGICAS DE SANTANDER Regresión Curvilínea Inversa Ocurre cuando al aumentar de valor la variable independiente. que mejor describe la relación entre estas dos variables. la variable dependiente disminuye de valor en forma más que proporcional Y 2 9 7 18 2 20 18 16 14 Variable Y X 14 5 10 2 20 12 10 8 6 4 2 0 0 5 10 15 20 25 Variable X La curva de regresión. 8 LA REGRESIÓN LINEAL Cuando los puntos del gráfico de dispersión se pueden relacionar con una recta que pase lo mas cerca posible de todos ellos.2 3. un celular. como se presenta a continuación DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 86 . se determinarán utilizando las funciones de las calculadoras científicas. a esta recta se le llama Recta de Mínimos Cuadrados. donde A es el punto donde la recta corta al eje Y. la variable dependiente es el tiempo de duración de la batería y la variable independiente el tiempo en segundos que dura encendido el celular.1.9 2. y B es la pendiente de la recta. de los puntos del gráfico a esta recta es mínima Esta recta tiene por ecuación Y = A + B X. porque la suma de las distancias al cuadrado. de forma intermitente. el estudiante interesado lo puede consultar en cualquier texto de estadística.UNIDADES TECNOLÓGICAS DE SANTANDER Ninguna relación Ocurre cuando la relación entre la variable dependiente e independiente no se puede describir con ningún tipo de curva Y 8 5 4 3 10 7 12 10 8 Variable Y X 13 2 15 5 4 7 6 4 2 0 0 2 4 6 8 10 12 14 16 Variable X 3.1 Como el tiempo de duración de la batería depende del tiempo total. El proceso para determinar el valor de los parámetros A y B es complejo. pero.3 3. que de forma intermitente dura encendido el celular. con la duración de su batería. EJEMPLO Se comparó el tiempo total que realmente dura encendido. obteniendo los valores que se presentan en la siguiente tabla: celular encendido (segundos) 360 270 480 120 440 230 160 duración batería (horas) 3. En el curso.2 4.9 3.5 1. 0 2.2 4.3 3.5 3.5 2.1 El gráfico de dispersión de estos datos es el siguiente: 4.0 2.0 3.9 2.0 0 100 200 300 400 500 600 Duración del celular encendido en segundos Entre más tiempo dure el celular encendido menos tiempo durará la batería por lo que la relación entre las DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 87 .0 0.5 1.5 0.0 0.9 3.5 0.UNIDADES TECNOLÓGICAS DE SANTANDER X celular encendido (segundos) 360 270 480 120 440 230 160 Y duración batería (horas) 3.5 1.5 4.5 Dración de la batería en horas 4.0 3.5 1.5 2.0 0 100 200 300 400 500 600 Duración del celular encendido en segundos Duración de la batería en horas Trazando una recta que pase lo más cerca posible de todos los puntos.5 3.2 3.0 1. el gráfico queda así: 4.0 1. se observa que la relación entre las dos variables es de tipo lineal.0055024(500) Y = 2 horas DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 88 .0055024 Y la ecuación de regresión que relaciona las dos variables es: Y = 4. por lo tanto negativa. Adicionalmente.0055024X Para un tiempo de encendido total intermitente del celular de 500 segundos. donde los parámetros de la recta de regresión son: A = B = 4. la duración que se puede esperar de la batería es: Y = 4.0.7744201 .0.7764201 -0.UNIDADES TECNOLÓGICAS DE SANTANDER dos variables en inversa y la pendiente de la recta es.7764201 . para estos ejemplos. es decir. también. es muy reducida. A esta fuerza o intensidad se le llama Correlación 3.1 EL COEFICIENTE DE CORRELACIÓN Es una medida del grado en que una variable independiente influye en una variable dependiente Este grado de la relación entre dos variables se mide con un indicador que recibe el nombre de coeficiente de correlación.UNIDADES TECNOLÓGICAS DE SANTANDER 3. sino. Para cualquier observador que analice estas situaciones. en buena medida. como se muestra en las siguientes gráficas: VOLUMEN DE TRÁFICO CLIMA COSTO DE REPARACIÓN DE VÍAS TOPOGRAFÍA DEL TERRENO CALIDAD DE LOS MATERIALES USADOS KILOMETRAJE RECORRIDO TIPO DE VEHÍCULO MARCA CONSUMO DE COMBUSTIBLE DE UN VEHÍCULO ESTADO MECÁNICO ESTILO DE CONDUCCIÓN TOPOGRAFÍA DE LA VÍA EDAD DEL VEHÍCULO Como es lógico pensar. habrá algunas variables independientes cuya influencia en el costo de reparación de vías o en el consumo de combustible.2. lo común es que en comportamiento total de una variable dependiente sea el resultado de la interacción de varias variables dependientes. en medir que tan fuerte es el grado de esta relación. también. el comportamiento de la variable independiente y. la influencia que tiene cada una de estas variables independientes en el comportamiento total de la variable dependiente no es igual para todas las variables independientes. El significado de estos valores que toma r es el siguiente: DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 89 . es de capital importancia determinar cuáles son las variables que ejercen un efecto notable en el comportamiento de otra. El coeficiente de correlación es un número adimensional que se representa por la letra r y toma valores entre -1 y +1.2 LA CORRELACIÓN El interés del analista no está solamente en establecer la forma como se relacionan dos variables. establecer la fuerza o intensidad con la que una variable independiente y otra dependiente están relacionadas. La regresión univariada es un caso extraño. Habrá algunas variables independientes que determinan. el valor del coeficiente de regresión es: r = -94% Que significa que la correlación entre las dos variables es inversa y óptima 3. Esto quiere decir.2. Se suele preferir valores de coeficientes de correlación superiores al 90% Relación entre el coeficiente de correlación y la pendiente de la recta de regresión Sí la relación entre las variables dependiente e independiente es directa el coeficiente de correlación r y la pendiente de la recta de regresión son ambos de signo positivo Sí la relación entre las variables dependiente e independiente es inversa el coeficiente de correlación r y la pendiente de la recta de regresión son ambos de signo negativo EJEMPLO Para el mismo caso de la duración de la batería del celular. en el primer mes de actividad. se presentan en la siguiente tabla: Horas de capacitación 27 22 38 13 33 15 No.9 ≤ r < 1 ó -1 < r ≤ . la relación entre las variables es directa Sí r < 0. significa que el 64% de los accidentes de tránsito de los fines de semana se pueden explicar por las ventas de licor Para el mismo caso que estamos estudiando de la duración de la batería del celular. la fuerza de la relación entre la variable independiente y la variable dependiente. de cada uno de estos grupos. la relación entre las variables es inversa Sí 0. un coeficiente de determinación de 64% entre los litros de licor vendidos los fines de semana y el número de accidentes de tránsito. diferentes grupos de operarios aprendices y el número de unidades defectuosas. es la máxima posible. es decir. que el comportamiento de la variable dependiente depende completamente del comportamiento de la variable dependiente Sí r> 0. es positiva. en esos días.2 EL COEFICIENTE DE DETERMINACIÓN El coeficiente de determinación es el cuadrado del coeficiente de correlación y explica el porcentaje de cambio de la variable dependiente que se puede explicar por el cambio de la variable independiente. es decir.9 la correlación entre las variables se considera óptima Sí r = 0 no existe correlación entre las variables Como el coeficiente de correlación es un número adimensional se puede expresar también en porcentaje. que salen del proceso productivo.UNIDADES TECNOLÓGICAS DE SANTANDER Sí r = -1 ó r = +1 la correlación entre las variables es perfecta. Por ejemplo.0. de productos defectuosos 40 51 39 50 45 58 a) ¿Se puede utilizar el modelo de regresión lineal? b) ¿Se justifica utilizar las horas de capacitación para pronosticar el número de productos defectuosos en el DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 90 . es negativa. el coeficiente de determinación es: r2 = 88% Que significa que el 88% de las variaciones en la duración de la batería del celular se deben a las variaciones en el tiempo total que demora el celular prendido de forma intermitente EJEMPLO Las horas de capacitación que han recibido. es decir. 81328 = -81% r2 = 0. de productos defectuosos 70 60 50 40 30 20 10 0 0 5 10 15 20 25 30 35 40 Horas de capacitación Sí se puede utilizar el modelo de regresión lineal porque los puntos describen una línea recta b) r = -0.6614 = 66% el 66% de las variaciones en el número de productos defectuosos se deben a las variaciones en las horas de capacitación.869 – 0.596(20) = 50 unidades DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 91 .889 – 0. La correlación entre las dos variables es moderada.596x d) Porque la relación entre las variables es inversa e) y estimado = 61. Se pueden realizar pronósticos con precaución c) y = 61.UNIDADES TECNOLÓGICAS DE SANTANDER primer mes de actividad de los aprendices? ¿Por qué? c) Establezca la ecuación de regresión lineal que relaciona las dos variables d) ¿Por qué la pendiente tiene signo negativo? e) Sí un nuevo grupo de operarios aprendices sólo va a recibir 20 horas capacitación ¿Alrededor de cuántas unidades defectuosas se pueden esperar en su primer mes de trabajo? Solución a) Gráfico de dispersión No. UNIDADES TECNOLÓGICAS DE SANTANDER DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 92 . de los cuales ocurre solo uno Los resultados ocurren “AL AZAR” ¿En qué numero caerá la lotería? ¿Qué resultado tendrá una nueva empresa? ¿Cuántos productos saldrán defectuosos de un lote de producción? ¿Qué numero saldrá al lanzar un dado? Fenómenos determinísticos hay certidumbre. sí se realiza una actividad en unas condiciones determinadas Fenómenos aleatorios hay incertidumbre. Cuando se realiza una actividad no se sabe cuál de los posibles resultados va a ocurrir. conocidos. Concepto de Experimento Aleatorio: Cualquier acción que tenga varios resultados posibles conocidos de los cuales ocurre solo uno Lanzar una moneda Iniciar una empresa Medir alguna característica de las piezas que salen de producción Cuántas veces se avería una máquina en el mes Qué va a responder una persona sobre un tema que se le pregunte Definiciones de probabilidad: Medida numérica de la posibilidad de que ocurra un resultado determinado en un experimento aleatorio Medida numérica de la incertidumbre Necesidad de la probabilidad: Medir la posibilidad o el riesgo de que algo ocurra o no ocurra Cuantificar la incertidumbre Conceptos Básicos de Probabilidades Espacio Muestral Lista de TODOS los posibles resultados de un experimento aleatorio Símbolo S Ejemplos de espacio muestral: Lanzar una moneda Lanzar un dado El peso de estudiantes de un salón de clase DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 93 . Siempre se sabe que va a ocurrir.1 PRINCIPIOS DE PROBABILIDAD Tipos de fenómenos: Fenómenos determinísticos Una acción produce un solo resultado posible Se puede pronosticar con precisión lo que va a ocurrir ¿Qué distancia recorre un cuerpo en caída libre en un tiempo determinado? ¿A qué temperatura se evapora el agua al nivel del mar? ¿Qué le ocurre a un material ferroso en un ambiente húmedo? Fenómenos aleatorios Una acción produce varios resultados posibles.UNIDADES TECNOLÓGICAS DE SANTANDER 4 INTRODUCCIÓN AL CÁLCULO DE PROBABILIDADES 4. 2 ASIGNACIÓN DE PROBABILIDADES Métodos de asignación de probabilidades Método Clásico Método Empírico o de la Frecuencia Relativa Método Subjetivo Método Clásico Supuesto: resultados equiprobables Momento del cálculo: a priori (probabilidades teóricas) Para un suceso E cualquiera: Ejemplos : Calcular la probabilidad de que salga cara al lanzar una moneda Calcular la probabilidad de que salga un 4 al lanzar un dado Calcular la probabilidad de que la suma de los puntos al lanzar un par de dados sea mayor que 7 Calcular la probabilidad de sacar una ficha verde de una caja que contiene 2 fichas verdes. al azar. una ficha de una caja que tiene varias fichas de colores Ingresos de profesionales recién egresados Formas de describir el espacio muestral Con palabras espacio cualitativo Con números enteros espacio discreto Intervalos de valores espacio continuo Resultado o punto muestral Cada uno de los elementos de un espacio muestral Evento o suceso Es un subconjunto del espacio muestral compuesto por uno o más resultados del espacio muestral Simbología de las probabilidades : Propiedades fundamentales de las probabilidades si x = cualquier suceso La suma de las probabilidades de todos los resultados de s debe siempre dar exactamente 1 4.UNIDADES TECNOLÓGICAS DE SANTANDER Lanzar un par de dados Sacar. una roja y 3 blancas DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 94 . 0 1.21 0. uno o más elementos y se registra el estado de la característica observada Muestreo con remplazamiento Muestreo sin remplazamiento Ensayos Concepto: Cada uno de los intentos o pruebas con los que se realiza un experimento aleatorio Principio del muestreo : Simultáneamente = En sucesión DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 95 . ¿Cuál e s la probabilidad de que la ficha seleccionada sea un número mayor que 6? Método Subjetivo Sucesos que no han ocurrido antes Sucesos que han ocurrido muy pocas veces Sucesos que ocurren siempre en diferentes condiciones 4.5 .3.2.0 Mas de 3.UNIDADES TECNOLÓGICAS DE SANTANDER Método Empírico o de la Frecuencia Relativa Método de cálculo: a posteriori (probabilidades empíricas) La probabilidad de que ocurra un suceso E cualquiera es igual a su frecuencia relativa Ejemplo: Tiempo que demora una capa de pintura en secarse Horas por muestra 0 .14 0.10 0.5 1.0 . de muestras 10 22 15 10 7 5 3 72 FR 0.5 2.14 0.1.5 . completamente al azar.0.00 Sí x = tiempo de secado en horas ??? Práctica: De una caja que contiene 10 fichas numeradas del cero al nueve se extrae una ficha al azar.30 0.0 2.0 .5 .04 1.1.0 Suma No.2.5 0.3 EL DIAGRAMA DE ÁRBOL Muestreo Concepto de muestra: Se examina el estado de la variable observando parte de los elementos de una población Muestreo: Técnicas para seleccionar las muestras Muestreo: experimento aleatorio Muestreo de caja o de urna Concepto: Se extraen de una caja.07 0. 4 TÉCNICAS DE CONTEO Técnicas de conteo Fin: calcular el tamaño del espacio muestral y calcular el tamaño de un suceso Se usan: Principio fundamental del conteo Permutaciones Combinaciones Principio Fundamental del Conteo (PFC) Muestreo con remplazamiento y sin remplazamiento (ya visto) Muestreo ordenado Fórmula Permutaciones A A A A A A Muestreo ordenado Condición: muestreo sin remplazamiento Concepto de permutación Fórmula para el cálculo del número de permutaciones Ejemplo: de una caja que tiene 4 fichas marcadas con las letras A.UNIDADES TECNOLÓGICAS DE SANTANDER Diagrama de Árbol Técnica gráfica para establecer el espacio muestral Limitaciones del diagrama de árbol: Muestreo de más de 3 ensayos Caja con muchos elementos diferente 4. B. C y D se extraen 3 fichas sin reemplazamiento B C B A C C A B D A B B D B A D C A D D A C C B B C A C B A D B A C D B C D C B D D B C D B B D A C D A D C A D C B D C C D B D C B Combinaciones Muestreo desordenado Condición: muestreo sin remplazamiento Concepto de combinación Fórmula para el cálculo del número de combinaciones COMBINACIONES DEPARTAMENTO DE CIENCIAS BÁSICAS A B C A B D A C D B C D VERSIÓN 12 FECHA: 2015 Página 96 . UNIDADES TECNOLÓGICAS DE SANTANDER Clasificación de los sucesos Un solo ensayo: Sucesos mutuamente excluyentes Sucesos compatibles Más de un ensayo: Sucesos independientes Sucesos dependientes 4. la suma de las caras sea un número mayor que 8 es: 5 A = Suma de las caras > 8 𝑃 (𝐴) = 18 ̅ = Suma de las caras ≤ 18 𝑨 𝑃(𝐴̅) = 1 − 𝑃 (𝐴) = 1 − 5 = 18 13 18 Probabilidad Conjunta Sucesos independientes Sí A y B son sucesos independientes la probabilidad de que ocurran el suceso A y el suceso B simultáneamente o en sucesión: 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑥 𝑃(𝐵) Sucesos Dependientes Sí A y B son sucesos dependientes la probabilidad de que ocurran el suceso A y el simultáneamente o en sucesión: suceso B 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑥 𝑃(𝐵⁄𝐴) Probabilidad condicional Condición: un solo ensayo Significado: Para dos sucesos A y B cualquiera DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 97 . la probabilidad de que no ocurra el suceso A es: 𝑃(𝐴̅) = 1 − 𝑃(𝐴) Ejemplo: la probabilidad de que al lanzar un par de dados.5 OPERACIONES CON PROBABILDADES Operaciones con probabilidades Suma de probabilidades Complemento Multiplicación o Probabilidad Conjunta División o Probabilidad Condicional Suma de Probabilidades La probabilidad de que ocurra el suceso A ó el suceso B: Sucesos compatibles: Sucesos mutuamente excluyentes: Complemento Sí se tiene un suceso A cuya probabilidad de ocurrencia 𝑃(𝐴) se conoce. con la calidad y cantidad que se muestran en la siguiente tabla: CALIDAD Primera Segunda TOTAL A 20 10 30 PROVEEDOR B 12 8 20 C 6 4 10 TOTAL 38 22 60 Sí se escoge un repuesto al azar y sale de segunda ¿Cuál es la probabilidad de que sea del proveedor C? 4.6 DEPARTAMENTO DE CIENCIAS BÁSICAS TEOREMA DE BAYES VERSIÓN 12 FECHA: 2015 Página 98 .UNIDADES TECNOLÓGICAS DE SANTANDER La probabilidad de que ocurra el suceso A sí el suceso B ya ocurrió: 𝑃 (𝐴 ⁄ 𝐵 ) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐴)𝑥 𝑃(𝐵⁄𝐴) = 𝑃(𝐵) 𝑃(𝐵) Ejemplo Una fábrica tiene en existencia. repuestos comprados a 3 proveedores. UNIDADES TECNOLÓGICAS DE SANTANDER DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 99 . Estadística para Administración y Economía Séptima edición. Richard. Thomas. Estadística Aplicada a los Negocios y la Economía Décimo Quinta edición.UNIDADES TECNOLÓGICAS DE SANTANDER 5 BIBLIOGRAFÍA LEVIN. Ciro. Douglas. Estadística y Muestreo. Editorial CENGAGE LEARNING DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 12 FECHA: 2015 Página 100 . México. Samuel. 2004 MARTÍNEZ B. PEARSON EDUCATION. Editorial ECOE LIND. Décimo Tercera edición. David. 11ª edición. et al. Dennis y WILLIANS. MARCHAL. Editorial McGraw Hill ANDERSON. William y WATHEN. Estadística para Administración y Economía. SWEENEY.