INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing.Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. ESTADISTICA CONCEPTOS BASICOS Población: Constituido por el conjunto total de elementos, individuos u objetos con una o varias características comunes observables. Por ejemplo: la estatura, el peso, el tiempo, la temperatura, etc. A la población se representa por N, y de acuerdo a su tamaño puede ser: a) Población Finita: Cuando está constituido por un número definido de elementos (individuos u objetos). Por ejemplo, el número de alumnos de cierta Universidad. b) Población Infinita: Cuando está constituido por un número indefinido de elementos. Por ejemplo, los puntos de un a recta numérica. Muestra: Es una parte representativa de la población con las mismas características de la población y se considera como un subconjunto de la población. Tamaño de la muestra: se representa como n al conjunto total de elementos de la muestra, la cual puede variar desde uno hasta el total de la población. La muestra de acuerdo a su tamaño puede ser: a) Muestra Representativa: Cuando nos proporciona una información global acerca de alguna característica observable de una población o universo estadístico. b) Muestra al Azar o Aleatoria: Se denomina así, cuando todos los elementos o datos de una población o universo estadístico sometidos a muestreo, tienen igual oportunidad o ser probables a ser seleccionados. c) Muestra Sesgada o viciada: Cuando los elementos de una población sometidos a muestreo, han sido seleccionados mediante criterios subjetivos. Por ejemplo, si de la población de cierta Universidad el rector selecciona solo a los de más alto puntaje de rendimiento, decimos que es una muestra sesgada, dado que no han sido considerados todos los elementos de la población universitaria. Esta muestra así no es representativa. Individuo, unidad elemental o experimental Es cada uno de los elementos de la población o muestra en quien vamos a observar la característica en estudio. Variable o características: Se define como una característica que presentan los individuos o unidades elementales de una población o muestra. La variable puede ser: a) Variable Cualitativa : Es cuando la característica de los elementos reflejan la presencia de un determinado atributo y no están asociados a valores numéricos. A su vez esta variable puede ser: - Variable cualitativa nominal : Por ejemplo, las personas que están a favor o en contra de cierta medida económica, el color de ojos, etc. Es decir, que poseen un atributo y son susceptibles a una ordenación. - Variable Cualitativa Jerarquizada : Por ejemplo, las pruebas de degustación de algún producto alimenticio. b) Variable Cuantitativa : Las características de los elementos (individuos u objetos) están asociados a valores numéricos. A su vez esta variable puede ser: - Variable Cuantitativa Discreta: En su esencia son numéricos, reflejan una magnitud, y pueden ser puestos en correspondencia biunívoca con los números naturales. Por ejemplo, el número de hijos de una familia, donde el conjunto de valores posibles es: {0,1,2,….,25} - Variable Cuantitativa Continua: El conjunto de números posibles de esta variable se puede representar como un intervalo en los números reales. Por Ejemplo, registrar el tiempo de duración de una bombilla eléctrica; su representación podría ser 0 ≤ X ≤ 1000 horas, donde X representa el tiempo de duración de la bombilla. Manual de Estadística General 1 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. ORGANIZACIÓN Y PRESENTACION DE DATOS Distribuciones de Frecuencias Un conjunto de datos, puede ser resumido y clasificado de acuerdo a criterios convenientes. Provengan las informaciones de censos o de muestras relativamente grandes, siempre serán útiles para el análisis, ya que difícilmente podrían obtenerse conclusiones válidas de datos estadísticos no clasificados. Los tipos de variables fundamentales, por lo menos para este trabajo, serán los siguientes: a) Variables cardinales : Susceptibles de medición cuantitativa; y las que a su vez comprenden: - Continuas: variables que admiten siempre un valor intermedio dentro de un intervalo de valores (longitud, peso, estatura, ingresos, inteligencia, etc.) - Discretas: variables que no admiten siempre un valor intermedio dentro de un intervalo de valores (número de hijos por familia, número de accidentes de transito por día, etc.). b) Variables Ordinales : sólo susceptibles de ordenación pero no de medición cuantitativa (grado de cultura de una persona: muy culta, regularmente culta, poco culta, inculta). Para cada uno de estos tipos de variables, un conjunto de observaciones puede dar origen a una distribución de frecuencias; y ésta debe entenderse como un cuadro o tablas de resumen de los datos originales. En el caso de variables continuas será necesario fijar intervalos de frecuencias para llegar a un resumen efectivo de la información original. El punto medio de cada intervalo se denominará marca de clase y constituirá el valor representativo de cada intervalo. El número de observaciones que corresponden a cada intervalo se denominará frecuencias absolutas. Una tabla de distribución de frecuencias para variable continua y sus símbolos correspondientes se presenta de la siguiente forma: i Intervalos de Clase LI i - LS i Marca de Clase X i ’ Frecuencia Absoluta f i 1 LI 1 – LS 1 X 1 ’ f 1 2 LI 2 – LS 2 X 2 ’ f 2 3 LI 3 – LS 3 X 3 ’ f 3 . . . . . . . . . . . . K LI k - LS k X k ’ f k Manual de Estadística General 2 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Donde: Amplitud del Intervalo: C i = LS i – LI i Amplitud Total o Rango: R = LS k – LI 1 Marca de Clase: X i ’ = LI i + LS i 2 Número de Observaciones: n = Estas Tablas pueden ser de amplitud constante o de amplitud variable, según los valores que tome C i . Cuando se trata de variables discretas o discontinuas, la tabla de distribución de frecuencias adquiere la forma siguiente: X i ’ f i X 1 ’ f 1 X 2 ’ f 2 X 3 ’ f 3 . . . . . . X k ’ f k Cabe destacar que cuando la variable adquiere numerosos valores distintos para abreviar el trabajo, con cierta arbitrariedad y con alguna pérdida de precisión, puede tratarse como una variable continua, formando intervalos de clase. Por último, en el caso de variables no mensurables, dicha tabla adoptará una forma como la siguiente: Variable Frecuencia Característica A f A Característica B f B Característica C f C . . . . . . Característica Z f z Así entonces las tablas de distribución de frecuencias facilitan enormemente el análisis. Es muy ventajoso disponer de informaciones clasificadas en intervalos o en valores específicos de la variable, ya que, de esta manera, es posible obtener conclusiones primarias acerca de la variable que se investiga. Manual de Estadística General 3 ∑ · k i i f 1 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Por otro lado, la variable cuantitativa continua tiene también otras conveniencias usuales como: 1. Interpretación continua de los valores discretos: Consideremos, por ejemplo, la longitud, supongamos que una regla no muestra más allá de los centímetros, ello permite atribuir valores tales como: 1.68, 1.69, 1.70, pero no valores intermedios. Esta limitación, es debido a la imperfección del instrumento de medida, no a que sean imposibles estos valores intermedios. Por ello para salvar la continuidad, vamos a admitir que cada valor discreto representa a todos los infinitos valores situados media unidad de medida (medio centímetro) a su izquierda y media unidad a su derecha. En nuestro caso, 1.68 representa a los infinitos valores que van desde 1.675 hasta 1.685 (incluido el 1.68), el valor 1.69 representa a todos los valores que van desde 1.685 hasta 1.695, etc. Es decir, 1.68 representa a una clase con infinitos valores intermedios. Llamaremos “Intervalo elemental” a cada una de estas clases. Diremos que 1.675 es el Límite exacto inferior del intervalo representado por 1.68, y 1.685 es el límite exacto superior. Diremos que 1.685 es el límite exacto inferior del intervalo representado por 1.69, y 1.695 es su límite exacto superior. Admitiremos, por tanto, que 1.685 es, a la vez, límite exacto superior de un intervalo y límite exacto inferior del intervalo siguiente. Habría que distinguir entre intervalos abiertos y cerrados, abiertos por la derecha (izquierda) y cerrados por la izquierda (derecha). Por tanto, la amplitud de cada intervalo elemental valdrá la unidad de medida utilizada si nos valemos de intervalos semiabiertos. 2. Intervalos elementales y compuestos Recordemos que cada valor discreto representa a todos los valores situados media unidad a su izquierda y media unidad a su derecha. Es decir, con cada valor discreto va asociado un intervalo de amplitud unidad que hemos llamado elemental. Llamaremos intervalo compuesto (o, simplemente intervalo) al conjunto de varios intervalos elementales consecutivos. Por regla general, todos los intervalos compuestos (para un conjunto de datos) contendrán cada uno de ellos el mismo número de intervalos elementales. 3. Límites exactos y límites aparentes Supongamos que en una investigación de valor discreto mínimo obtenido es 8 y el máximo es 19. Los valores discretos posibles (incluyendo el 8 y el 19) serán: 8,9,10,11,12,13,14,15,16,17,18,19 Manual de Estadística General 4 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Cada uno de ellos representa un intervalo elemental unitario. Formemos un intervalo compuesto con los intervalos elementales representados por 8,9 y 10. Dado que es 7.5 el límite exacto inferior del intervalo elemental representado por el 8 y es 10.5 el límite exacto superior del intervalo elemental representado por el 10, aceptaremos 7.5 como límite exacto inferior del intervalo compuesto y 10.5 como límite exacto superior del mismo. Por consiguiente, tendremos 4 intervalos compuestos cuyos límites exactos serán: 7.5-10.5, 10.5-13.5, 13.5-16.5, 16.5-19.5. Llamaremos límites aparentes de estos cuatro intervalos a: 8-10, 11-13, 14-16, 17-19. Nótese que estos valores aparentes son los únicos que, de hecho, pueden aparecer. 4. Amplitud de un Intervalo Es la diferencia entre su límite exacto superior y su límite exacto inferior. En el ejemplo anterior la amplitud de los cuatro intervalos será: 10.5-7.5 = 13.5-10.5 = 16.5-13.5 = 19.5-16.5 = 3 Punto medio de un intervalo o marca de Clase. Es la media aritmética de sus dos límites exactos, o de sus límites aparentes , los otros puntos medios de los intervalos son: 12, 15 y 18 Amplitud Total o Rango Es la diferencia entre la puntuación máxima y la mínima. O, teniendo en cuenta los límites exactos de los intervalos elementales o compuestos, diferencia entre la puntuación máxima y la mínima más una unidad. Cálculo de la amplitud total o rango a) Datos no agrupados en intervalos Por ejemplo, para los datos siguientes: 18, 29, 39, 40, 54. A T = R = 54-18 = 36 ó A T = R = 54-18 + 1 = 54.5 – 17.5 = 37 17.5 18 18.5 53.5 54 54.5 ... 36 37 Manual de Estadística General 5 · + 2 5 . 10 5 . 7 9 2 10 8 · + INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. b) Datos agrupados en intervalos i Intervalo X i ’ f i 1 24 – 38 31 4 2 39 – 53 46 5 3 54 – 68 61 2 4 69 – 83 76 5 5 84 – 98 91 6 A T = R = 91-31 = 60 ó A T = R = 91-31 + 15 = 75 Si en realidad las únicas puntuaciones existentes son los puntos medios de los intervalos. Loa amplitud total sería la diferencia entre el punto medio del intervalo máximo (91) y el punto medio del intervalo mínimo (31) . A su vez la unidad que puede ser añadida es la unidad de intervalo (c i ), medio intervalo por debajo del punto medio mínimo y medio intervalo por encima del punto medio máximo. En otras palabras, añadir una unidad de intervalo, equivale a aceptar como amplitud total la diferencia entre el límite exacto superior del intervalo máximo y el límite exacto inferior del intervalo mínimo (31-7.5 = 23.5 y 91+7.5 = 98.5). Teniendo en cuenta los intervalos, la amplitud total sería: A T = R = 98 – 24 = 74 ó A T = R = 98 – 24 + 1 = 98.5 – 23.5 = 75 es decir, para límites aparentes o límites exactos. 23.5 31 38.5 83.5 91 98.5 ... 60 75 Respecto de las frecuencias, es posible y generalmente útil presentarlas en términos relativos, calculando la proporción que corresponde a cada intervalo o marca de clase sobre el total de observaciones. Se denomina frecuencia relativa, y se simbolizará por h i : h i = y Tanto las frecuencias absolutas como las relativas son susceptibles de acumulación respecto de los intervalos o marca de clase. Manual de Estadística General 6 n fi 1 1 · ∑ · k i i h INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Las frecuencias absolutas acumuladas se simbolizará por F i y se define por: F i = , j < k Es decir, el número de observaciones menores o iguales que un determinado valor de la variable, equivale a la suma de las frecuencias absolutas desde f 1 hasta f j (donde j es un número entero menor que k), o sea, justamente, todas las frecuencias que corresponden a valores de la variable menor o igual a x i . Es decir, F i = f 1 + f 2 + ... + f j La última frecuencia absoluta acumulada es igual al tamaño de la muestra (F k = n), ya que incluye todas las frecuencias absolutas desde f 1 a f k , que es justamente la última. Las frecuencias relativas acumuladas, se simbolizará por H i y se define por: H i = , j < k Es decir, Hi = h1 + h2 + ... + hj, es la suma de las frecuencias relativas correspondientes a los intervalos cuyas marcas de clase son menores o iguales a xi. La frecuencia acumulada se obtiene también de: H i = La última frecuencia relativa acumulada H k , es igual a la unidad, puesto que, H k = = = 1 En general este tipo de frecuencias se acumulan en sentido creciente de la variable. Con las frecuencias acumuladas es posible efectuar comparaciones con bastante facilidad cuando el tamaño de las diversas muestras es diferente. Manual de Estadística General 7 ∑ · j i i f 1 ∑ · j i i h 1 n F i n F k n n INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. REPRESENTACION GRAFICA En general, la representación gráfica de una tabla de distribución de frecuencias, permite percibir con mayor claridad algunas características de un conjunto de datos que se investiga. a) Representación gráfica de variable continua : Si se utiliza un par de ejes coordenados, en el eje de las abscisas se representará la variable estudiada, en tanto que en el eje de las ordenadas, se representará las frecuencias correspondientes. Recuérdese que en este tipo de variables la frecuencia corresponde a un intervalo y por esto se representa mediante una superficie. Con el siguiente ejemplo se ilustrará estas ideas; admítase, en este sentido, la siguiente tabla correspondiente a las edades de los alumnos del curso de estadística: i Edades Alumnos Amplitud de Intervalo C i ’ LI i - LS i f i C i 1 18 – 22 10 4 1 2 22 – 26 20 4 1 3 26 – 30 16 4 1 4 30 – 38 12 8 2 5 38 - 40 1 2 0.5 C i ’ = Nº de amplitud unitaria estandarizada. Puesto que la amplitud de intervalo más frecuente es 4, puede adoptársela como amplitud unitaria; así el cuarto intervalo tendrá dos veces la amplitud unitaria elegida y el quinto intervalo tendrá la mitad de de dicha amplitud. Figura 1. a i = 20 Histograma de Frecuencia 15 Polígono de Frecuencia 10 5 Intervalos de Clase Superficie = Base x Altura f i = c i ’ x a i a i = Frecuencia por intervalo estandarizado Manual de Estadística General 8 i i c f INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. b) Representación gráfica de variable discreta . En este caso la frecuencia correspondiente a cada valor de la variable estará representada por una barra vertical. Figura 2. f i 0 x i Naturalmente, se puede construir, en forma similar, gráficas que relacionen la variable con cualquiera de los tipos de frecuencias que se han expuesto, relativas, acumuladas. etc. Distribución acumulada y polígonos acumulados (ojivas) Otros métodos útiles de presentación para facilitar el análisis y la interpretación de datos, son la construcción de tablas de distribución acumulada y el trazado de polígonos acumulados. Ambos se pueden desarrollar a partir de la tabla de distribución de frecuencias, con la tabla de distribución de porcentajes. Por ejemplo: Tabla 1 Distribución de frecuencias de índices de calificación para 35 estudiantes del curso de estadística: i Índice de calificación f i h i %h i 1 2.00 – 2.40 5 0.143 14.3 2 2.40 – 2.80 9 0.257 25.7 3 2.80 – 3.20 13 0.371 37.1 4 3.20 – 3.60 4 0.114 11.4 5 3.60 – 4.00 4 0.114 11.4 35 0.999* 99.9* * Error a redondeo Manual de Estadística General 9 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Construcción de una tabla de distribución de porcentaje acumulado: Para esto debemos anotar las fronteras inferiores de cada clase en la tabla de distribución de porcentaje y agregar una frontera adicional al final. Para calcular los porcentajes acumulados en la columna de “menos de”, se examina una frontera inferior particular y se determina el porcentaje de observaciones de menos de esa frontera. Tabla 2 Distribución de porcentaje acumulado de índices de calificación para 35 estudiantes del curso de estadística. Índice de Calificación %h i Porcentaje “Menos de” De estudiar “Igual a o mayor que” 2.0 0.0 0.0 100.0 2.4 14.3 14.3 85.7 2.8 25.7 40.0 60.0 3.2 37.1 77.1 22.9 3.6 11.4 88.6 11.4 4.0 11.4 100.0 0.0 Luego, con el uso de la Tabla 2, 0.0% de las observaciones son de menos de 2.0; 14.3% de las observaciones son de menos de 2.4; 40% de las observaciones son de menos de 2.8; y así sucesivamente, hasta que el 100.0% de las observaciones son de menos 4.0. La columna “igual a o mayor que”, se construye para cada frontera inferior al determinar el porcentaje de observaciones iguales a o mayores que ese valor particular. De aquí que el 100.0% de las observaciones son mayores que o iguales a 2.0; 85.7% de las observaciones son mayores que o iguales a 2.4; 60.0% de las observaciones son mayores que o iguales a 2.8, y así sucesivamente, hasta que 0.0% de las observaciones sean mayores que o iguales a 4.0. Para verificación, para cada valor de frontera inferior, el porcentaje de observaciones “menores que” y el porcentaje de observaciones “igual a o mayor que” el valor debe sumar 100.00%. Esto es lógico porque si, por ejemplo, como se indica en la tabla 2, no hay observaciones de menos de 2.0 y si el 14.3% de las observaciones es de menos de 2.4 y el resto, 85.7% de las observaciones, debe ser mayor que o igual a 2.4. Manual de Estadística General 10 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Construcción de un polígono de porcentaje acumulado u ojiva El fenómeno de interés – los índices de calificación – se representan sobre el eje horizontal, mientras que los porcentajes acumulados (de la columna “menos de” y de la columna “igual a o mayor que”), se representa en el eje vertical. Los valores graficados son las fronteras inferiores según están enlistados en la tabla de distribución de porcentaje acumulado (tabla 2). Curva “menos de” Curva Igual a o mayor que” Se aprecia en la figura 3 que las dos curvas están constituidas por una sucesión de segmentos en línea recta que conectan los puntos trazados y se intersectan en el valor 50%. Se notará, además, que si estuviera un espejo en posición horizontal a lo largo de este eje de 50%, la reflexión en la parte superior concordará con la reflexión en la parte inferior. La curva de “menos de” es siempre creciente (u horizontal), mientras que la curva “igual a o mayor que” es siempre decreciente (u horizontal). La ventaja principal de la ojiva es la facilidad con la cual se puede interpolra entre los puntos trazados. Por ejemplo, el investigador podría desear una aproximación del porcentaje de estudiantes con índices de calificación menores a un valor específico, digamos 2.5. Para esto se proyecta una línea vertical hacia arriba en 2.5, hasta que interfecta la curva de “menos de” y, luego, se obtiene la aproximación al porcentaje deseado al sentido horizontal hasta el eje de porcentaje. En este caso, alrededor de 20.0% de los estudiantes de estadística tienen índices de menos de 2.5. (esto implica que el 80.0% de los estudiantes de estadística tiene índices de 2.5 o más. Esto se obtiene al proyectar la línea vertical hacia arriba en 2.5 hasta que cruza la curva de “igual a o mayor que” y, luego, al leer en sentido horizontal hasta el eje de porcentaje). Manual de Estadística General 11 0 20 40 60 80 100 120 0 1 2 3 4 5 Indice de Calificación P o r c e n t a j e d e E s t u d i a n t e s INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Como ejemplo adicional, el investigador puede desear una aproximación del índice de calificación para el cual varios porcentajes seleccionados se estudiantes tienen índices menores que esa cifra. Algunos puntos de porcentaje que es común considerar son el valor de 25.0%, el valor de 50.0% y el valor de 75.0%. A partir de un punto deseado de porcentaje, digamos 25.0% se hace una proyección horizontal hasta que intersecte la curva de “menos de”. Liego, se hace la aproximación al índice de calificación deseado al bajar una perpendicular (una línea vertical) en el punto de intersección y el resultado se lee a lo largo del eje horizontal. En este caso, el 25.0% de los estudiantes de estadística tienen, más o menos, índices de calificación menores de 2.57. En el 50.0%, el valor aproximado del índice de calificación es de 2.91, mientras que al 75.0%, el valor aproximado es de 3.18. Las aproximaciones como las antes citadas son de gran utilidad cuando se comparan dos o más conjuntos de datos. Pasos necesarios para llegar a una tabla completa de distribución de frecuencia 1) Determinación de la amplitud total, recorrido de la variable o rango . a. Variable cuantitativa discreta A T = R = X máx – X mín Variable discreta con interpretación continua - Para límites aparentes A T = R = X máx – X mín - Para límites reales o exactos A T = R = X máx – X mín + 1 b. Variable cuantitativa continua A T = R = X máx – X mín - A partir de una tabla de frecuencia A T = R = LS k – LI 1 - Si sólo se cuenta con marcas de clase A T = R = X’ k – X’ 1 - La amplitud total equivalente acepta la A T con límites reales o exacta a partir de las marcas de clases. A T = R = X’ k – X 1 ’+ C Manual de Estadística General 12 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. 2) Número aproximado de intervalo de clases Esto depende del criterio estadístico y/o investigador. Para nuestros ejemplos utilizaremos la regla de Sturges, su relación empírica es: K = 1 + 3.3 log. n Donde: K = número aproximado de clases n= número total de datos, observaciones, elementos o mediciones disponibles Por ejemplo, si n = 49 entonces, K = 1 + 3.3 log. 49 = 6.5776 Luego, K puede tomar valores enteros 5, 6 o 7. La aproximación siempre debe hacerse por exceso y no por defecto, es preferible que la amplitud total se amplifique a que queden datos sin clasificar. No obstante, en general, la distribución de frecuencia debe tener, cuando menos cinco, pero no más de 15 clases. Si no hay suficientes clases, hay demasiada concentración de datos; si hay demasiado agrupamientos, entonces hay poca concentración de datos. En cualquiera de los casos, se obtendría poca información. 3) Amplitud de intervalo (C i ) C i = LS i - LI l Si se desea presentar una tabla de distribución de frecuencia con amplitud de intervalos constantes, aplicar la relación. C = A veces por conveniencia y facilidad de lectura, la amplitud de intervalo o ancho de clase seleccionado, se redondea. Otros criterios estadísticos conducen a establecer una diferencia entre la amplitud total teórica (R t ) y amplitud total real (R r ), esta debido al redondeo. De la misma relación, R t = KC. A la diferencia denominaremos exceso (E = R t – R r ) 4) Determinación del exceso Es un proceso empírico que depende del criterio estadístico y/o investigador. La finalidad es establecer el número de clases a fin de evitar que algunos datos queden sin clasificar. Para esto nos valemos de la relación: E = R t – R r R t = Amplitud total teórica debido al redondeo de la amplitud de intervalo. R r = Amplitud total real a partir de los datos disponibles. Manual de Estadística General 13 K R INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Para esta diferencia se pueden presentar los siguientes casos: Criterios a) Si E = 0 X mín = tomar como LI 1 X máx = tomar como LS k b) Si E >0 El exceso E se particiona en E 1 y E 2 arbitrariamente de tal manera que, E=E 1 +E 2 . En este caso X mín y X máx pasan a ser valores extremos provisionales de la variable de interés y los extremos definitivos, se ajustarán a: X mín ’’ = X mín – E 1 = LI 1 X máx ’’ = X máx + E 2 = LS k Manual de Estadística General 14 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. RESUMEN CONSTRUCCION DE TABLAS DE FRECUENCIAS PARA VARIABLES CUANTITATIVAS a) Para Datos No Agrupados Por ser la información bastante pequeña, no existen tablas de frecuencias y únicamente Los Datos se Presentan Ordenados, en Filas o en Columnas. Ejemplo: La siguiente información es la edad de 12 personas: 17 12 20 22 30 25 27 35 41 21 60 70 Ordenando los datos y presentándolos en columnas se tiene: Edades (X i ): 12 17 20 21 22 25 27 30 35 41 60 70 b) Para Datos Agrupados para Variable Discreta Se procede de la siguiente manera: 1. Identificar la variable en estudio 2. Asignarle una letra cualquiera (generalmente X) para efectos de identificación) 3. Ordenar los datos, en forma creciente o decreciente 4. Efectuar la respectiva tabulación de los datos 5. Calcular los elementos de la Tabla de Frecuencias Ejemplo: La siguiente información corresponde al número de hijos que tiene una familia, de un grupo total de 30. La información es la siguiente: 5 3 5 9 2 2 4 2 4 3 1 6 1 8 5 7 2 6 3 4 4 7 3 5 6 1 2 7 6 6 Se pide hallar su Tabla de Distribución de Frecuencias. Manual de Estadística General 15 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. La Tabla será la siguiente: Xi = Nº de Hijos por familia (X i ) X i f i h i F i H i % 1 3 0.1000 3 0.1000 10.00 2 5 0.1667 8 0.2667 16.67 3 4 0.1333 12 0.4000 13.33 4 4 0.1333 16 0.5333 13.33 5 4 0.1333 20 0.6666 13.33 6 5 0.1667 25 0.8333 16.67 7 3 0.1000 28 0.9333 10.00 8 1 0.0333 29 0.9666 3.33 9 1 0.0333 30 0.9999 3.33 30 0.9999 ~ 1.0000 99.99 ~ 100.00% c) Para Datos Agrupados Variable Continua Se procede de la siguiente forma: 1. Identificar la variable en estudio 2. Asignar una letra cualquiera (generalmente Y) para efectos de identificación 3. Calcular el Rango (R) de los datos, mediante R = X máx - X mín 4. Determinar el valor del número de intervalos (K) en caso de que se desconozca. 5. Calcular la amplitud (C i ) para cada intervalo mediante: C i = R K 6. Construir los intervalos, empezando por el dato menor. 7. Efectuar la Tabulación respectiva 8. Calcular cada uno de los elementos de la Tabla de Frecuencias. Manual de Estadística General 16 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Ejemplo La siguiente relación de datos corresponde a los pesos de un grupo de 40 personas. Utilizando 8 intervalos, construir la Tabla de Distribución de Frecuencia. 50 66 75 49 73 55 61 64 57 49 49 54 75 57 63 61 59 57 49 66 70 60 60 74 60 62 65 64 72 58 70 50 65 70 72 61 71 51 72 55 Luego se tiene: • Variable: Pesos de un grupo de personas (Y i ) • Rango = Dato mayor – Dato menor = 75 – 49 = 26 = 26 • Nº de Intervalos: K = 8 • Amplitud: Ci = 26/8 = 3.25 ~ 3 • Intervalos: Serán cerrados por la izquierda y abiertos por la derecha: [ ) Tabla de Distribución de Frecuencias Y i Y i ’ f i h i % F i H i [49 – 52) 50.5 7 0.18 18 7 0.18 [52 – 55) 53.5 1 0.03 3 8 0.21 [55 – 58) 56.5 5 0.12 12 13 0.33 [58 – 61) 59.5 5 0.12 12 18 0.45 [61 – 64) 62.5 5 0.12 12 23 0.57 [64 – 67) 65.5 6 0.15 15 29 0.72 [67 – 70) 68.5 0 0.00 0 29 0.72 [70 – 73) 71.5 7 0.18 18 36 0.90 [73 – 73) 74.5 4 0.10 10 40 1.00 40 1.00 100 Manual de Estadística General 17 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. CONSTRUCCION DE TABLAS DE FRECUENCIA PARA VARIABLES CUALITATIVAS La Tabla de Distribución de Frecuencias para Variables Cualitativas es similar a la descrita para Distribución de Frecuencias para Variables Cuantitativas Ejemplo: Se tiene 30 personas clasificadas por su lugar de procedencia, de acuerdo a la siguiente clave: L = Lima A = Arequipa CH = Chiclayo H = Huancayo P = Puno Los datos son los siguientes: L H L H H P H A CH A A CH A H H P CH L P A A P CH CH A L L A L P Se pide construir la Tabla de Distribución de Frecuencias: X i f i h i % F i H i Lima 6 0.20 20 6 0.20 Arequipa 8 0.26 26 14 0.46 Chiclayo 5 0.17 17 19 0.63 Huancayo 6 0.20 20 25 0.83 Puno 5 0.17 17 30 1.00 30 1.00 100 Manual de Estadística General 18 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. EJEMPLOS DE APLICACION a) Distribución de Frecuencias con Datos sin Agrupar Colectivo: 20 familias. (n = 20) Variable X: ingresos anuales expresados en miles de soles. Valores observados: 18, 20, 22, 19, 18, 20, 18, 19, 21, 20, 20, 21, 18, 20, 21, 19, 20, 21, 18, 20 Tabla de distribución de frecuencias: Ingresos X i Frecuencias Absolutas f i Frecuencias Relativas h i Frecuencias Absolutas Acumuladas F i Frecuencias Relativas Acumuladas H i 18 5 5/20 = 0.25 5 0.25 19 3 3/20 = 0.15 5+3=8 0.25+0.15 = 0.40 20 7 7/20 = 0.35 5+3+7=15 0.25+0.15+0.35 = 0.75 21 4 4/20 = 0.20 5+3+7+4=19 0.25+0.15+0.35+0.20 = 0.95 22 1 1/20 = 0.05 5+3+7+4+1=20 0.25+0.15+0.35+0.20+0.05=1.00 n = 20 1.00 REPRESENTACIÓN GRÁFICA: Diagrama de Barras X (Ingresos anuales en miles de S/.) Manual de Estadística General 19 Frecuencias (f i ) INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. b) Distribución de Frecuencias con Datos Agrupados en Intervalos Colectivo: 60 cilindros fabricados por una máquina. (n = 60) Variable X: longitud en centímetros Valores observados: 239, 254, 255, 248, 246, 249, 242, 250, 249, 244, 253, 248 250, 258, 252, 251, 250, 253, 247, 243, 245, 251, 247, 250 248, 250, 259, 249, 249, 250, 251, 253, 241, 251, 249, 252 250, 247, 251, 259, 250, 246, 252, 238, 251, 238, 236, 259 249, 257, 249, 247, 251, 246, 245, 243, 250, 249, 242, 238 K = 1 + 3.3 log(60) o También K = K = 1 + 3.3 (1.77) K = 7.7 ≈ 8 K = 1 + 5.8 = 6.8 ≈ 7 R = 259 – 236 = 23 C = R/K C = 23/7 = 3.28 ≈ 3 Tabla de frecuencias con datos agrupados en intervalos: Intervalos LI - LS Marcas de Clases X i Frecuencias Absolutas f i Frecuencias Absolutas Acumuladas F i Frecuencias Relativas h i Frecuencias Relativas Acumuladas H i [236 – 239) 237.5 4 4 0.07 0.07 [239 – 242) 240.5 2 6 0.03 0.10 [242 – 245) 243.5 4 10 0.07 0.17 [245 – 248) 246.5 9 19 0.15 0.32 [248 – 251) 249.5 21 40 0.35 0.67 [251 – 254) 252.5 13 53 0.22 0.89 [254 – 257) 255.5 2 55 0.03 0.92 [257 – 260] 258.5 5 60 0.08 1.00 60 1.00 Manual de Estadística General 20 60 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Representación gráfica de la distribución de frecuencias: Variable X (Longitud) c) Distribución de Frecuencias con Datos Agrupados en Intervalos de diferente ancho Colectivo: 1000 empresas de un sector. N = 1000 Variable X: ventas mensuales en miles de soles. Valores observados: se han agrupado en intervalos. Tabla de distribución de frecuencias: Intervalos Ci fi Fi hi Hi Amplitud Intervalo Alturas Ai [0 – 50) 25 100 100 0.10 0.10 50 2 [50 – 100) 75 250 350 0.25 0.35 50 5 [100 – 200) 150 400 750 0.40 0.75 100 4 [200 – 400) 300 200 950 0.20 0.95 200 1 [400 – 800] 600 50 1000 0.05 1.00 400 0.125 1000 1 Ai: altura o densidad de frecuencias = frecuencia / amplitud intervalo Manual de Estadística General 21 HISTOGRAMA 4 2 4 9 21 13 2 5 0 5 10 15 20 25 [236 - 239) [239 - 242) [242 - 245) [245 - 248) [248 - 251) [251 - 254) [254 - 257) [257 - 260] F r e c u e n c i a s ( f i ) INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. REPRESENTACIÓN GRÁFICA: HISTOGRAMA Manual de Estadística General 22 0 50 100 150 200 250 300 350 400 450 50 100 200 400 800 HISTOGRAMA 0 1 2 3 4 5 6 50 100 200 400 800 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. EJERCICIOS RESUELTOS Ejercicio 1: Las puntuaciones obtenidas por un grupo de en una prueba han sido: 15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15, 18, 16, 14, 13. Construir la tabla de distribución de frecuencias y dibuja el polígono de frecuencias. SOLUCION: x i Recuento f i F i n i N i 13 III 3 3 0.15 0.15 14 I 1 4 0.05 0.20 15 5 9 0.25 0.45 16 IIII 4 13 0.20 0.65 18 III 3 16 0.15 0.80 19 I 1 17 0.05 0.85 20 II 2 19 0.10 0.95 22 I 1 20 0.05 1 20 Polígono de frecuencias Manual de Estadística General 23 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Ejercicio 2: El número de estrellas de los hoteles de una ciudad viene dado por la siguiente serie: 3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3, 2, 2, 2, 2, 2, 3, 2, 1, 1, 1, 2, 2, 4, 1. Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras. SOLUCION: x i Recuento x i F i n i N i 1 6 6 0.158 0.158 2 12 18 0.316 0.474 3 16 34 0.421 0.895 4 IIII 4 38 0.105 1 38 1 Diagrama de barras Manual de Estadística General 24 DIAGRAMA DE BARRAS 6 12 16 4 0 2 4 6 8 10 12 14 16 18 1 2 3 4 Xi f i INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Ejercicio 3: Las calificaciones de 50 alumnos en Matemáticas han sido las siguientes: 5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7. Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras. x i f i F i n i N i 0 1 1 0.02 0.02 1 1 2 0.02 0.04 2 2 4 0.04 0.08 3 3 7 0.06 0.14 4 6 13 0.12 0.26 5 11 24 0.22 0.48 6 12 36 0.24 0.72 7 7 43 0.14 0.86 8 4 47 0.08 0.94 9 2 49 0.04 0.98 10 1 50 0.02 1.00 50 1.00 Diagrama de barras Ejercicio 4: Manual de Estadística General 25 DIAGRAMA DE BARRAS 1 1 2 3 6 11 12 7 4 2 1 0 2 4 6 8 10 12 14 0 1 2 3 4 5 6 7 8 9 10 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Los pesos de los 65 empleados de una fábrica vienen dados por la siguiente tabla: Peso [50, 60) [60, 70) [70, 80) [80,90) [90, 100) [100, 110) [110, 120) f i 8 10 16 14 10 5 2 1 Construir la tabla de frecuencias. 2 Representar el histograma y el polígono de frecuencias. SOLUCION: Intervalos x i f i F i h i H i [50, 60) 55 8 8 0.12 0.12 [60, 70) 65 10 18 0.15 0.27 [70, 80) 75 16 34 0.24 0.51 [80,90) 85 14 48 0.22 0.73 [90, 100) 95 10 58 0.15 0.88 [100, 110) 105 5 63 0.08 0.96 [110, 120) 115 2 65 0.03 0.99 65 0.99 Histograma – Polígono de Frecuencia Ejercicio 5: Manual de Estadística General 26 0 2 4 6 8 10 12 14 16 18 50 60 70 80 90 100 110 120 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de Física. 3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13. 1. Construir la tabla de frecuencias. 2. Dibujar el histograma y el polígono de frecuencias. SOLUCION: Se pueden encontrar dos soluciones: Primero haciendo uso de las formulas tenemos: Número de Intervalos: K = 1 + 3.3 log(40) K = 1 + 3.3(1.6) K = 6.28 ≈ 6 K = K = 6.32 ≈ 6 Amplitud del Rango: R = 48 – 3 = 45 Ancho de Clase: C = 45/6 C = 7.5 ≈ 8 x i f i F i h i H i [0, 8) 4 2 2 0.05 0.05 [8, 16) 12 5 7 0.13 0.18 [16, 24) 20 4 11 0.10 0.28 [24, 32) 28 8 19 0.20 0.48 [32, 40) 36 16 35 0.40 0.88 [40, 48] 44 5 40 0.13 1.01 40 10.1 Segundo haciendo Intervalos de Ancho de Clase de 5: Se distribuye en 10 intervalos tal como se muestra en la Tabla de distribución siguiente: x i f i F i h i H i Manual de Estadística General 27 40 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. [0, 5) 2.5 1 1 0.025 0.025 [5, 10) 7.5 1 2 0.025 0.050 [10, 15) 12.5 3 5 0.075 0.125 [15, 20) 17.5 3 8 0.075 0.200 [20, 25) 22.5 3 11 0.075 0.275 [25, 30) 27.5 6 17 0.150 0.425 [30, 35) 32.5 7 24 0.175 0.600 [35, 40) 37.5 10 34 0.250 0.850 [40, 45) 47.5 4 38 0.100 0.950 [45, 50) 47.5 2 40 0.050 1.000 40 1 Histograma EJERCICIOS PROPUESTOS Manual de Estadística General 28 POLIGONO DE FRECUENCIAS 0 2 4 6 8 10 12 [0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 35) [35, 40) [40, 45) [45, 50] HISTOGRAMA 0 2 4 6 8 10 12 [0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 35) [35, 40) [40, 45) [45, 50] INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Ejercicio 1: Los miembros de una cooperativa de viviendas tienen las siguientes edades: 42 60 60 38 60 63 21 66 56 57 51 57 44 45 35 30 35 47 53 49 50 49 38 45 28 41 47 42 53 32 54 38 40 63 48 33 35 61 47 41 55 53 27 20 21 42 21 39 39 34 45 39 28 54 33 35 43 48 48 27 53 30 29 53 38 52 54 27 27 43 28 63 41 23 58 56 59 60 40 24 Elabore una tabla de frecuencias. Ejercicio 2: Agrupe los siguientes datos en una Tabla de Frecuencia: 23 21 43 41 19 29 17 33 35 30 25 11 28 40 22 45 43 23 29 32 9 47 47 31 12 Ejercicio 3: Si las marcas de clase en una distribución de frecuencias de pesos de estudiantes son: 128, 137, 146, 155, 164, 173 y 182 libras, hallar: (a) El tamaño de Intervalo de Clase (b) Los Limites reales de clase (c) Los Limites de Clase Suponiendo los pesos medidos con aproximación de unidad de libra. Ejercicio 4: La menor de 150 medidas efectuadas es 5.18 cm., y la mayor 7.44 cm. Determinar un sistema adecuado de: (a) Intervalos de Clase (b) Limites reales de Clase (c) Marcas de Clase que puedan utilizarse para formar una distribución de frecuencias de estas medidas. Ejercicio 5: En la siguiente Tabla los pesos de 40 estudiantes en el Instituto Taylor se registran con aproximación de una libra. Construir una distribución de frecuencias. 138 164 150 132 144 125 149 157 146 158 140 147 136 148 152 144 168 126 138 176 163 119 154 165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 145 128 MEDIDAS DE TENDENCIA CENTRAL Manual de Estadística General 29 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Son Valores Centrales en Torno a los Cuales se Agrupan las Observaciones, en general se los designa como promedios, y son de extraordinaria utilidad tanto en el análisis de una distribución como en la comparación entre distribuciones. Las medidas de tendencia central más importantes y conocidas son: - La Media Aritmética - La Mediana - La Moda o Modo También son medidas de tendencia central: La media geométrica, la media armónica, los cuarteles, la media cuadrática y la media bicuadrática. LA MEDIA ARITMETICA - Es el cociente que resulta de dividir la suma de todas las observaciones posibles entre el número de ellas. - Es un valor de la variable, posiblemente no observable, y viene dado en la misma unidad de la variable. Se simboliza por Para Datos No Agrupados Se suman todas las observaciones, y el total se divide entre el número de ellas; sean X 1 , X 2 , ..., X m las n observaciones con que cuenta la media aritmética de estas observaciones será: = Ejemplo: Se tienen las siguientes edades en años: 8, 15, 23, 30, 17 Solución: Edad en años 8 15 17 23 30 La media aritmética está dado por : = = 8 + 15 + 17 + 23 + 30 = 93 = 18.6 años 5 5 Para Datos Agrupados, Variable Discreta Manual de Estadística General 30 X X n X m i i ∑ ·1 X n X m i i ∑ ·1 X INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Sea X i , donde i = 1,2, ..., m, sus frecuencias correspondientes. Entonces la media aritmética está dada por: = Pero se sabe que: = n De donde se tiene: = Ejemplo: Se tiene la siguiente distribución, hallar la media aritmética Nº de Habitantes (X i ) Nº de Casas (f i ) X i f i 1 1000 1000 2 3000 6000 3 7000 21000 4 8000 32000 5 12000 60000 6 6000 36000 7 5000 35000 8 4000 32000 9 2000 18000 48000 241000 = 241000 = 5 habitantes 48000 Para Datos Agrupados, Variable Continua Sean Y i ’, donde i = 1, 2, ..., m, las marcas de clase de los m intervalos; y sean f i , donde i = 1, 2, ... , m, sus frecuencias respectivas; entonces se tiene que: = y como = n Entonces se tiene: = Ejemplo: En la siguiente distribución de obreros clasificados por sus salarios, halle la media aritmética Manual de Estadística General 31 ∑ ∑ · · m i i m i i i f f X 1 1 X ∑ · m i i f 1 X n f X m i i i ∑ ·1 X X Y ∑ ∑ · · m i i m i i i f f Y 1 1 ' ∑ · m i i f 1 n f Y m i i i ∑ ·1 ' Y INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Salarios (Miles de Soles) Y i Obreros (f i ) Marca de Clase (Y i ’) Y i ’ f i [4 – 12) 15 8 120 [12 – 20) 87 16 1392 [20 – 28) 45 24 1080 [28 – 36) 13 32 415 [36 - 44] 0 40 0 160 3008 = 3008 = 18.80 160 Método Abreviado: Este método se emplea sólo para intervalos de igual amplitud. La media aritmética está dada por: = A t + C i Donde: d i = A t = es una marca de clase arbitraria, situada hacia el centro de la distribución C i = amplitud constante de los intervalos Ejemplo: Trabajemos con el ejemplo anterior. Salarios Y i Obreros (f i ) (Y i ’) d i d i f i [4 – 12) 15 8 - 15 120 [12 – 20) 87 16 0 1392 [20 – 28) 45 24 45 1080 [28 – 36] 13 32 26 415 160 3008 Tomemos: A t = 16 Para hallar los d i se procede como sigue: Por ejemplo para d 1 : d 1 = ; C i = 8 d 1 = = d 1 = -1 En forma análoga se halla los restantes d i , y se completa la Tabla de frecuencias. Hallando la Media Aritmética Manual de Estadística General 32 Y Y Y Y n d f m i i i ∑ ·1 i t C A Yi − ' 8 16 8− 8 8 − i t C A Y − ' 1 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. = A c + C i = 16 + 8 = 18.8 PROPIEDADES DE LA MEDIA ARITMETICA 1. La Suma de las desviaciones ponderadas de los valores de la variable respecto de la media aritmética es cero. = 0 2. La media aritmética de una variable más (menos) una constante (T) es igual a la media de la variable más (menos) la constante. M [X i ± T] = M [X i ] ± T 3. La media aritmética de una variable multiplicada (o dividida) por una constante (T) es igual a la constante que multiplica (o divide) a la media de la variable, M [X i T] = T M [X i ] 4. La media aritmética de la suma de dos o más variables es igual a la suma de las medias de cada una de las variables. M [X i + Y i ] = M [X i ] + M [Y i ] 5. Si una muestra se divide en r submuestras, con medias , , ... , , y tamaños n 1 , n 2 , ..., n r respectivamente, entonces la media total de la muestra es: M [X] = = = IMPORTANCIA DE LA MEDIA ARITMETICA - La Media Aritmética es el Centro de Gravedad de la Distribución - Es la medida de tendencia central mas estable - Es el Valor Preferido en los cálculos estadísticos por ser el más fiable. - Es el promedio que Representa mejor al grupo. Ejercicios Resueltos Manual de Estadística General 33 Y n d f m i i i ∑ ·1 100 56 Y ∑ · − m i i f X Xi 1 ) ( 1 X 2 X r X r r r n n n n X n X n X + + + + + + ... ... 2 1 2 2 1 1 X ∑ ∑ · · r i i r i i i n n X 1 1 X INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. 1. La siguiente tabla de distribución de frecuencias, corresponde a las edades de 19 funcionarios públicos. Calcular la edad promedio (Media Aritmética Ponderada) en dicha distribución. Edades f i f i X i 34 2 68 35 3 105 36 1 36 37 3 111 38 4 142 39 2 78 40 2 80 41 2 82 19 712 Solución: ∑f i = 19 ∑f i X i = 712 = = 37.4 2. En un Notaria hay 10 secretarias que ganan S/. 60 diariamente, 4 Asesores que ganan S/. 100 y una registradora que gana S/. 200. Calcular la media aritmética ponderada. Clase f i f i X i 60 10 600 100 4 400 200 1 200 15 1200 Solución: ∑f i = 15 ∑f i X i = 1200 = = 80 3. La siguiente tabla de distribución de frecuencias, corresponde al número de faltas anual de los congresistas. Calcular el promedio (media aritmética) de faltas del hemiciclo. Intervalos Marca de Clase fi di fidi [60 – 63) 61 5 -2 -10 [63 – 66) 64 18 -1 -18 [66 – 69) 67 42 0 -28 43 [69 – 71) 70 27 1 27 [71 - 74] 73 8 2 16 100 - 15 Solución: Aplicamos la formula: C = LS 1 – LI 1 C = 63 – 60 = 3 ∑f i d i = 15 ∑f i = 100 A = 67 = 67 + 15 x 3 100 = 67.45 Manual de Estadística General 34 X 19 712 X 15 1200 X X X INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. 4. La siguiente tabla de distribución de frecuencias, corresponde al número de folios que tienen los proyectos de ley. Calcular el promedio (media aritmética) de folios que tienen los proyectos de ley que se presentan al congreso. Intervalos Marca de Clase fi di fidi [50 – 65) 57 10 -3 -30 [65 – 80) 72 15 -2 -30 [80 – 95) 87 20 -1 -20 [95 – 110) 102 40 0 -80 65 [110 - 125] 127 30 1 30 [125 – 140) 132 10 2 20 [140 – 155) 147 5 3 15 130 - -15 Solución: Aplicamos la formula: C = LS 1 – LI 1 C = 65 – 60 = 5 ∑f i d i = -15 ∑f i = 130 A = 102 = 102 + -15 x 3 130 = 103.73 Manual de Estadística General 35 X X INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. LA MEDIANA (Md): La mediana de una colección de datos ordenados por su magnitud, es el Valor Medio, o La Media Aritmética de los dos Valores Medios. Es el valor que divide a una distribución en dos partes iguales. Esto significa que a uno y otro lado de este valor mediano se encuentra no màs del 50% del total de las observaciones. Para Datos No Agrupados Se procede de la siguiente forma: Se Ordenan los Datos en forma creciente o decreciente y se tiene: • Si el número de observaciones o datos es Impar; la mediana es el Valor Central. Ejemplo: S = { 70, 80, 90, 100, 150} Hallar la Mediana Solución: Como el número de datos (n=5) es impar, entonces la Md. es el valor Central: Mediana: Md = 90 Ejemplo: Los siguientes datos representan puntuaciones S = { 15, 10, 12, 19, 08} Hallar la Mediana Solución: Ordenamos los datos S={08, 10, 12, 15, 19}. Como el número de datos (n = 5) es impar, entonces la Md es el valor central: Mediana: Md = 12 • Si el número de observaciones o datos es Par, la mediana es el Promedio de los Valores Centrales. Ejemplo: Los siguientes datos representan las notas de un alumno: P = { 3, 6, 7, 8, 9,12} Hallar la Mediana. Solución: Como el número de datos (n = 6) es par, entonces la Md. es el promedio de los valores centrales (7,8) Mediana: Md = 7 + 8 = 7.5 2 Ejemplo: Los siguientes datos representan número de cursos aplazados: P = { 2, 0, 5, 8, 3,1} Hallar la Mediana. Solución: Ordenamos los datos P = { 8, 5, 3, 2,1, 0} Como el número de datos (n = 6) es par, entonces la Md. Es el promedio de los valores centrales (3,2) Mediana: Md = 3 + 2 = 2.5 2 Manual de Estadística General 36 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Datos Agrupados (Variable Discreta) Se realizan los siguientes pasos: 1. Se Halla n/2, es decir, el número total de observaciones sobre 2. 2. Se ubica una frecuencia acumulada menor o igual que n/2. A esta frecuencia acumulada la denotamos por F j-1 , entonces se tendrá: F j-1 ≤ n 2 3. Luego se considera: i) Si F j-1 < n ⇒ Md = X j 2 ii) Si F j-1 = n ⇒ Md = 2 Ejemplo: Hallar la mediana, en la siguiente distribución que representa el número de personas que viven en la casa: X i f i F i 2 3 3 3 2 5 4 5 10 5 8 18 6 8 26 7 7 33 8 7 40 40 a) Se halla n/2 n = 40 = 20 2 2 b) Se debe buscar una frecuencia acumulada que sea menor o igual a 20. Observando la tabla se encuentra el valor 18 que es menor que 20. Entonces: F j-1 = 18 c) Como F j-1 = 18 < n = 20 ⇒ Md = X j En este caso X j es 6 Entonces: Md = 6 Ejemplo: Hallar la mediana, en la siguiente distribución que representa el número de hijos que tienen en 40 familias: X i f i F i 0 1 1 1 9 10 2 10 20 3 7 27 4 8 35 5 5 40 40 a) Se halla n/2 n = 40 = 20 2 2 b) Se debe buscar una frecuencia acumulada que sea menor o igual a 20. Observando la tabla se encuentra el valor 20 que es el valor buscado. Entonces: F j-1 = 20 c) Como F j-1 = 20 = n = 20 ⇒ Md = X j-1 + X J 2 2 En este caso X j-1 = 2 y X j = 3 Entonces: Md = 2 + 3 = 5 = 2.5 2 2 Manual de Estadística General 37 2 1 j j X X + − F j-1 X j F j-1 X j X j-1 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Datos Agrupados (Variable Contínua) Se siguen los mismos pasos que en el caso anterior, es decir: a. Se Halla n/2 b. Se Busca Fj-1 ≤ n 2 c. Se tiene: i) Si Fj-1 ≤ n , la mediana será 2 Formula: n – F j-1 Md = L i + 2 C f j Donde: L i = Limite Inferior del Intervalo o Clase que contiene la mediana n = número total de observaciones f j = Frecuencia de Intervalo que contiene a la mediana (Md) C = Amplitud del Intervalo de clase F i-1 = frecuencia acumulada del Intervalo que precede al intervalo que contiene a la Md. ii) Si F j-1 = n ⇒ Md = L i 2 Ejemplo 1: Hallar la mediana para la siguiente distribución que corresponde a los salarios por día, de los empleados de la empresa XYZ. Y i f i F i [50 – 60) 8 8 [60 – 70) 10 18 [70 – 80) 16 34 [80 -90) 14 48 [90 -100] 17 65 65 Solución: 1. Hallar n/2 n = 65 = 32.5 2 2 2. Se busca F j-1 ≤ n 2 Observamos que 18 < 32.5 Entonces F j-1 = 18 3. Ahora Aplicando la formula tenemos: Md = 70 + 32.5 – 18 10 16 Md = 70 + 14.5 10 16 Md = 79.06 Manual de Estadística General 38 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Ejemplo 2: Hallar la mediana de los pesos de 40 personas de un instituto clasificados en la Distribución de Frecuencias. Pesos f i [42 – 49) 5 [49 – 56) 4 [56 – 63) 14 [63 – 70) 8 [70 – 77) 6 [77 - 83] 3 40 Solución: n = 40 = 20 2 2 Md = 56 + ( 20 – 9 ) x 7 14 Md = 61.5 Ejemplo 3: Hallar la mediana de 65 trabajadores de una empresa que sus sueldos oscilan entre 50 y 120 dólares. Sueldos f i [50 – 60) 8 [60 – 70) 10 [70 – 80) 16 [80 – 90) 14 [90 – 100) 10 [100 – 110) 5 [110 – 120] 2 65 Solución: Sueldos f i F i [50 – 60) 8 8 [60 – 70) 10 18 [70 – 80) 16 34 [80 – 90) 14 48 [90 – 100) 10 58 [100 – 110) 5 63 [110 – 120] 2 65 n 65 Aplicando la Formula: n = 65 = 32.5 2 2 Aplicando la Formula: Md = 70 + ( 32.5 – 18 ) 10 16 Md = 79.06 Manual de Estadística General 39 32.5 Intervalo q contiene la mediana Frecuencia Absoluta Acumulada hasta antes del intervalo q contiene a la mediana INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Ejemplo 4: Hallar la mediana de 15 estudiantes cuyos puntajes obtenidos oscilan entre 51.5 y 80.5 Kilogramos. Puntajes f i [51.5 – 56.5) 2 [56.5 – 61.5) 3 [61.5 – 66.5) 1 [66.5 – 71.5) 4 [71.5 – 76.5) 2 [76.5 – 80.5] 3 15 Solución: Aplicando la Formula: n = 15 = 7.5 2 2 Aplicando la Formula: Md = 66.5 + ( 7.5 – 6 ) 5 4 Md = 68.38 Importancia de la Mediana: • Da a conocer el PUNTO MEDIO EXACTO de la distribución, es decir, el punto correspondiente al 50% de la serie. • No es Afectada por los valores extremos. Manual de Estadística General 40 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. LA MODA (Mo): Es aquel registro que tiene mayor frecuencia absoluta o el más común de la variable. Se simboliza por Mo. Para Datos no Agrupados Ejemplo: S = { 4, 3, 2, 1, 4, 3, 5, 3, 1, 2} Hallar la Moda. Solución: Moda: Mo = 3 } es el elemento q mas veces se repite Ejemplo: P = { 2, 5, 1, 3, 5, 4} Hallar la Moda. Solución: Moda: Mo = 5 } es el elemento q mas veces se repite Datos Agrupados Variable Discreta Es el valor de la variable a la que le corresponde la Mayor Frecuencia. Ejemplo 1: Hallar la Moda de la siguiente distribución que corresponde al numero de hijos de familias: X i f i 2 3 3 2 4 5 5 8 6 8 7 7 8 7 Ejemplo 2: Hallar la Moda de la siguiente distribución: X i f i 0 5 1 10 2 14 3 17 4 20 5 8 6 6 Manual de Estadística General 41 X j f j Mayor Frecuencia Solución: 1) Se Halla f j : Mayor frecuencia f j = 8 2) Luego Mo = X j En este caso Mo = 5 y 6 X j f j Mayor Frecuencia Solución: 1) Se Halla f j : Mayor frecuencia f j = 20 2) Luego Mo = X j En este caso Mo = 4 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Datos Agrupados Variable Continua Se hace uso de la siguiente formula: Formula: Mo = Li + (d 1 ) x C d 1 + d 2 Donde: L i = Limite Inferior de la Clase modada n = número total de observaciones d 1 = Es la diferencia entre la frecuencia modada y la frecuencia anterior a la modada (f j – f j-1 ) d 2 = Es la diferencia entre la frecuencia modada y la frecuencia siguiente a la modada (f j - f j+1 ) C = Amplitud del Intervalo Nota: La Amplitud de Clase debe ser constante para poder aplicar esta fórmula. Ejemplo 1: Hallar la moda para los siguientes datos agrupados. Pesos f i [51 – 56) 2 [56 – 61) 3 [61 – 66) 1 [66 – 71) 4 [71 – 76) 2 [76 – 80] 3 15 Ejemplo 2: Hallar la moda de 65 trabajadores de una empresa. Salarios f i [50 – 60) 8 [60 – 70) 10 [70 – 80) 16 [80 – 90) 14 [90 – 100) 10 [100 – 110) 5 [110 – 120] 2 65 Manual de Estadística General 42 Solución: Aplicando la Formula: d 1 = 4 – 1 = 3 d 2 = 4 – 2 = 2 Mo = 66 + ( 3 ) x 5 = 69 3 + 2 Solución: Aplicando la Formula: d 1 = 16 – 10 = 6 d 2 = 16 – 14 = 2 Mo = 70 + ( 6 ) x 10 = 77.5 6 + 2 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Ejemplo 3: Hallar la moda de 200 trabajadores de una empresa cuyos ingresos anuales en miles de soles es: Salarios f i [6 – 10) 0 [10 – 14) 30 [14 – 18) 70 [18 – 22) 60 [22 – 26) 40 200 Manual de Estadística General 43 Solución: Aplicando la Formula: d 1 = 70 – 30 = 40 d 2 = 70 – 60 = 10 Mo = 14 + ( 40 ) x 4 = 17.2 40 + 10 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. ESTADIGRAFOS DE DISPERSION Los estadígrafos de dispersión son medidas que nos dan la mayor o menor concentración de observaciones con respecto a un valor central. Miden el grado de dispersión o concentración de los valores o datos, alrededor de alguna de las medidas de tendencia central. Estos estadígrafos son los siguientes: - El Recorrido - La Desviación Media - La Varianza - La Desviación Estándar - El Coeficiente de Variación EL RECORRIDO El Recorrido o Rango de un conjunto de datos está por la Diferencia Existente entre el Mayor y el Menor Valor de una variable estadística. Se representa por R, y se expresa: R = X Max - X min Cunado Mayor es el Rango, Mayor es la Dispersión de los datos alrededor de la medida de tendencia central. Ejemplo 1: Determinar el rango, para los siguientes datos: Xi : 2, 3, 5, 21, 10, 0 Solución: R = X Max – X min R = 21 – 0 R = 21 Ejemplo 2: Determinar el rango, en la siguientes distribución de frecuencia: (Salarios anuales en miles de soles) Solución: Intervalo [80 – 85) [85 – 90) [90 – 95) [90 – 100) [100 – 105) [105 – 110) [110 – 115] En este caso, se trata de variable contínua, entonces el Valor Mayor (X M ) será el límite superior (L s ) del último intervalo y el valor menor (X m ) será el límite inferior (L i ) del primer intervalo. Luego: R = X Max – X min R = L s - L i R = 115 – 80 R = 35 Manual de Estadística General 44 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Nota: Se debe hacer notar que este estadígrafo da una Falsa Impresión del Grado de Dispersión, ya que el rango Depende de la distancia que existe entre sus dos Valores Extremos con relación a los demás. LA DESVIACION MEDIA Llamada también desviación promedio o variación media. Está definida como la Media Aritmética de las Diferencias de cada Valor de una Serie de Datos, Respecto a la Media Aritmética de Dicha Serie. Se Simboliza por D.M. Para Datos No Agrupados Sean X 1 , X 2 , … X m las observaciones con que se cuenta, se tiene: D.M. = Donde: D.M. = Desviación Media n = Número de Observaciones X i = Valor que toma la variable = Media Aritmética = Valor Absoluto de las Desviaciones con respecto a la Media. Ejemplo: Hallar la desviación media de los siguientes datos: 2 3 6 8 11 Solución: 1. Se debe hallar la Media Aritmética = = 2 + 3 + 6 + 8 + 11 = 30 = 6 5 5 2. Se determinan las desviaciones con respecto a la media. X i 2 |2 - 6| 4 3 |3 - 6| 3 6 |6 - 6| 0 8 |8 - 6| 2 11 |11 – 6| 5 14 Luego: D.M. = D.M. = 14 5 D.M. = 2.8 Manual de Estadística General 45 n X Xi m i ∑ · − 1 X Xi − X n X m i i ∑ ·1 X X X X Xi − X Xi − n X Xi m i ∑ · − 1 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Para Datos Agrupados (Variable Discreta) Sea Xi : donde i = 1, 2, …, m, valores de la variable X; Sea fi: donde i = 1, 2, …, m, sus frecuencias correspondientes; y Sea la media aritmética de dichos valores; la desviación media está dada por: D.M. = Ejemplo: Hallar la Desviación Media para los datos del siguiente cuadro: X i f i X i f i f i 8 4 32 20.95 12.95 51.80 14 10 140 6.95 69.50 19 17 323 1.95 33.15 22 9 198 1.05 9.45 27 12 324 6.05 72.60 30 8 240 9.05 72.40 60 1257 308.90 Solución: 1) Hallar la media aritmética: = = 1257 = 20.95 60 2) Hallar D.M. D.M. = = 308.90 = 5.148 60 Para Datos Agrupados (Variable Continua) Sea X i ’, donde i = 1, 2, ..., m, las marcas de clase de los m intervalos: Sea f i , donde i = 1, 2, ..., m, sus frecuencias respectivas; y Sea la media aritmética: la desviación media está dada por: D.M. = Manual de Estadística General 46 n f X Xi i m i ∑ · − 1 X n f X m i i i ∑ ·1 X n f X Xi i m i ∑ · − 1 X Xi − X X Xi − X n f X X i m i i ∑ · − 1 ' INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Ejemplo: Hallar la desviación media para los datos del siguiente cuadro: X i f i [4 – 12) 15 [12 – 20) 87 [20 – 28) 45 [28 – 36] 13 160 Solución: 1. Hallar la media aritmética: = = 3008 = 18.8 160 X i X i ’ f i X i ’ f i f i [4 – 12) 8 15 120 18.8 10.8 162.0 [12 – 20) 16 87 1392 2.8 243.6 [20 – 28) 24 45 1080 5.2 234.0 [28 – 36] 32 13 416 13.2 171.6 160 3008 811.2 2. Hallar D.M. D.M. = = 811.2 = 5.07 160 LA VARIANZA: Esta medida proporciona información sobre el Grado de Dispersión de los valores de una serie con Respecto a su Media Aritmética de tal modo que mientras Mayor sea el Valor de la Varianza, Mayor es la dispersión y cuanto más pequeña sea la Varianza, mayor es la concentración de los datos o valores alrededor de su media aritmética. Es la media o Promedio del Cuadrado de las Desviaciones de la Variable Respecto a su Media. Nota: La Varianza está dada en unidades cuadradas correspondientes a la unidad en la que está dada la variable. Para Datos No Agrupados: Se emplea la siguiente formula: S 2 = o S 2 = - Manual de Estadística General 47 X Xi − ' X Xi − ' n f X m i i i ∑ ·1 ' X X n f X X i m i i ∑ · − 1 ' n X X m i i ∑ · − 1 2 ) ( n X m i i ∑ ·1 2 2 X INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Donde: S 2 = Varianza n = número de observaciones X i = Valores que toma la variable = Media Aritmética (X i - ) 2 = Desviación de la variable con respecto a la media, elevado al cuadrado Ejemplo: Determinar la varianza para los datos que aparecen en la siguiente tabla, correspondiente a salarios en miles de soles: 2, 4, 6 Solución: 1) Hallar la media aritmética: = = 2 + 4 + 6 = 4 3 X i X i 2 2 4 4 16 4 16 6 36 56 2) Hallar: S 2 = - = 56 – 16 = 18.66 - 16 = 2.66 3 Para Datos Agrupados (Variable Discreta): Sea X i , donde i = 1, 2, ..., m, valores de la variable X. Sea f i , donde i = 1, 2, ..., m; sus frecuencias correspondientes: sea la media aritmética de dichos valores y n el número de observaciones, se tiene que la varianza está dada por: S 2 = = - S 2 = - Manual de Estadística General 48 X X n X m i i ∑ ·1 X X 2 X n X m i i ∑ ·1 2 2 X n f X X i m i i ∑ · − 1 2 ) ( n f X m i i i ∑ ·1 2 2 X n f X i m i i ∑ ·1 2 2 1 , _ ¸ ¸ ∑ · n f X m i i i X INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. Ejemplo: Considerando los datos que aparecen en la siguiente tabla: Personas Activas X i Nº de familias f i X i 2 X i 2 f i X i f i 1 16 1 16 16 2 20 4 80 40 3 9 9 81 27 4 5 16 80 20 50 257 103 Solución S 2 = - S 2 = 257 - S 2 = 5.14 – (2.06) 2 S 2 = 5.14 – 4.24 = 0.9 50 S 2 = 0.9 Para Datos Agrupados (Variable Continua): Sea X i ’, donde i = 1, 2, ..., m, las marcas de Clase de los m intervalos. Sea f i , donde i = 1, 2, ..., m; sus frecuencias respectivas: sea la media aritmética y n el número de observaciones, la varianza está dada por: S 2 = = - Ejemplo: Consideremos los datos que aparecen en la Tabla siguiente: Peso (Kg) Personas (f i ) X i ’ X i ’ 2 X i ’ 2 f i X i ’f i [30 – 40) 0 35 1225 0 0 [40 – 50) 10 45 2025 20250 450 Manual de Estadística General 49 n f X i m i i ∑ ·1 2 2 1 , _ ¸ ¸ ∑ · n f X m i i i 2 50 103 , _ ¸ ¸ n f X X i m i i ∑ · − 1 2 ) ' ( n f X m i i i ∑ ·1 2 ' 2 1 ' , _ ¸ ¸ ∑ · n f X m i i i X INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. [50 – 60) 20 55 3025 60500 1100 [60 – 70) 30 65 4225 126750 1950 [70 – 80] 10 75 5625 56250 750 70 263750 4250 Solución: Aplicando la formula tenemos: S 2 = 263750 - S 2 = 3767.857 - (60.714)2 70 S 2 = 3767.857 - 3686.1897 S 2 = 81.66 Metodo Abreviado para Datos Agrupados (Variable Continua): Se emplea únicamente cuando la Amplitud es constante. S 2 = C i 2 Donde: d i = Ejemplo: Haciendo uso del método abreviado, calcular la varianza de los datos considerados en la Tabla del ejemplo anterior. Peso (Kg) Personas (f i ) X i ’ d i f i d i f i d i 2 [30 – 40) 0 35 -3 0 0 [40 – 50) 10 45 -2 -20 40 [50 – 60) 20 55 -1 -20 20 [60 – 70) 30 65 0 0 0 [70 – 80] 10 75 1 10 10 70 -30 70 Solución: S 2 = (10) 2 S 2 = 100 [1 – (-0.4285) 2 ] = 100 [1 – 0.1836] S 2 = 100 [0.8164] S 2 = 81.64 Manual de Estadística General 50 2 70 4250 , _ ¸ ¸ 1 1 1 1 1 ] 1 ¸ , _ ¸ ¸ − ∑ ∑ · · 2 1 1 2 n d f n d f m i i i m i i i i t i C O X − ' 1 1 ] 1 ¸ , _ ¸ ¸ − − 2 70 30 70 70 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. LA DESVIACION ESTANDAR O TIPICA Es una de las medidas de dispersión más confiables. Mide el Grado de Normalidad de la Distribución de los datos muéstrales alrededor de la media aritmética dentro de sus valores extremos mínimo y máximo, es decir, mide la dispersión alrededor de la media. A mayor valor de la desviación estándar, mayor es la dispersión. La Desviación Estándar se define como la Raíz Cuadrada, con signo positivo, de la Varianza y se Representa por S. Para datos No Agrupados: La Desviación Estándar de una serie de variables X 1 , X 2 , ..., X m está definida por: S = ó S = Donde: S = desviación estándar X i = valores que toma la variable = media aritmética de los datos n = número de observaciones (Xi - ) 2 = desviaciones de la variable, con respecto a la media, elevado al cuadrado. Nota: 1) S es mayor que cero 2) S = 0, en el caso que las Xi sean iguales, y por lo tanto, no hay dispersión Ejemplo: Calcular la desviación típica o estándar para los siguientes datos: 2, 4, 6 Solución: n = 3 X i X i 2 2 4 4 16 4 16 6 36 Manual de Estadística General 51 X n X Xi m i ∑ · − 1 2 ) ( 2 1 2 X n X m i i − ∑ · X X X 2 X S = 16 3 56 − = 66 . 2 S = 1.63 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. 56 Para datos Agrupados (Variable Discreta): Sea X i , donde: i = 1, 2, ..., m; valores de la variable X; Sea f i , donde: i = 1, 2, ..., m; sus frecuencias correspondientes; Sea la media aritmética, y n el número de observaciones, la desviación estándar está dada por: S = S = Ejemplo: Consideramos la siguiente distribución de frecuencias. X i f i X 2 X 2 f i X i f i 1 16 1 16 16 2 20 4 80 40 3 9 9 81 27 4 5 16 80 20 50 257 103 S = S = 0.94 Para datos Agrupados (Variable Continua): Sea X i ’, donde: i = 1, 2, ..., m; son las marcas de clase de los intervalos; Sea f i , donde: i = 1, 2, ..., m; sus frecuencias respectivas; Sea la media aritmética, y n el número de observaciones, la desviación estándar está dada por: S = S = Ejemplo: Hallar la desviación estándar para la siguiente distribución de frecuencias: Peso (Kg) Personas (f i ) X i ’ X i ’ 2 f i X i ’f i [30 – 40) 0 35 0 0 [40 – 50) 10 45 20250 450 Manual de Estadística General 52 X n f X X m i i i ∑ · − 1 2 ) ( 2 1 1 2 , _ ¸ ¸ − ∑ ∑ · · n f X n f X m i i i m i i i 2 50 103 50 257 , _ ¸ ¸ − X n f X X m i i i ∑ · − 1 2 ) ' ( 2 1 1 2 ' ' , _ ¸ ¸ − ∑ ∑ · · n f X n f X m i i i m i i i INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. [50 – 60) 20 55 60500 1100 [60 – 70) 30 65 126750 1950 [70 – 80] 10 75 56250 750 70 263750 4250 Solución: S = S = S = 9.03 Método Abreviado para datos Agrupados (Variable Continua): Este método se aplica únicamente para Intervalos con Amplitud Constante. Se emplea la siguiente fórmula: S = C i Donde: d i = Y i ’ - O t C i Ejemplo: Haciendo uso del método abreviado, calcular la desviación estándar para la distribución de frecuencias del ejemplo anterior. Peso (Kg) Personas (f i ) X i ’ d i f i d i f i d i 2 [30 – 40) 0 35 -3 0 0 [40 – 50) 10 45 -2 -20 40 [50 – 60) 20 55 -1 -20 20 [60 – 70) 30 65 0 0 0 [70 – 80] 10 75 1 10 10 70 -30 70 S = 10 S = 10 S = 9.03 Manual de Estadística General 53 2 70 4250 70 263750 , _ ¸ ¸ − 66 . 81 2 1 1 2 , _ ¸ ¸ − ∑ ∑ · · n d f n d f m i i i m i i i 2 70 30 70 70 , _ ¸ ¸ − − 8164 . 0 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. EL COEFICIENTE DE VARIACION Sirve para determinar la Homogeneidad o Heterogeneidad del Grupo que se analiza, cuando menor es el coeficiente de variación el grupo es más homogéneo. Su valor se da en términos de porcentaje. Se emplea también para comparar dos distribuciones en base a su dispersión. Se representa por C.V. y se expresa de la siguiente manera: C.V. = 100% Ejemplo: En la Zona A, el promedio de hijos por familia es de 5, con S = 3 En la Zona B, el promedio de hijos por familia es de 2, con S = 1 ¿Cuál de los grupos es más homogéneo? Datos Zona A Zona B = 5 = 2 S = 3 S = 1 Calculo de los coeficientes de variación: i) Para la zona A C.V. = 100% C.V. = 60% ii) Para la zona B C.V. = 100% C.V. = 50% Como el C.V. para la zona B, es menor que el C.V. para la Zona A, entonces concluimos que el grupo B es el más homogéneo. Manual de Estadística General 54 , _ ¸ ¸ X S Donde: S = desviación estándar X = media aritmética X X , _ ¸ ¸ 5 3 , _ ¸ ¸ 2 1 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. EJERCICIOS RESUELTOS 1. Desarrollar a) Completar los datos que faltan en la siguiente tabla estadística: Xi fi Fi hi 1 4 0.08 2 4 3 16 0.16 4 7 0.14 5 5 28 6 38 7 7 45 8 b) Calcula la media, mediana y moda de esta distribución Solución: a. La Frecuencia relativa de 1 es 0.08 = 4 , de donde n = 50, lo que nos permite n completar la tabla Xi fi Fi hi Xifi 1 4 4 0.08 4 2 4 8 0.08 8 3 8 16 0.16 24 4 7 23 0.14 28 5 5 28 0.10 25 6 10 38 0.20 60 7 7 45 0.14 49 8 5 50 0.10 40 50 1.00 238 b. La Media Aritmética: = 238 = 4.76 50 La Mediana: n = 50 = 25 2 2 Md = 5 Manual de Estadística General 55 X INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. La Moda: Es la mayor frecuencia por que son datos agrupados, entonces Mo = 6 2. Observados los alquileres de un conjunto de despachos se ha obtenido: Alquiler en miles de Soles fi [00 - 15) 17 [15 - 30) 130 [30 - 45) 180 [45 – 60) 30 [60 - 75) 10 [75 - 90] 5 Calcula la moda y la mediana Solución: Como los datos son agrupados tenemos: Para la Moda: Mo = 30 + 50 x 15 Mo = 30 + 3.75 150 + 50 Mo = 33.75 Para la Mediana: Alquiler en miles de Soles fi Fi [00 - 15) 17 17 [15 - 30) 130 147 [30 - 45) 180 327 [45 – 60) 30 357 [60 - 75) 10 367 [75 - 90] 5 372 372 Md = 30 + 186 - 147 x 15 = 30 + 3.25 = 33.25 180 Manual de Estadística General 56 n = 372 = 186 2 2 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. 3. Se considera una distribución de datos agrupados en intervalos cuyo polígono de frecuencia acumulada es el de la figura: Calcular: a) Tabla de distribución de frecuencias b) La Media Solución a) Xi fi Fi hi Hi Xifi 20 3 3 0.15 0.15 60 40 6 9 0.30 0.45 240 60 5 14 0.25 0.70 300 80 0 14 0 0.70 0 100 6 20 0.30 1.00 600 20 1.00 1200 b) = 120 = 60 20 Manual de Estadística General 57 0 5 10 15 20 25 0 20 40 60 80 100 120 X INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. 4. La distribución de las notas obtenidas por 60 alumnos en un examen, agrupados en intervalos, es: Determine: a) La Media Aritmética b) La Mediana c) La Moda d) La Desviación Media Solución: Manual de Estadística General Notas fi [0 – 1) 1 [1 – 2) 2 [2 – 3) 5 [3 – 4) 7 [4 – 5) 9 [5 – 6) 15 [6 – 7) 11 [7 – 8) 6 [8 – 9) 3 [9 – 10] 1 Notas Xi’ fi Fi Xifi X Xi − ' X Xi − ' fi [0 – 1) 0.5 1 1 0.5 4.75 4.75 [1 – 2) 1.5 2 3 3 3.75 7.50 [2 – 3) 2.5 5 8 12.5 2.75 13.75 [3 – 4) 3.5 7 15 24.5 1.75 12.75 [4 – 5) 4.5 9 24 40.5 0.75 6.75 [5 – 6) 5.5 15 39 82.5 0.25 3.75 [6 – 7) 6.5 11 50 71.5 1.25 13.75 [7 – 8) 7.5 6 56 45 2.25 13.5 [8 – 9) 8.5 3 59 25.5 3.25 9.75 [9 – 10] 9.5 1 60 9.5 4.25 4.25 60 315 90 58 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. a) La Media Aritmética: = 315 = 5.25 60 b) La Mediana: n = 60 = 30 2 2 Md = 5 + 30 - 24 x 1 = 5.04 15 c) La Moda: Mo = 5 + 6 . x 1 = 5 + 0.6 = 5.6 6 + 4 d) La Desviación Media: D.M. = 90 = 1.5 60 PROBLEMAS PROPUESTOS 1. Se distribuye el número de empresas según sus inversiones en millones de soles. [ ) s i L L − i f 4 – 10 1 10 – 16 3 16 – 22 6 22 – 28 12 28 – 34 11 34 – 40 5 40 – 46 2 a) ¿Cuántas empresas intervienen en menos de 25 millones de soles? b) Hallar la Media Aritmética, Mediana, La Moda, la Desviación Media 2. Se tiene las temperaturas observadas en el hemisferio norte durante 24 días en °C. Manual de Estadística General 59 X INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. [ ) s i L L − i f h i -19 - -17 -17 – -15 2 -15 – -13 8 -13 – -11 0.125 -11 – -9 4 -9 – -7 0.2083 a) ¿Durante cuántos días se obtuvo una temperatura de –16 a –10? b) Hallar la Mediana y la Desviación Media 3. La tabla muestra la distribución del ingreso familiar correspondiente a 80 familias. [ ) s i L L − i f F i h i 160 – 170 170 – 180 48 60 180 – 190 0.125 190 – 200 0.075 200 – 210 a) Determinar el número de familias que ganan menos de 200 nuevos soles. b) Hallar la Moda y la Mediana 4. Se revisaron 20 lotes de 48 artículos cada uno y se encontró el siguiente número de artículos defectuosos por lote: 3, 2, 5, 0, 1, 3, 2, 1, 0, 1, 3, 4, 2, 4, 4, 4, 3, 3, 2, 3 Construir el cuadro de distribución de frecuencias y ¿qué porcentaje de lotes tienen 2 o más pero menos de 4 artículos defectuosos? 5. Dado el siguiente cuadro estadístico referente a los pesos de cierto número de pacientes en un hospital. [ ) s i L L − i f 0 – 12 5 12 – 24 24 24 – 36 18 36 – 48 36 48 - 60 17 a) ¿Cuántos pacientes pesan mas de 19 y menos de 38 kilos? b) Hallar la Desviación Media c) Hallar la Mediana Manual de Estadística General 60 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. 6. En una prueba de estadística se evaluaron a “n” estudiantes y se obtuvo el siguiente cuadro estadístico. Marca de clase 45 55 65 75 85 Frecuencia relativa 2n/25 3n/100 n/50 3n/50 n/100 a) ¿Qué porcentaje de estudiantes obtuvieron una nota menor que 60 puntos o mayor o igual a 80 puntos? b) Hallar la Mediana, La Moda y la Desviación Media 7. Dada la siguiente distribución de frecuencias en base al ingreso familiar de 200 familias. [ ) s i L L − i f F i - 12 - 270 - 300 30 90 - 126 330 - - 50 a) ¿Cuántas familias tienen un ingreso comprendido entre 260 y 320? b) Hallara La media Aritmética, La Mediana y la Moda 8. Se tiene la siguiente distribución simétrica. [ ) s i L L − i f F i h i - 8 12 - - 1/5 - 24 17 - Si el ancho de clase es constante. ¿Cuántos datos habrá en el intervalo [12 – 20>? Hallar la Median y la Media Aritmética 9. Los tiempos de vida útil (en días) de un tipo de bacteria, se tabuló en una distribución de frecuencias de 5 intervalos de igual amplitud con frecuencias relativas acumuladas: 0.10; 0.25; 0.55; 0.80; 1.00. Determine la distribución de frecuencias absolutas, si la tercera Manual de Estadística General 61 INSTITUTO SUPERIOR TECNOLOGICO Prof. Ing. Diego Tume Ruiz FREDERICK WINSLOW TAYLOR. frecuencia absoluta acumulada es 11, si la segunda marca de clase es 6, y si el límite inferior del cuarto intervalo es 12. Hallar la Media Aritmética, La Mediana y La Moda Manual de Estadística General 62