MÓDULO DE METODOSESTADÍSTICOS Lic. HUAYANAY CARRANZA RAÚL SEMESTRE 2014 - 2 ESCUELA ACADÉMICO PROFESIONAL MECÁNICA ELÉCTRICA NVO CHIMBOTE, 2014 0 UNIDAD 1 1. DEFINICIONES BÁSICAS 1.1 . LA ESTADÍSTICA La palabra estadística se emplea en una gran variedad de formas. En plural se emplea como sinónimo de dato. Es una ciencia aplicada que nos proporciona un conjunto de métodos, técnicas o procedimientos para recopilar, organizar (clasificar, agrupar), presentar, y analizar datos con el fin de describirlos o de realizar generalizaciones válidas. Se denomina Estadística Descriptiva al conjunto de métodos estadísticos que se relacionan con el resumen y descripción de los datos, como tablas, gráficas y el análisis mediante algunos cálculos. Se denomina Estadística Inferencial al conjunto de métodos estadísticos con los que se hace la generalización o la inferencia sobre una población utilizando una muestra. La inferencia puede contener conclusiones que pueden no ser ciertas en forma absoluta, por lo que es necesario que estas sean dadas con una medida de confiabilidad que es la probabilidad. Estas dos partes de la estadística no son mutuamente excluyentes, ya que para utilizar los métodos de la inferencia estadística, se requiere conocer los métodos de la estadística descriptiva. 1.2 POBLACION Y MUESTRA Población En forma general en estadística se denomina población a un conjunto de elementos como personas, objetos, etc. en los que se pueden observar o medir una o más características de naturaleza cualitativa o cuantitativa. A cada elemento de una población se le denomina unidad elemental o unidad estadística. Por ejemplo los empleados de una empresa en un día laborable, constituye una población en la que cada empleado (unidad estadística), tiene muchas características a ser observadas como género, estado civil, lugar de procedencia, grado de instrucción, etc. (características cualitativas) o número de hijos, ingresos mensuales, etc. (características cuantitativas) 1 El resultado de observar o medir una característica en una unidad estadística, se denomina dato estadístico, valor observado o simplemente observación Parámetros Se denomina parámetro a una medida descriptiva que resume una característica definida en la población, tal como la media (µ) o la varianza (δ 2) etc. Y se calcula a partir de los datos observados en toda la población Tipos de población Por el número de elementos que la componen, la población se clasifica en finita o infinita. La población es finita si tiene un número finito de N elementos. En caso contrario la población es infinita Muestra Después de definir la tarea de investigación estadística a realizar, se debe decidir entre investigar toda la población o solo una parte de ella. En el primer procedimiento es denominado censo y el segundo es llamado muestreo. Se denomina muestra a una parte de la población seleccionada de acuerdo con un plan o una regla con el fin de obtener información acerca de la población de la cual proviene. La muestra debe ser seleccionada de manera representativa de la población. Un método de selección de muestras representativas es el azar, esto es, cada elemento de la población tiene la misma posibilidad de ser incluida en la muestra. Estadística Se denomina estadística, estadígrafo o estadístico a una medida descriptiva que resume una característica definida de una muestra aleatoria, tal como la media x o la varianza s2, calculada a partir de los datos observados en la muestra. 1.3 ESCALAS DE MEDICIÓN. 2 Una escala de intervalos es una escala ordinal que asigna a las unidades estadísticas valores numéricos. Estos niveles de medición son denominados escalas. En este caso.En estadística medir es observar el valor que toma una variable estadística en un elemento de la población. El nivel nominal permite mencionar similitudes y diferencias entre los casos particulares. 1. El método estadístico con datos obtenidos en escala ordinal consiste básicamente en obtener el número o porcentaje de casos en cada categoría.Se dice que los valores de una variable estadística están en el nivel de escala ordinal si están en escala nominal y además ordenan a las unidades estadísticas por las características que se observa. así como obtener la moda. intervalares o racionales. definen niveles de medición de las unidades estadísticas. se dice que tales elementos están en una misma modalidad o valor de la variable.3 ESCALA DE INTERVALO. 1.3.3. Si se asignara números a tales valores. 1. Para exhibir este tipo de información se usan con mayor frecuencia tablas de contingencia y gráficas de barras. Por ejemplo la variable nivel socio económico. con estos no es posible realizar operaciones aritméticas. 3 . Sólo son válidas las relaciones de igualdad. no igualdad y de orden. definida en una población de hogares. Este cero no es absoluto pues no mide la ausencia total de la característica que se observa en la unidad estadística. Por lo regular. ordinales. que son mediciones realizadas con respecto a un cero arbitrario. además de ser cualidad o cantidad.3. contiene un criterio que genera valores: Bajo medio alto.2 ESCALA ORDINAL. Los valores de la variable. Una misma medición puede corresponder a varias unidades estadísticas. Estas escalas son: nominales. los datos nominales o cualitativos se describen en términos de porcentaje o proporciones. No poseen propiedades cuantitativas y sirven únicamente para identificar las clases. la mediana y el coeficiente de correlación por rangos. Los valores cualitativos de una variable en escala ordinal son los resultados de un criterio para ordenar a las unidades estadísticas.Se dice que los valores de una variable estadística están en el nivel de la escala nominal si estos solo clasifican a las unidades estadísticas en iguales o diferentes.1 ESCALA NOMINAL. x1 Con los valores de esta escala son válidas pues. son la misma escala de intervalos pues verifican las mismas relaciones.x1 = C. x3 son tres valores de una variable x cuyos valores están en el nivel de escala de intervalos. Además con los valores de una variable en la escala de razón se puede comparar cuantas veces la medida de una unidad estadística es igual a la medida de otra unidad estadística y se verifica la relación: x2 = C. unidades monetarias. Además son válidas las operaciones de adición y sustracción entre los valores de la escala. x2.4 ESCALA DE RAZÓN. x permanece invariante ante la transformación y = ax + b . Los valores de esta escala se obtienen en general. peso. Por ejemplo: El puntaje obtenido en un examen de conocimientos calificado de 02 a 20 donde tres alumnos obtuvieron calificativos 02. El nivel del mar es un cero elegido arbitrariamente. entonces se verifica la relación: x3 . tiene valores numéricos que son mediciones hechas de alturas con respecto al nivel del mar. y 45 es el juego de valores respectivos en y. Propiedad: Si una variable estadística T tiene sus valores x en escala de intervalos. tiempo. donde C es una constante x2 . 09. 1. entonces. Por ejemplo: Número de hijos.3. ambos juegos de valores de T. esto es x1 . las relaciones de igualdad. volumen. entonces. 04 y 16 es un juego de valores de tres unidades estadísticas en x. etc. de no igualdad y de orden. 04 y 16 respectivamente. Con los valores de una variable en escala de intervalos se puede comparar la diferencia de las mediciones de dos unidades estadísticas con otra diferencia. 03. y la multiplicación y división entre los valores mismos de la escala. Por ejemplo: 02. donde a y b son constantes arbitrarias. masa.Por ejemplo la variable altitud definida en una población de ciudades. donde C es una constante y x1 ≠0 4 . por mediciones que son conteos o por mediciones continuas tales como longitud.La escala de razón o cociente es una escala de intervalo que asigna a las unidades estadísticas valores numéricos. que son mediciones realizadas con respecto a un cero real. Este cero significa ausencia total de la característica que se observa. La característica peso en kilogramos tiene infinitos valores Se denomina variable estadística a una característica definida en una población y que asume por lo menos dos valores. tiempo de vida útil. la velocidad de un vehículo puede ser 80. entonces. nunca podrá ser 3. 5 . Por ejemplo: número de hermanos (puede ser 1. las variables cuantitativas se pueden clasificar en discretas y continuas - Discretas: sólo pueden tomar valores enteros (1. VARIABLES ESTADISTICAS. por ejemplo: nacionalidad.. Por su parte. -4...). número de hijos.etc. color de la piel. Por ejemplo. sexo. o Variables cualitativas: Es la característica cuyos valores son cualidades. x permanece invariante ante la transformación y = ax 2. o Variables cuantitativas: es la característica cuyos valores son numéricos. por ejemplo.3 km/h. etc. Por ejemplo la característica género tiene dos valores: hombre y mujer. 2. Estos valores pueden ser de cualidad o cantidad..x1 Propiedad: Si una variable estadística T tiene sus valores x en escala de razón. Estos valores. Estos valores están en la escala de intervalo o de razón. están en nivel de escala nominal u ordinal. 94. 8. precio de un producto.etc..57 km/h. no se pueden realizar operaciones aritméticas. 2. ingresos anuales. - Continuas: pueden tomar cualquier valor real dentro de un intervalo. La característica que se observa o mida en las unidades estadísticas de una población tiene diversos valores de naturaleza cualitativa o cuantitativa.45).. 3. Por ejemplo edad. pero. .4? Ejercicio 04 Clasifique las variables e indique el tipo de escala en que están medidas: 6 .04.Ejercicio 01 Cierta variable asigna a las unidades estadísticas E1 y E2 de una población los valores de 5 y 20 respectivamente en una escala dada. La escala usada es ….3 Se desea saber cuál es específicamente la altitud de las tres últimas minas en metros sobre el nivel del mar si se sabe que la altitud de las 2 primeras minas son respectivamente 1224. y 1503.5. 917.2. asigna valores 1. 824. E2 y E3 respectivamente. Si una transformación lineal en los valores asigna 1 a E1 y -8 a E2 que valor le corresponde a E3? Ejercicio 03 Una empresa minera posee cinco minas cuyas altitudes han aparecido en una revista extranjera con los valores: 610. 420.. 4 y 9 a las unidades estadísticas E1.7.. 750. y la relación entre E1 y E2 es ……… Ejercicio 02 Una variable cuantitativa cuya escala de intervalos. ORGANIZACIÓN DE DATOS. es necesario organizarlos y presentarlos en forma tal que facilita su comprensión y su posterior utilización. 7 . Para el análisis estadístico de los valores de una variable.Profesión Nacionalidad Grado de instrucción Número de hijos Número de teléfono Dirección Año de nacimiento Edad Estado civil Ingreso mensual familiar promedio Número de DNI 3. Los datos son presentados en un cuadro numérico y presentados en gráficas estadísticas. observada en una muestra de n unidades estadísticas de una población que origina k cualidades diferentes C 1. h1= f /n la suma pi = hi x 100%. … k.1 Distribución de frecuencias de variable cualitativa Si la variable x es cualitativa. El cuadro numérico de una sola variable estadística se denomina distribución de frecuencias. la suma total es igual a cien.Si la variable es cuantitativa y el interés es sólo obtener algunas medidas descriptivas de ellas puede que no sea necesario agruparlos. donde i= 1. Cuadro 1.1 La frecuencia absoluta f es el número de datos que resulta del conteo en la categoría respectivamente Ci.… Ck la tabulación o agrupación de estos n datos. La frecuencia relativa hi se define en cada categoría C1 total es igual a uno .1 Distribución de frecuencias de variable cualitativa 8 . cuerpo y fuente. C2. Todo cuadro numérico debe contener básicamente título. el total de datos observados. La suma de todas las frecuencias absolutas es igual a n. 3. es la distribución de frecuencias del cuadro 1. 2. Tenemos distribución de frecuencias para variable cualitativa. La frecuencia porcentual pi se define para cada categoría Ci. variable cuantitativa discreta y por intervalos. . .Categorías de la variable x Frecuencias absolutas f Frecuencias relativas hi Frecuencias porcentuales pi C1 f1 h1 p1 C2 f2 h2 p2 . . . Ck fk hk pk Total n 1 100 Ejercicio 5: Se elaboró una encuesta a un grupo de niños y arrojó que las mascotas más comunes que tiene un niño son perros. . hámsteres y pájaros Para calcular: perro Gato Perro hamster pájaro Hamster Gato perro hámster Gato Pájaro gato perro Perro hámster Pájaro perro perro Pájaro Gato Frecuencia absoluta: se cuenta la cantidad de veces que ocurre el evento. peces. . las mascotas. . . en este caso. . . . gatos. 9 . Cuadro 1.2 Distribución de frecuencias mascotas mas comunes que tiene un niño. Mascota Frecuencia absoluta Frecuencia relativa Frecuencia porcentual f hi pi 20 1 100 Perro Pájaro Hámster Gato total Estos datos se pueden representar en una gráfica de barras o en una gráfica de pastel 10 . Frecuencia porcentual: se multiplica la frecuencia relativa por 100.Frecuencia relativa: se divide la frecuencia absoluta de cada evento entre el total de eventos. Procedimiento 11 .2 Distribución de frecuencias para datos agrupados por intervalos Distribución de frecuencias en la que los valores de la variable se han agrupado en clases o intervalos.Gráfca de barras Gráfca de pastel 4. Esto se debe principalmente a la disposición de gran número de datos. 7 Marca de clase (mi) : Es el punto medio de la clase y se obtiene sumando los LI y LS de la clase y dividiendo entre 2.1 Toma de datos 2 Ordenación de datos: es una colocación de los datos numéricos tomados en orden creciente a decreciente de magnitud. 3 Cálculo del Rango (R): La diferencia entre el mayor y el menor de los números. Tamaño de clase= A = Rango / N° de clases 6 Límites de clase: Representan el tamaño de cada clase. para obtener el límite inferior de la clase siguiente. La marca de clase también se llama punto medio de la clase. se llama rango o recorrido de datos. R = (X max – X min) + 1 4 Número de clases o intervalos (K): utiliza la regla de Sturges Para calcular el número de clases se *N° de clases (Regla de Sturges) K = 1 + 3. más uno. Ejercicio 6 : ASIENTOS VACÍOS DE AUTOBUSES INTERPROVINCIALES 12 . se suma al límite inferior de la case anterior el tamaño de clase. El límite inferior ( LI ) de la primera clase toma el valor del dato menor de la colección de datos.332 log N 5 Tamaño de la clase (A) se obtiene el tamaño de clase dividiendo el rango entre el número de clases. 1) Toma de datos Los siguientes datos corresponden a la cantidad de asientos vacíos que reportaron 50 autobuses interprovinciales el último domingo. 12 11 4 6 6 11 3 10 12 4 10 1 1 2 4 5 2 4 4 8 8 7 8 4 10 4 2 6 2 9 5 6 6 4 12 8 1 12 1 7 7 6 8 4 6 9 3 7 7 5 2) Ordenación de datos 1 2 4 4 5 6 7 8 9 11 1 2 4 4 5 6 7 8 10 12 1 2 4 4 6 6 7 8 10 12 1 3 4 4 6 6 7 8 10 12 2 3 4 5 6 7 8 9 11 12 13 . 332log (50) = 6 5) Tamaño de clase Tamaño de clase = 12/6 = 2 (aprox.) 6) Límites de clase [LI .3) Rango = (12-1) + 1 = 11 + 1 = 12 4) N° de clases = 1 + 3.LS] 7) Marca de clase: mi Cuadro N° 1.3 ASIENTOS VACÍOS DE AUTOBUSES INTERPROVINCIALES Cla se Mi LI LS Frecuencia simple mi Absol uta f 1 [1 3[ 2 [3 5[ 3 [5 7[ 4 [7 9[ Frecuencia acumulada Relati Porcent Absolut Relati Porce va ual a va ntj hi pi 14 Fi Hi Pi . los Límites reales. Histograma: forma gráfica de barras que emplea variables con escala de intervalos o de proporciones. Polígono de frecuencias: Forma gráfica que representa una distribución de frecuencias en la forma de una línea continua que traza un histograma. y para el eje Y. 15 . Para su elaboración. Se tomará el ejemplo anterior para demostrar el uso de diferentes gráficas. se toma en cuenta para el eje X. las frecuencias absolutas. se consideran las marcas de clase en el eje X y las frecuencias absolutas en el eje Y.5 6 Tot al [9 11[ [11 13[ 50 1 100 50 1 100 - - - Representación gráfca de datos. Para realizarla. Para construirla se constituye el eje y por las frecuencias absolutas y el eje X por los límites inferior y superior de cada clase. Datos enteros.86 y k = 7 c.282.Gráfca de barras: la gráfica de barras es una forma de gráfica que utiliza barras para indicar la frecuencia de ocurrencia de las observaciones. Obtenga la amplitud de los intervalos de la distribución de frecuencias en cada uno de los siguientes casos: a.655 y k =6 16 . Xmin = 10 . Datos con tres decimales Xmin = 0.55. X max = 3. Datos con dos decimales Xmin = 2. X max= 0. dejando un espacio entre barra y barra. Xmax = 50 y k= 8 intervalos b. PRACTICA N°01 DEFINICIONES BASICAS DE ESTADISTICA – TABLA DE FRECUENCIAS 1. Los datos que siguen. en dólares recopilados en una muestra de 45 empleados son: 63 82 36 49 56 64 59 35 78 43 51 70 57 62 43 68 62 26 64 72 52 51 62 60 71 61 55 59 60 67 57 67 61 67 51 81 50 64 76 44 73 56 62 63 60 Describa la variable y desarrolle la distribución de frecuencia de los datos 3.2. Los salarios quincenales. son los consumos de agua del último mes registrados en metros cúbicos en una muestra al azar de 32 viviendas unifamiliares de la zona de Buenos Aires en Nuevo Chimbote 23 12 16 14 17 12 7 9 18 13 9 21 18 20 13 15 18 16 4 15 17 19 15 18 19 17 11 23 14 10 16 13 17 . 4. [ [ . [ 0. cuyos resultados incompletos se dan en la siguiente tabla: Intervalo [ Marca de clase Frecuencia relativa Frecuencia relativa acumulada . Luego grafique el histograma.15 [6.Organice los datos en una distribución de frecuencias de 5 intervalos.45 [ .70 [ . [ 0. Las notas del examen parcial de Estadística se registraron se organizaron en una distribución de frecuencias. ¿Es correcta la afirmación “Más del 45% de los consumos fluctúan entre 14 y 19 m3? Justifique su respuesta.5 0.10 18 . ] 13. Comente la forma de distribución. [ 0. Calcule el intervalo de notas donde se ubica el quinto superior de los estudiantes 5. luego grafique la distribución y desarrolle su comentario. 6. Blanco (B). Ante la pregunta sobre el número de hijos por familia una muestre de 20 hogares marcó las siguientes respuestas: 2 1 2 4 1 3 2 3 2 0 3 2 1 3 2 3 3 1 2 4 Describa la variable de la encuesta y obtenga la distribución de frecuencias de los datos. Comente el resultado. 14]? d. En una encuesta de opinión acerca de las preferencias de bebidas gaseosas por su color Negro (N).a. Es correcto que más del 49% de las notas se ubican en el intervalo: [ 8 . Rojo (R). 19 . Grafique la distribución de frecuencias y describa su forma b. Elabore la gráfica de porcentajes y ubique en la misma los cuartiles c. Luego presente los datos agrupados en la grafica de barras y circular. una muestra de 20 consumidores marco las siguientes respuestas: B N N B R N N B B N B N N R B N B R B N Describa la variable estadística y obtenga la distribución de frecuencias. Los tiempos de vida útil de un tipo de batería. 180 ganan menos de $270 y el 10% restante de empleados gana a lo más $300.25. 1.10.7. medio=1 y alto=2 si sus valores observados en 20 hogares son: 1. pero menos de $180. 0. 0.55. 0 0 1 2 0 0 1 1 0 1 0 0 2 1 0 1 2 1 0 8. Tales sueldos se tabulan en una distribución de frecuencias de 5 intervalos de igual amplitud. si la segunda marca de clase es 6 y si el límite inferior del cuarto intervalo es 12 10.En una compañía. 60 ganan menos de $210. Obtenga la distribución de frecuencias y trace su gráfica.00. el sueldo mínimo y máximo de 200 empleados es de $150 y $300 respectivamente. se tabuló en una distribución de frecuencias de 5 intervalos de igual amplitud con frecuencias relativas acumuladas: 0. 4. reconstruir la distribución y graficar su polígono de frecuencias.80. 0. Construirla distribución de frecuencias. Determine la distribución de frecuencias absolutas si la tercera frecuencia absoluta acumulada es 11. pero menos de 4 artículos defectuosos? 9. trazar una gráfica y comentar el resultado de la variable nivel socio económico con sus valores bajo =0. 110 ganan menos de $240. MEDIDAS DE TENDENCIA CENTRAL 20 . Si se sabe que 20 empleados ganan al menos $150. Luego determine los cuartiles aplicando la para la variable número de artículos defectuosos por lote encontrados al revisar 20 lotes de 48 artículos cada uno si sus valores observados son: 3 2 5 0 1 3 2 1 5 1 3 4 2 4 4 3 4 3 2 3 ¿Qué porcentaje de lotes tienen dos o más. 25. 19. ubican el centro de los datos también se las conoce como medidas de posición. 25.1. Ejemplo: Calcule la mediana para los siguientes datos.1 Mediana de datos no agrupados Para realizar el cómputo de la mediana de n valores no agrupados de una variable cuantitativa x se siguen los siguientes pasos: 1. La mediana es 21. La mediana es el percentil 50 de los datos observados no agrupados o agrupados por intervalos. 22. 4. 4.5n 2° Se aplica la siguiente fórmula: Mediana = LI + [n/2 – Fi-1] A f 21 .2 Calculo de la mediana para datos agrupados La mediana de una muestra de datos organizados en una distribución de frecuencias se calcula 1° Ubicando el intervalo que contiene a la mediana : 0. Se ordenan los datos en forma creciente 2. Pero si n es par.1 Mediana La mediana (Me) o valor medio de una serie de valores observados es el número que separa a la serie de datos ordenados (en forma creciente o decreciente) en dos partes de igual numero de datos. corresponde al dato ordenado del centro. Si n es impar. Cálculo de la mediana 4. la mediana es la semisuma de los dos valores ordenados centrales. 21.1. Se ubica el valor central Me.Las medidas de tendencia central denominadas también promedios. 20. 20 y 22. La edad de una muestra de cinco estudiantes es: 21. Al ordenar los datos de manera ascendente quedan: 19. 75. Cálculo de la moda para datos agrupados por intervalos Mo= Li + [ Li = Limite inferior del intervalo modal d1 = fi – fi-1 d2= fi – fi+1 A= amplitud del intervalo modal 22 d1 ]A (d 1 + d2) . fi es la frecuencia absoluta de clase de la mediana y A es la amplitud del intervalo de clase de la mediana.1 Cálculo de la moda para datos agrupados La moda de los datos agrupados se aproxima por el punto medio de la clase que contiene la frecuencia de clase mayor. Cuando dos valores ocurren una gran cantidad de veces.donde: LI es el límite inferior de la clase que contiene a la mediana. 93. 81. Ejercicio 7 Calcule la mediana de 45 salarios quincenales agrupados en 7 intervalos de igual amplitud. 87.2 Moda La moda de una serie de datos es el valor Mo que se define como el dato que ocurre con mayor frecuencia. 4. Ejemplo: Las calificaciones de un examen de diez estudiantes son: 81. la calificación modal es 81 4. Fi-1 es la frecuencia acumulada que precede a la clase de la mediana. 68. 75. la distribución se llama bimodal. 84.2. 81. Como la calificación 81 es la que más ocurre. 87. Calculo de la media (x) 1. Para ejemplificar.3 Media La media aritmética denominada simplemente media (x) es el valor numérico que se obtiene dividiendo la suma total de los valores observados de una variable entre el número de observaciones.Ejercicio 8 Calcule la moda de 45 salarios quincenales agrupados en 7 intervalos de igual amplitud. Media aritmética de datos no agrupados: Media = x¯ = Suma total = x¯ = ∑xi n° de datos Ejercicio 10: Calcule la media aritmética de los 45 salarios sin agrupar x¯ = ∑xi = 2670/45 = n 2. tomaremos el ejemplo de autobuses interprovinciales de la pagina anterior . 4. Ejercicio 9 Ejemplo de cálculo de media mediana y moda. Media aritmética de datos agrupados 23 n . a. La suma de todos estos productos se divide por el total de datos de la muestra: Ejercicio 11 Calcule la media aritmética de la distribución de frecuencias del número de hijos por familia de una muestra de 20 hogares: 2 1 2 4 1 3 2 3 2 0 3 2 1 3 2 3 3 1 2 4 Solución N° de hijos N° de familias Producto xi fi fi xi 0 1 0 1 4 4 2 7 14 3 6 18 4 2 8 Total 20 44 La media de la distribución es 24 . Media para datos agrupados de variable discreta Se calcula multiplicando cada valor por el número de veces que se repite. Media para datos agrupados por intervalos Media = x¯ = Suma total = x¯ = ∑fi mi n° de datos n Ejercicio 12: Calcular la media de la distribución de 45 salarios organizados en 7 intervalos c. Media con frecuencias relativas Media = x¯= Suma total = x¯ = ∑fi mi n° de datos = ∑ hi mi n Ejercicio 13 Calcular la media con frecuencias relativas de la distribución de 45 salarios organizados en 7 intervalos: d.x¯ = ∑fi xi = 44/20 = 2.2 hijos N b. Media ponderada 25 . Media = x¯ = Suma total = x¯= ∑wi xi n° de datos ∑wi Ejercicio 14: Si en un examen de matemática. ¿Cual será su promedio ponderado? MEDIDAS DE POSICIÓN NO CENTRALES Las medidas de posición no centrales permiten conocer otros puntos característicos de la distribución que no son los valores centrales. Percentiles: son 99 valores que distribuyen la serie de datos. ordenada de forma creciente o decreciente. se suelen utilizar una serie de valores que dividen la muestra en tramos iguales: Cuartiles: son 3 valores que distribuyen la serie de datos. ordenada de forma creciente o decreciente. en cuatro tramos iguales. en los que cada uno de ellos concentra el 25% de los resultados. 26 . en los que cada uno de ellos concentra el 10% de los resultados. Deciles: son 9 valores que distribuyen la serie de datos. en diez tramos iguales. 13 en el curso de matemáticas de 4 créditos y 16 en el curso de estadística con 3 créditos. en cien tramos iguales. aunque haría falta distribuciones con mayor número de datos. Los deciles y centiles se calculan de igual manera.6 y 120 alumnos del horario H2 obtuvieron una media de 13. en los que cada uno de ellos concentra el 1% de los resultados. Ejemplo: Calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de alumnos. Entre otros indicadores.48 entonces la media global es: Ejercicio 15: Si un alumno en el semestre anterior ha obtenido 11 en el curso de investigación de 5 créditos. ordenada de forma creciente o decreciente. 110 alumnos del horario Hi obtuvieron una media de 12. 0% 1. 27 .6% 46.26 cm.3% 16.6% 36. ya que entre este valor y el 2º cuartil se sitúa otro 25% de la frecuencia.Variable Estatura 1.22 cm.22 4 9 13. Cuando un cuartil recae en un valor que se ha repetido más de una vez (como ocurre en el ejemplo en los tres cuartiles) la medida de posición no central sería realmente una de las repeticiones.3% 40.0% 100.20 Frecuencias absolutas Simple Acumulada Fi Fi 1 1 Frecuencias relativas Simple Acumulada pi Pi 3.28 4 24 13.21 4 5 13.3% 1.6% 1. 3º cuartil: es el valor 1.3% 3.0% 1º cuartil: es el valor 1. por encima suya queda el restante 25% de la frecuencia.0% 66.23 2 11 6. ya que entre este valor y el 1º cuartil se sitúa otro 25% de la frecuencia. ya que por debajo suya se sitúa el 25% de la frecuencia 2º cuartil: es el valor 1.6% 1.0% 1. Además.26 3 17 10.3% 80.29 3 27 10.6% 1.0% 56.0% 1.28 cm.30 3 30 10.0% 1.6% 1.6% 1.27 3 20 10.25 2 14 6.24 1 12 3.0% 90.3% 30. y tiene un sueldo promedio de $250.00. En una evaluación 5 alumnos tiene cada uno una nota12. ¿Que nota promedio es?¿ Es el promedio adecuado? 28 .PRACTICA N° 02 MEDIDAS DE TENDENCIA CENTRAL 1.46. Los sueldos del mes de enero de 200 empleados de una empresa tienen una media de $230 a. 3. 9.35.77. Si se indica como nota promedio 13. 9. Si para el mes de julio. 9. se propone un aumento general que consiste en un aumento variable del 30% a cada sueldo de enero más una bonificación de $30.60 Si el precio de venta de cada objeto es 3 veces su costo de fabricación menos 5 soles. 9.99. Si el 60% de los empleados son hombres (el resto son mujeres). 9. calcular la utilidad media por objeto.36. ¿Cuánto es el sueldo medio de las mujeres en enero? b.50 y 9. 9. 9.80. 9. Los costos de fabricación en soles de diez objetos son los siguientes: 9. y un alumno tiene 18. ¿Cuánto dinero adicional necesitará la empresa para pagar los sueldos incrementados? 2.20. la mediana es 23 y la moda es 22. Las ventas de un distribuidor de automóviles. De las edades de cuatro personas.6 16.9 32. 9.7 14. Con una suma de $3300 se asegura el pago de la mitad de los empleados y con $7500 el de todos los empleados.0 Si en la ciudad hay 5000 familias ¿Cuántos metros cúbicos de agua se requieren mensualmente si el consumo promedio por familia permanece igual? 7.7 14. en cierto periodo. que el 30% tiene 100 y la mayoría 90 alumnos. El sueldo promedio de 200 empleados de una empresa es $400 se propone dos alternativas de aumento: a.8 22.8 18. 5. Encuentre las edades de las 4 personas.5 16. Un chequeo posterior mostró que en lugar del valor 12. ascendieron a la cantidad de 1 650 000. Para calcular el suministro de agua que una ciudad requiere mensualmente se escogen 15 familias de la ciudad.3 15. Califique como verdadera o falsa las siguientes afirmaciones.2 18. resultó 42. Se sabe que uno de cada 5 tiene 80 alumnos.4 19. De la curva de frecuencia de sueldos de 30 empleados de una empresa.4 se introdujo 124.2 21. 15% de su sueldo más 10 soles a cada uno Si la empresa dispone a lo más de 94 000 para pagar sueldos ¿Cuál es la más conveniente? 8. a. 6. vendiendo 50 automóviles nuevos a un precio promedio de $ 13 000 y algunos carros usados con un precio de $5000 en promedio. El sueldo más frecuente es de $200 y más de la mitad de los empleados gana más de esa cantidad b.2 13.1 23.5 18. Al calcular la media de 125 datos. se sabe que Mo =$200.4. Me=$220 y x= $250. 29 . se sabe que la media es igual a 24 años. Calcule la media aritmética de alumnos por horario. ¿Cuál es el promedio de los precios de todos automóviles que se vendieron? 10. resultando los siguientes consumos en metros cúbicos 11. Justificando su respuesta.De los horarios de clases de la UCV se sabe que ninguno tiene más de 100 o menos de 70 alumnos matriculados. Corregir la media. $75 a cada uno y b. Cuánto es la nota mínima para estar en el quinto superior? 4. 6. 1. 10. Que porcentaje de hombre y mujeres trabajan en la fabrica si sus sueldos medio respectivos son $300 y $260? b. 8.Al tabular las calificaciones de un examen se obtuvieron las siguientes notas 07. 12. el porcentaje de personas con educación superior es 21%. 11 12. 14.11. 16. Esto es: 30 . la mediana y la moda de las notas. ¿Qué valor escogería como el promedio b. ¿Cuánto es el sueldo medio de los obreros de al menos 30 años? 13. analizando si estos se encuentran más o menos concentrados. 13. 1.El sueldo medio de los obreros de una fabrica es de $286 a. ¿Cuál es la media. 15.En tres grupos distintos de 100 000. 09. que generalmente es la media aritmética. Calcular el porcentaje promedio de personas con educación superior. 1. Estudia la distribución de los valores de la serie. 90 000 y 20 000 personas. 16. 42% y 40% respectivamente. 18. o más o menos dispersos Rango: Rango de variación o recorrido (R ) es el número que resulta de la diferencia entre el mayor y el menor valor de una serie de datos observados de la variable x. Si el 60%de los obreros tienen menos de 30 años y percibe el 20% del total de los sueldos. 1.3 MEDIDAS DE DISPERSION Las Medidas de dispersión o variabilidad son números reales que miden el grado o nivel de separación de los datos con respecto a un valor central. 17 y las frecuencias del número de alumnos respectivas: 1. 08 . 20 y 2 a. RI = Q3 – Q1 Varianza a. Varianza de datos no agrupados Mide la distancia existente entre los valores de la serie y la media. más concentrados están los valores de la serie alrededor de la media. Por el contrario. multiplicadas por el número de veces que se ha repetido cada valor. Se calcula como sumatoria de las diferencias al cuadrado entre cada valor y la media. S2 = suma total de cuadrados de diferencias = ∑(xi . 31 .x¯ 2 n° de datos n n La varianza siempre será mayor que cero. Mientras más se aproxima a cero. más dispersos están. La sumatoria obtenida se divide por el tamaño de la muestra. mientras mayor sea la varianza. dando un rango dentro del cual se encuentra el 50% central de los datos observados.R = ( X máx.x¯ )2 = ∑xi2 . – X min) + 1 Rango intercuartil Es una medida que excluye el 25% superior y el 25% inferior. 2 Calcule la varianza y la desviación estándar de los 45 salarios quincenales organizados en 7 intervalos 1DIANA MARINA QUILICHE PUMA. ejemplo.x‾ ∑fi (xi .x¯ ∑fi (mi - x¯ )2 = 2 n n° de datos n Ejercicio N° 15 b.xlsx c. Varianza con frecuencias relativas S2 = suma total de cuadrados de diferencias = ∑himi2 .¯x )2 = 2 n n° de datos 32 . Varianza de datos agrupados S2 = suma total de cuadrados de diferencias = ∑fi mi2 .1 Calcule la varianza y Desviación Estándar de la distribución de frecuencias del numero de hijos de la muestra de 20 familias.ods b. V s 2 b.Desviación estándar(S) : Se calcula como raíz cuadrada de la varianza. Así tenemos que es: a. si Mo ˂Me ˂¯x si ¯x ˂Me ˂ Mo Propiedades: a. SIMETRICA si ¯x = Me = Mo b.d. ASIMETRICA POSITIVA c. ∑Xi 2 = n (s2 + ¯x2 ) b. Vary = a2 Varx Sy2 = a2 Sx2 S y = a Sx c. Simetría y asimetría de una distribución El orden de ubicación de los promedios describe la simetría de la distribución de los datos. ASIMETRICA NEGATIVA e. medias y varianzas respectivas La varianza total se determina por: Sn 2 = ∑ni (Sni2 + ¯xi2)/n . Si x se transforma en y = ax + b.(¯xn)2 33 donde: ¯xn = [∑ni ¯xi]/n . Dados k serie de datos con tamaños. Desigualdad de Chebyshev: Cualquiera sea la forma de la distribución simétrica o asimétrica de los datos observados de una variable x. Por lo tanto Z es otro medida de posición además de los percentiles.d. el intervalo se cumple que: [¯x –k Sn . ¯x +k Sn] los datos donde k˃1 contiene por lo menos 1 – 1 % de k2 Coefciente de variación de Pearson (CV) Se calcula como cociente entre la desviación típica y la media de la muestra CV = S/ x¯ o VALORES ESTANDARIZADOS Z = X .¯x S Los valores estandarizados indican la posición relativa de las unidades estadísticas dentro de su grupo. 34 . Si Luis obtuvo 14 en matemática y 16 en estadística ¿en cuál de los dos cursos tiene mejor rendimiento relativo? 35 .Ejemplo Las calificaciones en un examen final de matemática y estadística generaron las medias 13 y 17 y las desviaciones estándar de 3 y 4 respectivamente. PRACTICA N° 03 MEDIDAS DE DISPERSION 1. En el mes de enero el sueldo promedio de los trabajadores del sector industrial era de $200. Para el mes de julio se considera un aumento del 30% al sueldo del mes de enero más un adicional de $50. Si el coeficiente de variación en enero era de 0.25, ¿Se puede decir que la distribución de sueldos en julio es más homogénea? 2. Si los salarios no agrupados de 120 obreros tiene una media de $300 y una desviación estándar de $30 a. ¿Cuántos obreros por lo menos tiene salarios comprendidos en el intervalo [$240 , $360]? b. Determine el intervalo que contiene al menos el 88.889% de los salarios c. Si el salario mínimo es de $210, en que porcentaje se puede afirmar que los salarios son superiores a $390? 3. A cuatro unidades estadísticas se le asigna los valores de 6, 10, 14 y 20 respectivamente en una escala de razón. Si en La misma escala se transforma 6 en 9, calcule el coeficiente de variación de los 4 valores transformados. 4. La demanda diaria en Kg de un producto tiene una media de 10 y una desviación estándar de 2. Si se hace un incremento del 20% de la demanda más 3kg. ¿En que porcentaje se logra reducir la variabilidad de la demanda diaria? 5. Las notas de una prueba de conocimientos que van de 0 a 20 se tabularon en una distribución de frecuencias y de la cuál se obtuvieron Media= 10 mediana=8, moda=4 y desviación estándar=3. a. Describa la asimetría de la distribución aplicando los promedios b. Si a cada alumno se sube 4 puntos. ¿Se ha logrado bajar la dispersión de las notas? 6. Se realizaron 10 mediciones en C° con cada uno de dos termómetros A y B. a. ¿Cuál de los dos termómetros es más confiable, si S A=4 y SB=5? b. ¿Cuál si además XA= 20 y XB=27? 7. La media y la desviación estándar de los sueldos de N empleados de una fábrica son 500 y 30 respectivamente. A cada uno de los N empleados se les dará un aumento de A% de su sueldo más su 36 bonificación de B soles. Halle A y B de tal manera que la media de los sueldos modificados sea 600 y su desviación estándar 33 8. Un investigador califica la aptitud de los grupos A y B de dos modos. Si los cuartiles I, 2 y 3 del grupo A son respectivamente 5, 10 y 30 y del grupo B son 35, 45 y 50 a. ¿Cuál de los dos grupos tiene aptitud más homogénea? b. Describa la simetría de cada grupo 9. Una prueba de conocimientos A se calificó sobre 20 puntos dando una media de 12 y una desviación estándar de 2 puntos. Mientras que una prueba de aptitud B se calificó sobre 100 puntos, dando una media de 70 y una desviación estándar de 5. a. En cuál de las dos pruebas los puntajes son más homogéneos? b. Si Juan tiene 14 en A y Luis 73 en B, ¿Quién tiene mejor rendimiento? 10.Los sueldos de 100 empleados de una empresa tienen una media de $300 y una desviación estándar de 50. Se propone dos alternativas de aumento: i) $75 a cada uno, y ii) 15% del sueldo más $20 a cada uno. ¿Cuál alternativa es más conveniente, a. Si la empresa dispone sólo de $37 000 para pagar sueldos? b. Si la empresa quiere homogenizar los sueldos? 11.Los sueldos de 150 trabajadores de una empresa tiene un coeficiente de variación del 5%. Si después de un incremento del 20% de los sueldos más una bonificación de $60 el coeficiente de variación baja a 4% a. Cuanto es la media y la desviación estándar de los sueldos antes del incremento? b. ¿Cuánto dinero adicional necesita la empresa para pagar todos los sueldos después del incremento? 12.Al calcular la media y la desviación estándar de 80 datos, resultaron 30 y 4 respectivamente. Un chequeo mostró que en lugar del valor 1.7 se introdujo 17. Corrija la media y la desviación estándar. 13.Los siguientes datos muestran calificativos de 20 personas sometidos a una prueba de aptitud. Los 20 estudiantes fueron divididos en dos grupos, al grupo I se calificó de 0 a 100 y al grupo 2 de 0 a 20: i. Grupo I 86, 81, 79, 73, 95, 86, 94, 90, 86, 88 ii. Grupo II 16, 19, 13, 20, 14, 16, 19, 18, 17, 15 37 a. Calcule la media y la desviación estándar en cada grupo, ¿Cuál de los dos grupos es más homogéneo? b. Se puede aceptar que el estudiante con 73 puntos del grupo I tiene mayor aptitud que el estudiante con 13 puntos del grupo 2? 14.El costo inicial de producción X de una muestra de 80 objetos de cierto tipo, tiene una media de $250 para el 60% de la muestra y de $200 para el resto, además una desviación estándar de $20 para el 60% de la muestra y de $25 para el resto. a. Calcule la varianza del costo inicial de los 80 objetos b. Si el costo final de producción Y es igual al 20% más del costo inicial, más 5 dólares y si el precio de venta de cada objeto de la muestra es proporcional al cuadrado del costo final de producción, ¿Cuánto se recaudaría por la venta total?, ¿Cuánto sería la utilidad neta? 15.El costo de producción de una muestra de cierto tipo de objeto tiene una desviación estándar de $30. El costo medio de producción es de $250 para el 60% de la muestra y de $200 para el resto. Si su precio de venta en dólares es igual al 10% más de su precio de costo más 10 dólares, calcule la media y la varianza de la venta de la muestra. 38 1 TIPOS DE MUESTREO Los autores proponen diferentes criterios de clasificación de los diferentes tipos de muestreo. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son. todas las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. 5. consiguientemente. Es decir.1 Muestreo probabilístico Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad.5 NOCIONES DE MUESTREO 5. por tanto.1. 39 . los más recomendables. aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y. aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos. por ejemplo los estudios de caso−control. atractivo por su simpleza. i+3k. es decir se toman los individuos de k en k. tablas de números aleatorios.. números aleatorios. como el anterior.. donde los casos no son seleccionados aleatoriamente de la población. (En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilistico. que es un número elegido al azar.. El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Muestreo aleatorio sistemático: Este procedimiento exige. etc. El número i que empleamos como punto de partida será un número al azar entre 1 y k. Este procedimiento. Los métodos de muestreo no probabilísticos no garantizan la representatividad de la muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la población. y los elementos que integran la muestra son los que ocupa los lugares i. Ejemplo: formar el equipo de fútbol de la universidad seleccionando 11 boletas de una urna con el nombre de todos los alumnos de la universidad. i+k. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres. tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. Se parte de ese número aleatorio i.) Entre los métodos de muestreo probabilísticos más utilizados en investigación encontramos: Muestreo aleatorio simple: El procedimiento empleado es el siguiente: Se asigna un número a cada individuo de la población A través de algún medio mecánico (bolas dentro de una bolsa. numerar todos los elementos de la población. pero en lugar de extraer n números aleatorios sólo se extrae uno.i+(n−1)k. si empleamos un muestreo aleatorio sistemático con k=10 siempre 40 . y dicha probabilidad no es nula para ningún elemento. generados con una calculadora u ordenador. i+2k.Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos: El método otorga una probabilidad conocida de integrar la muestra a cada elemento de la población..) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. que las unidades muéstrales son los elementos de la población. por ejemplo. edades. es decir.seleccionaríamos o sólo hombres o sólo mujeres. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad. y puede ser de diferentes tipos: Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales. ya que no todos los sujetos de la población tienen la misma probabilidad de se elegidos. una caja de determinado producto.. Muestreo aleatorio estratifcado: Este tipo de muestreo asegura que todos los estratos de interés estarán representados adecuadamente en la muestra.. El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos. Las unidades hospitalarias. Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población. aun siendo conscientes de que no sirven para realizar generalizaciones. La distribución de la muestra en función de los diferentes estratos se denomina afijación. los departamentos universitarios..2 Métodos de muestreo no probabilísticos A veces. Afijación Optima: Se tiene en cuenta la previsible dispersión de los resultados. En ocasiones las dificultades que plantean son demasiado grandes. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". no podría haber una representación de los dos sexos.1. etc. las urnas electorales..). Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. pues no se tiene certeza de que la muestra extraída sea representativa. pues exige un conocimiento detallado de la población. 41 . En otras ocasiones se pueden utilizar conglomerados no naturales como. Tiene poca aplicación ya que no se suele conocer la desviación. para estudios exploratorios. Cada estrato funciona independientemente. pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos. son conglomerados naturales. a la que llamamos conglomerado. sexos. 5. (Tamaño geográfico. de modo que se considera la proporción y la desviación típica. El no realizar dicho proceso. Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" "adecuados" para los fines de la investigación. Muestreo por cuotas: También denominado en ocasiones "accidental". Muestreo opinático o intencional: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Bola de nieve: Se localiza a algunos individuos. Mantiene. y así hasta conseguir una muestra suficiente. semejanzas con el muestreo aleatorio estratificado. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas determinadas condiciones. puede llevarnos a dos situaciones diferentes: primera que realicemos el estudio sin el número adecuado. con lo cual no podremos ser precisos al estimar los parámetros y además no encontraremos diferencias significativas cuando en la realidad sí existen. y estos a otros. 5. por tanto. Este método se utiliza mucho en las encuestas de opinión. pero no tiene el carácter de aleatoriedad de aquél. Muestreo casual o incidental: Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los individuos de la población. los cuales conducen a otros. de sexo femenino y residentes en Gijón.En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra sea representativa. La segunda situación es que podríamos estudiar un número innecesario de la población. lo cual lleva implícito no solo la pérdida de tiempo e incremento de recursos innecesarios sino que además la 42 . Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones.3 TAMAÑO DE LA MUESTRA Toda investigación lleva implícito en la fase de diseño la determinación del tamaño muestral necesario para la ejecución del mismo. por ejemplo: 20 individuos de 25 a 40 años. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. medias) a partir de una muestra.α ). debemos saber: El nivel de confianza o seguridad (1. Es decir pretendemos hacer inferencias a valores poblacionales (proporciones.96.58. El nivel de confianza prefijado da lugar a un coeficiente (Z α ). dado dicho incremento. Estimar una proporción: Si deseamos estimar una proporción.calidad del estudio. Una idea del valor aproximado del parámetro que queremos medir (en este caso una proporción).1. Estudios para determinar parámetros Con estos estudios pretendemos hacer inferencias a valores poblacionales (proporciones. debemos considerar diferentes situaciones: A. Estudios para contraste de hipótesis. Esta idea se puede obtener revisando la literatura. A. para una seguridad del 99% = 2. por 43 . Para una seguridad del 95% = 1. B. La precisión que deseamos para nuestro estudio. puede verse afectada en sentido negativo. medias) a partir de una muestra (Tabla 1). Estudios para determinar parámetros. Es decir pretendemos comparar si las medias o las proporciones de las muestras son diferentes. Elementos de la Inferencia Estadística A. Para determinar el tamaño muestral de un estudio. Tabla 1. En caso de no tener dicha información utilizaremos el valor p = 0.95) d = precisión (en este caso deseamos un 3%).estudio pilotos previos.05) q = 1 – p (en este caso 1-0.962 (ya que la seguridad es del 95%) p = proporción esperada (en este caso 5% = 0.5 (50%) que maximiza el tamaño muestral: donde: Zα 2 = 1.05 = 0. Precisión = 3%: Proporción esperada = asumamos que puede ser próxima al 5%. es decir conocemos el total de la población y deseásemos saber cuántos del total tendremos que estudiar la respuesta seria: donde: N = Total de la población Za2 = 1.962 (si la seguridad es del 95%) p = proporción esperada (en este caso 5% = 0. 44 . si no tuviésemos ninguna idea de dicha proporción utilizaríamos el valor p = 0. Ejemplo: ¿A cuántas personas tendríamos que estudiar para conocer la prevalencia de diabetes? Seguridad = 95%.5 (50%).05) q = 1 – p (en este caso 1 – 0.05 = 0.95) d = precisión (en este caso deseamos un 3%) Si la población es finita. si no tuviese ninguna idea de dicha proporción utilizaríamos el valor p = 0.24 Si la seguridad Za fuese del 99% el coeficiente sería 2. así: Si la seguridad Za fuese del 90% el coeficiente sería 1. Estimar una media: Si deseamos estimar una media: debemos saber: El nivel de confianza o seguridad (1.645 Si la seguridad Za fuese del 95% el coeficiente sería 1.96. con una seguridad del 95 % y una precisión de ± 3 puntos y tenemos información por un estudio piloto o revisión bibliográfica que la varianza es de 250 45 . para una seguridad del 99% = 2. Ejemplo: Si deseamos conocer la media del rendimiento académico de una población.576 A. Para una seguridad del 95% = 1. Una idea de la varianza S 2 de la distribución de la variable cuantitativa que se supone existe en la población.¿A cuántas personas tendría que estudiar de una población de 15.58. El nivel de confianza prefijado da lugar a un coeficiente (Z α ).2.α ).5% el coeficiente sería 2.000 habitantes para conocer la prevalencia de diabetes? Seguridad = 95%. proporción esperada = asumamos que puede ser próxima al 5% . La precisión con que se desea estimar el parámetro ( d es la amplitud del intervalo de confianza).5 (50%) que maximiza el tamaño muestral. Según diferentes seguridades el coeficiente de Z a varía.96 Si la seguridad Za fuese del 97. Precisión = 3%. Tener una idea aproximada de los parámetros de la variable que se estudia. Estudios para contraste de hipótesis Estos estudios pretenden comparar si las medias o las proporciones de las muestras son diferentes. como previamente se señaló. indicando por tanto una dirección de las diferencias. Se pueden comparar dos proporciones o dos medias. Seguridad del estudio (riesgo de cometer un error a) Poder estadístico (1 . Comparación de dos proporciones: Donde: n = sujetos necesarios en cada una de las muestras Za = Valor Z correspondiente al riesgo deseado 46 . La hipótesis bilateral es una hipótesis más conservadora y disminuye el riesgo de cometer un error de tipo I (rechazar la H 0 cuando en realidad es verdadera). No se establece dirección. Bilateral: Cualquiera de los dos parámetros a comparar (medias o proporciones) puede ser mayor o menor que el otro.b) (riesgo de cometer un error b) Definir si la hipótesis va a ser unilateral o bilateral. B1. Unilateral: Cuando se considera que uno de los parámetros debe ser mayor que el otro.Si la población es finita. es decir conocemos el total de la población y desearíamos saber cuántos del total tendríamos que estudiar. Habitualmente el investigador pretende comparar dos tratamientos. Para el cálculo del tamaño muestral se precisa conocer: Magnitud de la diferencia a detectar que tenga interés clínicamente relevante. la respuesta sería: B. 200 0.Zb = Valor Z correspondiente al riesgo deseado p1 = Valor de la proporción en el grupo de referencia. d = Valor mínimo de la diferencia que se desea detectar (datos cuantitativos) Los valores Za según la seguridad y Zb según el poder se indican en la Tabla 2 (8) .240 47 . p2 = Valor de la proporción en el grupo del nuevo tratamiento.282 1.645 1.645 1.036 1. intervención o técnica. p = Media de las dos proporciones p 1 y p2 Los valores Za según la seguridad y Zb según el poder se indican en la Tabla 2 .960 2. Tabla 2.100 0. Comparación de dos medias: Donde: n = sujetos necesarios en cada una de las muestras Za = Valor Z correspondiente al riesgo deseado Zb = Valor Z correspondiente al riesgo deseado S2 = Varianza de la variable cuantitativa que tiene el grupo control o de referencia. B2.050 0. control o tratamiento habitual. Valores de Za y Zb más frecuentemente utilizados Za a 0.842 1.960 1.440 1. placebo.025 Test unilateral Test bilateral 0.150 0.282 1. 50 2.05 y deseamos un poder estadístico de 90% para detectar diferencias si es que existen. Sabemos por datos previos que la eficacia del T habitual está alrededor del 70% y consideramos relevante si el nuevo T demuestra un acierto del 90%.01 0.126 0.99 0.85 0.50 0. n = 48.20 0.70 0.000 Ejemplo de comparación de dos medias: Deseamos desarrollar un experimento y consideramos que sería eficaz si lograse un descenso de 15 puntos respecto a la puntuación inicial.524 0.60 0.0.25 0.75 0.326 1.80 0.010 2.05 y deseamos un poder estadístico de un 80%.842 0.30 0.45 0.282 1.10 0.385 0.05 0.65 0.55 0. Nuestro nivel de riesgo lo fijamos en 0. Precisamos 20 personas en cada grupo.645 1. Por estudios previos sabemos que la desviación típica del experimento es de 16 puntos.40 0.036 0. 48 .95 0.326 2. aceptamos un riesgo de 0.35 0.674 0. Ejemplo de comparación de dos proporciones: Deseamos evaluar si el Tratamiento T2 es mejor que el tratamiento T1 para lo cual diseñamos un ensayo.90 0.253 0.576 Potencia b (1-b) Zb 0.15 0. si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno. COEFICIENTE DE CORRELACIÓN LINEAL En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre sí. El coefciente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. mayor será su peso.II UNIDAD 6. Por ejemplo. Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal 49 . La correlación es tanto más fuerte cuanto más se aproxime a 1. El coefciente de correlación lineal se calcula aplicando la siguiente fórmula: Es decir: Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x. Para ver. etc.y) se multiplica la "x" menos su media. la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). lo mejor es representar los pares de valores en un gráfico y observar la forma que describen. Por ejemplo: altura y peso: los alumnos más altos suelen pesar más.No obstante. el coeficiente de correlación lineal mediría mal la intensidad de la relación las variables. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra. parabólica. Los valores que puede tomar el coefciente de correlación "r" son: -1 < r < 1 Si "r" > 0. por la "y" menos su media. si se puede utilizar el coeficiente de correlación lineal. 50 . sino exponencial. y a este producto se le calcula la raíz cuadrada. Denominador se calcula el producto de las varianzas de "x" y de "y". por tanto. por lo que convendría utilizar otro tipo de coeficiente más apropiado. En estos casos. puede que exista una relación que no sea lineal. 28 22 Alumno 34 1.27 34 1. tampoco esto quiere decir obligatoriamente que existe una relación de causa-efecto entre las dos variables.30 34 1.30 27 Alumno 32 1.21 24 Alumno 33 1.29 16 Alumno 1. etc. La correlación negativa es tanto más fuerte cuanto más se aproxime a 1.27 13 Alumno 1.25 11 Alumno 1.29 20 51 Pes Estatu Alumno o ra y x Alumno 33 1. Si "r" = 0.30 17 Alumno 1. aunque el valor de "r" fuera próximo a 1 o -1.25 21 Alumno 35 1. Ejemplo: vamos a calcular el coeficiente de correlación de la siguiente serie de datos de altura y peso de los alumnos de una clase: Alumno Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10 Estatu Pes Estatu Alumno ra o ra X y x Alumno 1.21 30 1.29 35 1.27 29 Alumno 33 1.29 30 Pes o y 33 34 34 31 32 34 34 31 35 34 .22 15 Alumno 1. Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos.29 26 Alumno 35 1.28 12 Alumno 1. exponencial.27 23 Alumno 30 1.27 32 1.21 14 Alumno 1.24 28 Alumno 33 1.25 32 1.) De todos modos.24 18 Alumno 1.29 35 1.28 33 1. Aunque podría existir otro tipo de correlación (parabólica. ya que este resultado podría haberse debido al puro azar.24 32 1.Si "r" < 0.22 32 1. no existe correlación lineal entre las variables.27 19 Alumno 1.22 25 Alumno 34 1. la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra). 826) -------------------------------------------------------r= -(((1/30)*(0.02568)) * ((1/30)*(51. r= 0.366)))^(1/2) Luego.719 Por lo tanto. Vemos que la nube de puntos sigue una tendencia lineal: 52 . 7. la correlación existente entre estas dos variables es elevada (0.Aplicamos la fórmula: (1/30) * (0.7) y de signo posítivo. y la variable "y" en el eje vertical. REGRESIÓN LINEAL Representamos en un gráfico los pares de valores de una distribución bidimensional: la variable "x" en el eje horizontal o eje de abscisa. o eje de ordenada. definiendo la recta que mejor se ajusta a esta nube de puntos. La regresión lineal nos permite calcular el valor de estos dos parámetros. aquella que viene definida a partir de la otra variable "x" (variable independiente). su grado de inclinación. El parámetro "b" determina la pendiente de la recta. la regresión nos permite definir la recta que mejor se ajusta a esta nube de puntos.El coefciente de correlación lineal nos permite determinar si. Una vez que se concluye que sí existe relación. y es el punto donde la recta cruza el eje vertical. El parámetro "a" viene determinado por: a = ym . Una recta viene definida por la siguiente fórmula: y = a + bx Donde "y" sería la variable dependiente. es decir. El parámetro "b" viene determinado por la siguiente fórmula: Es la covarianza de las dos variables.(b * xm) 53 . dividida por la varianza de la variable "x". cuando la variable independiente "x" vale 0. Para definir la recta hay que determinar los valores de los parámetros "a" y "b": El parámetro "a" es el valor que toma la variable dependiente "y". existe relación entre las dos variables. efectivamente. 21 24 Alumno 33 1.21 14 Alumno 1.29 26 Alumno 35 1.30 27 Alumno 32 1.30 34 1.265 -------- 54 Pes o y 33 34 34 31 32 34 34 31 35 34 .Es la media de la variable "y".25 32 1. Vamos a considerar que la altura es la variable independiente "x" y que el peso es la variable dependiente "y" (podíamos hacerlo también al contrario): Alumno Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10 Estatu Pes Estatu Alumno ra o ra x Y x Alumno 1.29 20 Pes Estatu Alumno o ra y x Alumno 33 1.28 33 1.27 23 Alumno 30 1.27 13 Alumno 1.29 16 Alumno 1. Ejemplo: vamos a calcular la recta de regresión de la siguiente serie de datos de altura y peso de los alumnos de una clase.22 32 1.034 --------------------------------.28 22 Alumno 34 1.29 35 1.= 40.27 29 Alumno 33 1.30 17 Alumno 1.22 15 Alumno 1.29 35 1.27 34 1.29 30 El parámetro "b" viene determinado por: b= (1/30) * 1.25 11 Alumno 1.24 18 Alumno 1. menos la media de la variable "x" multiplicada por el parámetro "b" que hemos calculado.24 32 1.25 21 Alumno 35 1.28 12 Alumno 1.27 32 1.24 28 Alumno 33 1.22 25 Alumno 34 1.21 30 1.27 19 Alumno 1. 21 1.262) = -17.4 33.(40.25 1.26 1.00856 Y el parámetro "a" por: a = 33.714 Por lo tanto. PROBABILIDAD La probabilidad mide la frecuencia con la que aparece un resultado determinado cuando se realiza un experimento.4 31.24 1.6 8.6 31.6 33.29 1. la recta que mejor se ajusta a esta serie de datos es: y = -17.714 + (40.2 34.20 1.28 1. 55 .(1/30) * 0. para cada valor de la variable independiente (estatura): Estatura x 1.2 32.8 34.0 31.23 1.265 * x) Esta recta define un valor de la variable dependiente (peso).27 1.1 .22 1.0 33.30 Peso x 30.265 * 1.8 32. o que salga un número menor que 4. pero no sabemos de antemano cuál de ellos va a salir. el "Gordo" (en España se llama "Gordo" al primer premio) puede ser cualquier número entre el 1 y el 100.. Aquí no podemos hablar de probabilidades. 56 . el 4 y el 6 O. que pueden presentarse diversos resultados. Ejemplo: lanzamos un dado y queremos que salga un número par. Este es un suceso compuesto formado por 18 sucesos elementales (todos los números que van del 1 al 18). hasta el 6. Hay experimentos que no son aleatorios y por lo tanto no se les puede aplicar las reglas de la probabilidad.Ejemplo: tiramos un dado al aire y queremos saber cuál es la probabilidad de que salga un 2. Antes de calcular las probabilidades de un experimento aleatorio hay que definir una serie de conceptos: Suceso elemental: hace referencia a cada una de las posibles soluciones que se pueden presentar. El suceso "numero par" es un suceso compuesto. los sucesos elementales son el 1. Cada experimento aleatorio tiene definido su espacio muestral (es decir. el 2. En la Lotería de Navidad. Suceso compuesto: es un subconjunto de sucesos elementales. a priori no se conoce cuál de los resultados se va a presentar: Ejemplos: lanzamos una moneda al aire: el resultado puede ser cara o cruz. El experimento tiene que ser aleatorio. Ejemplo: al lanzar una moneda al aire. Por lo tanto. o que salga un número par. directamente seleccionamos la cara. jugamos a la ruleta y queremos que salga "menor o igual que 18". Al lanzar un dado. pero no sabemos a priori cual va a ser (si lo supiéramos no estaríamos aquí escribiendo esta lección).000. es decir. sino que ha sido un resultado determinado por uno mismo. por ejemplo. un conjunto con todas las soluciones posibles). dentro de un conjunto posible de soluciones. integrado por 3 sucesos elementales: el 2. . Ejemplo: en lugar de tirar la moneda al aire. los sucesos elementales son la cara y la cruz. Al conjunto de todos los posibles sucesos elementales lo denominamos espacio muestral.. y esto aun realizando el experimento en las mismas condiciones. Ejemplo: si tiramos una moneda al aíre una sola vez. Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par y b) que el resultado sea mayor que 3. Ejemplo: lanzamos un dado al aire. y b) que salga múltiplo de 2. y analizamos dos sucesos: a) que salga número par. c) Unión de dos o más sucesos: la unión será otro suceso formado por todos los elementos de los sucesos que se unen. El suceso unión estaría formado por los siguientes resultados: el 2. Por ejemplo. si el resultado fuera el 2. el 5 y el 6 d) Intersección de sucesos: es aquel suceso compuesto por los elementos comunes de dos o más sucesos que se intersectan.1 PROBABILIDAD: RELACIÓN ENTRE SUCESOS Entre los sucesos compuestos se pueden establecer distintas relaciones: a) Un suceso puede estar contenido en otro: las posibles soluciones del primer suceso también lo son del segundo. Siempre que se da el suceso a) se da el suceso b). y b) que salga un número par. Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el número 6. (caracruz). Vemos que el suceso a) está contenido en el suceso b). se cumpliría el suceso b). y b) que sea mayor que 4. Vemos que las soluciones coinciden en ambos casos. Si el experimento consiste en lanzar una moneda al aire dos veces. entonces el espacio muestral estaría formado por (cara-cara). La intersección de estos 57 . el 4. 8. b) Dos sucesos pueden ser iguales: esto ocurre cuando siempre que se cumple uno de ellos se cumple obligatoriamente el otro y viceversa. el espacio muestral será cara o cruz. (cruz-cara) y (cruz-cruz). Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par. pero no al contrario. pero este segundo suceso tiene además otras soluciones suyas propias. pero no el el a). ¿Cómo se mide la probabilidad? Uno de los métodos más utilizados es aplicando la Regla de Laplace: define la probabilidad de un suceso como el cociente entre casos favorables y casos posibles. "Organización Mundial de Dados"). el número 6 (es el único resultado común a ambos sucesos: es mayor que 4 y es número par). f) Sucesos complementarios: son aquellos que obligatoriamente se tiene que dar el otro. Es evidente que ambos no se pueden dar al mismo tiempo. si no se da uno. El resto de sucesos tendrá probabilidades entre cero y uno: que será tanto mayor cuanto más probable sea que dicho suceso tenga lugar. la probabilidad mide la mayor o menor posibilidad de que se dé un determinado resultado (suceso) cuando se realiza un experimento aleatorio. e) Sucesos incompatibles: son aquellos que no se pueden dar al mismo tiempo ya que no tienen elementos comunes (su interesección es el conjunto vacio). El valor uno corresponde al suceso seguro: lanzamos un dado al aire y la probabilidad de que salga cualquier número del 1 al 6 es igual a uno (100%). La probabilidad toma valores entre 0 y 1 (o expresados en tanto por ciento. Vemos que si no se da el primero se tiene que dar el segundo (y viceversa). entre 0% y 100%): El valor cero corresponde al suceso imposible: lanzamos un dado al aire y la probabilidad de que salga el número 7 es cero (al menos. y b) que salga un número impar. si es un dado certificado por la OMD. Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número menor que 3. y b) que salga el número 6. 8. 58 . Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número par.dos sucesos tiene un sólo elemento.2 Cálculo de probabilidades Como hemos comentado anteriormente. Por lo tanto: P(A) = 1 / 100. pero ¿cuál de los dos comprarías? Para poder aplicar la Regla de Laplace el experimento aleatorio tiene que cumplir dos requisitos: a) El número de resultados posibles (sucesos) tiene que ser fnito. 66.P(A) = Casos favorables / casos posibles Veamos algunos ejemplos: a) Probabilidad de que al lanzar un dado salga el número 2: el caso favorable es tan sólo uno (que salga el dos).666 (o lo que es lo mismo. algunas caras tuvieran mayor probabilidad de salir que otras.. al aplicar la regla "casos favorables / casos posibles" el cociente siempre sería cero.¡). 50%) c) Probabilidad de que al lanzar un dado salga un número menor que 5: en este caso tenemos cuatro casos favorables (que salga el uno. Por lo tanto: P(A) = 1 / 6 = 0. frente a 100. el cuatro o el seis). 16. b) Todos los sucesos tienen que tener la misma probabilidad.001%) Merece la pena. frente a los seis casos posibles.6%) b) Probabilidad de que al lanzar un dado salga un número par: en este caso los casos favorables son tres (que salga el dos. mientras que los casos posibles son seis (puede salir cualquier número del uno al seis). mientras que los casos posibles siguen siendo seis. Por cierto.264. Si al lanzar un dado.166 (o lo que es lo mismo. no podríamos aplicar esta regla. 59 . que el número 00001.50 (o lo que es lo mismo. 0.. tiene la misma probabilidad el número 45..6%) d) Probabilidad de que nos toque el "Gordo" de Navidad: tan sólo un caso favorable. Si hubiera infinitos resultados..000 = 0.000 casos posibles. el dos. Por lo tanto: P(A) = 3 / 6 = 0. Por lo tanto: P(A) = 4 / 6 = 0. el número que jugamos (¡qué triste.00001 (o lo que es lo mismo. el tres o el cuatro). sino que se habría reducido al 70%. ni que todos los sucesos tengan la misma probabilidad. ya que tan sólo repitiendo un experimento un número elevado de veces podremos saber cual es la probabilidad de cada suceso. es posible que al repetir dicho experimento un número elevado de veces. En este caso. ¿ponemos una denuncia? No. del 65% y la "cruz" del 35%. quiere decir que el suceso "cara" ha aparecido el 100% de las veces y el suceso "cruz" el 0%. 60 . la "cara" saliera con una frecuencia. Si lanzo diez veces la moneda al aire. Si repito este experimento un número elevado de veces. la probabilidad del suceso "cara" ya no sería del 100%. qué hacemos?. que son sus respectivas probabilidades. Ejemplo: si la moneda que utilizamos en el ejemplo anterior fuera defectuosa (o estuviera trucada). por ejemplo. es posible que el suceso "cara" salga 7 veces y el suceso "cruz" las 3 restantes. ¿Y si el experimento aleatorio no cumple los dos requisitos indicados. las probabilidades de los diversos posibles sucesos empiezan a converger hacia valores determinados. Ejemplo: si lanzo una vez una moneda al aire y sale "cara". no va a ser necesario denunciar a nadie. lo normal es que las probabilidades de los sucesos "cara" y "cruz" se vayan aproximando al 50% cada una. A esta definición de la probabilidad se le denomina probabilidad a posteriori.A la regla de Laplace también se le denomina "probabilidad a priori". ya que para aplicarla hay que conocer antes de realizar el experimento cuales son los posibles resultados y saber que todos tienen las mismas probabilidades. En este modelo ya no será necesario que el número de soluciones sea finito. Estos valores serían las probabilidades de estos dos sucesos según el modelo frecuentista. ya que en este caso podemos acudir a otro modelo de cálculo de probabilidades que se basa en la experiencia (modelo frecuentista): Cuando se realiza un experimento aleatorio un número muy elevado de veces. Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par.50 Por lo tanto. suceso b).50 c) Intersección de sucesos: es aquel suceso compuesto por los elementos comunes de los dos o más sucesos que se intersectan. las probabilidades de ambos sucesos son las mismas. Las soluciones coinciden en ambos casos. así como de las posibles relaciones que se pueden establecer entre los mismos. es menor que la probabilidad del suceso que lo contiene. P(A) = 3 / 6 = 0.166 P(B) = 3 / 6 = 0. Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el número 6. suceso a).33 61 . y b) que sea mayor que 3. la probabilidad del primer suceso será menor que la del suceso que lo contiene. y b) que salga un número par. b) Dos sucesos pueden ser iguales: en este caso. a) Un suceso puede estar contenido en otro: entonces. P(A) = 1/6 = 0. Dijimos que el suceso a) está contenido en el suceso b). Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par. Vamos a ver ahora cómo se refleja esto en el cálculo de probabilidades. Su probabilidad será por tanto: P(A B) = 2 / 6 = 0. y b) que salga múltiplo de 2. La probabilidad será igual a la probabilidad de los elemntos comunes. La intersección de estos dos sucesos tiene dos elementos: el 4 y el 6. podemos ver que la probabilidad del suceso contenido.9 PROBABILIDAD DE SUCESOS Al definir los sucesos hablamos de las diferentes relaciones que pueden guardar dos sucesos entre sí.50 P(B) = 3 / 6 = 0. suceso (B). la probabilidad del suceso (B) es igual a: 62 .50 f) Sucesos complementarios: la probabilidad de un suceso complementario a un suceso (A) es igual a 1 .166 = 0.333 P(B) = 1 / 6 = 0.50 Luego.33 = 0. El suceso unión estaría formado por los siguientes resultados: el 2.50 + 0. el suceso (A) es que salga un número par. P(A u B) = 0. luego su complementario.50) .d) Unión de dos o más sucesos: la probabilidad de la unión de dos sucesos es igual a la suma de las probabilidades individuales de los dos sucesos que se unen.33 + 0.P(A) Ejemplo: lanzamos un dado al aire. P(A) = 3 / 6 = 0. y b) que el resultado sea mayor que 3.50 P(B) = 3 / 6 = 0.666 e) Sucesos incompatibles: la probabilidad de la unión de dos sucesos incompatibles será igual a la suma de las probabilidades de cada uno de los sucesos (ya que su intersección es el conjunto vacio y por lo tanto no hay que restarle nada). La probabilidad del suceso (A) es igual a : P(A) = 3 / 6 = 0. el 4. La probabilidad del suceso unión de estos dos sucesos será igual a: P(A) = 2 / 6 = 0.0. el 5 y el 6. es que salga un número impar. menos la probabilidad del suceso intersección Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par.33 Por lo tanto. y b) que salga el número 6. Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número menor que 3. P (A u B) = (0.166 Por lo tanto.50 P (A B) = 2 / 6 = 0. La probabilidad del suceso unión de estos dos sucesos será igual a: P(A) = 3 / 6 = 0.50 = 1 63 . y b) que salga un número impar.50 g) Unión de sucesos complementarios: la probabilidad de la unión de dos sucesos complementarios es igual a 1.P(B) = 1 .50 Por lo tanto.50 Se puede comprobar aplicando la regla de "casos favorables / casos posibles": P(B) = 3 / 6 = 0.50 + 0.P(A) = 1 . Ejemplo: seguimos con el ejemplo anterior: a) que salga un número par.50 P(B) = 3 / 6 = 0.50 = 0.0. P(A U B) = 0. PRUEBA DE HIPÓTESIS Afirmación acerca de los parámetros de la población. El nivel de significancia del 5%.Planear la hipótesis nula y la hipótesis alternativa. se toma la media de una muestra aleatoria de esa distribución normal.. sirve como estadística de prueba. Se rechaza el valor hipotético sólo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta. La hipótesis nula (H0) es el valor hipotético del parámetro que se compra con el resultado muestral resulta muy poco probable cuando la hipótesis es cierta. así como la media (x). Hipótesis alterna H1: afirmación que se aceptará si los datos muestrales proporcionan evidencia de que la hipótesis nula es falsa. La estadística de prueba puede ser la estadística muestral (el estimador no segado del parámetro que se prueba) o una versión transformada de esa estadística muestral. el 20% de los delincuentes juveniles son capturados y sentenciados a prisión. entonces se rechaza la hipótesis nula solamente si el resultado muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o mayor. pudiera ocurrir aleatoria mente con una probabilidad de 1. se compara la estadística muestral. Etapas Básicas en Pruebas de Hipótesis. a su vez. Ejemplos de hipótesis acerca de un parámetro de población son: la media mensual de ingresos para analistas de sistemas es $3625. Después de recolectar una muestra aleatoria.Elegir la estadística de prueba. Nivel de signifcancia: probabilidad de rechazar la hipótesis nula cuando es verdadera. Etapa 2.10 PRUEBA DE HIPÓTESIS Hipótesis: enunciado acerca de una población elaborada con el propósito de ponerse a prueba.. para probar el valor hipotético de una media poblacional.. se parte de un valor supuesto (hipotético) en parámetro poblacional. Por ejemplo. Defniciones Hipótesis nula H0: afirmación acerca del valor de un parámetro poblacional. se compara con una supuesta media poblacional ().05 o menos. Etapa 1. Después se acepta o se rechaza el valor hipotético. Al realizar pruebas de hipótesis.Especificar el nivel de significancia que se va a utilizar. entonces es común que se transforme la media en un valor z el cual. según proceda. con el parámetro hipotético. 64 . Etapa 3. Error Tipo I: rechazar la hipótesis nula cuando en realidad es verdadera. dado que la hipótesis nula es verdadera. se utiliza para determinar si se rechaza o no la hipótesis. H0 no se rechaza LA PRUEBA DE X 2 La prueba de X 2 se utiliza cuando se quieren analizar la correlación entre dos variables cuyos valores son nominales y parte. H0 se rechaza. Valor p en la prueba de hipótesis Valor p: es la probabilidad de observar un valor muestral tan extremo o más que el valor observado. de la comparación de las frecuencias absolutas del cruce de los valores. Estadístico de prueba: valor obtenido a partir de la información muestral. ingeniería y arquitectura. se desea encontrar si existe correlación entre la carrera estudiada y el género (masculino o femenino). En el siguiente ejemplo se tienen 212 estudiantes de las carreras de psicología. Valor crítico: el punto que divide la región de aceptación y la región de rechazo de la hipótesis nula. con los valores de las frecuencias esperados de forma teórica. Error Tipo II: aceptar la hipótesis nula cuando en realidad es falsa. Si el valor p es menor que el nivel de significancia. Si el valor p es mayor que el nivel de significancia. TABLA 1 GENERO CARRERA GENERO CARRERA GENERO CARRERA GENERO CARRERA GENERO CARRERA Masculino Femenino ingeniería arquitectura Femenino Masculino Psicología Ingeniería femenino masculino Arquitectura ingeniería Femenino Femenino ingeniería psicología femenino masculino psicología arquitectura Masculino psicología Masculino Arquitectura femenino ingeniería Femenino psicología masculino ingeniería Femenino ingeniería Masculino Ingeniería femenino psicología Femenino arquitectura masculino psicología Femenino arquitectura Femenino Ingeniería femenino psicología Masculino ingeniería femenino ingeniería Femenino psicología Masculino Ingeniería femenino arquitectura Femenino psicología femenino arquitectura Femenino psicología Femenino Ingeniería masculino arquitectura Femenino arquitectura femenino psicología Femenino ingeniería Femenino Ingeniería masculino psicología Masculino arquitectura femenino arquitectura Masculino ingeniería Femenino Arquitectura femenino psicología Femenino psicología femenino psicología Femenino psicología Masculino Ingeniería femenino ingeniería Femenino ingeniería femenino psicología Masculino psicología Femenino Ingeniería femenino ingeniería Femenino arquitectura masculino ingeniería Masculino ingeniería Femenino Ingeniería masculino ingeniería Masculino psicología femenino arquitectura Masculino psicología Masculino Psicología femenino ingeniería Masculino psicología femenino ingeniería Femenino psicología Femenino Arquitectura femenino psicología Masculino arquitectura masculino arquitectura Masculino ingeniería Masculino Psicología femenino ingeniería Masculino ingeniería masculino arquitectura Masculino arquitectura Masculino Ingeniería masculino arquitectura Femenino arquitectura femenino psicología Masculino arquitectura Femenino Ingeniería femenino arquitectura Femenino arquitectura femenino ingeniería Masculino ingeniería Masculino Arquitectura masculino ingeniería Femenino psicología masculino ingeniería Femenino arquitectura Femenino Psicología masculino psicología Femenino psicología femenino psicología Femenino arquitectura Masculino Psicología femenino psicología Femenino psicología femenino psicología Femenino psicología Masculino Arquitectura femenino psicología Masculino arquitectura masculino ingeniería Femenino psicología Masculino Arquitectura femenino psicología Femenino psicología masculino arquitectura Femenino psicología Femenino Arquitectura femenino psicología Masculino ingeniería masculino arquitectura Femenino arquitectura Femenino Arquitectura femenino arquitectura Masculino ingeniería masculino arquitectura Femenino ingeniería Femenino Psicología femenino ingeniería Masculino arquitectura femenino psicología 65 . Masculino arquitectura Masculino Ingeniería femenino ingeniería Femenino psicología masculino Femenino psicología Femenino Arquitectura femenino ingeniería Femenino ingeniería masculino ingeniería ingeniería Femenino arquitectura Masculino Ingeniería femenino psicología Femenino arquitectura masculino psicología Masculino psicología Femenino Arquitectura masculino arquitectura Masculino arquitectura masculino arquitectura Femenino ingeniería Masculino Psicología femenino psicología Masculino arquitectura femenino arquitectura Masculino ingeniería Masculino Ingeniería femenino arquitectura Masculino psicología femenino psicología Masculino ingeniería Masculino Psicología femenino arquitectura Femenino arquitectura femenino psicología Masculino arquitectura Femenino Ingeniería masculino psicología Femenino arquitectura femenino arquitectura psicología Femenino ingeniería Femenino Psicología masculino psicología Masculino psicología masculino Masculino arquitectura Femenino Ingeniería masculino arquitectura Femenino ingeniería masculino ingeniería Masculino ingeniería Masculino Ingeniería masculino ingeniería Femenino arquitectura femenino psicología Femenino arquitectura Femenino Ingeniería femenino arquitectura Masculino ingeniería femenino psicología Femenino arquitectura Masculino Ingeniería femenino psicología Masculino ingeniería masculino ingeniería Masculino psicología Femenino Ingeniería femenino psicología Femenino arquitectura masculino psicología Masculino arquitectura Masculino Arquitectura masculino ingeniería Masculino ingeniería masculino ingeniería Masculino psicología Femenino Psicología femenino arquitectura Masculino psicología Femenino psicología Femenino Psicología femenino psicología Femenino arquitectura Femenino ingeniería Masculino Arquitectura femenino ingeniería Masculino arquitectura 66 . 0235849 masculino – ingeniería 71 x 93 / 212 =31.psicología 73 x 119 / 212 = 40. TABLA 2 Frecuencia observada Psicologí Ingenierí arquitect a a ura Masculin 24 39 30 o Femenin 49 32 38 o Después se procede a contar los valores de cada variable sumando los renglones sumando las columnas. por ejemplo el total de: “masculino” es 24 + 39 + 30 = 93 “femenino” es 49 + 32 + 38 = 119 “psicología” es 24 + 49 = 73 “ingeniería” es 39 + 32 = 71 “arquitectura” es 30 + 38 = 68 Y la suma total es 212 TABLA 3 psicologí Ingenierí arquitect a a ura Masculin 24 39 30 o Femenin 49 32 38 o 73 71 68 93 119 212 Se calcula la tabla de las frecuencias esperadas multiplicando de la TABLA 3 la suma del renglón por la suma de la columna dividida entre la suma total.psicología 73 x 93 / 212 = 32.1462264 masculino – arquitectura 68 x 93 / 212 =29.Lo primero que hacemos es un conteo de las variables cruzadas como se muestra en la siguiente tabla.8537736 femenino – arquitectura 68 x 119 / 212 =38.1698113 TABLA 4 frecuencia esperada psicologí Ingenierí arquitect a a ura 67 .9764151 femenino – ingeniería 71 x 119 / 212 =39. colocando el resultado en la TABLA 4. Así para: masculino .8301887 femenino . 02358 31.0009666 femenino . Una forma más simple de decirlo es que los estudiantes de genero masculino tienden a presentarse menos en la carrera de psicología en menor grado que los de genero femenino.0235849 esto puede implicar un correlación negativa.0235849 = ( 31.8537736 = .01032817 masculino – ingeniería 1.5710968 femenino – ingeniería 1. el que exista una correlación negativa o positiva no implica términos excluyentes o determinantes pues en este ejemplo aunque la correlación parece ser negativa ( tal y como lo calcularemos mas adelante) ello no implica que estudiantes del genero masculino se excluyan de la carrera de psicología.fo) 2 / fe ( 32.9764151 = ( 39. Para medir la correlación procedemos a calcular el valor de la X 2.psicología 2.1462264 – 39 ) 2 / 31.83018 o 49 64 87 Femenin 40.0235849 – 24 ) 2 / 32.9803927 masculino – arquitectura 0.1462264 = / 29.Masculin 32. es decir el valor “masculino” de la variable género puede presentar valores inferiores a los esperados del valor psicología de la variable carrera.8537736 – 32 ) 2 / 68 39. El valor de la X2 es igual a: n 2 fe fo 2 fe fe frecuencia esperada i 1 fo frecuencia observada Esto es la suma de los cuadrados de la diferencia entre la frecuencia esperada menos la frecuencia observada entre la frecuencia esperada.psicología 1.54770186 (fe . Esto lo veremos con mayor claridad en la siguiente tabla Así para: (GENERO-CARRERA) masculino .9764151 – 49 ) 2 / 40.14622 29.8301887 – 30 ) 2 ( 40. simplemente significa que los valores observados son menores a los que esperaríamos estadísticamente si no hubiera correlación.8301887 = ( 29.16981 o 51 36 13 Si comparamos los valores de las frecuencias esperadas con la de las frecuencias observadas tenemos que la frecuencia observada en masculino – psicología = 24 es menor que su frecuencia esperada = 32.85377 38.97641 39. l.00075546 7.547701 o 8 86 ( 38.9803927 + 0.l. = g.l.1698113 – 38 ) 2 / 38.11124166 Así: X2 = 7.femenino – arquitectura 0.00096667 + 1.111241 66 El valor de la X2 es la suma de todos los términos 2.01032817 + 1.010328 1. =(r – 1)(c –1) g.5710968 + 1.l.) mediante la siguiente fórmula.1698113 = arquitect ura 0.l.571096 1.000966 67 0. = grados de libertad r = número de renglones c = número de columnas Para el ejemplo que estamos manejando tenemos: r=2 (Los renglones para los dos valores masculino y femenino) c=3 (Las columnas para los tres valores de psicología.54770186 + 0.00075546 TABLA 5 X2 psicologí Ingenierí a a Masculin 2.980392 o 17 7 Femenin 1.000755 46 X2 = 7.11124166 Ahora calculamos los grados de libertad (g. g. = g. = g. = (r – 1)(c –1) (2 – 1)(3 –1) (1)(2) 2 69 .l.l. ingeniería y arquitectura) Así: g. Dada esta suposición el valor de es la probabilidad de que se obtenga una muestra como la que se obtuvo sin que exista una correlación de las variables.0285636361919662 70 .l.11124166.Para el ejemplo tenemos que: X2 = 7.l.11124166 y g. Si el valor de es muy pequeño.-) Se obtuvo una muestra muy extraña y con escasas probabilidades de ocurrir. si el valor de es muy pequeño. Para nuestro ejemplo tenemos que: = 0. obtenemos: = 0. A esta opción se le conoce como la hipótesis alternativa y se le denomina Ha.CHI(7. entonces tenemos dos opciones: 1. 2. se opta por la segunda opción pues es una explicación mas plausible que las variables estén correlacionadas a que haya ocurrido un hecho rarísimo.11124166 y g. 2 2 2 g .l 1 2 e x2 2 dx 2 Donde es la función GAMMA La función anterior no se puede integrar de manera explícita por lo que para resolverla es necesario usar métodos numéricos de integración. 2) Ya que: X2 = 7.0285636361919662 El significado de (alfa) y su interpretación El método de análisis de correlación no paramétrica para tablas de contingencia de la X2 parte del supuesto inicial de que no existe correlación entre las variables y que los resultados de la muestra son producto exclusivamente del azar.-)La hipótesis nula de que no existe correlación entre las variables es falsa siendo que los valores observados ocurrieron no por azar sino porque están correlacionadas. = 2 Haciendo esto. A este supuesto inicial se le conoce como la hipótesis nula y se le designa con H0. Mediante las hojas de cálculo de Microsoft Excel es posible calcular el valor de escribiendo para este ejemplo: =DISTR. = 2 2 Teniendo el valor de la X y los grados de libertad procedemos a calcular (alfa) Siendo alfa: 2 x2 1 g .l. Esto significa que la probabilidad sería menor del 3 % para que ocurra una muestra como la que se obtuvo.0285636361919662 < 0.C.-) Los resultados de esta muestra son producto exclusivamente del azar y ocurrió algo que ocurre una de cada 34 veces (hipótesis nula H0 ). I. = 97. = 1 .C. se opta por la hipótesis alternativa Ha. Una = 0. tenemos que: = 0. Otra forma de percibir la probabilidad de alfa es obteniendo el reciproco de esto es: 0. = 1 – 0.C. esto es las variables están correlacionadas en tanto que para valores de mayores de 0.0.971436363808034 I.C.05. 1.C.05 I.C).05 implica un nivel de significancia de o intervalo de confianza (I. = 1 . I.144 % Tenemos entonces para nuestro ejemplo dos opciones. ¿Cuál es la opción que tomaríamos para este caso? Existe un criterio que es enteramente convencional pues no existe ninguna razón matemática para validarlo de que con valores de menores o iguales a 0.144 % > 95 % Lo que implica la hipótesis alternativa H a estos es que las variables GÉNERO Y CARRERA están correlacionadas.05 I.C. = 0.144 % 97.0285636361919662 0.-) No ha ocurrido un hecho extraño con pocas posibilidades de ocurrencia sino que ha ocurrido un hecho común donde las variables se encuentran correlacionadas (hipótesis alternativa Ha ). = 95 % A este criterio se le conoce como un nivel de significancia del 95 % Si aplicamos este criterio a nuestro ejemplo. = 0. esto es las variables no están correlacionadas.) de: I.95 I.05 se opta por la hipótesis nula H0. Como podemos observar en la tabla de frecuencias esperadas ( TABLA 4 ).0285636361919662 Significa que la probabilidad de ocurrencia es de uno en 34. 2. todas la frecuencias esperadas son mayores que 5.0285636361919662 I.C. I. si el porcentaje de las 71 .C.C.C. = 1 . = 97. También tenemos lo que es el nivel de significancia o intervalo de confianza (I. 02 87.C.00% Xi 2 = 7. si este porcentaje es mayor del 50 %. Para ello hacemos una tabla en la que ordenamos las combinaciones de los valores de las variables tomando como criterio empezando con el mas alto valor de la contribución a la suma de X2 y siguiendo en orden descendente de estos valores ( TABLA 5 ). = 0. existe entonces una sobrestimación de la prueba de X2.47 170% ía % Masculino Ingenier 1.e. g.02856 36 I. TABLA 7 1 % de c < 5 = 0. Anotamos también el valor de la frecuencia observada ( TABLA 2 ) y el valor de la frecuencia esperada ( TABLA 4 ).000755 menos 38 38.17 2.0285636 0.98 83.83 2.15 87.C. debajo de la celda est (estimación) aparecerá la palabra s. La siguienta tabla proviene del ejemplo que estamos trabajando.9714363 2 0. pero si existe correlación Ha debemos determinar.010328 menos 24 32. c < est r r e e 5 1 2 GENER CARRER 0. en la siguiente tabla nos muestra los resultados obtenidos para las variables del ejemplo siendo c < 5 el porcentaje de frecuencias esperadas menores que 5.09 167% ía % Femenino Psicolog 1.980393 mas 39 31.11 131% ía % Masculino Arquitec 0.l. TABLA 6 va va Nombr nombr Alfa I.42% 0% 72 .547702 menos 32 39. (sobrestimada).00 O A 36 64 % Si no existe correlación H0. positiva o negativa.57 133% ía % Femenino Ingenier 1.000967 mas 30 29.67% 0% tura Femenino Arquitec 0.85 83.97143 64 prueba t para p GENERO CARRER Xi 2 SIGNO Obse Esper Con % % A r d Masculino Psicolog 2.11124 17 g. el orden en que se correlacionan los diferentes valores y si esta correlación es fuerte o débil.l.571097 mas 49 40. el problema termina.frecuencias esperadas menores que 5 es mayor del 50 %. = 2 0. 5710968 que le corresponde a femenino-psicología. El cuarto valor mas alto de la TABLA 5 de la contribución a la suma de X 2 es 1. El segundo valor mas alto de la TABLA 5 de la contribución a la suma de X 2 es 1. la de mayor significancia sería esta de masculino-psicología de manera negativa. En la tabla observamos que en signo tiene la palabra mas esto es que el tipo de correlación es positiva pues el valor observado = 39 es mayor que el valor esperado = 31.9764151 en tanto que su frecuencia observada tomada de la TABLA 2 es de 49. Vemos que su frecuencia esperada es de 32. la tercera de mayor significancia sería esta femenino-psicología de manera positiva. la segunda de mayor significancia sería esta de masculinoingeniería de manera positiva. y que debido a que asumimos que existe 73 . esto es los estudiantes de género masculino tienden a estudiar la carrera de ingeniería en una proporción mayor a la esperada.Vemos que su frecuencia esperada es de 31.Vemos que su frecuencia esperada es de 40. y que debido a que asumimos que existe correlación. de la TABLA 4 . y que debido a que asumimos que existe correlación. En la tabla observamos que en signo tiene la palabra mas esto es que el tipo de correlación es positiva pues el valor observado = 49 es mayor que el valor esperado = 40.010328 que le corresponde a masculino-psicología. El tercer valor mas alto de la TABLA 5 de la contribución a la suma de X 2 es 1. de la TABLA 4 .0235849.0235849 en tanto que su frecuencia observada tomada de la TABLA 2 es de 24. esto es los estudiantes de género masculino tienden a estudiar la carrera de psicología en una proporción menor a la esperada. En la tabla observamos que en signo tiene la palabra menos esto es que el tipo de correlación es negativa pues el valor observado = 24 es menor que el valor esperado = 32. de la TABLA 4 .8537736.8537736 en tanto que su frecuencia observada tomada de la TABLA 2 es de 32.9803927 que le corresponde a masculino-ingeniería.tura Como podemos observar en la TABLA 5 el valor mas alto de la contribución a la suma de X2 es 2.1462264.1462264 en tanto que su frecuencia observada tomada de la TABLA 2 es de 39.Vemos que su frecuencia esperada es de 39. y que debido a que asumimos que existe correlación. esto es los estudiantes de género femenino tienden a estudiar la carrera de psicología en una proporción mayor a la esperada. En la tabla observamos que en signo tiene la palabra menos esto es que el tipo de correlación es negativa pues el valor observado = 32 es menor que el valor esperado = 39.9764151. de la TABLA 4.54770186 que le corresponde a femenino-ingeniería. 971436363808034). la cuarta de mayor significancia sería esta femenino-ingeniería de manera negativa. MANUEL (2008) Estadística Aplicada. El número de estudiantes de género femenino que estudian psicología es mayor al esperado.83 genero masculino observado = 38 esperado = 38.17 genero femenino La cercanía de los valores esperados y observados nos indica que no podemos afirmar que existe correlación entre los valores masculino-arquitectura y femenino-arquitectura. Por último vemos que la contribución a la contribución a la suma de X 2 de parte de la carrera de arquitectura es pequeña 0. Editorial Moshera.correlación.C. El número de estudiantes de género masculino que estudian ingeniería es mayor al esperado. De los valores de las variables GÉNERO y CARRERA se encontró en el siguiente orden se significancia que: El número de estudiantes de género masculino que estudian psicología es menor al esperado.00075546 y que los valores observados son muy cercanos a los esperados observado = 30 esperado = 29. No se encontró una correlación significativa entre el género y los estudiantes de arquitectura. = 0. (519.00096667 y 0. esto es los estudiantes de género femenino tienden a estudiar la carrera de ingeniería en una proporción menor a la esperada. El número de estudiantes de género femenino que estudian ingeniería es menor al esperado.58/M84) 74 . REFERENCIAS BIBLIOGRAFICAS CAO ABAD (2006) Introducción a la Estadística y sus Aplicaciones Edit Pirámide (310/C11) CÓRDOVA ZAMORA. CONCLUSIONES Con base al análisis hecho a este ejemplo se podrían llegar a las siguientes conclusiones: Se encontró que existe una correlación entre el GÉNERO y LA CARRERA con un nivel de significancia del 97 % (I. Estadística Elemental. DEVORE (2008) Probabilidad y Estadística para Ingeniería y Ciencias –Edit –Editec S.fisterra. Introducción a la Estadística para negocios. Fundamentos de estadística en la investigación social. PÉREZ. (2005). Introducción a la Probabilidad y Estadística.es/rd/Recursos/rd97/UnidadesDidacticas/53-1-u-indice.com/mbe/investiga/10descriptiva/10descriptiva.A.5/M77b/E2) NEL QUEZADA LUCIO (2004) Estadística con SPSS.A. España: Prentice Hall. (519. MARTÍNEZ BENCARDINO CIRO (2008). (519.82/M84) MARTÍNEZ BENCARDINO CIRO (2008). (2003).cl/web/estadistica/ COMPRENSION Y USO DE LA ESTADISTICA http://www.52/s29) REPASO CONCEPTOS BÁSICOS DE ESTADÍSTICA http://thales.84) RUIZ LEDESMA ELENA (2007) Probabilidad y Estadística Editorial McGraw-Hill Interamericana S. Reverté S.A. (519. Editorial Macro – Lima Perú. Estadística: problemas resueltos y aplicaciones. (519. México. (31. México: Thomson Editores. México: Limusa Wiley (519. Bogota Colombia.2-R94) STEVENSON R. México.2/M42) MONTGOMERY E.cortland. Internacional Thomson Editores S.12. Jack (2002).5/M26) MENDENHALL WILLIAM (2002). Editorial Cengage learning.edu/flteach/stats/stat-sp. Bogota Colombia.2/W42) MENDENHALL WILLIAM(2007) Elementos de Muestreo Madrid España:Thomson Editores(519. (310.65/S79) WEIERS. Probabilidad y estadística aplicada a la ingeniería. (2002).A.htm ESTADISTICA DESCRIPTIVA DE LOS DATOS http://www. Estadística y Muestreo. Ediciones. Ecoe. (519. Estadística Básica Aplicada. Ecoe. Ediciones.htm Nuevo Chimbote septiembre del 2014 75 . México: Reverté S. (2006). (310/R.. (310/P45) ROSS. R.2/D64) JOHNSON ROBERT (2008). JAY L. Introducción a la Estadística. C. Y RUNGER G.cica. Estadística para Administración y Economía. SH.asp EXPLORACION DE DATOS: INTRODUCCION A LA ESTADISTICA DESCRIPTIVA http://www.A. (2006).ucv. (310/J67/E1) LEVIN y H.