ESTADISTICA IIVARIABLES ALEATORIAS DISCRETAS Y VALOR ESPERADO Una variable cuyos valores dependen del resultado de un proceso aleatorio es llamada variable aleatoria. En general, las variables aleatorias son denotadas por letras mayúsculas tales como X, Y o Z, y los valores que estas variables toman pueden ser denotados por las correspondientes letras minúsculas (x, y o z). Así, para el número de caras (X) que aparecen en el lanzamiento de dos monedas, podemos indicar los valores posibles escribiendo: X = x donde x = 0, 1, 2 o x = 0, 1, 2 Ejemplos: 1. Suponga que un dado es tirado y X es el número que aparece en la cara superior. Entonces: X = 1, 2, 3, 4, 5, 6 2. Suponga que una moneda es lanzada sucesivamente hasta obtener una cara. Si Y es el número de tales lanzamientos, entonces: Y = 1, 2, 3, 4, . . . Una variable aleatoria es llamada variable aleatoria discreta si sólo puede tomar un número finito de valores, o si sus valores pueden ser colocados en una correspondencia uno a uno con los enteros positivos. Una variable es llamada variable aleatoria continua si puede tomar cualquier valor en algún intervalo. Si X es una variable aleatoria, la probabilidad del evento que X tome el valor x es denotado con P(X = x). Si X es discreta, entonces la función f que asigna el número P(X = x) a cada valor posible de X es llamada función de probabilidad, distribución de probabilidad o distribución de la variable aleatoria. Por lo tanto f(x) = P(X = x) Ejemplo: Suponer que X es el número de caras que aparecen en el lanzamiento de dos monedas. Determinar la distribución de X S = {cc, cs, sc, ss} El evento X = 0 es {ss} 1 El evento X = 1 es {cs, sc} El evento X = 2 es {cc} 1 4 1 f (1) 2 1 f ( 2) 4 f (0) TABLA DE PROBABILIDAD x P(X = x) 0 1 4 1 1 2 2 1 4 f(0) + f(1) + f(2) = 1 1 1 1 4 2 4 Es decir: f ( x) 1 x Si X es una variable aleatoria discreta con distribución de probabilidad f, entonces la media (o valor esperado o esperanza) de X, denotada por o E(X), está dada por E ( X ) xf ( x) x La media de X puede ser interpretada como su valor promedio a largo plazo. Ejemplos: 1. Una compañía de seguros ofrece una póliza de seguro contra incendio catastrófico por $ 80.000 a propietarios de cierto tipo de casa. La póliza proporciona protección durante un año si ocurre la destrucción total de la casa por un incendio. La compañía ha determinado 2 que la probabilidad de tal evento es de 0,0002. Si la prima anual de la póliza es de $ 52, encuentre la utilidad esperada por póliza para la compañía. Si una casa asegurada no sufre un incendio catastrófico, la compañía gana $ 52. Sin embargo, si hay tal incendio, la compañía pierde 80.000 – 52 = $ 79948 f(-79948) = P(X = -79948) = 0,0002 f(52) = P(X = 52) = 1 – 0,0002 = 0,9998 E(X) = (-79948)(0,0002) + (52)(0,9998) = $ 36 2. Una compañía que vende por correo computadores, ofrece una garantía de devolución del dinero en 30 días a cualquier cliente que no esté completamente satisfecho con el producto. La compañía logra una utilidad de $ 200 por cada computador vendido, pero tiene una pérdida de $ 100 por manejo de envío por cada unidad regresada. La probabilidad de que una unidad sea regresada es de 0,08. ¿Cuál es la utilidad esperada por cada unidad enviada? E(X) = (200)(0,92) + (-100)(0,08) = $ 176 VARIANZA La varianza de X, denotada por Var(X), es el promedio a largo plazo de los cuadrados de las desviaciones de X con respecto de Var ( X ) E[( X ) 2 ] ( x ) 2 f ( x) x DESVIACION ESTANDAR DE X (σ) σ= Var ( X ) 2 2 2 Var(X) = σ2 = E(X2) - x f ( x) x Ejemplo: Una urna contiene diez canicas numeradas. Cinco canicas muestran un 1, dos muestran un 2 y tres muestran un 3. Una canica es sacada al azar. Si X es el número que muestra, determine , Var(X) y σ 3 5 10 2 f (2) P ( X 2) 10 3 f (3) P ( X 3) 10 f (1) P ( X 1) 5 4 9 9 5 2 3 xf ( x) 1 f (1) 2 f (2) 3 f (3) (1) ( 2) (3) 10 10 10 5 10 10 10 x 2 9 9 Var ( X ) ( x ) 2 f ( x ) 1 f (1) 2 5 5 x 19 16 5 1 2 36 3 25 25 10 25 10 25 10 σ= 19 25 2 9 f ( 2) 3 5 2 f (3) 19 5 Ejercicios: En los problemas 1-2 está dada la distribución de la variable aleatoria X. Determine µ, Var(X) y σ 1. f(0) = 0,1; f(1) = 0,4; f(2) = 0,2; f(3) = 0,3 R. µ = 1,7; Var(X) = 1,01; σ = 1 2. f(4) = 0,4; f(5) = 0,6 3. La variable aleatoria X tiene la siguiente distribución: x P(X = x) 2 4 0,5 7 0,4 A. Encuentre P(X = 2) B. Encuentre µ C. Encuentre σ2 R. A. 0,1. B. 5. C. 3 4. La variable aleatoria X tiene la distribución siguiente 4 x P(X = x) 2 2n 4 n 6 0,4 A. Encuentre P(X = 2) y P(X = 4) B. Encuentre µ En los problemas 5-6 determine E(X), σ2 y σ para la variable aleatoria X 5. Tres monedas legales son lanzadas. Sea X el número de caras que aparecen. R. E(X) = 3 2 3 , σ = , σ = 0,87 2 4 6. De un grupo de dos mujeres y tres hombres, son seleccionadas al azar dos personas para formar un comité. Sea X el número de mujeres en el comité. R. E(X) = 4 2 9 3 ,σ = ,σ = 5 25 5 7. Una urna contiene tres canicas rojas y dos blancas. Se sacan al azar dos canicas en sucesión sin reemplazo. Sea X = al número de canicas rojas sacadas. Encuentre la distribución f de X. R. f(0) = 1 3 3 , f(1) = , f(2) = 10 5 10 8. Una organización benéfica está realizando una rifa con un solo premio de $ 8.500. Cada boleto de la rifa cuesta $ 1 y han sido vendidos 10.000 boletos. A. Encuentre la ganancia esperada para el comprador de un solo boleto. B. Encuentre la ganancia esperada para el comprador de dos boletos. R. A. -0,15. B. -0,30 9. Considere el siguiente juego. Lance tres monedas legales. Si aparecen tres caras o tres sellos, alguien le paga $ 10. Si sólo aparecen una o dos caras, usted debe pagar $6. ¿Cuál es la ganancia o pérdida esperada por juego? 5 10. Un paisajista gana $ 200 diarios cuando trabaja y pierde $ 30 por día cuando no trabaja. Si la probabilidad de trabajo en cualquier día es de 4 , encuentre los ingresos 7 diarios esperados del paisajista. R. 101,43 11. Una empresa de comida rápida estima que si abre un restaurante en un centro comercial la probabilidad de que él tenga éxito es de 0,65. Un restaurante con éxito genera una utilidad anual de $ 75.000; uno que no es exitoso pierde $ 20.000. ¿Cuál es la utilidad esperada para la empresa si abre un restaurante en un centro comercial? 12. Una compañía de seguros ofrece una póliza de hospitalización a individuos en cierto grupo. Para un periodo de un año, la compañía pagará $ 100 por día, hasta un máximo de 5 días, por cada día que el asegurado esté hospitalizado. La compañía estima que la probabilidad de que cualquier persona en este grupo esté hospitalizada por exactamente 1 día es de 0,001; por exactamente 2 días de 0,002; por exactamente 3 días, 0,003; por exactamente 4 días, 0,004; y durante 5 o más días, 0,008. Encuentre la utilidad esperada por póliza para la compañía si la prima anual es de $ 10. R. 3 13. Suponga que usted paga $ 1,25 por jugar un juego en el que son lanzadas dos monedas legales. Usted recibe una cantidad de dinero igual al número de caras que aparecieron. ¿Cuál es la ganancia (o pérdida) esperada en cada jugada? R. -0,25 DISTRIBUCION BINOMIAL Si X es el número de éxitos en n ensayos independientes de un experimento binomial con probabilidad p de éxito y q de fracaso en cualquier ensayo, entonces la distribución f de X está dada por f(x) = P(X = x) = nCxpxqn-x, donde x es un entero tal que 0 ≤ x ≤ n y q = 1 – p. Cualquier variable aleatoria con esta distribución es llamada variable aleatoria binomial y se dice que tiene una distribución binomial. La media y la desviación estándar de X están dadas, respectivamente, por np σ= npq Ejemplos: 6 1. Suponga que X es una variable aleatoria binomial con n = 4 y p = 1 . Encontrar la 3 distribución para X q 1 1 2 3 3 0 4 1 2 P ( X 0) 4 C 0 p q 4 C 0 3 3 0 4 1 1 2 3 3 3 P ( X 1) 4 C1 p1q 3 4 C1 32 81 2 2 1 2 3 3 P ( X 2) 4 C 2 p 2 q 2 4 C 2 3 1 2 3 3 P ( X 3) 4 C3 p 3q1 4 C3 4 1 2 3 3 16 81 1 8 81 0 P ( X 4) 4 C 4 p 4 q 0 4 C 4 8 27 1 81 2. Una moneda es lanzada ocho veces. Encontrar la probabilidad de obtener al menos dos caras n = 8, p = 1 1 , q= 2 2 P(X ≥ 2) = 1 – P(X ˂ 2) 0 1 1 2 2 P(X ˂ 2) = P(X = 0) + P(X = 1) = 8 C0 8 1 1 1 2 2 7 + 8 C1 1 1 9 256 32 256 P(X ≥ 2) = 1 - 9 247 256 256 LA DISTRIBUCION DE POISSON La distribución de Poisson se usa para determinar la probabilidad de la ocurrencia de un número determinado de eventos cuando éstos ocurren en un continuo de espacio o tiempo. Con frecuencia se utiliza para describir el número de llegadas de clientes por hora, el número de accidentes industriales cada mes, el número de máquinas que se dañan y esperan ser reparadas. 7 La fórmula para determinar la probabilidad de un número determinado x de éxitos en una distribución de Poisson es P(x) = xe x! donde: x = número de veces que ocurre el evento = número promedio de ocurrencias por unidad de tiempo o de espacio e = 2,71828, la base del logaritmo natural Ejemplos: 1. En un departamento de reparación de maquinaria se recibe un promedio de cinco solicitudes por hora. Hallar la probabilidad de que se reciban exactamente tres solicitudes de servicio en una hora elegida al azar P( x) x e 53 e 5 0,1404 x! 3! 2. Una compañía de pavimentación local obtuvo un contrato con el Alcalde municipal para hacer mantenimiento a las vías de su ciudad. Las vías recientemente pavimentadas por esta compañía demostraron un promedio de dos defectos por milla, después de haber sido utilizadas durante un año. Si el municipio sigue con esta compañía de pavimentación, ¿cuál es la probabilidad de que se presenten 3 defectos en cualquier milla de vía después de haber tenido tráfico durante un año? P( x) xe 23 e 2 0,1804 x! 3! Ejercicios: En los problemas 1-3 determine la distribución f para la variable aleatoria binomial X si el número de ensayos es n y la probabilidad de éxito en cualquier ensayo es p. También encuentre µ y σ 1. n = 2, p = R. f(0) = 1 4 9 3 1 1 , f(1) = , f(2) = ,µ = ,σ = 6 16 8 16 2 4 2. n = 3, p = 1 2 8 3. n = 3, p = R. f(0) = 2 3 1 2 4 8 , f(1) = , f(2) = , f(3) = , µ = 2, σ = 6 27 9 9 27 3 En los problemas 4-7 determine la probabilidad solicitada si X es una variable aleatoria binomial, n el número de ensayos y p la probabilidad de éxito en cualquier ensayo 4. P(X = 5), n = 6, p = 0,2 R. 0,001536 5. P(X = 2), n = 4, p = R. 96 625 6. P(X ˂ 2), n = 5, p = R. 4 5 1 2 3 16 7. P(X ≥ 2), n = 6, p = 2 3 8. Una moneda legal es lanzada 10 veces. ¿Cuál es la probabilidad de que aparezcan exactamente ocho caras? R. 45 1024 9. Una urna contiene cuatro canicas rojas y seis verdes, y son sacadas al azar cuatro canicas en sucesión con reemplazo. Determine la probabilidad de que exactamente una canica sea verde R. 96 625 10. Un fabricante produce interruptores eléctricos, de los cuales el 2% son defectuosos. De una corrida de producción de 50.000 interruptores, cuatro son seleccionados aleatoriamente y cada uno de ellos es probado. Determine la probabilidad de que la muestra contenga exactamente dos interruptores defectuosos. Redondee su respuesta a tres decimales. Suponga que los cuatro ensayos son independientes y que el número de interruptores defectuosos en la muestra tiene una distribución binomial 9 R. 0,002 11. Una moneda cargada es lanzada tres veces en sucesión. La probabilidad de que salga cara en cualquier lanzamiento es de 1 . Encuentre la probabilidad de que 4 A. exactamente aparezcan dos caras, B. aparezcan dos o tres caras R. A. 9 5 . B. 64 32 1 son 3 defectuosos. Si se selecciona al azar una muestra de cuatro, encuentre la probabilidad de que no más de uno sea defectuoso 12. En la producción de un lote grande de dispositivos electrónicos, se cree que R. 16 27 13. La probabilidad de que un cierto jugador de beisbol dé un hit es de 0,3. Encuentre la probabilidad de que si él batea cuatro veces, dará al menos un hit R. 0,7599 14. Si una familia tiene cinco hijos, encuentre la probabilidad de que al menos dos sean niñas. (Suponga que la probabilidad de que un hijo sea niña es de R. 1 ) 2 13 16 15. Suponga que X es una variable aleatoria distribuida binomialmente tal que µ = 2 y σ2 = R. 3 . Encuentre P(X = 1) 2 2187 8192 LA DISTRIBUCION NORMAL Los datos de mediciones hechas en la práctica, como la altura de las personas en una población son a menudo representados por una variable aleatoria cuya función de densidad puede aproximarse por la curva en forma de campana 10 La curva se extiende indefinidamente hacia la derecha y hacia la izquierda y nunca toca al eje x. Esta curva, llamada curva normal, es la gráfica más importante de todas las funciones de densidad: la función de densidad normal. Una variable aleatoria continua X es una variable aleatoria normal o tiene una distribución normal (o gaussiana), si su función de densidad está dada por f ( x) 2 1 e (1 / 2 )[( x ) / ] , -∞ ˂ x ˂ ∞, 2 llamada función de densidad normal. Los parámetros µ y σ son la media y la desviación estándar de X, respectivamente. La desviación estándar juega un papel muy importante en la descripción de probabilidades asociadas con una variable aleatoria normal X. Más precisamente, la probabilidad de que X se encuentre dentro de una desviación estándar de la media es aproximadamente de 0,68 P(µ - σ ˂ X ˂ µ + σ) = 0,68 En otras palabras, aproximadamente el 68% del área bajo una curva normal está dentro de una desviación estándar alrededor de la media. Entre µ ± 2σ está aproximadamente el 95% del área y entre µ ± 3σ queda más o menos el 99,7% 11 P(µ - 2σ ˂ X ˂ µ + 2σ) = 0,95 P(µ - 3σ ˂ X ˂ µ + 3σ) = 0,997 Ejemplo: Sea X una variable aleatoria cuyos valores son las calificaciones obtenidas en una prueba aplicada a estudiantes de bachillerato. Supongamos que, para fines de establecer un modelo, X está distribuida normalmente con una media de 600 y una desviación estándar de 90. La probabilidad de que X se encuentre dentro de 2σ = 2(90) = 180 puntos alrededor de 600 es 0,95. En otras palabras, el 95% de las calificaciones se encuentran entre 420 y 780. Similarmente, el 99,7% de las calificaciones están dentro de 3σ = 3(90) = 270 puntos alrededor de 600, esto es, entre 330 y 870. Si Z es una variable aleatoria distribuida normalmente con µ = 0 y σ = 1, obtenemos la curva normal, llamada curva normal estándar 12 PROBABILIDADES PARA LA VARIABLE NORMAL ESTANDAR Z Ejemplos: Hallar: 1. P(Z ˃ 1,5) P(Z ˃ 1,5) = 0,5 – A(1,5) = 0,5 – 0,4332 = 0,0668 = 6,68% 13 2. P(0,5 ˂ z ˂ 2) P(0,5 ˂ z ˂ 2) = A(2) – A(0,5) = 0,4772 – 0,1915 = 0,2857 = 28,57% 14 3. P(Z ≤ 2) P(Z ≤ 2) = 0,5 + A(2) = 0,5 + 0,4772 = 0,9772 = 97,72% 15 4. P(-2 ˂ Z ˂ -0,5) P(-2 ˂ Z ˂ -0,5) = P(0,5 ˂ Z ˂ 2) = A(2) – A(0,5) = 0,2857 = 28,57% 16 TRANSFORMACION A UNA VARIABLE NORMAL ESTANDAR Z Si X está distribuida normalmente con media µ y desviación estándar σ, entonces Z X Ejemplos: 1. Suponga que X está distribuida normalmente con µ = 4 y σ = 2. Encontrar P(0 ˂ X ˂ 6) z1 x1 0 4 2 2 17 z2 x2 6 4 1 2 P(0 ˂ X ˂ 6) = P(-2 ˂ Z ˂ 1) = A(2) + A(1) = 0,4772 + 0,3413 = 0,8185 = 81,85% 2. Suponer que los salarios semanales de 5.000 empleados en una empresa están distribuidos normalmente con una media de $ 450 y desviación estándar de $ 40. ¿Cuántos empleados ganan menos de $ 400 semanalmente? 400 450 P(Z < -1,25) P(X ˂ 400) = P Z 40 P(X < 400) = P(Z < -1,25) = P(z > 1,25) = 0,5 – A(1,25) = 0,5 – 0,3944 = 0,1056 = 10,56% Esto significa que el 10,56% de los empleados tienen salarios menores a $ 400, lo cual corresponde a (0,1056)(5.000) = 528 empleados 18 Ejercicios: 1. Si Z es una variable aleatoria normal estándar, encuentre cada una de las siguientes probabilidades: A. P(0 ˂ Z ˂ 1,8) B. P(0,45 ˂ Z ˂ 2,81) C. P(Z ˃ -1,22) D. P(Z ≤ 2,93) E. P(-2,61 ˂ Z ≤ 1,4) F. P(Z ˃ 0,07) R. A. 0,4641. B. 0,3239. C. 0,8888. D. 0,9983. E. 0,9147. F. 0,4721 19 En los problemas 2-4 encuentre zo tal que el enunciado dado sea verdadero. Suponga que Z es una variable aleatoria normal estándar 2. P(Z ˂ zo) = 0,5517 R. 0,13 3. P(Z ˃ zo) = 0,8599 R. -1,08 4. P(-zo ˂ Z ˂ zo) = 0,2662 R. 0,34 5. Si X está distribuida normalmente con µ = 16 y σ = 4, encuentre cada una de las siguientes probabilidades: A. P(x ˂ 22) B. P(X ˂ 10) C. P(10,8 ˂ X ˂ 12,4) R. A. 0,9332. B. 0,0668. C. 0,0873 6. Si X está distribuida normalmente con µ = -3 y σ = 2, encuentre P(X ˃ -2) R. 0,3085 7. Si X está distribuida normalmente con µ = 25 y σ2 = 9, encuentre P(19 ˂ X ≤ 28) R. 0,8185 8. Si X está distribuida normalmente tal que µ = 40 y P(X ˃ 54) = 0,0401, encuentre σ R. 8 9. Las calificaciones de un examen a nivel nacional están distribuidas normalmente con una media de 500 y desviación estándar de 100. ¿Qué porcentaje de los que presentaron el examen tuvieron una calificación mayor a 630? R. 9,68% 10. El coeficiente de inteligencia (IQ) en una gran población de niños está distribuido normalmente con una media de 100,4 y desviación estándar de 11,6. ¿Qué porcentaje de los niños tiene un IQ mayor que 125? R. 1,7% LA APROXIMACION NORMAL A LA DISTRIBUCION BINOMIAL 20 Si X es una variable aleatoria binomial y n es lo suficientemente grande, la distribución de X puede aproximarse por una variable aleatoria normal cuya media y desviación estándar sean las mismas que para X, las cuales son np y npq , respectivamente. Ejemplos: 1. Supongamos que X es una variable aleatoria binomial con n = 100 y p = 0,3. Estimar P(X = 40) usando la aproximación normal µ = np = (100)(0,3) = 30 npq (100)(0,3)(0,7) 21 4,58 39,5 30 2,07 4,58 40,5 30 z 2 2,29 4,58 z1 P(X = 40) = P(2,07 ≤ Z ≤ 2,29) = A(2,29) – A(2,07) = 0,4890 – 0,4808 = 0,0082 = 0,82% 21 2. En un experimento de control de calidad, se toma una muestra de 500 artículos de una línea de ensamblaje. Usualmente, el 8% de los artículos producidos salen defectuosos. ¿Cuál es la probabilidad de que más de 50 artículos defectuosos aparezcan en la muestra? µ = np = (500)(0,08) = 40 npq (500)(0,08)(0,92) z 36,8 6,07 50,5 40 1,73 6,07 P(X ≥ 51) = P(Z ≥ 1,73) = 0,5 – A(1,73) = 0,5 – 0,4582 = 0,0418 = 4,18% 22 Ejercicios: En los problemas 1-4 X es una variable aleatoria binomial con los valores dados de n y p. Calcule las probabilidades indicadas usando la aproximación normal 1. n = 150, p = 0,4; P(X ≤ 52), P(X ≥ 74) R. 0,1056; 0,0122 2. n = 50, p = 0,3; P(X = 18), P(X ≤ 18) 3. n = 200, p = 0,6; P(X = 125), P(110 ≤ X ≤ 135) R. 0,0430; 0,9232 4. n = 25, p = 0,25; P(X ≥ 5) 5. Suponga que un dado se lanza 300 veces. ¿Cuál es la probabilidad de que el 5 caiga entre 45 y 60 veces inclusive? 23 R. 0,7507 6. Un servicio de entregas tiene una flotilla de 60 camiones. En cualquier momento, la probabilidad de que un camión quede fuera de uso por descompostura o mantenimiento es de 0,1. ¿Cuál es la probabilidad de que 7 o más camiones estén fuera de servicio en cualquier momento? R. 0,4129 7. En una fábrica se toma una muestra de 100 objetos de la línea de ensamblado. Para cada objeto de la muestra, la probabilidad de que esté defectuoso es de 0,06. ¿Cuál es la probabilidad de que haya 3 o más objetos defectuosos en la muestra? 8. En un examen tipo verdadero o falso con 20 preguntas, ¿cuál es la probabilidad de acertar adivinando por lo menos a 12 preguntas? Si son 100 las preguntas, ¿cuál es la probabilidad de acertar adivinando por lo menos a 60? R. 0,2514; 0,0287 MUESTRA Una muestra es un subconjunto de la población que ha sido seleccionada con una técnica estadística llamada diseño de muestreo para garantizar que la muestra sea representativa de la población, es decir, que las unidades sean seleccionadas aleatoriamente, de tal forma que cada una de ellas tenga la misma probabilidad de ser seleccionada MUESTREO Es una técnica estadística mediante la cual se seleccionan aquellos elementos de la población que conforman la muestra y se registran sus características METODOLOGIA PARA HACER MUESTREO Para realizar un muestreo se debe llevar a cabo un proceso que va desde la planeación y termina con la inferencia de los resultados. En dicho proceso metodológico se debe tener en cuenta las siguientes características: Tamaño de la población: finita (cuando se conoce el número de individuos que la componen) o infinita (cuando no se conoce su número) Objetivos de la investigación Preguntas a realizar Tipos de muestreo Forma de recolectar la información Recurso humano 24 Recursos económicos Recursos físicos Recursos tecnológicos Cronograma TIPOS DE MUESTREO Según la forma como se seleccione los elementos a encuestar, el muestreo se puede clasificar en: 1. MUESTREO NO PROBABILISTICO 2. MUESTREO PROBABILISTICO O ALEATORIO: -Muestreo aleatorio simple -Muestreo aleatorio sistemático -Muestreo aleatorio estratificado -Muestreo aleatorio por conglomerados En el método de muestreo no probabilístico, se seleccionan a los sujetos siguiendo determinados criterios personales procurando que la muestra sea representativa. Los métodos de muestreo probabilísticos son aquellos que se basan en el principio del azar, es decir, todos los elementos tienen la misma probabilidad de ser elegidos para formar parte de una muestra. Los métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por lo tanto, los más recomendados. En el Muestreo Aleatorio Simple se asigna un número a cada elemento de la población y a través de algún medio mecánico (papeletas, números aleatorios generados por la calculadora o el excel, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. En el Muestreo Aleatorio Sistemático todos los elementos de la población, deben estar ordenados en una lista en la cual se toman grupos para seleccionar los elementos al azar haciendo desplazamientos sistemáticos. La manera de la selección depende del número de elementos incluidos en la población y el tamaño de la muestra. El número de elementos en la población es, primero, dividido por el número deseado en la muestra. El cociente indicará si cada décimo, cada onceavo, o cada centésimo elemento en la población va a ser seleccionado. El primer elemento de la muestra es seleccionado al azar. En el Muestreo Aleatorio Estratificado se divide la población en grupos homogéneos al interior, de donde se extraen al azar de cada grupo un cierto número de elementos. Lo 25 que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. El número de elementos seleccionado de cada estrato puede ser proporcional o desproporcional al tamaño del estrato en relación con la población. En el Muestreo Aleatorio por Conglomerados el universo se divide en grupos que son muy heterogéneos al interior y homogéneos al exterior. Una muestra de conglomerados produce un mayor error muestral que una muestra aleatoria simple del mismo tamaño DETERMINACION DEL TAMAÑO DE LA MUESTRA Uno de los principales problemas que se deben resolver al efectuar una encuesta por muestreo es la determinación del tamaño de la muestra. Dado que el muestreo es costoso y requiere de tiempo, el objetivo al seleccionar una muestra es obtener una cantidad específica de información a un costo mínimo. Cuando los elementos de la población presentan características similares, una muestra pequeña produce la misma cantidad de información que una muestra grande. Por otro lado, si la población presenta características muy diferentes entre sí, una muestra pequeña puede ser un reflejo muy deficiente de las características de la población. Los objetivos de la selección del diseño de muestreo y de la selección del tamaño de la muestra son los mismos, obtener una cantidad de información al mínimo costo. Las decisiones sobre el diseño de la muestra se toman de acuerdo con la forma en que los elementos se agrupan en la población y de acuerdo con el costo de la obtención de la información contenida en esos elementos. El tamaño adecuado de una muestra depende de tres factores: 1. El tamaño de la población o universo 2. El nivel de confianza que asignemos. El nivel de confianza indica la probabilidad de que los resultados de nuestra investigación sean ciertos: un 95% de confianza es lo mismo que decir que nos podemos equivocar con una probabilidad del 5%. Los que llevan a cabo el estudio eligen el nivel de confianza. Los niveles de confianza de 95% y 99% son los más comunes. El nivel de confianza de 95% corresponde al valor z de 1,96, y el nivel de confianza de 99%, a un valor z de 2,58. Mientras más alto sea el nivel de confianza elegido, mayor será el tamaño de la muestra correspondiente. 3. El error muestral deseado. El error muestral es la diferencia que puede haber entre el resultado que obtenemos preguntando a una muestra de la población y el que obtendríamos si preguntáramos al total de ella. El margen de error promedio en un estudio de investigación es de +/- 5%. El máximo normalmente aceptado es de 10%. Ejemplos: 26 1. Si los resultados de una encuesta dicen que 100 personas comprarían un producto y tenemos un error muestral del 5%, comprarán entre 95 y 105 personas 2. Si los resultados de una encuesta electoral indicaran que un partido iba a obtener el 55% de los votos y el error estimado fuera del 3%, se estima que el porcentaje real de votos estará en el intervalo 52-58% TAMAÑO DE LA MUESTRA z 2 pqN n= 2 e ( N 1) z 2 pq donde: n: es el tamaño de la muestra z: es el valor normal estándar correspondiente al nivel de confianza deseado e: es el error máximo admisible p: es la proporción de individuos que poseen en la población la característica de estudio. Este dato es generalmente desconocido y se suele suponer que p = q = 0,5 que es la opción más segura q: es la proporción de individuos que no poseen esa característica, es decir, q = 1 - p Ejemplos: 1. Si se requiere realizar una encuesta de satisfacción a clientes de un determinado modelo de auto del que hemos vendido 10.000 unidades, en la que queremos un nivel de confianza del 95%, deseamos un error muestral del 5% y consideramos que estarán satisfechos el 50%. Determinar el tamaño de la muestra n= (1,96) 2 (0,5)(0,5)(10.000) 369,98 370 (0,05) 2 (9.999) (1,96) 2 (0,5)(0;5) Necesitamos una muestra de 370 clientes 2. Necesitamos contrastar el porcentaje de personas de un país que ven un determinado programa de televisión. Si la población del país es de 40.000.000 de personas, estimamos que lo ve el 20% de la población, queremos una confianza del 95% y estamos dispuestos a asumir un error muestral del 5%. ¿Cuál será el tamaño de la muestra? n= (1,96) 2 (0,2)(0,8)(40.000.000) 245,86 246 (0,05) 2 (39.999.999) (1,96) 2 (0,2)(0,8) Se debe encuestar a 246 personas 27 REGRESION LINEAL Y CORRELACION ANÁLISIS DE CORRELACIÓN: es el estudio de la relación entre dos variables. El primer paso es representar los datos en un diagrama de dispersión. Ejemplo: Copier Sales of América vende copiadoras a empresas de todos tamaños en Estados Unidos y Canadá. Hace poco ascendieron a la señora Marcy Bancer al cargo de gerente nacional de ventas. Ella desea determinar si hay alguna relación entre el número de llamadas de ventas en un mes y el número de copiadoras vendidas ese mes. Para ello selecciona una muestra aleatoria de 10 representantes de ventas y determina el número de llamadas de ventas que cada uno hizo el mes pasado y el número de copiadoras vendidas. La información muestral aparece en la siguiente tabla. ¿Qué observaciones cabe hacer al respecto de la relación entre el número de llamadas de ventas y el número de copiadoras vendidas? Elabore un diagrama de dispersión para representar la información NUMERO DE LLAMADAS DE VENTAS Y COPIADORAS VENDIDAS Representante de ventas Tom Keller Número de llamadas de ventas Número de copiadoras vendidas 20 30 28 Jeff Hall 40 60 Brian Virost 20 40 Greg Fish 30 60 Susan Welch 10 30 Carlos Ramírez 10 40 Rich Niles 20 40 Mike Kiel 20 50 Mark Reynolds 20 30 Soni Jones 30 70 Total 220 450 Al revisar los datos, la señora Bancer sospecha que hay una relación entre el número de llamadas de ventas hechas en un mes y el número de copiadoras vendidas. Es decir, los vendedores que hicieron más llamadas de venta vendieron más unidades. Sin embargo, la relación no es perfecta o exacta. Por ejemplo, Soni Jones hizo menos llamadas de ventas que Jeff Hall, pero vendió más unidades. La implicación es que el número de copiadoras vendidas se relaciona con el número de llamadas de ventas. Conforme aumenta el número de llamadas de venta, parece que el número de copiadoras vendidas también aumenta. De este modo, el número de llamadas de ventas se considera variable independiente (se muestra en el eje x), y el de copiadoras vendidas, variable dependiente (se muestra en el eje y). 29 El diagrama de dispersión muestra que los representantes con más llamadas tienden a vender más copiadoras. Es razonable que la señora Bancer, gerente nacional de ventas en Copier Sales of América, diga a sus vendedores que, entre más llamadas de ventas hagan, se espera que vendan más copiadoras. Observe que, aunque parece haber una relación positiva entre las dos variables, no todos los puntos se encuentran en una recta. COEFICIENTE DE CORRELACION: describe la fuerza de la relación entre dos conjuntos de variables. Se designa con la letra r. Puede adoptar cualquier valor de -1 a +1, inclusive. Un coeficiente de correlación de -1 o bien de +1 indica una correlación perfecta. Por ejemplo, un coeficiente de correlación para el caso anterior calculado a +1 indicaría que el número de llamadas de ventas y el número de copiadoras vendidas están perfectamente relacionadas en un sentido lineal positivo. Un valor calculado de -1 revela que las llamadas de ventas y el número de copiadoras vendidas están perfectamente relacionadas en un sentido lineal negativo 30 En la siguiente gráfica se muestran los diagramas de dispersión para r = 0, una r débil y una r fuerte. Observe que, si la correlación es débil, se presenta una dispersión 31 considerable respecto de la recta trazada a través del centro de los datos. Para el diagrama de dispersión que representa una fuerte relación, hay muy poca dispersión respecto de la recta Correlación Correlación negativa No hay positiva perfecta correlación perfecta Correlación Correlación Correlación Correlación Correlación Correlación negativa negativa negativa positiva positiva positiva fuerte moderada débil débil moderada fuerte -1 -0,5 Correlación negativa 0 0,5 1 Correlación positiva CALCULO DEL COEFICIENTE DE CORRELACION DESVIACIONES DE LA MEDIA Y SUS PRODUCTOS 32 Representante de ventas Llamadas (X) Ventas (Y) X X Y Y ( X X )(Y Y ) Tom Keller 20 30 -2 -15 30 Jeff Hall 40 60 18 15 270 Brian Virost 20 40 -2 -5 10 Greg Fish 30 60 8 15 120 Susan Welch 10 30 -12 -15 180 Carlos Ramírez 10 40 -12 -5 60 Rich Niles 20 40 -2 -5 10 Mike Kiel 20 50 -2 5 -10 Mark Reynolds 20 30 -2 -15 30 Soni Jones 30 70 8 25 200 Total 220 450 r ( X X )(Y Y ) ( n 1) S x S y 900 900 0,759 (10 1)(9,189)(14,337) donde: SX y Sy: desviaciones estándar muestrales Sx (X X ) Sy (Y Y ) 2 n 1 2 n 1 COEFICIENTE DE DETERMINACION: en el ejemplo anterior, la relación entre el número de llamadas de ventas y las unidades vendidas, el coeficiente de correlación, 0,759, se interpretó como fuerte. Sin embargo, los términos débil, moderado y fuerte no tienen un significado exacto. Una medida cuyo significado se interpreta con más facilidad es el coeficiente de determinación. Este se calcula elevando al cuadrado el coeficiente de correlación, es decir: r2 = (0,759)2 = 0,576 Esta es una proporción o un porcentaje; es posible decir que el 57,6% de la variación en el número de copiadoras vendidas se explica, por la variación en el número de llamadas de ventas. 33 Ejercicios: 1. Las siguientes observaciones muestrales se seleccionaron de manera aleatoria X 4 5 3 6 10 Y 4 6 5 7 7 Determine el coeficiente de correlación y el de determinación. Interprételos. R. 0,7522; 0,5658 capitulo 13 ejercicio 1 pag 470 2. Bi-lo Appliance Super-Store tiene tiendas en varias áreas metropolitanas de Nueva Inglaterra. El gerente general de ventas planea transmitir un comercial para una cámara digital en estaciones de televisión locales antes de una venta que empezará el sábado y terminará el domingo. Planea obtener la información para las ventas de la cámara digital durante el sábado y el domingo en las diversas tiendas y compararlas con el número de veces que se transmitió el anuncio en las estaciones de televisión. El propósito es determinar si hay alguna relación entre el número de veces que se transmitió el anuncio y las ventas de cámaras digitales. Los pares son: Ubicación de la estación de TV Número de transmisiones Ventas de sábado a domingo Providence 4 15 Springfield 2 8 New Haven 5 21 Boston 6 24 Hartford 3 17 (miles de dólares) A. Trace un diagrama de dispersión B. Determine el coeficiente de correlación C. Establezca el coeficiente de determinación D. Interprete estas medidas estadísticas R. B. 0,9295. C. 0,8640 capitulo 13 ejercicio 3 pag 471 34 3. El ayuntamiento de la ciudad de Pine Bluffs considera aumentar el número de policías en un esfuerzo para reducir los delitos. Antes de tomar una decisión final, el ayuntamiento pide al jefe de policía realizar una encuesta en otras ciudades de tamaño similar para determinar la relación entre el número de policías y el número de delitos reportados. El jefe de policía reunió la siguiente información muestral Ciudad Policías Número de delitos Oxford 15 17 Starksville 17 13 Danville 25 5 Athens 27 7 Holgate 17 7 Carey 12 21 Whistier 11 19 Woodville 22 6 A. Trace un diagrama de dispersión B. Determine el coeficiente de correlación C. Establezca el coeficiente de determinación D. Interprete estas medidas estadísticas. ¿Le sorprende que la relación sea inversa? R. B. -0.8744. C. 0,7646. capitulo 13 ejercicio 5 pag 475 ECUACION DE REGRESION: ecuación que expresa la relación lineal entre dos variables. FORMA GENERAL DE LA ECUACION DE REGRESION LINEAL: y = mx + b donde: 35 y: es el valor del estimado de la variable y para un valor x seleccionado m: es la pendiente de la recta b: es el valor estimado de y donde la recta de regresión cruza al eje y cuando x = 0 PENDIENTE DE LA RECTA DE REGRESION: SY Sx m r donde: r: es el coeficiente de correlación Sy: es la desviación estándar de y Sx: es la desviación estándar de x INTERSECCION CON EL EJE Y: b y mx donde: x : es la media de x (la variable independiente) y : es la media de y (la variable dependiente) En el ejemplo de Copier Sales of América, la gerente de ventas reunió información sobre el número de llamadas de ventas y el número de copiadoras vendidas de una muestra de 10 representantes de ventas. Como parte de su presentación en la siguiente reunión de ventas, la señora Bancer, gerente de ventas, desea presentar información específica acerca de la relación entre el número de llamadas de ventas y el número de copiadoras vendidas. Para ello debe determinar una ecuación lineal que exprese la relación entre ambas variables. ¿Cuál es el número esperado de copiadoras vendidas por un representante de ventas que hizo 20 llamadas? Sy 14,337 0,759 1,1842 9,189 Sx m r b y m x 45 (1,1842)( 22) 18,9476 Así, la ecuación de regresión es: y = 1,1842x + 18,9476 Por tanto, si un vendedor hace 20 llamadas, esperaría vender 36 y = (1,1842)(20) + 18,9476 = 42,6316 copiadoras GRAFICA DE LA RECTA DE REGRESION Representante de ventas Llamadas de ventas (X) Ventas estimadas (Y) Tom Keller 20 42,6316 Jeff Hall 40 66,3156 Brian Virost 20 42,6316 Greg Fish 30 54,4736 Susan Welch 10 30,7896 Carlos Ramírez 10 30,7896 Rich Niles 20 42,6316 Mike Kiel 20 42,6316 Mark Reynolds 20 42,6316 Soni Jones 30 54,4736 Ejercicios: 1. Las siguientes observaciones muestrales se seleccionaron al azar x 5 3 6 3 4 4 6 8 37 y 13 15 7 12 13 11 9 5 A. Determine la ecuación de regresión B. Encuentre el valor de y cuando x es 7 capitulo 13 ejercicio 14 pag 481 igual al 13 2. La Bradford Electric Iluminating Company estudia la relación entre kilowatts-hora (miles) usados y el número de habitaciones en una residencia privada familiar. Una muestra aleatoria de 10 casas reveló lo siguiente: Número de habitaciones kilowatts-hora (miles) 12 9 9 7 14 10 6 5 10 8 8 6 10 8 10 10 5 4 7 7 A. Determine la ecuación de regresión. B. Encuentre el número de kilowatts-hora, en miles, para una casa de seis habitaciones. R. A. y = 0,667x + 1,333. B. 5,335 3. El señor James McWhinney, presidente de Daniel-James Financial Services, considera que hay una relación entre el número de contactos con sus clientes y la cantidad de ventas en dólares. Para documentar esta afirmación, el señor McWhinney reunió la siguiente información muestral. La columna X indica el número de contactos con sus 38 clientes el mes anterior, y la columna Y muestra el valor de las ventas (miles de $) el mismo mes por cada cliente muestreado Número de contactos Ventas (miles de dólares) X Y 14 24 12 14 20 28 16 30 46 80 23 30 48 90 50 85 55 120 50 110 A. Trace un diagrama de dispersión B. Determine la ecuación de regresión C. Encuentre las ventas estimadas si se hicieron 40 contactos NUMEROS INDICE Un número índice es una medida estadística diseñada para poner de relieve cambios en una variable o en un grupo de variables relacionadas con respecto al tiempo, situación geográfica, ingresos, etc. APLICACIONES DE LOS NUMEROS INDICE Los números índice se usan para hacer comparaciones. Por ejemplo, con números índice podemos comparar los costos de alimentación o de otros servicios en una ciudad durante un año con los del año anterior, o la producción de café en un año en una zona del país con la de otra zona. Aunque se usan principalmente en economía y la industria, los números índice son aplicables en muchos otros campos. 39 Muchos gobiernos y agencias privadas se ocupan de elaborar números índice con el propósito de predecir condiciones económicas o industriales, tales como índices de paro, de producción, salariales, etc. Tal vez el más conocido sea el índice de costo de la vida o índice de precios al consumidor, que elabora el Dane. RELACIONES DE PRECIOS Uno de los ejemplos más simples de un número índice es una relación de precios, que no es sino el cociente entre el precio de un artículo en un periodo dado y su precio en otro periodo, conocido como periodo base o periodo de referencia. Supondremos, que los precios en cada periodo son constantes. Si no lo son, podemos tomar un promedio adecuado para el periodo. Si pn y po denotan los precios de un artículo durante el periodo dado y el periodo base, respectivamente, entonces Relación de precios = pn po La relación de precios se expresa generalmente como un porcentaje. Si pa y pb son los precios de un artículos durante los periodos a y b, respectivamente, la relación de precios en el periodo b con respecto al periodo a se denota por pa|b. RELACIONES DE CANTIDAD O DE VOLUMEN En vez de comparar los precios de un artículo, podemos estar interesados en comparar las cantidades (o volúmenes) de producción, consumo o exportación. En tales casos hablamos de relaciones de cantidad o relaciones de volumen. Por sencillez, como en el caso de los precios, suponemos que las cantidades son constantes en cada periodo. Si no lo son, se pueden tomar promedios adecuados. Si qo denota la cantidad (o volumen) de un artículo que se ha producido, consumido, exportado, etc. durante un periodo base, y qn la correspondiente cantidad producida, consumida, exportada, etc. durante un periodo dado, definimos Relación de cantidad o de volumen = qn qo que se suele expresar como porcentaje. Al igual que para las relaciones de precios, usamos la notación q a|b para denotar la relación de cantidad en el periodo b respecto al periodo a. RELACIONES DE VALOR Si p es el precio de un artículo durante un periodo y q es la cantidad (o volumen) producida, vendida, etc., durante ese periodo, entonces pq se llama el valor total. 40 Si po y qo son el precio y la cantidad de un artículo durante un periodo base, y p n y qn el precio y la cantidad correspondientes a un periodo dado, los valores totales durante esos periodos vienen dados por vo y vn, respectivamente, y definimos Relación de valor = vn pn v o po qn qo Las mismas observaciones, notación y propiedades aplicables a las relaciones de precios y a las relaciones de cantidad lo son a las relaciones de valor. En particular, si pa|b, qa|b y va| b denotan las relaciones de precios, cantidad y valor del periodo b respecto al periodo a, entonces va|b = pa|bqa|b Ejemplos: 1. Si el salario mínimo mensual en Colombia en los años 2009 y 2010 era de $ 496.900 y $ 515.000 respectivamente, hallar la relación de precios Relación de precios = p200912010 = precioen 2010 515.000 1,036 103,6% precioen 2009 496.900 Este resultado significa que en 2010 el valor del salario mínimo era el 103,6% del de 2009; es decir, aumentó un 3,6% 2. En enero de 1980 una empresa pagó un total de $ 80.000 a 120 empleados en nómina. En julio de ese mismo año, la empresa tenía 30 trabajadores más en nómina y pagó $ 12.000 más que en enero. A. Con enero de 1980 como base, hallar el número índice de empleo (la relación de cantidad) para julio. B. Con enero de 1980 como base, hallar el número índice (relación de valor) trabajogasto para julio. C. Usando el resultado relación de precios x relación de cantidad = relación de valor, ¿qué interpretación se puede dar a la relación de precios en este caso? A. Relación de cantidad = B. Relación de valor = C. q n 150 1,25 125% = q o 120 v n $92.000 1,15 115 % vo $80.000 Relación de valor = relación de precios x relación de cantidad 41 Relación de precios = relaciónde valor relaciónde cantidad Relación de precios = 1,15 0,92 92% 1,25 Podemos interpretar el resultado como un número índice de costo por empleado. Lo cual significa que en julio de 1980 el costo por empleado era el 92% del de enero de 1980 Ejercicios: 1. Los precios al por menor del cine en E.E.U.U durante 1978-1984 se ven en la tabla. A. Con 1978 como base, hallar las relaciones de precios correspondientes a los años 1982 y 1984. B. Con 1978-1980 como periodo base, hallar las relaciones de precios correspondientes a los años dados. Año 1978 1979 1980 1981 1982 1983 1984 Precio promedio del cine ($) 0,31 0,373 0,374 0,446 0,385 0,414 0,486 Año 1978 1979 1980 1981 1982 1983 1984 Relación de precios (%) 88,1 106 106,3 126,7 109,4 117,6 138,1 R. A. 124,2%; 156,8% R. B. 2. La tabla muestra las relaciones de valor y de precios de un artículo en los años 19821986. Hallar las relaciones de cantidad para dicho artículo con A. 1982 como base. B. 1982-1984 como base. Año Relación de precios Relación de valor 1982 100 150 1983 125 180 1984 150 207 42 1985 175 231 1986 200 252 43 44