DPTO.MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA EMPRESA UNIVERSIDAD DE GRANADA TÉCNICAS CUANTITATIVAS 3 Grado en Marketing e Investigación de Mercados MUESTREO Teoría y ejercicios. 1 2 ÍNDICE 1. Muestreo aleatorio simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.0 Definiciones y conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . 1.1 Selección de una muestra aleatoria simple. Números aleatorios. . . . . . . . 1.2 Muestreo aleatorio simple en poblaciones infinitas. . . . . . . . . . . . . . 1.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 1.2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 1.3 Muestreo aleatorio simple en poblaciones finitas. . . . . . . . . . . . . . . 1.3.1 Estimación de la media, proporción y total poblacionales. . . . . . . 1.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 11 12 14 14 17 19 2. Muestreo aleatorio estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Selección de una muestra aleatoria estratificada. . . . . . . . . . . . . . . . 2.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . 2.4 Asignación de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Asignación Óptima. . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Asignación de Neyman. . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Asignación Proporcional. . . . . . . . . . . . . . . . . . . . . . . . 2.5 Estratificación después de seleccionar la muestra. . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 26 27 30 31 31 32 32 38 40 3. Muestreo con información auxiliar. . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Estimación de razón. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 3.2.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 3.3 Estimación de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 3.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 3.4 Estimación de diferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 3.4.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 50 51 52 55 56 57 59 59 59 61 62 4. Muestreo sistemático. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Selección de una muestra sistemática. Usos. Ventajas. . . . . . . . . . . . . 4.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 4.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 68 69 5. Muestreo por conglomerados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Necesidad y ventajas del muestreo por conglomerados. . . . . . . . . . . . 5.2 Formación de los conglomerados. Conglomerados y estratos. . . . . . . . . 5.3 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 5.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . 77 77 77 77 82 5 5 7 8 72 73 74 3 Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 Relación de Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . 94 Muestreo con información auxiliar . . . . . . . . . . . . . . . . . . . . . . . . 99 Muestreo sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 Formulario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . Muestreo con información auxiliar . . . . . . . . . . . . . . . . . . . . . . . . Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 111 111 113 115 118 1. Muestreo aleatorio simple. 1.0 Definiciones y conceptos básicos. 1.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. 1.2 Muestreo aleatorio simple en poblaciones infinitas. 1.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. 1.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 1.2.3 Determinación del tamaño muestral. 1.3 Muestreo aleatorio simple en poblaciones finitas. 1.3.1 Estimación de la media, proporción y total poblacionales. 1.3.2 Determinación del tamaño muestral. 1.0 Definiciones y conceptos básicos Uno de los objetivos fundamentales de la estadística es hacer inferencia acerca de una población con base en la información contenida en una muestra representativa. Una muestra representativa sería una versión a escala reducida de la población, que reflejaría cada una de las características de toda la población. Para precisar el concepto de muestra representativa necesitamos una serie de definiciones previas que ilustraremos apoyándonos en el siguiente ejemplo: supongamos que en cierta ciudad se quiere realizar una encuesta telefónica con el objetivo de conocer la proporción de votantes que apoyan al gobierno municipal. Un elemento de muestreo es un objeto en el que se toman las mediciones. En nuestro ejemplo un elemento de muestreo es un votante y la medición que se toma es si apoya o no al gobierno municipal. La población objetivo es el conjunto de elementos y características que deseamos estudiar. Una muestra es un subconjunto de la población. Cuando en lugar de sobre una muestra se toman mediciones sobre todos los elementos de la población, lo denominamos censo. La población muestreada es la colección de todos los elementos posibles que podrían seleccionarse para la muestra. Las unidades de muestreo son conjuntos (no solapados) de elementos de la población que cubren la población completa. Por ejemplo, podríamos querer estudiar a las personas, pero no tenemos una lista de los teléfonos de todos los individuos que pertenecen a la población objetivo. En vez de esto, las familias sirven como unidades de muestreo y los elementos son los individuos que viven en una familia. El marco de muestreo es la lista de las unidades de muestreo. Por ejemplo, para las encuestas telefónicas, el marco de muestreo puede ser una lista de todos los números de teléfono fijos de la ciudad. La diferencia entre el marco y la población deber 5 ser pequeña para permitir que se hagan inferencias acerca de la población basándose en una muestra obtenida del marco. La cantidad de información contenida en una muestra se controla por medio del número de datos muestrales y por el método usado para seleccionar los datos muestrales. Los métodos de muestreo más utilizados son: 1. Muestreo aleatorio simple. 2. Muestreo aleatorio estratificado. 3. Muestreo sistemático. 4. Muestreo por conglomerados. Nuestro objetivo a lo largo de la asignatura será conocer o investigar alguna característica de la población, por ejemplo, estudiaremos la audiencia televisiva de un programa, la intención de voto en un país, ... Claramente la recogida de información sobre toda la población resultaría cara y lenta. Por ello es preferible utilizar un subconjunto pequeño de la población, la muestra. El error de muestreo es el que surge al considerar una muestra y no examinar toda la población. El error de muestreo puede ser controlado y medido mediante el diseño de la muestra. Otro tipo de errores, más difícil de controlar, pueden ocurrir en la encuesta. Estos errores se llaman errores de no muestreo. En muchas encuestas, el error de muestreo cometido para esa encuesta puede ser despreciable en comparación con los errores que no son de muestreo. Los errores de no muestreo más comunes son: 1. Sesgo de selección. Este error ocurre cuando alguna parte de la población objetivo no está en la población muestreada. Una muestra así obtenida no es representativa de la población objetivo. 2. Sesgo de medición. El sesgo de medición ocurre cuando los datos observados difieren del valor verdadero, por ejemplo: - Las personas no dicen la verdad. - No siempre comprenden las preguntas. - La formulación y el orden de las preguntas pueden tener un gran efecto sobre las respuestas obtenidas… 3. No respuesta. La no respuesta de un individuo seleccionado para formar parte de la muestra puede causar un sesgo en los datos muestrales similar al sesgo de selección. Puede ocurrir que las personas que respondan no representen a la población objetivo. Los errores de no muestreo deben controlarse con acciones como: 6 Según este método cada número aleatorio o grupo de números aleatorios describe el camino hasta el elemento de la muestra. Entrevistadores adiestrados. El muestreo puede proporcionar información fiable con costes mucho menores que los de un censo.. de modo que las estimaciones se pueden publicar de una manera programada. (c) Economía y precisión. Verificación de datos… Son muchas las razones para el uso del muestreo. (b) Rapidez. Una alternativa a la formación de una lista numerada para la selección mediante números aleatorios de los elementos de la muestra es el método de las rutas aleatorias. SPSS. 4. no es tan sencillo. Para facilitar la obtención de los resultados de ese sorteo aleatorio existen lo que se conoce como tablas de números aleatorios que suelen aparecer en un apéndice al final de muchos libros de estadística. Números aleatorios. estas tablas de números aleatorios son sustituidas por la generación de números aleatorios mediante programas de ordenador (Excel. Si cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada. entre otras destacamos: (a) Evitar la destrucción de la población.. En algunos casos. Un censo completo necesita muchas personas en la recolección de los datos y debido a su complejidad se pueden cometer muchos errores. Cada vez más. La condición de que cada muestra tenga la misma probabilidad de ser seleccionada equivale a que cada elemento tenga la misma probabilidad de pertenecer a la muestra. Para ello la selección de cada elemento de la muestra se debe hacer con un sorteo completamente aleatorio. Esto último. Los datos se pueden reunir más rápido.). Veamos cómo se aplicaría este método con un sencillo ejemplo: 7 . En una muestra.1 Selección de una muestra aleatoria simple. se puede dedicar más atención a la calidad de los datos y realizar un seguimiento de quienes no contestan la encuesta. Para asociar el valor de esos números aleatorios con los elementos de la población necesitamos que ésta esté numerada. Reentrevistas. Por ejemplo las elecciones. la observación de los elementos lleva a su destrucción.. 1. en muchos casos. Rutas aleatorias. 3. por ejemplo en el control de calidad. Recompensas e incentivos. en caso contrario deberíamos formar una lista y numerarla.1. 2. el procedimiento de muestreo se denomina muestreo aleatorio simple y a la muestra así seleccionada se le llama muestra aleatoria simple. las dos primeras cifras (11) indican el distrito de la ciudad. σ 2 . Yn. y . con el que fácilmente se obtengan muchas observaciones. se utiliza la cuasivarianza muestral. 1. varianza y proporción muestrales: Propiedades. Error de estimación.i. las dos siguientes (07) la calle del distrito. En muchos casos para llevar a cabo este procedimiento se recurre a la guía telefónica. sobretodo si la entrevista es por teléfono. y= 1 n ∑ yi n i =1 Un valor aislado y del estimador revela poco acerca de la media poblacional..1 Media. las dos siguientes (10) el número de la calle. deberíamos evaluar también su bondad. nos conducen a variables i. se utiliza la media muestral. no garantiza una mejor información que una muestra aleatoria simple con muchos menos datos.). Supongamos que la característica en estudio de la población está representada por la variable Y (con media µ y varianza σ2). así el número aleatorio 7836 podría interpretarse como que se selecciona la página 78 de la guía y dentro de ésta al abonado del teléfono que aparece en el lugar 36 de dicha página. µ..d.d. S 2 .Se ha seleccionado el número aleatorio 11071032.2 Muestreo aleatorio simple en poblaciones infinitas. si se hacen con reemplazamiento... la siguiente (3) la planta del edificio y la última (2) la letra B de dicha planta. independientes e idénticamente distribuidas (i. Utilizar un método más sencillo para seleccionar la muestra.2. Como estimador de la media de la población. Este estimador tiene propiedades deseables como ser insesgado y tener mínima varianza ( ) E y =µ ( ) V y = σ2 n Como estimador de la varianza de la población. 1. una muestra aleatoria simple de tamaño n estará representada por n variables: Y1. S2 = 8 ( 1 n ∑ yi − y n − 1 i =1 ) 2 . EL NÚMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA TIENE MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIÓN ALEATORIA.i. Nota: observaciones en poblaciones infinitas y también en poblaciones finitas. . por el Teorema Central del Límite. cuando n → ∞ si y−µ σ n ≈ y−µ → N (0.. Y → N (µ ... la proporción muestral. La varianza de la población es en este caso σ 2 = pq . 1 Este estimador.1)) Y → cualquier distribución. su media µ representa una proporción que se nota como p y el estimador de la misma. . donde q=1-p. el estimador insesgado de la varianza es la cuasivarianza muestral que para este tipo de variables es igual a S2 = n pqɵ n −1 Si conocemos más características de las variables aleatorias Y.1) S n (en la práctica.. para n>30) 9 . Yn son dicotómicas o binomiales.1) n Y → N (µ .σ 2 ) si σ 2 desconocida y−µ → tn −1 ≈ N (0. tiene las mismas propiedades mencionadas antes. conoceremos más propiedades de la media muestral. Y1. por p p= 1 n ∑ yi n i =1 yi = 0. tn −1 ≈ N (0. como media muestral que es.. sólo toman dos valores (0 y 1). para n > 30.que también tiene la propiedad de ser insesgado E (S2 ) = σ 2 de forma que la varianza de la media muestral se estima de forma insesgada por V ( y) = S2 n Cuando las variables Y. Yn.1) S n (en la práctica.σ 2 ) si y−µ σ σ 2 conocida → N (0. Y1.. Como antes. Así. aparte de las ya mencionadas. con una confianza del 95%. De forma que podemos conocer la probabilidad de que dicha variable tome determinados valores.un caso particular del anterior es Y → B (1. y . σ es desconocida y se estima por S . donde µ = p p− p ≈ pq n p− p n pqɵ n −1 n = p− p → N (0. 10 . 96 = 0.1) ɵ pq y= p (en la práctica. La primera: σ σ σ P −2 ≤ y−µ ≤2 = 0. y .95 σ n o en un caso más general y−µ P − Zα ≤ ≤ Zα = 1 − α σ 2 2 n α=nivel de significación 1-α=nivel de confianza Para un nivel de confianza del 95% (el más habitual) se suele redondear el anterior valor 1. o dicotómicas. En la práctica. por ejemplo (tomando una de las anteriores expresiones de la media muestral tipificada.96≈2. p ) sigue una distribución Normal o se puede aproximar por ella si el tamaño de la muestra es suficientemente grande. 95 n n n En esta expresión aparecen valores y expresiones fundamentales en las técnicas de estimación: 1-α=0. es el máximo error de estimación que se puede estar cometiendo. 95 ⇒ P y − µ ≤ 2 = 0. siendo válido lo que sigue también para las otras) y−µ P −1.95= nivel de confianza del 95%. 96 ≤ ≤ 1. p ) . De las probabilidades anteriores se puede hacer dos lecturas. 2 σ n = cota o límite para el error de estimación. y − µ = error de estimación o diferencia entre la estimación que hacemos. para n>30) n −1 Todo lo anterior puede resumirse diciendo que la media muestral (de variables numéricas. variable dicotómica. y el verdadero valor del parámetro que se quiere estimar. µ. y+2 y−2 n n 11 . 75 n resultado parecido al que obteníamos anteriormente σ P y−µ ≤ 2 = 0. Si dicha estimación puntual se acompaña de un margen de error (límite para el error de estimación) y de una medida de la certidumbre que se tiene en tal estimación (nivel de confianza). 1. Cuando estimamos el valor de un parámetro poblacional con el valor que ha presentado en una determinada muestra el estimador asociado. Pero qué ocurre si no es así. está garantizado). n n Todo lo anterior se puede asegurar si el estimador sigue una distribución Normal (si el tamaño de la muestra es suficientemente grande. Contrastes de hipótesis. utilizando muestras grandes. sea cual sea su distribución de probabilidad P X − µ ≤ kσ ≥ 1 − 1 k2 Aplicando lo anterior a la media muestral para k=2 se obtiene σ 1 P y−µ ≤ 2 ≥ 1 − 4 = 0. En ese caso la desigualdad de Tchebychev nos da la respuesta.2. 95 n salvo que en este caso lo más que podemos asegurar es que dicha probabilidad es mayor que 0.y+2 . hablamos de intervalo de confianza. 95 n n expresa la confianza que tenemos de que el verdadero valor del parámetro µ se encuentre σ σ entre los extremos del intervalo y − 2 . La desigualdad de Tchebychev asegura que si X es una variable aleatoria con media E ( X ) = µ y varianza V ( X ) = σ 2 .La segunda lectura: σ σ Py −2 ≤ µ ≤ y+2 = 0. n>30. el intervalo de confianza para la media poblacional µ con un nivel de confianza del 95% es S S . hacemos una estimación puntual. Por ejemplo.2 Estimación puntual.75. Intervalos de confianza. 1. 12 . se quiere contrastar la hipótesis nula H 0 : µ = µ0 con un nivel de significación del 5%. E (Y ) = p . por ejemplo.y+2 n n en cuyo caso se aceptaría la hipótesis nula. la cantidad de información necesaria para conseguirlo depende del tamaño de la muestra según la siguiente expresión 4 σ2 n = B2 ⇒ n = σ2 B2 4 = σ2 D . Si disponemos de S 2 de un estudio anterior podemos obtener el valor de n sustituyendo en la anterior expresión σ 2 por S 2 . 2 σ n = B . suponiendo p = 1 se obtiene un tamaño muestral conservador (mayor que el requerido para 2 obtener la cota del error de estimación fijada). D D= B2 4 En la práctica p se desconoce. Una aproximación se obtiene reemplazándolo por el valor estimado p obtenido en muestras preliminares. Si no se cuenta con información anterior. p ) .En ocasiones se quiere contrastar con los valores observados en una muestra la posibilidad de que el verdadero valor de un parámetro de la población sea un valor dado. V (Y ) = pq ).3 Determinación del tamaño muestral. Si se fija de antemano el máximo error de estimación que estamos dispuestos a aceptar en una estimación. D= B2 4 En la práctica la varianza poblacional σ 2 es desconocida. Si no se dispone de información previa para estimar la varianza podemos usar que en variables Normales el rango de la muestra es aproximadamente cuatro veces su desviación típica R σ≅ 4 R2 ⇔ σ ≅ 16 2 La proporción poblacional p es la media µ de una variable dicotómica ( Y ∼ B (1.2. rechazándose en caso contrario. Lo anterior equivale a comprobar si µ0 ∈ y − 2 S S . luego el problema de determinar el tamaño muestral se hace de forma análoga sustituyendo σ 2 por pq n= pq . 000225 4 n= ⌢ pq = 641. 000726 n −1 p ∈ (12. b) ¿Cuantas compras deberían observarse para estimar. d) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”.175 = 0.5 n= ⌢ pq = 1111. 45€ 13 .89% ) B = 2 V ( p) = 0. Basándose en los anteriores datos se observa que el valor total de las compras hechas con la tarjeta fue de 5.0539 b) B = 0.1.1 ≈ 1112 D d) n = 35 S 2 = 625 V ( y) = S 2 625 = = 17. 03 D= B2 = 0.825 n = 200 V ( p) = pqɵ = 0. Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado.11% . con un error inferior al 3%. a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta.600€ (siendo la cuasivarianza de los datos 625). Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. 03 D= B2 = 0. Solución: a) p= 1 n 35 yi = = 0.175 ∑ n i =1 200 qɵ = 1 − 0. cuántas compras deberíamos observar para asegurar que la anterior estimación se realiza con un error inferior al 3%.8571 n 35 y= 1 n 5600 yi = = 160€ ∑ n i =1 35 B = 2 V ( y ) = 8. la proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una muestra previa) c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta. 6 ≈ 642 D c) B = 0. 000225 4 p = q = 0. 22. Durante una semana observaron al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta.Ejemplo 1. p. V ( y ) = . con un 95% de confianza. tiene N elementos.p. (A) Estimación de la media poblacional.1 Estimación de la media. ≥ 0. pero si N se supone suficientemente grande el c. N N −n En la práctica el coeficiente c. ≅ 1.f.3.f. N Para calcular el límite para el error de estimación . Para estimar la media poblacional. se omite.f.p. 95 o lo N que es equivalente si n ≤ 5% N .d.) 1.1. salvo el coeficiente n N −n que se denomina coeficiente corrector para poblaciones finitas (c. Suponemos que la población es finita. proporción y total poblacionales. y además que la muestra se selecciona sin reemplazamiento (lo que suele ser habitual. se halla 2 V ( y ) .i. En muchos casos N no está claramente definido o se N −n desconoce. se utiliza la media muestral 1 n ∑ yi n i =1 Este estimador es insesgado y su varianza decrece conforme crece el tamaño de la muestra µ=y= ( ) E y =µ ( ) V y = σ2 N −n n N −1 En este tipo de muestreo la cuasivarianza muestral no es un estimador insesgado de la varianza de la población E (S2 ) = N σ2 N −1 N −1 2 E S =σ2 N De lo anterior se sigue que la varianza de la media muestral puede ser estimada insesgadamente por 2 N −1 2 1 N − n S N − n V y = S = N n N −1 n N ( ) S2 expresión igual a la del caso de poblaciones infinitas.3 Muestreo aleatorio simple en poblaciones finitas.). Igual que en el caso de poblaciones infinitas. µ. en caso contrario estaríamos ante el mismo modelo que el muestreo aleatorio simple en poblaciones infinitas con variables i. se habla de un nivel de confianza del 14 . suele despreciarse si está próximo a 1. 040. para no repetirnos más.000 cuentas abiertas con un intervalo de confianza al 95%. 1.96≈2.019.000 cuentas de las cuales se examinan 300. el límite para el error de estimación con una confianza del 95% está dado por 2 V (τɵ ) . En lo sucesivo se dará el valor de la varianza del estimador para los distintos tipos de muestreo. Suponga que existen 1. Para estimar el total poblacional. 49€ (1. τ.060. Estime el promedio de la deuda y el total de la deuda por cobrar para las 1. 49 ) τɵ = N y = 1000 ×1040 = 1. Valiendo comentarios análogos a los hechos anteriormente. dado que µ = τɵ = N y = N n τ N ⇔ τ = N µ utilizaremos el estimador n ∑y i =1 i .490€ (valor exacto 20.000 ∓ 20.9) (1. Para hallar su varianza usamos que V (kX ) = k 2V ( X ) . la referencia al límite para el error de estimación. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa.510 . por tanto: Varianza estimada de τɵ S2 N − n S2 V (τɵ ) = V ( N y ) = N 2 V ( y ) = N 2 = N ( N − n) n N n Como en el caso de la media. según la desigualdad de Tchevychev. 49 = 20.060.490 ) 15 .51 . La media muestral de las cuentas fue y = 1.019.000€2.490 ) = (1. 49 ) = (1. Solución: S n2−1 N − n 45000 1000 − 300 V ( y) = = = 105 n N 300 1000 2 V ( y ) = 2 105 = 20.493.040. Pero en algunos casos.040€ y la cuasivarianza muestral es S2=45. Ejemplo 1.2.95% cuando trabajamos con el coeficiente 1. 1.040 ∓ 20. sólo se puede asegurar que este nivel es mayor que un 75%. omitiéndose. (B) Estimación del total poblacional.000€ 2 V (τɵ ) = N 2 V ( y ) = 1000 × 20. (i = 1. τ 2 (número de estudiantes con algún tipo de trabajo) y los límites para los errores de estimación correspondientes.89 .100) las respuestas del i-ésimo estudiante seleccionado ( yi = 0 cuando Sean yi . teniendo en cuenta que S 2 = V ( p) = n pqɵ . 0821 (8.. • La proporción de ellos que tienen algún tipo de trabajo. análogamente para zi ).(C) Estimación de la proporción poblacional. es igual a n −1 S2 N − n pqɵ N − n = n N n −1 N Para estimar el total poblacional de una variable dicotómica usamos pqɵ V (τɵ ) = V ( N p ) = N 2 V ( p ) = N ( N − n) n −1 τɵ = N p Ejemplo 1. Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes para estimar • La proporción que votarán a un determinado representante de centro.. 25 = 225 16 p2 = ∑z i =1 i 100 V ( p2 ) = = 0.0018855 n −1 N 2 V ( p1 ) = 0. 100 ∑ yi = 70 Según la muestra i =1 100 ∑z i =1 i = 25 Usando los datos de la muestra. Para estimar la proporción poblacional p . Solución: 100 p1 = V ( p1 ) = ∑ yi i =1 100 100 = 0.. 0868 (8. 0016835 n −1 N 2 V ( p 2 ) = 0. 70 (70%) p1 qɵ 1 N − n = 0. 21%) 2 V (τɵ 2 ) = 900 × 0. 0821 = 73. 25 (25%) p 2 qɵ 2 N − n = 0.3. p2 (proporción de estudiantes con algún tipo de trabajo).. zi responden NO. dado que se trata de una media usaremos la media muestral con la siguiente notación en este caso p= 1 n ∑ yi n i =1 yi = 0. estime p1 (proporción de estudiantes que votarán a un determinado representante). yi = 1 cuando responden SI. 68%) τɵ 2 = N p 2 = 900 × 0. 1 su varianza estimada. Ejemplo 1. El número de observaciones necesarias para estimar µ con un límite para el error de estimación de magnitud B se obtiene resolviendo 2 V ( y ) = B ( ) 2 V ( y) = B ⇔ V y = V ( y) = σ2 N −n n N −1 =D ⇒ n= B2 =D 4 Nσ 2 ( N − 1) D + σ 2 Para estimar el total poblacional con un límite para el error de estimación B. suponiendo p = 1 se obtiene un tamaño muestral conservador (mayor que el 2 requerido para obtener la cota del error de estimación fijada).000€. Una aproximación al mismo se obtiene reemplazándolo por el valor estimado p obtenido en encuestas preliminares. p ) .000 cuentas por cobrar con un límite para el error de estimación de 10.4. E (Y ) = p .1. se llega a la misma expresión de n pero con D = 4N 2 Habitualmente la varianza poblacional σ 2 es desconocida.3.2 Determinación del tamaño muestral. V (Y ) = pq ). Si no se cuenta con información anterior. Si disponemos de S 2 de un estudio anterior podemos obtener el valor de n sustituyendo en la anterior expresión σ 2 por S 2 . Aunque no se cuenta 17 . Si no se dispone de información previa para estimar la varianza podemos usar que en variables Normales el rango de la muestra es aproximadamente cuatro veces su desviación típica R σ≅ 4 R2 ⇔ σ ≅ 16 2 La proporción poblacional p es la media µ de una variable dicotómica ( Y ∼ B (1. obteniéndose n= Npq ( N − 1) D + pq D= B2 (para la proporción) 4 D= B2 (para el total) 4N 2 En la práctica p se desconoce. luego el problema de determinar el tamaño muestral se hace de forma análoga sustituyendo σ 2 por pq. Encuentre el tamaño de la muestra necesario para estimar el valor total de 1. dado que B2 ɵ 2 V (τ ) = N 2 V ( y ) = B . También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un error de estimación del 5%. D2 = n2 = B22 (0. 40 = = 93.9%) n −1 N 353 3.000 − 354 =2 = 0. se sabe que la mayoría de las cuentas caen dentro del intervalo (600. 50 = = 353. 1. 000625 4 4 Np2 q2 3.5. 05)2 = = 0. 04 ≈ 354 ( N − 1) D2 + p2 q2 (2. 0025) + (0. se calcularán los tamaños muestrales que satisfacen los límites para el error de estimación fijados para cada estimación y finalmente el mayor de los dos será el tamaño de la muestra que satisface ambos límites.0002 = = 25 4 N 2 4 × 1.000 .999 × 0. Determínese el tamaño muestral que se requiere para estimar ambas proporciones con los límites de error especificados. La información previa disponible indica que el 60% preferían los exámenes en sábado. Solución: p1 = proporción de estudiantes que prefieren los exámenes en sábado. D1 = n1 = B12 (0.000 × 0.999 × 0.50 × 0. Los alumnos de TC3 de una facultad con 3. 40) p2 = proporción de estudiantes que apoyan al equipo decanal.000 × 0.50 × 0.10)2 = = 0. 05 ≈ 94 ( N − 1) D1 + p1q1 (2. Solución: D= B2 10.400). 40 3.0002 n= 4σ ≅ 800 ⇒ σ ≅ 200 ⇒ σ 2 ≅ 40. 50) para cumplir con ambos objetivos habría que tomar n=354 con lo que el límite para el error de la estimación de p1 disminuiría (con un 95% de confianza) hasta: 2 V ( p1 ) = 2 18 p1 qɵ 1 N − n 0. 60 × 0. 62 ≈ 616 ( N − 1) D + σ 2 Si se realizan dos mediciones (o más) sobre cada elemento de la muestra.con datos anteriores para estimar la varianza poblacional. 0489 (≅ 4. 60 × 0. Ejemplo 1. 0025 4 4 Np1q1 3. 60 × 0.000 Nσ 2 = 615.000 estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que están a favor de hacer los exámenes en sábado con un límite para el error de estimación del 10%. 000625) + (0. 40 3.89 ) + .10 ⇒ zα = 4.a. + ( 39 − 40.99995684.. + 39 = 40. es decir.98 . EJERCICIOS RESUELTOS 1. 60 × 0..91. 67 ≈ 36 compras B2 1 4 2. 40. se obtiene 0. 5 + .963 V y = n ( ) B = 2 V y = 3. Se han entrevistado 1.. 02445 = 0.5 − 40. Estime la proporción de vecinos que están en 19 . Se selecciona una m.o bien la cota del error de estimación del 10% se tiene con un nivel de confianza mucho mayor zα 2 V ( p1 ) = zα 2 0. elegidos aleatoriamente entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales.89 ) = 35. 44. porque 45 ∉ ( 36. prácticamente un nivel de confianza del 100%.87 ) b) No.5 39 a) Obtener un intervalo de confianza para el valor medio de las compras.98) = ( 36.89 € 9 ( ) 1 2 2 ( 33.87 ) c) n = σ2 B2 4 ≅ S 2 35.000 vecinos... b) ¿Podemos aceptar que la compra media es de 45€? c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€? SOLUCIÓN: a) µ = y = S2 = 33.s.000 − 354 p1 qɵ 1 N − n = zα = 0.89 − 3. 67 9 −1 ( ) S2 = 3. 44.10 2 n −1 N 353 3. 09 2 2 buscando en la tabla de la Normal (o con ayuda de la hoja de cálculo Excel. 4.09 . 655 manifestaron su opinión desfavorable. VALOR en € 33. de 9 compras de clientes de un centro comercial para estimar el valor medio de las compras por cliente.09).5 32 52 43 40 41 45 42.) la probabilidad comprendida entre (-4.89 + 3. 98 € ( 40. . 67 = = 35.000 zα 0.91.. el salario de los contratos temporales está comprendido entre 500 y 1.500 62.700 euros mensuales. 49% .000 = 62. los que poseen contrato fijo y los que tienen un contrato temporal.5% pqɵ 0. 51%) p ∈ (62. 01% (65. 65. 68. 68. 49% .200 y 2.5% − 3. 0301 ⇒ 3. 655 × (1 − 0.500 = = 25 10.000 90. 0002262012 n −1 999 2 V ( p) = 0. Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000 préstamos hipotecarios.200 n1 = n2 = σ 12 D1 σ 22 D2 = = σ 12 2 1 B 4 σ 22 2 2 B 4 Ri ≈ σi 4 250 300 σ i2 62.700-500=1. Existen razones para pensar que el préstamo hipotecario de menor 20 . El salario de los contratos fijos está comprendido entre los 1.000 p = 65.200-1. ¿Se puede afirmar que la mayoría de los habitantes están en contra? SOLUCIÓN: p= V ( p) = 655 = 0.200 euros mensuales. 655 ⇒ 1. El Centro de Estadística desea estimar el salario medio de los trabajadores de los invernaderos de una región. ¿Cuál debe ser el tamaño muestral total y su asignación para que se estime el salario medio de los contratos fijos con un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior a 120€?` SOLUCIÓN: Ri 2. 5% + 3. 01%) = (62.51%) ⇒ habitantes están en contra p > 50% ⇒ sí se puede afirmar que la mayoría de los 3. Se decide clasificarlos en dos estratos.000 = = 25 14.500 90.contra de los nuevos impuestos y establezca el límite para el error de estimación. 01% .000 100 2 4 4 = 90.200=1000 1. 655) = = 0.400 120 2 4 4 n = n1 + n2 = 50 4. n = 334 .1 ≈ 75 ( N − 1) D + σ 2 D= B 2 0.000 R = 11.002. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido sea del 2%? SOLUCIÓN: N = 110 R = 1. siendo de casi 11000 euros el de mayor cuantía.500 4 B 2 4002 = = 40.5 Para conseguir estimar los dos parámetros con los niveles de error especificados necesitamos un tamaño muestral igual al máximo de 140 y 334. Se desea estimar el salario medio de los empleados de una empresa y la proporción de empleados que apoyan a la actual directiva. 5.800 − 1.022 = = 0. La empresa tiene 110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros mensuales. 0001 4 4 21 . 000625 4 4 Npq n= = 333.000 4 4 Nσ 2 = 139.000 − 1.500 = 300 ⇒ σ ≅ D= R = 75 σ 2 ≅ 5625 4 B 2 102 = = 25 4 4 Nσ 2 n= = 74.200 = 9. 47 ≈ 334 ( N − 1) D + pq D= p = q = 0. ¿cuál es el tamaño muestral necesario para estimar estos dos parámetros: - la cuantía media de los prestamos cometiendo un error de estimación menor de 400 euros y - la proporción de préstamos pendientes de amortizar más de la mitad de la deuda cometiendo un error máximo del 5%? SOLUCIÓN: N = 2.052 = = 0. 65 ≈ 140 ( N − 1) D + σ 2 B 2 0.cuantía es de algo más de 1200 euros.800 ⇒ σ ≅ D= n= R = 2450 σ 2 ≅ 6. 5 n= Npq = 105. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. en 600 taxis se monta un dispositivo para disminuirlo. El consumo medio de combustible de los taxis de una ciudad es 5.p = q = 0. 4 ≈ 106 ( N − 1) D + pq 6. El número de bajas en el último año. SOLUCIÓN: a) N = 25 n=5 14 = 2. 2741 Nota: este apartado podrá resolverse de otra forma cuando estudiemos el muestreo por conglomerados. Puesto que se considera que el consumo es demasiado elevado. 4 ⇒ τɵ = N p = 10 5 pqɵ 0. Véase ejercicio 10 de la relación del capítulo 6) b) 2 = 0.8 ⇒ τɵ = N y = 70 y= 5 S2 12. b) Estime el número de empresas que usarían los servicios ofertados. Calcule el límite para el error de estimación. 7 = 25 × 20 = 1270 V (τɵ ) = N ( N − n) n 5 B = 2 V (τɵ ) = 71. Pasado cierto tiempo se toma una muestra aleatoria de 20 22 . Para ello decide seleccionar una muestra de 5 de las 25 inscritas en el registro mercantil. el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No a) Estime el número de bajas en el último año en las empresas del pueblo.6 litros cada 100 Km. 24 V (τɵ ) = N ( N − n) = 25 × 20 = 30 n −1 4 B = 2 V (τɵ ) = 10. Calcule el límite para el error de estimación.9545 p= 7. 1 19 5.5 7 5.4 20 6. por tanto p= 15 = 0 '75 20 V ( p) = pqɵ N − n 0 '75 × 0 ' 25 580 = = 0 '00954 n −1 N 19 600 2 V ( p) = 0 '1953 ( 0 '75 − 0 '1953 .2 18 4. elegidos entre los 600 que colocaron el dispositivo.taxis.7 4 3. 0 '9453) b) B = 0 '10 D= ( 0 '10 ) n= 4 ( 55'47% . Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas abiertas.4 12 6. se recoge en la siguiente tabla Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5.9 9 4.8 5 4.3 11 3.50 32.6 litros/100 Km.50 Estime el total del dinero adeudado y establezca un límite para el error de estimación.4 6 6.00 43.2 a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo inferior a 5. 0 '75 + 0 '1953) = ( 0 '5547 .8 3 6.5 10 4. 94 '53% ) 2 = 0 '0025 Npq 600 × 0 '75 × 0 '25 = = 66 '77 ≈ 67 ( N − 1) D + pq ( 599 × 0 '0025 ) + ( 0 '75 × 0 '25) 8.9 8 5 13 5.00 41. Los valores de la muestra para estas seis cuentas son los siguientes: Dinero adeudado (€) 35.5 14 5. b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error menor o igual que un 10%? SOLUCIÓN: a) 15 de los 20 taxis no superan el consumo de 5’6 litros/100 Km. El consumo en litros de combustible por cada 100 Km.4 15 5.6 16 5.00 42. 23 .7 17 4.00 44.4 2 5. 00044359197 2 V ( p ) = 0.00 1936. según la guía de teléfonos más reciente. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas ∑x 2 ∑x x σ n = sx σ n = sx = desviación típica σ n − 1 = Sx de forma inmediata. 02 n 6 Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común. n=300 p= 24 51 pqɵ N − n = 0. se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad.50 n ∑y i =1 i n ∑y = 238.00 42.00 41.SOLUCIÓN: yi2 1260. realizado en una pequeña ciudad.17 qɵ = 1 − p = 0. en 51 habita al menos una persona mayor de 65 años. 0421 300 n −1 N 25% ∉ (17% ∓ 4.50 32.00 1849. En un estudio sociológico.50 − = 23. Al terminar la investigación de campo.00 1806.00 43.25 yi 35.00 1681. 79%. 21% ) . de los 300 hogares muestreados. Contraste la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. SOLUCIÓN: N=5000.83 V ( p ) = = 0. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía.00 44.1667 n −1 5 6 2 S 23.00 i =1 τɵ = N y = 2 i N n = 9556. 21% ) = (12.25 1024. La ciudad tiene 5000 hogares.1667 2 V (τɵ ) = 2 N ( N − n) = 2 100(100 − 6) = 381. σ n − 1 = S x = cuasidesviación típica 9.6 6 2 S2 = ( 1 n ∑ yi − y n − 1 i =1 ) 2 n ∑ yi n yi2 − i =1 ∑ 1 2382 n = i =1 = 9556. 21.50 n ∑y i =1 i = ⌢ 100 238=3966. n=50 2 y= 1 n 1450 yi = = 29 ∑ n i =1 50 τɵ = N y = 20.3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del taller para terminar dicha tarea es inferior a 6 minutos? SOLUCIÓN: (con las funciones del modo SD de la calculadora ) N=45.34 .040.340. por tanto no V ( y) = podemos aceptar esa hipótesis. 66 ) = (17. 26 n i =1 S2 = ( 1 n ∑ yi − y n − 1 i =1 ) 2 = 2.91 min .340 Previsión más pesimista: 17.496 ¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas recogidas para la petición? SOLUCIÓN: N=700. El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un operador para terminar una tarea sencilla.luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años.300 n ∑ yi n yi2 − i =1 ∑ n S 2 = i =1 = 254 n −1 2 S V (τɵ ) = N ( N − n) = 2.259. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las hojas se ha obtenido un número menor. 11.35 Intervalo de confianza : ( 3. 563 S2 N − n = 0. 66 ( 20.450.040. 66 ) Previsión más optimista: 23.1 7. Los resultados obtenidos son los siguientes: Tiempo(minutos) 4.400 n B = 2 V (τɵ ) = 3. i =1 50 ∑Y i i =1 2 = 54. 23.) n N Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza.2 5. 10.311. 6. Contando el número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los siguientes resultados: 50 ∑ Yi = 1. 4556 2 V ( y ) = 1.9 3. una asociación filantrópica ha solicitado firmas para una petición en 700 hojas.300 ∓ 3. Con objetivos benéficos.8 5. 61 min .. El taller tiene 45 operadores. n=5 y= 1 n ∑ yi = 5.259 25 . Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo. Los estratos deben formarse de manera que los elementos de cada estrato sean lo más homogéneos que se pueda entre sí (más homogéneos que el conjunto de la población) y las diferencias entre un estrato y otro sean las mayores posibles.2.3 Asignación Proporcional.5 Estratificación después de seleccionar la muestra. Otras ventajas adicionales que presenta este tipo de muestreo son las siguientes: A veces los estratos se corresponden con zonas compactas bien definidas con lo que se reduce el coste de la muestra. 2.1 Selección de una muestra aleatoria estratificada.1 2. Muestreo aleatorio estratificado. a la derecha para la muestra): L = número de estratos N = tamaño de la población n = tamaño de la muestra N i = tamaño del estrato ni = tamaño de la muestra del estrato i L L N = ∑ Ni n = ∑ ni µi = media poblacional del estrato i y i = media muestral del estrato i i =1 τ i = total poblacional del estrato i 26 i =1 . y la selección posterior de una muestra aleatoria simple en cada estrato.1 Asignación Óptima. 2.3 2. 2. este muestreo permite hacer estimaciones de los parámetros poblacionales para los estratos.4.2 Asignación de Neyman.2 2. Determinación del tamaño muestral. Esta forma de construir los estratos conduce a muestras con poca variabilidad entre las mediciones que producirán pequeñas varianzas de los estimadores y por tanto menores límites para los errores de estimación que con otros diseños de la muestra.4.4. Antes de continuar fijemos la notación que va a utilizarse (a la izquierda para la población. Estimación de la media. Asignación de la muestra. Además de las estimaciones para toda la población. Una muestra aleatoria estratificada se obtiene mediante la separación de los elementos de la población en conjuntos que no presenten intersección. 2. llamados estratos. proporción y total poblacionales. 2. 2.4 Selección de una muestra aleatoria estratificada. σ i2 = varianza poblacional del estrato i Si2 = cuasivarianza muestral del estrato i pi = proporción poblacional del estrato i p i = proporción muestral del estrato i ci = coste de una observación del estrato i 2. proporción y total poblacionales.a. sabemos que en cada estrato L L i =1 i =1 N i y i es un estimador insesgado del total τ i .s.2 Estimación de la media. En cada estrato se ha realizado un muestreo aleatorio simple.) Varianza estimada de y st 1 L 2 1 L 2 Si2 N i − ni N V ( y ) = ∑ ∑ Ni n N i i N 2 i =1 N 2 i =1 i i Se obtiene aplicando que la varianza de la suma de variables independientes es la suma de V ( y st ) = sus varianzas y que V (kX ) = k 2V ( X ) . salvo las diferencias de notación ya comentadas en la lección anterior. estimaremos τ = ∑ τ i por τɵ st = ∑ N i y i media poblacional µ = τ N mediante y st = 1 N y la L ∑N i =1 i yi y st ≠ y en general ( y = media muestral de las n observaciones) NOTA: τɵ st ≠ τɵ en general ( τɵ = N y = estimador del total según un m. Varianza estimada de τɵ st L S2 N − n V (τɵ st ) = N 2 V ( y st ) = ∑ N i2 i i i ni N i i =1 En el caso de variables dicotómicas los estimadores de la proporción y total poblacionales así como sus varianzas toman valores similares a los anteriores. Estimador de la proporción poblacional p p st = 1 N L ∑N i =1 i pi Varianza estimada de p st V ( p st ) = 1 N2 L ∑ Ni2 V ( pi ) = i =1 1 N2 L ∑ Ni2 i =1 pi qɵ i N i − ni ni − 1 N i 27 . y 9 del barrio C. se decide realizar una encuesta por muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas del municipio. Éste está formado por tres barrios con diferentes perfiles socio-culturales que afectan a la audiencia televisiva. para: a) Los hogares del barrio A. 74 A partir de estos valores calculamos las varianzas de los estimadores de la media en cada estrato y los límites para los errores de dichas estimaciones N1 = 210 N 2 = 84 N 3 = 126 N = N1 + N 2 + N 3 = 420 28 . 67 horas / semana y 2 = 28. se muestran en la siguiente tabla: BARRIO A 36 34 26 39 38 32 38 37 29 28 41 35 29 37 41 BARRIO B 20 25 30 14 41 39 BARRIO C 14 22 15 17 21 11 20 14 24 Estime el tiempo medio que se ve la televisión y el límite para el error de estimación.Estimador del total poblacional τ L τɵ st = N p st = ∑ N i pi i =1 Varianza estimada de τɵ st L p qɵ N − n V (τɵ st ) = N 2 V ( p st ) = ∑ N i2 i i i i ni − 1 N i i =1 Ejemplo 2. 24 S 22 = 112.1.57 S32 = 19. con mediciones del tiempo que se ve la televisión en horas por semana. 23 S 2 = 92. Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. d) Todos los hogares Solución: en primer lugar se calculan las medias y cuasivarianzas muestrales en cada estrato y1 = 34. 6 del barrio B. Hay 210 hogares en el barrio A. 28 y = 28. La empresa publicitaria tiene tiempo y dinero suficientes para entrevistar 30 hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A. Se está interesado en determinar la audiencia de la publicidad televisiva en una cadena local de un municipio. 56 h / s S12 = 23. 84 en el barrio B y 126 en el barrio C. en horas por semana. c) Los hogares del barrio C. Los resultados. b) Los hogares del barrio B.17 h / s y 3 = 17. 6667 9 La estimación puntual de la proporción de hogares del municipio donde se ve el programa es 1 3 ∑ Ni pi = 0.82 h / s Para el conjunto de todos los hogares el estimador de la media es 1 3 ∑ Ni y i = 28. si se prefiere. para decidir la conveniencia de insertar un anuncio en los intermedios del mismo. La respuesta a la pregunta de si ven dicho programa en los hogares de la muestra anterior se recoge a continuación: BARRIO A BARRIO B BARRIO C SI NO SI SI SI NO SI SI SI SI NO SI SI NO NO NO SI SI SI NO SI NO SI NO NO SI NO NO SI SI Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el programa.173 29 . 60 N i =1 la varianza y error de estimación asociados son p st = V ( p st ) = 1 N2 3 ∑N i =1 2 i pi qɵ i N i − ni = 0. 99 n3 N 3 2 V ( y1 ) = 2. 42 n2 N 2 S32 N 3 − n3 V ( y3 ) = = 1.n1 = 15 n2 = 6 n3 = 9 n = n1 + n2 + n3 = 30 S12 N1 − n1 V ( y1 ) = = 1.8333 6 p3 = 6 = 0. En el caso anterior. 44 n1 N1 S 22 N 2 − n2 V ( y2 ) = = 17. 23 h / s N i =1 y la varianza de este estimador la podemos calcular basándonos en las varianzas de los y st = estimadores de la media en cada estrato mediante 1 V ( y st ) = 2 N 3 ∑N i =1 2 i V ( y i ) = 1. 00748 ni − 1 N i 2 V ( p st ) = 0. también se desea saber qué proporción de hogares ven un determinado programa. Solución: en primer lugar se calculan las proporciones muestrales en cada estrato p1 = 7 = 0. utilizando 1 3 2 Si2 N i − ni ∑ Ni n N N 2 i =1 i i el error para la estimación de la media para todos los hogares está dado por V ( y st ) = 2 V ( y st ) = 2. 40 h / s 2 V ( y 2 ) = 8. 4667 15 p2 = 5 = 0. 22 h / s Ejemplo 2.2.35 h / s 2 V ( y 3 ) = 2. 24 o. 4 4N 2 . 77. No podemos despejar el valor de todos los ni de una sola ecuación a menos que conozcamos la relación entre los ni y n . para poder usar la anterior ecuación necesitamos conocer las varianzas poblacionales de los estratos o valores aproximados de ellas. En el caso de variables dicotómicas se obtiene una expresión similar. sustituyendo ni = nωi en V ( y st ) se puede despejar n en función de los ωi obteniendo el tamaño muestral aproximado que se requiere para estimar µ con un límite para el error de estimación B. L ∑ n= i =1 N i2σ i2 ωi L N 2 D + ∑ N iσ i2 i =1 2 B D= 4 B2 y la misma expresión vale para el total tomando D = . 7%.3 Determinación del tamaño muestral.3% ) 2.y el intervalo de confianza expresado en porcentajes es ( 60% ∓ 17. 4N 2 Al igual que en el m. para lo cual se pueden usar las cuasivarianzas muestrales de una muestra previa o basarnos en el rango de variación de las observaciones dentro de cada estrato. viene dado por 2 V ( y st ) = B donde V ( y st ) = L 1 N2 ∑N i =1 2 i σ i2 N i − ni ni N i − 1 .3% ) = ( 42. El tamaño muestral para conseguir un límite para el error de estimación de la media.a.s. Hay diversas formas de asignar el tamaño muestral n en los diferentes estratos (problema de la asignación de la muestra que estudiaremos a continuación). B. teniendo en cuenta que en este caso particular σ i2 = pi qi L ∑ n= i =1 N i2 pi qi ωi L N 2 D + ∑ N i pi qi i =1 D= 30 B2 B2 (para estimar p) y la misma expresión vale para el total tomando D = . B. El mejor esquema de asignación está influido por: • El número total de elementos en cada estrato.4. 2. D = (para estimar el total). La asignación que minimiza el coste para un límite para el error de estimación fijado.1 Asignación Óptima. pequeño error de estimación) al menor coste posible. • El coste de obtener una observación en cada estrato. se denomina asignación Óptima y está dada por N jσ j cj ωj = L ∑ i =1 N iσ i ci sustituyendo los ω j en la expresión que obteníamos antes para n se tiene el tamaño total de la muestra según la asignación Óptima L L ∑ Ni σ i ci ∑ i =1 n= i =1 Ni σ i ci L N 2 D + ∑ N iσ i2 i =1 En el caso dicotómico las anteriores expresiones toman los valores pjq j cj Nj ωj = L ∑N i =1 i L ∑N n= i =1 pi qi ci L i ∑N pi qi ci i =1 i pi qi ci L N 2 D + ∑ N i pi qi i =1 B2 B2 D= (para estimar la media o p). 4 4N 2 31 . • La variabilidad de las observaciones en cada estrato. Hay diversas formas de asignar el tamaño muestral n en los distintos estratos.4 Asignación de la muestra.2. El objetivo del diseño de una encuesta por muestreo es proporcionar estimadores con varianza pequeña (por tanto. n. En este caso la asignación Óptima también es la respuesta y el tamaño total de la muestra.2 Asignación de Neyman. coincide el valor de las varianzas en cada uno de los estratos. a veces. las expresiones de la asignación Óptima se simplifican y transforman en: Caso numérico N jσ j ωj = L ∑Nσ i i =1 i 2 (∑ N σ ) L n= i i =1 i L N 2 D + ∑ N iσ i2 i =1 Caso dicotómico ωj = N j pjqj L ∑N i =1 (∑ N i pi qi 2 L n= i =1 i pi qi ) L N 2 D + ∑ N i pi qi i =1 A este tipo de asignación se le denomina de Neyman que coincide con la asignación Óptima solamente cuando los costes de observación son iguales en todos los estratos. las expresiones de la asignación Óptima y de Neyman se simplifican y reducen a 32 .4.4. 2. Si además de los costes.En algunas ocasiones interesa encontrar la asignación que minimiza el error de estimación para un coste total fijo de obtención de la muestra. viene dado por: N iσ i ci L C∑ n= i =1 L ∑Nσ i i =1 ci i Análogamente para el caso dicotómico sustituyendo σ i = pi qi .3 Asignación Proporcional. C. sencillamente no se conocen. Cuando los costes de observación de cada estrato son los mismos. Esta asignación se utiliza aún cuando los costes de observación no son idénticos. 2. y st = y (análogamente para p st y el total).50 ⇒ n2 = 20 Aún tomando el mayor de los tamaños muestrales (100) y pasando la encuesta a 10 individuos del estrato 1 y 90 del estrato 2 no tenemos garantizado que se satisfaga el error de estimación fijado para la segunda estimación que necesita al menos 20 individuos de cada estrato.Caso numérico Nj ωj = N L n= ∑N σ i i =1 ND + 1 N 2 i L ∑Nσ i i =1 2 i Caso dicotómico Nj ωj = N L n= ∑N pq i i =1 ND + 1 N i i L ∑N pq i =1 i i i La asignación Proporcional puede y suele utilizarse cuando las varianzas y costes de observación no son iguales para cada estrato.50 ⇒ n1 = 20 ω2 = 0.90 ⇒ n2 = 90 2ª estimación: n = 40 ω1 = 0. Con la asignación Proporcional y tomando como n el máximo de los valores encontrados para cada estimación se resuelve el problema como puede verse en el siguiente ejemplo: En la asignación Óptima y en la de Neyman los ωi dependen de las varianzas y pueden ser distintos de una variable a otra 1ª estimación: n = 100 ω1 = 0. Cuando se observa más de una variable en cada unidad muestral para estimar más de un parámetro poblacional aparecen complicaciones en la asignación y determinación del tamaño muestral. 33 .10 ⇒ n1 = 10 ω2 = 0. por la simplicidad de los cálculos y por las ventajas que presenta frente a los anteriores tipos de asignaciones: Cuando se utiliza la asignación Proporcional el estimador y st coincide con la media muestral de la muestra que reúne a todas las muestras de cada estrato. Ejemplo 2. 5 30 420 6 84 = = 0. 28 . c) Supóngase que se tiene sólo 600€ para gastar en el estudio. 24 34 2 σ 2 = S22 = 112.1 a) ¿Qué tipo de asignación se ha utilizado? Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un barrio que en otro. determine el tamaño de la muestra y la asignación que minimizan el error de estimación. tómese los datos de la tabla como una muestra previa para estimar las varianzas de los estratos). Se estima que el coste de una observación del barrio A es de 1€. se tiene garantizado que se cumple con los límites para el error fijados para todas las estimaciones. 70 ⇒ n2 = 70 2ª estimación: n = 40 ω1 = 0. así si en dos estimaciones para los niveles de error requeridos tenemos lo siguiente 1ª estimación: n = 100 ω1 = 0. b) Según los datos anteriores estimamos las varianzas de cada estrato por 2 σ 1 = S12 = 23. Solución: a) Podemos comprobar que se cumple ni = ni N i = n N Ni N n ωi = i ∀i N N o equivalentemente que ∀i 15 210 = = 0.En la asignación Proporcional no ocurre lo anterior pues los ω j = Nj N son iguales para todas las variables al no depender de sus varianzas. (Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios).56 2 σ 3 = S32 = 19. 70 ⇒ n2 = 28 tomando como n el máximo de los dos (y en general para k variables). (Como en el apartado anterior. 3 30 420 luego la asignación utilizada ha sido la Proporcional. b) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la semana que se ve la televisión en los hogares del municipio con un error inferior a 1 hora. 9€ para el barrio B y 4€ para el barrio C.30 ⇒ n1 = 12 ω2 = 0. 2 30 420 9 126 = = 0.3 Continuando con el ejemplo 2.30 ⇒ n1 = 30 ω2 = 0. 6383 N iσ i ∑ ci i =1 n1 = nω1 = 79. 75 ≈ 126 n2 = 0. 25) + 16764.1744 n3 = nω3 = 21.1873n = 37.8208 10.1744n = 34.57 4792.5068 4792.28 16764. 35 . 71 ≈ 80 ω2 = 0.72 B2 1 = = 0.3909 1 3 2 1012.6267 1586.368 297.6094 4.4 9455. 25 4 4 3 ∑N σ n= i =1 i Ni σ i ci 3 ∑ ci i i =1 3 N 2 D + ∑ N iσ i2 = 4792. 63 ≈ 34 o bien resolviendo la ecuación c1n1 + c2 n2 + c3 n3 = 600 donde ni = ωi n c1ω1n + c2ω2 n + c3ω3 n = 600 n= 600 600 = = 198. 4436 y la asignación de la muestra en cada estrato está dada por la asignación Óptima n1 = 0.5688 1106.57 c1ω1 + c2ω2 + c3ω3 3.89 ( 4202 × 0.368 2673. 0216 A partir de n se obtienen los ni = ωi n según la asignación Óptima. 4436 × 1586.4436 N iσ i ci 1012. 78 ≈ 22 n = 80 + 24 + 22 = 126 c) En el supuesto de que se disponga sólo de 600€ para realizar el estudio N iσ i ci 3 600∑ n= i =1 3 ∑Nσ i =1 i i ci = 600 × 1586.1873 n2 = nω2 = 23.0579 N iσ i2 4880. 0579 = 124.19 ≈ 37 n = 126 + 37 + 34 = 197 n3 = 0. 0679 = 198. 6383n = 126.D= Ni σi ci N iσ i ci 210 84 126 420 4.39 ≈ 24 ω3 = 0.04 2429. 72 i =1 N1σ 1 c ω1 = 3 1 = 0.0632 276. 98 ≈ 41 420 n = 103 + 41 + 62 = 206 36 = 204.9342 104. 439 ≈ 103 análogamente n2 = 40.5 0. 000625 ) + 420 210 = 102. (Supóngase que se realiza la entrevista por teléfono y el coste de las observaciones es el mismo para todos los casos al no ser necesarios los traslados.9342 i =1 n1 = nω1 = n N1 p1q1 = 188.4699 B 2 0. 7669 = 101.9986 91.2 a) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un error inferior al 5%. 42 ≈ 58 ⇒ n = 102 + 31 + 58 = 191 b) Ni 210 84 126 420 pi 0.8333 0.1667 0. 29 ≈ 102 195. Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios) b) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna información previa sobre la proporción de hogares donde se ve el programa.878 ∑N pq i =1 1 ND + N i i i L ∑N pq i =1 i i i = 105 105 ( 420 × 0.4 Continuando con el ejemplo 2.3075 59.2671 11.5 qi 0.5 0. 46 ≈ 62 .5 105 L n= n1 = 204.3955 195. 052 D= = = 0.5 0. Solución: a) Ni pi qi N i pi qi N i pi qi 210 84 126 420 0.5333 0. 46992 = 188.4667 0.6667 0.7669 31. 000625 4 4 (∑ N 2 3 n= i =1 i pi qi ) 3 N 2 D + ∑ N i pi qi = 195.878 n3 = 61.Ejemplo 2.5 21 31. 27 ≈ 31 pi qi 104.5 N i pi qi 52.6685 27.3333 52. 4699 n3 = 57.5 0. 000625) + 91.98 3 ∑N i =1 i análogamente n2 = 30.98 ( 4202 × 0. 25 N N4 = 0. 25 × 498 ) = 500. Solución: y st = 1 N N1 = 0. el 30% en el municipio 2.67 Estrato 2 490 500 470 520 550 500 y 2 = 505 S22 = 750 Estrato 3 540 480 500 470 470 Estrato 4 450 560 460 440 580 y 3 = 492 S32 = 870 y 4 = 498 S42 = 4420 Estime el consumo anual medio por hogar y fije un límite para el error de estimación. n1 = n Estrato 1 470 510 500 550 y1 = 507.5 S12 = 1091. 25 N Ni y i = ( 0. Este problema queda bien ilustrado con el siguiente ejemplo. efectivamente y= 1 20 10010 yi = = 500. 5 ) + ( 0. la cual conduce a N1 = 20 × 0. 25 × 492 ) + ( 0. en un estudio regional también se quieren obtener estimaciones a nivel provincial) frente al objetivo de minimizar los errores de los estimadores. el 25% en el municipio 3 y el 25% restante en el municipio 4. 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 . 20 N 4 4 i =1 i =1 ∑ Ni y i = ∑ N2 = 0. Se sabe que el 20% de la población de la comarca vive en el municipio 1.30 × 505 ) + ( 0. Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste del muestreo es el mismo en cada municipio.El muestreo estratificado no siempre conduce a un estimador con menor error de estimación. decide aplicar asignación Proporcional. esto suele ocurrir cuando los estratos no están formados por elementos suficientemente homogéneos.30 N N3 = 0. Muchas veces es debido a que predomina el deseo de obtener estimaciones en cada estrato (por ejemplo.5€ N Obsérvese que cuando se utiliza la asignación Proporcional y st = y . 20 × 507. El distribuidor tiene medios suficientes para controlar y obtener datos sobre el consumo anual de 20 hogares. N Obteniendo los resultados de la tabla siguiente (consumo expresado en euros). Para estimar de paso también el consumo en cada municipio decide usar muestreo estratificado tomando cada municipio como un estrato.5 Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un año de un determinado producto en una comarca formada por cuatro municipios.5€ ∑ n i =1 20 37 . Ejemplo 2. 2. 79 = = 76. . podemos usar y st siempre que Ni sea conocido para todo i. es decir. 44 € Se observa que el error de estimación es menor en el caso del muestreo aleatorio simple. los medianos en otro. los mismos 20 de la tabla anterior. 30 + 0. colocando los hogares pequeños en un estrato. pero la varianza estimada y error de estimación asociados tomarían los valores S n2−1 = 1520. 25 + 0. 5 € n i =1 que coincide con el estimador del muestreo estratificado por las razones mencionadas anteriormente.. A veces no se sabe a qué estrato pertenece un dato hasta que no se observa (por ejemplo. 79 V ( y) = S n2−1 N − n 1520. pero 38 .En la siguiente expresión consideramos los coeficientes correctores para poblaciones finitas en cada estrato iguales a la unidad 1 V ( y st ) = 2 N 2 4 2 N i Si2 Si2 N i − ni N i2 Si2 N =∑ 2 = ∑ = ∑ ni N i ni i =1 i =1 N i =1 N ni 4 2 i 1091. esto es. entonces el estimador de la media hubiera sido y= 1 20 ∑ yi = 500. Pudo haber obtenido un error menor si hubiera estratificado en base al tamaño de las familias u hogares. 29 4 6 5 5 2 V ( y st ) = 18. ya que varían de una muestra a otra aunque n sea fijo.5 Estratificación después de seleccionar la muestra. estratos según sexo y entrevista telefónica).. 79 € Supongamos que el distribuidor hubiera decidido tomar una muestra aleatoria simple de 20 hogares. se supone N −n ≅1 N 2 V ( y ) = 17. esto es debido a que el distribuidor no tuvo en cuenta que el consumo varía mucho dentro del cuarto municipio.. 25 = 88. N Obsérvese que en esta situación los ni son aleatorios. Entonces en lugar de usar y para estimar µ . 67 2 750 2 870 2 4420 = 0. Luego esto no es una muestra aleatoria estratificada en pleno sentido. formando los estratos con hogares que tengan un consumo similar. 04 n N 20 . 202 + 0. La muestra puede ser dividida en n1 masculinos y n2 femeninos después de que ha sido realizada. Supóngase una muestra aleatoria simple de n personas para una encuesta. 6 En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90 Obtenga una estimación del valor medio de la factura de electricidad en la ciudad y el límite para el error de estimación. Este método no debe usarse si Ni o una buena aproximación de su valor se desconocen. 70 ∑ = 159.5€ 60 2 2 i =1 i =1 ∑ Ni y i = ∑ 1 V ( y st ) = 2 N y2 = 2080 = 52€ 40 Ni y i = (0.24€ A veces este método de estimación se utiliza para ajustar por no respuesta. 39 .30 + 0. y1 = y st = 1 N 5730 = 95.60=60/100) está muy alejada de la proporción verdadera (0. 225 N 2 ni ni 60 40 i =1 N 2 V ( y st ) =25. entonces la proporción de varones en la muestra va a ser pequeña. 05€ N 2 Si2 N i − ni N i2 Si2 N i − ni N =∑ 2 ∑ ni N i ni N i i =1 i =1 N 2 2 i omitiendo el coeficiente corrector por poblaciones finitas se tiene 2 V ( y st ) = ∑ i =1 2 2 2 2 N i Si2 N i2 Si2 2 200 2 90 = = 0. 70 × 52) = 65. Además el procedimiento se justifica pues tanto n1 como n2 superan 20. 30 × 95. Por ejemplo. N Ejemplo 2. Solución: Ya que la proporción observada de facturas de hogares con calefacción eléctrica (0. si muchos de quienes no respondieron a una muestra aleatoria simple son varones. y se podría conseguir un estimador ajustado mediante la estratificación después del muestreo. entonces este método de estratificar después de la selección N es casi tan exacto como el muestreo aleatorio estratificado con asignación Proporcional. es conveniente la estratificación después de que se ha seleccionado la muestra aleatoria simple.5) + (0.30).si Ni es conocido y ni ≥ 20 ∀i . 000 ci L C∑ = i =1 N iσ ci L Cσ ∑ = L ∑Nσ i =1 ci 10 30 i ci i =1 L L Ni ci σ ∑ N i ci i =1 Ni ci 2.784.028.9397 = 1677.10>>65.846.05/3.000 tienen teléfono.028. Las entrevistas por teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado.624=0.028.81 33.Así.477.028.846.574/3.624 Ni ci C∑ = i =1 L ∑N i =1 i ci = 20.05 182.81× 0.5 2.726 n1 = nω1 = 1. Suponga que las varianzas en los estratos con y sin teléfono son iguales.624=0.460.0000 .574 3. 9.000 hogares de la ciudad.81× 0.000 × 3.937. Se sabe que de los 10. 0603 = 107. en este ejemplo la baja representación en la muestra de facturas sin calefacción eléctrica y la alta de facturas con calefacción eléctrica conducen a una sobreestimación del valor medio de las facturas si se utiliza muestreo aleatorio simple y no se ajusta la estimación de la media con la estraficación después de seleccionar la muestra: y= 5730 + 2080 7810 = = 78.000 euros para realizar una encuesta sobre el número medio de coches por hogar.9397 5. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente? SOLUCIÓN: L C∑ n= i =1 N iσ i ci L ∑Nσ i =1 i i Ni 9. 726 N i ci 28.226 182.0603 33.10€ 60 + 40 100 Con el muestreo aleatorio simple sobrevaloraríamos el consumo medio de electricidad por hogar (78.05).937. 624 = 1784.784. 2 ≈ 1677 n2 = nω2 = 1. Un analista de la opinión pública tiene un presupuesto de 20.000 10. 59 ≈ 107 n = n1 + n2 = 1784 40 ωi 1. EJERCICIOS RESUELTOS 1.000 1. 000 = 1.107 = 2. Se desea conocer el número de fines de semana que las familias de una gran ciudad salen fuera de ella. 2.000 c1ω1n + c2ω2 n = 20. 01 2 78. 206n = 20. 425 × 9. Omitir el corrector por población finita. 24 = 0.56 25 L L i =1 i =1 ∑ Ni y i = ∑ y2 = 174 = 9.784. Los resultados se resumen en la tabla adjunta: 41 .O bien c1n1 + c2 n2 = 20.16 ) + ( 0. 4252 + 0. SOLUCIÓN: y1 = y st = Si 1 N 239 = 9. 275 = 1. 397 n + 1.30 + 0. 56 ) + ( 0. obteniéndose los siguientes datos: Número de hijos ni n ∑ yi S i2 i =1 0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24 Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y dar el límite de error de estimación. el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos.15 N N i − ni 1 = 1 ⇒ V ( y st ) = 2 Ni N Si2 N i − ni 1 N = 2 ∑ ni N i N i =1 L 2 i 2 2 L L Si2 N i2 Si2 N i Si N =∑ 2 =∑ = ∑ ni ni i =1 i =1 N i =1 N ni L 2 i 60. 30 × 9.16 19 y3 = 78 = 4. 275 × 4.87 ) = 8.809n = 11.000 20.87 16 Ni y i = ( 0.8 = n 11. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto. 77 2 63.107 25 19 16 2 1.000 9. Se realizó un muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana que pasan fuera. 206 Y a partir de n se obtienen n1 y n2 como antes. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos.1 3. Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro barrios. 8 0.8 S i 0. b) Si se asigna la muestra de 100 hogares de la mejor forma. Para ajustar sus tarifas desea estimar el gasto en pequeñas reparaciones de mantenimiento (objeto del seguro) de dichas empresas.82 ≈ 45 4.9 3.9 1. (Suponga iguales los costes de observación) SOLUCIÓN: a) L N = ∑ N i = 1000 y st = i =1 1 N L ∑ Ni y i =3. 2 = (240 × 0. 725 i =1 B = 2 V ( y st ) = 0.9) + (350 × 1. El número de empresas de cada tipo. 42 .9223) 350 × 1. Una empresa especializada en seguros está pensando en ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad.7 a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del nuevo servicio. 3.8) + (190 × 0. 00973 ni N i µ ∈ ( 3.Barrio 1 2 3 4 N i 240 190 350 220 ni 25 25 25 25 y i 3.6 3. 2) + (220 × 0. determine cuántos pertenecerían al barrio 3. el coste de obtención de esta información en cada empresa así como los valores mínimos. 7) i = 100 × 0.1973 b) n3 = nω3 = 100 N 3σ 3 = 100 4 ∑Nσ i =1 i V ( y st ) = 1 N2 L ∑ Ni2 i =1 Si2 N i − ni = 0.5 3. Se clasifican las empresas en función de su tamaño. ¿cuántas empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de estimación asociado? SOLUCIÓN: La asignación que minimiza la cota del error de estimación para un coste fijo es la asignación Óptima.5277 . 4482 = 44. medios y máximos de un estudio similar hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados en euros) Tipo de Número de Costes de Gastos de reparación empresa empresas observación Mínimo Media Máximo A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130 Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación.2 0. 000 Si2 Estime la media poblacional de gasto mensual en ocio y su cota de error. SOLUCIÓN: Ni ni 2.000.000 675. 5 5.000 248. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono del citado municipio.000 975.16 ∑ ni N i 5.000 L ∑N y i =1 i i = 2 i 0.85185 N i2 Si2 N i − ni ni N i 540.399.000 16. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante en ocio.700 5.2002 i =1 L N i − ni Ni 2 29.200 Si2 yi 100 400 500 120 250 9.000 = 187.000 16.399.000 y st = 1 V ( y st ) = 2 N Ni y i 1 N 300.500 MUJERES 2. 4 N iσ i ci ωi 600-400 50 360-240 30 130-70 15 1250 0’1087 5000 0’4348 5250 0’4565 11500 1 600 = 1’7392n + 3’9132n + 1’826n = 7’4784n ( ni = ωin ) n = 600/7’4784 = 80’231 n1 = ω1n = 8’72 ≈ 8 n2 = ω2n = 34’88 ≈ 34 n3 = ω3n = 36’63 ≈ 36 C = (16×8) + (9×34) + (4×36) = 578 < 600 pero C’ = (16×9) + (9×35) + (4×37) = 607 > 600 5.96 0.8 43 . Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos Ni HOMBRES 2.399.460 788.500 2.460 975.700 ni 100 400 yi 120 250 9.Usamos que R≈4σ y por tanto estimamos que σ ≈ Ni ci 100 16 500 9 700 4 600 = 16n1 + 9n2 + 4n3 σi Ri ci 4 3 2 R .200 Si2 N i − ni 788.16 = 10. Después de obtenidos los datos se observa que sólo 100 de los encuestados fueron hombres y el resto mujeres. mediante muestreo aleatorio estratificado después de seleccionar la muestra.460 N = = 29. 0011812146 49 249 Si 2 V ( p st ) = 0. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar la proporción de individuos que ven un determinado programa de televisión. Una corporación desea estimar el número total de horas perdidas debido a accidentes de sus empleados. 24 ) + ( 0. 76 2 0. No habiendo diferencia entre los costes de observación de cada grupo. 44 Obreros Técnicos Administrativos Si2 36 25 9 Ni 132 92 27 . en un determinado mes.52 ) = 0. Después de obtenidos los datos se observa que sólo 50 de los encuestados fueron hombres y el resto mujeres.6. determine la mejor asignación para una muestra de 40 empleados.50 × 0. Datos de años previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres grupos.502 + 0. 0687 ⇒ 6.38 ⇒ p st = 38% N N i − ni =1 ⇒ Ni 2 L L 1 L 2 p i qɵ i N i − ni 1 L 2 p i qɵ i N i2 p i qɵ i N i p i qɵ i V ( p st ) = 2 ∑ N i = 2 ∑ Ni =∑ =∑ = N i =1 ni − 1 N i N i =1 ni − 1 i =1 N 2 ni − 1 i =1 N ni − 1 0. 24 × 0. técnicos y administrativos tienen diferentes tasas de accidentes.87% 7. 50 × 0. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 300 números de teléfono. la corporación decide usar muestreo estratificado. 48 = 0.50 = 0. SOLUCIÓN: 12 = 0.52 qɵ i = 1 − p i 250 Ni p i = ( 0. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES Encuestados 50 250 Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error. 24 50 p1 = p st = 1 N L L i =1 i =1 ∑ Ni pi = ∑ p2 = 130 = 0. y de datos actuales se obtienen los tamaños de los estratos. formando con cada grupo un estrato. mediante muestreo aleatorio estratificado después de seleccionar la muestra. Ya que los obreros.52 × 0. 3296 1.5941 = 0.90 0. 4 ≈ 2 n = 40 Se dispone de la siguiente información sobre tamaños poblacionales de los estratos.70 0.042. las 133 restantes procedían de la máquina B.SOLUCIÓN: Ni 132 σ i ≈ Si N iσ i 792 6 ωi 792 1.695 1.55 0.000 5 0.1909 1. 45 . Estimar la proporción de piezas defectuosas de la factoría y dar el límite de error de estimación.3296 = 65.9 ≈ 66 n = 200 La producción de piezas de una factoría se realiza en dos máquinas.9 ≈ 96 cj n2 = 200 × 0. 695 1 199 Donde se ha aplicado la asignación Óptima: Nj ωj = L ∑N i =1 9. Omita el coeficiente corrector por población finita.333 = 0.333 1. Se les pasó control de calidad a 200 piezas.45 0.8 ≈ 24 n2 = 40 × 0.8 ≈ 14 L i =1 8.333 81 = 0.3451 1. 0608 = 2.30 0. 0608 27 3 81 1.000 4 0. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B. 695 = 0. 4795 = 0. 695 = 0. 3451 = 13.45826 343. SOLUCIÓN: Ni ci qɵ i pi p i qɵ i ωi N i p i qɵ i ci 5. 695 343.5941 = 23.000 3 0.042.042.695 500 1. i p jq j n1 = 200 × 0.042. costes de observación y estimaciones de las proporciones Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70 Determine la mejor asignación para una muestra de 200 observaciones. 4795 = 95. 5 i n3 = 40 × 0.333 1 Donde se ha aplicado la asignación de Neyman al ser los costes de observación iguales: 92 ωj = N jσ j ∑Nσ i 460 460 n1 = 40 × 0. 67 producidas por la máquina A y dos de ellas resultaron defectuosas.10 0. 2 ≈ 38 pi qi ci n3 = 200 × 0.3 500 2.1909 = 38. siendo 6 de ellas defectuosas.4975 199 3. 602 × N 2 × 0. 31. 14.0274 ( 2.000441 0. Un establecimiento dispone de 300 piezas pequeñas. 20.40 × 0. 14. 20. SOLUCIÓN: Peso en gramos (con las funciones del modo SD de la calculadora ) 12. 12 S1 = 1.000188 = 0. Para estimar el peso total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las categorías.000326 ) = 2 ( N = ( 0.030 6/133=0. 34 Considerando los anteriores datos como una muestra previa. 15. 3333 . 24.045) ) = 0.40 × N × 0.000326 1 ( ( 0.030 ) + ( 0. en tres categorías: pequeña. 31. 22. 18 S 2 = 2.045 p i qɵ i ni − 1 0. 4142 S12 = 2 16. 33. 500 medianas y 200 piezas grandes.000188 V p = ( ) B = 2 0. resultando Categoría Nº de piezas Peso en gramos Pequeña 5 12.030 ) + ( 0. 12. obtenga el número de unidades que cada categoría debe aportar a la muestra para que el error en la estimación del peso total no supere el medio kilo.40 × N 0. 15.SOLUCIÓN: p= Estrato Ni ni pi A B 0.602 × 0. Para la comercialización de un producto se le clasifica. 20. 33.60 × 0.74% ) 10. mediana y grande. 22. 12.60 × N × 0.8284 S 22 = 8 30. 34 46 S3 = 1. atendiendo al calibre. 12 Mediana 6 16.402 × N 2 × 0. 18 Grande 4 30.402 × 0.000441) + ( 0.60 × N N 67 133 200 2/67=0. 24.000441) + ( 0.039 N ( ) ( ( 3.000326 ) = 0.9% ) ) 1 0.8257 S32 = 3.045) ) = ( ( 0. 20. 000 D= = = 0.8284 1. 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. después de la selección.18 (18%) V ( p ) = = 0.000 ni = 71. 66ωi L ∑Nσ i i = 71.4142 2. 0625 2 4N 4. 001491 2 V ( p ) = 0.99 ≈ 46 11. Estratifique la muestra. a.6418 0. 79 ≈ 14 45.1925 0.66 2203. 40 = 0. y establezca un límite para el error de estimación.000.26 1414. 0772 100 n −1 b. c. p st = 1 N L L i =1 i =1 ∑ Ni pi = ∑ 1 V ( p st ) = 2 N Ni 2 16 p i = 0. 01% ) 47 . 16 son defectuosas.90 2 0.1657 L B2 250. en circuitos integrados provenientes de la operación A y B.3333 N = 1000 424. 2 son defectuosos. y fije un límite para el error de estimación. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble.87 ≈ 12 n = 72 2 (∑ N σ ) i =1 i 0. Considerando únicamente la muestra aleatoria simple de 100 circuitos integrados.80 + ( 0.σi Ni σ N iσ i 2 i N iσ ωj = 2 i N jσ j i =1 300 500 200 1. p = 18 pqɵ = 0.10 × 0. b.66 n= 1 i 13. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B.14 N 20 80 L L p i qɵ i N i − ni N i2 p i qɵ i N = = ∑ ∑ ∑ 2 ni − 1 N i i =1 i =1 N ni − 1 i =1 = ( 0. De entre las piezas muestreadas de la operación B. estime la proporción de los defectuosos en el lote. 0901 ( 9.8257 2 8 3. 60 + 0.6 5266. estime la proporción de los defectuosos en la población. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados. 20 × 0.14 600 4000 666. 40 ) = 0. 00203 19 79 2 V ( p st ) = 0. 72% ) (14% ) 2 N i p i qɵ i = N ni − 1 0. 60 ) L 2 i 2 ( 7.2 365. 66 L N D + ∑ N iσ 2 i =1 2 i 11. De entre los circuitos integrados muestreados de la operación A. ¿Qué respuesta encuentra más aceptable? ¿Por qué? SOLUCIÓN: a. Barcelona y Sevilla. Determinar el tamaño muestral y la asignación para repetir el estudio anterior cometiendo un error inferior a 3 pedidos. 70 en Barcelona y 30 en Sevilla. esto ocasiona que en el apartado a.60 y 0. 02 pedidos / semana b. este hecho se corrige dando a p1 y p 2 las ponderaciones 0. En el apartado b. Dar un límite del error de estimación.5357 0. 12. Una cadena de restaurantes tiene 100 establecimientos en Madrid. 52ωi L 1200 770 270 14400 8470 2430 0. 24 ≈ 6 n = 45 . respectivamente. 3 S 2 = 11 y3 = 26. 31 ≈ 24 14.c. Usando los índice 1. La dirección está considerando añadir un nuevo producto en el menú.96 ≈ 15 5.17 pedidos / semana 200 Si2 N i − ni = 6.3438 0. Ni σi σ 2 i N iσ i N iσ 2 i ωj = N jσ j ∑Nσ i =1 100 70 30 N = 200 48 12 11 9 144 121 81 ni = 43. predominando los elementos de B (80) frente a los de A (20).40 respectivamente para estimar p. la estimación esté sesgada hacia el valor de B ( p 2 = 0. SOLUCIÓN: a. y st = V ( y st ) = 1 N L ∑N y i i =1 1 N2 L i ∑ Ni2 i =1 = 3834 = 19. Para contrastar la posible demanda de este producto. las medias y las desviaciones típicas muestrales del número de pedidos de este producto recibidos por restaurante en las tres ciudades durante una semana fueron: y1 = 21. 5 de Barcelona y 5 de Sevilla.10 ). la muestra global no representa adecuadamente este hecho. b. Estimar el número medio de pedidos semanales por restaurante para los restaurantes de la cadena.1205 2240 25300 1 i i 23. 20 ) frente al de A ( p1 = 0. 2 S1 = 12 y2 = 13. 2 y 3 para designar Madrid. 2965 ni N i 2 V ( y st ) = 5.1 S3 = 9 a. lo introdujo en el menú de muestras aleatorias de 10 restaurantes de Madrid. Aunque en el conjunto de la población hay más elementos que proceden de A (60%) que de B (40%). 17 = 2. 25 4 4 n= i =1 i i = 43.806 Si2 N i − ni N ni N i 193.32 268. 721 186 − 36 = = 2.19 = 2. b.19 ni N i 3502 2 2.396 No eléctrica 36 463 96. Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad. Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas que no tienen calefacción eléctrica.2 (∑ N σ ) L D= B2 9 = = 2.526 i = N i − ni Ni 0. se sabe que 164 de ellas tienen calefacción eléctrica.17 n2 N 2 36 186 2 2. De una ciudad con 350 casas.52 L N D + ∑ N iσ 2 i =1 2 i 13.925.45 2 i 245.854 0.624. 50 350 Si2 N i − ni 268.118 245. SOLUCIÓN: a. Dé un límite para el error de estimación. 45 = = 2.699. Dé un límite para el error de estimación. 94 49 .721 a. y 2 = 463 V ( y2 ) = S 22 N 2 − n2 96. Ni 164 186 350 ni 24 36 Si2 yi 972 463 202.624.396 96.721 y st = V ( y st ) = Ni y i 1 N2 1 N L L ∑N y i i =1 ∑ Ni2 i =1 159.526 = 701.13 74.408 86.96 b. Al realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202. 1 Introducción. Muestreo con información auxiliar. se puede estimar el valor total de los ahorros de los individuos de una población si se conoce el valor total de las rentas de dichos individuos. si se sabe que por término medio el 10% de la renta se dedica al ahorro y se conoce la renta total. debido a que existe una fuerte relación entre renta y ahorro. el ahorro total se estima igual al 10% de la renta total.3.3.2 Determinación del tamaño muestral.2. 50 . ( x n ..4 Estimación de diferencia. y1 ). La estimación con información auxiliar es importante cuando se pretende estimar el total sin conocer el número de elementos de la población pero sí el valor total de la variable que proporciona la información auxiliar. y n ) A partir de los datos muestrales se puede estimar la relación existente entre ambas variables.1 Estimación de la media y total poblacionales. N. Aquí suponemos que se emplea el muestreo aleatorio simple.4.1 Introducción. 3. 3. 3. 3. Pueden utilizarse distintos diseños de muestreo en la estimación con información auxiliar. 3. Notaremos por Y → Variable bajo estudio X → Variable que proporciona la información auxiliar De las que tomaremos una muestra constituida por n pares de datos: (x1 . Poe ejemplo. Observemos que la estimación del total de ahorro se ha llevado a cabo sin necesidad de conocer el número de individuos de la población..4. Así.2 Determinación del tamaño muestral.2 Estimación de razón.1 Estimación de la media y total poblacionales. como puede ser la media o el total poblacional. para estimar la media o el total de la otra variable. 3.2. 3. 3. Si entre dos variables existe una fuerte relación es posible utilizar la información auxiliar que tengamos de una variable.. 3. 3..3 Estimación de regresión. 3.3.1 Estimación de la media y total poblacionales.2 Determinación del tamaño muestral. Dependiendo de la relación entre las variables X e Y utilizaremos: • Estimadores de razón ( y = bx o con otra notación y = rx ) • Estimadores de regresión ( y = a + bx ) • Estimadores de diferencia ( y = a + x o con otra notación y = d + x) Estos estimadores sólo se deben utilizar si entre las dos variables existe una fuerte relación lineal positiva, rxy > 1 . 2 3.2 Estimación de razón Dada una población de tamaño N en la que se consideran las variables X e Y , se define la razón como el cociente: R= τy τx Es decir, la proporción del total de Y respecto del total de X . Puesto que τ y = Nµ y y τ x = Nµ x , obtenemos R= Nτ Y τ Y = Nτ X τ X De estas definiciones se deduce que τ y = Rτ x µ y = Rµ x Por tanto, si se conocen los valores de la media y el total de la variable X , para estimar la media y el total de Y sólo hay que estimar el valor de R (que notaremos como R = r ): τˆy = rτ x µˆ y = r µ x Puesto que la razón R es el cociente entre las medias poblacionales, tomando una muestra aleatoria simple: ( y1 , x1 ) ,..., ( yn , xn ) , podemos estimar R tomando el cociente entre las medias muestrales: • • ESTIMADOR DE LA RAZÓN: VARIANZA ESTIMADA DE r : 1 n yi y n∑ i =1 r= = = x 1 n ∑ xi n i =1 n ∑y i =1 n i ∑x i =1 i 1 S2 N − n 1 n 2 Vˆ (r ) = 2 r , ( yi − rxi )2 S = ∑ r µ x n N n − 1 i =1 51 3.2.1 Estimación de la media y el total poblacionales Hemos de suponer que entre X e Y existe una alta correlación lineal positiva y que el modelo lineal, donde X es la variable explicativa e Y la explicada, pasa por el origen, ( y = bx, • en este contexto se nota b = r dado su significado, y = rx ) ESTIMADOR DE LA MEDIA: µˆ y = rµ x Para estimar µˆ y necesitamos conocer el verdadero valor de µ x . No vale la estimación µx ≅ x • VARIANZA ESTIMADA DE µˆ y : S2 N −n Vˆ (µˆ y ) = µ x2Vˆ (r ) = r n N • ESTIMADOR DEL TOTAL: τˆ y = rτ x • τ 2 S2 N − n S r2 VARIANZA ESTIMADA DE τˆ y : Vˆ (τˆy ) = τ x2Vˆ ( r ) = x2 r = N N − n ( ) µ x n N n Si µ x y N son desconocidos no podemos utilizar la expresión anterior. Entonces si N →∞ N −n = 1 y aproximando µ x por x se tiene N τ 2 S2 V (τɵ y ) ≅ x2 r x n Comentarios sobre estos estimadores: • Son estimadores sesgados. • Cuando N es desconocido y si estimamos que n ≤ 5% N , es decir que entonces • N −n ≥ 0,95 , N N −n ≅ 1 . (Véase ejercicio resuelto 4) N De la relación µ x = τx N , se sigue que conociendo dos de estos elementos se puede τ 3840 calcular el tercero. (Véase ejemplo 3.1: µ = x = = 5,12 ha / socio ) x N 750 • A la hora de estimar el total, aunque conozcamos el tamaño de la población, cuando existe una fuerte correlación entre las variables, se comporta mejor el muestreo con información auxiliar (τˆ y = rτ x ) que el muestreo aleatorio simple (τˆ = Ny ) . (Véase ejemplo 3.5) 52 Ejemplo 3.1 Mediante una tasación previa se desea estimar la producción media y la producción total de los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada es de 3840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les preguntó por la superficie plantada y se les tasó su producción. Los resultados fueron: Superficie Producción 3,7 12 4,3 14 4,1 11 5 15 5,5 16 3,8 12 8 24 5,1 15 5,7 18 6 20 3 8 7 20 5,4 16 4,4 14 5,5 18 5 15 5,9 18 5,6 17 5 15 7,2 22 Estime la producción media y total mediante los estimadores de razón y muestreo aleatorio simple. Calcule sus respectivos límites para el error de estimación y compárelos. Solución Y = " producción (toneladas, tm)" X = "superficie plantada (hectáreas, ha)" xi yi xi2 yi2 xi yi 3,7 4,3 4,1 5 5,5 3,8 8 5,1 5,7 6 3 7 12 14 11 15 16 12 24 15 18 20 8 20 13,69 144 44,4 18,49 196 60,2 16,81 121 45,1 25 225 75 30,25 256 88 14,44 144 45,6 64 576 192 26,01 225 76,5 32,49 324 102,6 36 400 120 9 64 24 49 400 140 53 5 5 5.35 = 0. 26 ∑ n i =1 20 1 n ∑ xi − x n i =1 n = 320 x= sxy = τ x = 3840 ha N = 750 socios sx2 = s y2 = 2 i ∑y = 581. 2 xi = = 5.84 484 158. 26 × 16 ) = 4. rxy = s xy sx s y = σ n − 1 = S x = cuasidesviación típica 4.2 105.4 4. 2 2 1 n 2 581.2 31. 728 información auxiliar que disponemos de la variable X. s ) x y y las cuasidesviaciones típicas ( S x .81 324 106.36 289 95. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas de forma inmediata: ∑x 2 ∑x x σ n σ n = s x = desviación típica La relación entre las variables es alta.4 5.6 5 7.96 5398 1770. 20 n i i =1 i i Si queremos calcular las cuasivarianzas a partir de las varianzas: S x2 = n 2 20 s x = 1.36 196 61. junto con la 1.16 256 86. Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común. 4304 ∑ n i =1 20 2 1 n 2 5398 yi − y = − 16 2 = 13.4 19. 4304 = 1.25 324 99 25 225 75 34. 35 )( y − y ) = 1n ∑ x y − x y = 1770.9 5.6 30. 6316 n −1 19 y hallando las raíces cuadradas obtenemos las desviaciones típicas (s .5. 2 n ∑y i =1 i y= 1 n 320 yi = = 16 ∑ n i =1 20 ( ∑x i =1 1 n 105.4 581.96 xi − x = − 5. 9756 .5057 n −1 19 S y2 = n 2 20 s y = 13.2 TOTALES 16 14 18 15 18 17 15 22 320 29. justifica el uso de estimadores de 54 .2 25 225 75 51. Esto. 26 2 = 1.196 × 3. S y ) .9 = 14. 96 i =1 ( 1 n ∑ xi − x n i =1 ( n 1 n ∑ yi − y n i =1 ) 2 ) = 2 = 2 i = 5398 n ∑x y i =1 i i = 1770.2 Del enunciado y de la tabla anterior obtenemos: n = 20 n ∑x i i =1 = 105.9 ∑ n i =1 20 2 − ( 5. 042 × 5. 47 = 1265.6 tm τ 3840 µ = x = = 5.2.04 tm Bτ = 750 × Bµ = 750 × 0.37 = 277. dado el contexto.37 tm/socio 2 τ 2 S2 N − n 2 Sr N − n Vˆ (τˆy ) = x2 r = N = 19326. Por otra parte.042 tm/ha 105.5 tm (los dos procedimientos no coinciden por simples errores de redondeo en el valor de Bµ ). 0344 n N ⇒ Bµ = 2 Vˆ ( µˆ y ) = 0.57 tm/socio Sr = 2 20 1 20 1 20 2 2 20 2 2 y + r x − 2 r xi yi ( yi − rxi ) = ∑ ∑ ∑ ∑ i i n − 1 i =1 n − 1 i =1 i =1 i =1 Sr2 N − n ˆ ˆ V (µy ) = = 0. A continuación lo estimaremos utilizando muestro aleatorio simple: y= 320 = 16 tm / socio 20 S 2 N − n 14.12 ha / socio x N 750 µˆ y = r µ x = 3.2 Determinación del tamaño muestral Tamaño muestral mínimo para que la estimación de la razón. 69 tm / socio τˆ = Ny = 750 320 = 12000 tm 20 S2 N − n 2 14.47 n N 20 750 Bτ = 2 400539.12 = 15. 712 n N 20 750 ( ) Bµ = 2 0. tanto para la media como para el total. 63 750 − 20 Vˆ y = = = 0. 712 = 1.razón.63 750 − 20 Vˆ (τˆ ) = N 2 = 750 = 400539. 042 × 3840 = 11680.76 tm o Bτ = 750 × Bµ Observemos que el límite del error de estimación. la media y el total no supere una cota de error B 55 . 3.75 µ x n N n N o =0. 2 i τˆy = rτ x = 3. es lógico que la relación pase por el origen (a 0 ha de superficie le corresponde una producción de 0 tm). es mucho mayor que el cometido utilizando estimadores de razón. 20 r= ∑y i =1 20 ∑x i =1 i = 320 = 3. 706 ⇒ Bτ = 2 Vˆ (τˆy ) = 278. 252 0.6 ≅ 43 socios 0.3 Estimación de regresión El uso del estimador de razón es más efectivo cuando la relación entre las variables X e Y es lineal y pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados). 706 + 4N 4 × 750 Necesitamos al menos 43 socios para cumplir con ambos niveles de error.1) Supongamos que queremos reducir el límite para el error de estimación de la media a 0. µˆ x2 = x 2 Ejemplo 3.25 tm/socio y el del total no debe superar las 200 tm ¿a cuántos socios se les debe tasar su producción antes de realizar una nueva estimación? Solución MEDIA: n = TOTAL: n = Nσ r2 2 B 4 σ r2 + N Nσ r2 σ r2 + N B2 4N 2 = = 750 × 0. En el modelo lineal simple Y = a + bX . 3. 706 = 42.Nσ r2 n= 2 σ r + ND donde para estimar: • la razón: D= B 2 µ x2 4 • la media: D= B2 4 • el total: D= B2 4N 2 Comentarios: • σ r2 se estima utilizando una muestra previa: σˆ r2 = S r2 . 706 = = 37.2 (continuación del ejemplo 3. En caso de relación lineal que no pase por el origen de coordenadas es preferible utilizar estimadores de regresión. • Si µ x es desconcocido. el método de mínimos cuadrados permite estimar a y b de la siguiente forma: 56 . 7 ≅ 38 socios 2 B 2002 2 σr + 0. 706 + 750 × 4 Nσ r2 750 × 0. por término medio.3 Para un grupo de 1000 pequeños establecimientos se desea realizar un estudio sobre las ventas diarias. No se puede estimar como τˆyL = a + bτ x ya que la recta de regresión no pasa por el punto (τ • x . Los resultados son: 57 .1 Estimación de la media y el total poblacionales • ESTIMADOR DE LA MEDIA: µˆ yL = a + bµ x = y − bx + bµ x = y + b ( µ x − x ) Para estimar µˆ yL necesitamos conocer el verdadero valor de µ x .n s b = xy2 = sx ∑( y i =1 i − y )( xi − x ) n ∑( x − x ) 2 i i =1 a = y − bx donde s x2 = 1 n 1 n 2 2 x − x = xi − x 2 ( ) ∑ ∑ i n i =1 n i =1 s xy = 1 n 1 n − − = x x y y ( )( ) ∑ i ∑ xi yi − x y i n i =1 n i =1 3. No vale la estimación µx ≅ x S2 N −n VARIANZA ESTIMADA DE µˆ yL : Vˆ (µˆ yL ) = L n N • siendo S L2 la varianza residual en el modelo lineal simple: S L2 = • ( 1 n ∑ yi − ( y + b ( xi − x ) ) n − 2 i =1 ESTIMADOR DEL TOTAL: ) 2 = 2 n 2 s xy n 2 s s y (1 − rxy2 ) − = y 2 n−2 sx n − 2 τˆ yL = Nµˆ yL En este caso para estimar el total es necesario conocer el tamaño de la población N. Se elige al azar una muestra de 18 establecimientos y se toman datos de su gasto en publicidad y ventas diarios. Se tiene información de que.3. VARIANZA ESTIMADA DE τˆyL : Vˆ (τˆ yL ) = N 2Vˆ (µˆ yL ) Ejemplo 3. el gasto en publicidad es de 5 euros.τ y ) . 6814 s y = 20. 341( 5 − 5.8 120 8 160 5.7284 = 10.6814 µˆ yL = y + b ( µ x − x ) = 138.1 135 5 150 5. 73 n N Bτ = N × Bµ = 1000 × 5.314 ⇒ s 2y = 412.7 125 6 130 0 80 7 150 5.889€ sx = 1.889 + 10.56 58 S2 N − n Vˆ ( µˆ yL ) = L = 7.6 170 Estime el total de ventas diarias y la media utilizando estimadores de regresión.0556) = 138. 314€ τˆyL = N µˆ yL = 138314€ S L2 = n 2 s y (1 − rxy2 ) = 141. 6375 ⇒ sx2 = 2. Obtenga el límite para el error de estimación. b= s xy s 2 x = 27.8336 .7 120 4.654 sxy = 27.4 150 4.1 obtenemos: x = 5. Solución Notamos Y = " ventas diaria (euros)" .4 120 5. 0556€ y = 138.56 = 5560€ . 7284 La relación entre las variables es fuerte: rxy = 0.9 150 6.Gastos Ventas 3.5 160 3.341 2. n = 18 establecimientos X = " gastos diarios en publicidad (euros)" N = 1000 establecimientos µ x = 5€ Tal y como se explicó en la resolución del ejemplo 3.1 150 5.5 140 5 150 5.3 140 4. 6 n−2 Bµ = 2 Vˆ ( µˆ yL ) = 5. 1 Estimación de la media y el total poblacionales • ESTIMADOR DE LA MEDIA: µˆ yD = y + (µ x − x ) = µ x + d d = y−x Para estimar µˆ yD necesitamos conocer el verdadero valor de µ x . 6 = 361. 6 + 1000 4 ×1000 2 3.3) Se quiere repetir el estudio anterior de forma que el error para la estimación del total no supere los 1000 euros ¿cuál debe ser el tamaño muestral? Solución n= Nσ L2 σ L2 + N 2 B 4N 2 = 1000 × 141. No vale la estimación µx ≅ x • S D2 N − n ˆ ˆ ˆ VARIANZA ESTIMADA DE µ yD : V (µ yD ) = n N 59 . (y =a+x ó y = y + ( x − x) a = y − x = d ) Comúnmente se emplea en procedimientos de auditoría.4 Estimación de diferencia El uso del estimador de diferencia tiene un buen comportamiento (cota de error más baja) cuando la relación entre las variables es lineal y la pendiente del modelo es uno. 6 ≅ 362 establecimientos.4.3.4 (continuación del ejemplo 3. 3.2 Determinación del tamaño muestral Tamaño muestral mínimo necesario para que al estimar la media y el total poblacionales la cota de error no supere el valor B n= Nσ L2 σ L2 + ND donde para estimar: • la media: D = • el total: D= B2 4 B2 4N 2 σ L2 se estima utilizando una muestra previa: σˆ L2 = S L2 Ejemplo 3.3. 1000 2 141. • VARIANZA ESTIMADA DE τˆYD : Vˆ (τˆ yD ) = N 2Vˆ (µˆ yD ) Ejemplo 3. regresión y diferencia. estimadores de razón. Solución Y = "gasto diario (euros)" Denotamos " X = "ingresos diarios (euros) n = 10 establecimientos N = 200 establecimientos µ x = 500€ Tal y como se explicó en la resolución del ejemplo 3.738 ⇒ s 2y = 13395. S D2 = • ESTIMADOR DEL TOTAL: τˆ yD = Nµˆ yD En este caso para estimar el total es necesario conocer el tamaño de la población N. por tanto S D2 es la ∑ ∑ i i n − 1 i =1 n − 1 i =1 cuasivarianza de los d i . 797 ⇒ s x2 = 13409 s y = 115. Se elige al azar una muestra de 10 establecimientos y se toman datos de ingresos y gastos. Se tiene información de que los ingresos medios diarios son de 500 euros.5 Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario.1 obtenemos: x = 516€ y = 453.5€ s x = 115. No se puede estimar como τˆyL = y + (τ x − x ) = τ x + d por análogas razones a las expuestas en el estimador de regresión.3 60 . obteniéndose: X=Ingresos Y=Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460 Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo aleatorio simple.2 2 1 n 1 n ( ( ) ) ( y − x + d = d i − d ) . Obtenga el límite para el error de estimación en cada caso. donde d i = y i − xi . 5 La relación entre las variables es muy fuerte: rxy = 0. 5 Bµ = 2 Vˆ ( µˆ yD ) = 2. 09€ ESTIMADORES DE DIFERENCIA d = −62.5€ n 1 n 1 n 2 2 n 2 2 y − rx = y + r x − 2 r xi yi ( ) ∑ i i n − 1 ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 i =1 S2 N − n Vˆ ( µˆ y ) = r = 21.5€ τˆyD = N µˆ yD = 87500€ (con la calculadora hallamos σ n −1 sobre las diferencias d i y lo elevamos al cuadrado) ( 1 n S = ∑ di − d n − 1 i =1 2 D S2 N − n Vˆ ( µˆ yD ) = D = 1.879 x Sr = 2 ˆ µˆ ) = 75.409 µˆ yL = y + bˆ ( µ x − x ) = 437.5 µˆ yD = µ x + d = 437. MUESTREO ALEATORIO SIMPLE µˆ = y = 453.05 n−2 S L2 N − n ˆ ˆ V ( µ yL ) = = 1.5€ τˆ = Ny = 90700€ ˆ µˆ ) = S N − n = 1413.99958 rxy2 = 0.3€ Bτ = N × Bµ =1860€ ESTIMADORES DE REGRESIÓN s 13.97€ τˆy = rτ x = 87900€ µˆ y = r µ x = 439.33 n N 2 L Bµ = 2.20€ Bµ = 2 V( τ x = 200µ x = 100000 Bτ = 200 × Bµ =15040.1875 n N ) 2 = 12.503€ Bτ = NBµ = 462.515€ n 2 S = s y (1 − rxy2 ) = 14.4.179 Bτ = NBµ = 435. 717 Bµ = 9.99916 .94 V( n N ESTIMADORES DE RAZÓN 2 y r= y = 0. 63 n N ⇒ = 227.8899 3.99907 sx 13.7 s xy = 13396.2 Determinación del tamaño muestral Tamaño muestral mínimo necesario para que la estimación no supere un cota de error B al estimar la media y el total poblacionales n= Nσ D2 σ D2 + ND 61 .5 bˆ = xy2 = = 0.396. 3104€ τˆyL = N µˆ yL = 87.S y2 = 14883. SOLUCIÓN (trabajaremos en cientos de euros) xi yi xi yi xi2 yi2 240 125 57600 15625 30000 310 150 96100 22500 46500 200 100 40000 10000 20000 360 175 129600 30625 63000 1110 550 323300 78750 159500 62 .5) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un error como máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral? Solución Nσ D2 200 × 12.6 (continuación ejemplo 3. para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona los siguientes valores anuales en €: Gasto en alimentación 12500 15000 10000 17500 Gasto general 24000 31000 20000 36000 Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo de confianza.5 n= = = 20 establecimientos 2 300 2 B 2 σD + N 12. 5 + 4N 2 4 × 200 EJERCICIOS RESUELTOS 1. para la que es conocido que el gasto total general durante un año es de 15000000 €.donde para estimar: • la media: D = • el total: D= B2 4 B2 4N 2 σ D2 se estima utilizando una muestra previa: σˆ D2 = S D2 Ejemplo 3. En una población de 500 hogares. se quiere estimar el gasto total en alimentación durante un año. 76 y i n 1 n 1 n 2 2 n 2 x − ry = x + r y − 2 r xi yi = 27. 767 3. 2 S = y + r x − 2 r xi yi = = 20. 6. 4955 τɵ y = rτ x = 0. y = 2. A partir de los datos siguientes: x = 9. 25 ∑ xi2 = 2240. µ y2 ≅ y = 2. Sea x el número de personas en cada vivienda e y el número de habitaciones por vivienda. Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego constituida por 250 parcelas.1. 4955 × 150000 = 74325 cientos de € 1110 i τɵ y = 7432500 € 2 n 1 n 1 n 2 2 n 2 62. El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del barrio. Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio.568 n τ y ∈ ( 72057.568) en cientos de € Para expresarlo en € hay que multiplicarlo por cien.n N = 500 n = 4 r = ∑y i =1 n i ∑x i =1 = 550 = 0. Se seleccionan al azar 10 parcelas cuyo tamaño y metros cúbicos utilizados en riego aparecen en la siguiente tabla m3 600 1800 750 900 1100 1400 950 700 1000 720 Hectáreas 50 150 60 70 100 120 80 60 90 60 63 . 73 ( yi − rxi ) = ∑ ∑ ∑ ∑ i i n − 1 i =1 n − 1 i =1 3 i =1 i =1 2 r 2 S V (τɵ y ) = N ( N − n) r = 1285. i =1 25 ∑x y i =1 i i = 522 Estime la razón personas/habitación en el barrio y establezca el límite para el error de estimación con una confianza del 95%.1471 µ y2 N n 2 V (r ) = 0. 2.5 pers. i =1 25 ∑ yi2 = 169. 76592. / hab. 62 = 6. SOLUCIÓN (los papeles de las variables x e y deben permutarse en las expresiones del formulario) n N = 275 n = 25 r = ∑x i =1 n ∑y i =1 2 S r2 = i = 2 x = 3. 432 . 4667 2 V (τɵ y ) = 2267.34375 ( i i) ∑ ∑ ∑ ∑ i i n − 1 i =1 n − 1 i =1 i =1 i =1 V (r ) = 1 ( N − n) S r2 = 0. 06 800 2537.Estime la media de m3 /hectárea que utiliza la comunidad de regantes y la cota del error de dicha estimación.04 1800 64 .44 1204 1339. vía declaración de la renta. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen en esta tabla. Renta Consumo 1702. Se sabe que los ingresos en dicha ciudad. ascienden a 1502530 euros mensuales. X = tamaño de la parcela en hectáreas xi xi2 yi 50 150 60 70 100 120 80 60 90 60 840 600 1800 750 900 1100 1400 950 700 1000 720 9920 2500 22500 3600 4900 10000 14400 6400 3600 8100 3600 79600 yi2 360000 3240000 562500 810000 1210000 1960000 902500 490000 1000000 518400 11053400 xi yi 30000 270000 45000 63000 110000 168000 76000 42000 90000 43200 937200 n r= ∑y i =1 n i ∑x i =1 = 9920 = 11'81 m3 / hectarea 840 i n 1 n 1 n 2 2 n 2 2 y − rx = y + r x − 2 r xi yi = ( ) ∑ ∑ ∑ ∑ i i i i n − 1 i =1 n − 1 i =1 i =1 i =1 1 = (11053400 + 11102297 '56 − 22136664 ) = 2114 '84 9 S r2 = 840 = 84 10 1 N − n S r2 1 240 2114 '84 V (r ) = 2 = 2 = 0 '02877 µ x N n 84 250 10 µx = x = 2 V (r ) = 0 '3392 4. Se desea estimar el consumo mensual de una ciudad.56 1000 981. SOLUCIÓN: Y = consumo de m3 de agua. han sido (en euros) 65 . rxy = s xy sx s y = 0. en el presente mes.85 1200 3080. Las diferencias entre ingresos y gastos. 67 ⇒ = 16479. Esto junto con la información auxiliar nos permite utilizar muestreo con información auxiliar. observando ↓ estimamos que n < ( 5% N ) ⇒ 12 ∑ x < ( 5% τ ) i =1 N −n ≅1 N i x ↓ µ x = x = 1885.04 1400 2053. 7 B = 2 Vˆ (τˆY ) = 59053.53 1080 1702. 12 r = ∑ i =1 12 yi xi ∑ i =1 = 0. 79€ ↓ Sr = 2 12 1 12 1 12 2 2 12 2 2 y − rx = y + r x − 2 r xi yi ∑ ( i i ) n − 1 ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 i =1 Vˆ (τˆY ) = 871825002. SOLUCIÓN: Denotemos por Y = consumo mensual X = ingresos mensuales De la información muestral obtenemos n = 12 12 ∑y i =1 i = 16808 euros 12 ∑x i =1 i = 22629.19 2600 1502. pero en la ciudad hay muchos hogares.9677 . en concreto utilizaremos estimadores de razón.1519. en 5 de las 250 oficinas que tiene abiertas una agencia de seguros.37€ 5.06 2000 Estime el consumo total mensual para todos los hogares de la ciudad mediante el estimador de razón. 7 42 7 τˆ y = rτ x = 1 1 1 6 0 0 2 .36 1000 1803.87 1240 1402. 0 7 € τ2 S N −n Para calcular Vˆ (τˆY ) = x2 r tenemos en cuenta que: µ x n N 2 ↓ No conocemos N . Podemos comprobar que el coeficiente de correlación lineal es alto.46 1484 3005. Obtenga el límite para el error de estimación. 46 euros y como información auxiliar sabemos que τ x = 1502530 euros. estime el total de ganancias con un intervalo de confianza. SOLUCIÓN: N=123. Y=ganancias del año actual (con las funciones del modo SD de la calculadora ) : 5 ∑x x = 882 i =1 i = 4410 5 ∑ yi = 4620 y = 924 i =1 5 ∑x i =1 5 ∑y i =1 xi yi 335500 561600 2400000 1050600 372000 = 4495700 2 i 2 i = 4961400 n r= ∑y i =1 n i ∑x i =1 66 = y = 1. Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la siguiente tabla: Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600 Usando un estimador de razón. 047619 x τɵ y = rτ x = 134304. τ x = 128200 € . 25 i i = 4719700 . n=5.14 € 6. Y=ingresos (con las funciones del modo SD de la calculadora ) : µ yD = µ x + d = 13396 € d = 632 S D2 = 4095.5 τɵ yD = N µ yD = 3349000 € 2 S D2 2 N − n SD ɵ V (τ yD ) = N = N ( N − n) = 50169875 € 2 N n n 2 V (τɵ yD ) = 14166. Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las ventas de televisores al final de un periodo de tres meses. estime el total de ingresos y el límite para el error de estimación. X=gastos. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses correspondiente al año anterior. µ x = 12764 . ese total es de 128200 €. SOLUCIÓN: N=250. n=5. X=ganancias del año anterior. 76 € ∑x y i =1 i Sr = 2 5 5 1 5 1 5 2 2 5 2 2 y − rx = y + r x − 2 r xi yi ( ) ∑ i i n − 1 ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 i =1 = 1640.570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros. 4775 2 4N n= Nσ r2 = 21. 4775 2 B2 = 4. determine el tamaño de la muestra para estimar τˆy con un límite para el error de estimación de 2000€. 138668. Una agencia de publicidad está interesada en el efecto de una nueva campaña de promoción regional sobre las ventas totales de un producto en particular. SOLUCIÓN: N=452. Tienda Ventas antes de Ventas la campaña actuales 1 208 239 2 400 428 3 440 472 4 259 276 5 351 363 Usando los anteriores datos para estimar los parámetros necesarios.3 ≈ 22 ND + σ r2 67 . 6 5 ∑y i =1 i =1 = 1778 i xi yi 49712 171200 207680 71484 127413 5 ∑ xi = 1658 5 ∑y i =1 2 i = 671034 5 r= ∑y i =1 5 ∑x i =1 Sr = 2 D= i 5 y = = 1. 071 n 2 V (τɵ y ) = 4364. 072376 x ∑x y i =1 i i = 627489 i 5 1 5 1 5 2 2 5 2 2 y − rx = y + r x − 2 r xi yi ( ) ∑ i i n '− 1 ∑ ∑ ∑ i i n '− 1 i =1 i =1 i =1 i =1 = 109. X=ventas antes de la campaña. 67 . Y=ventas actuales (con las funciones del modo SD de la calculadora ) : x = 331.8947 σ r = S r2 = 109. Una muestra aleatoria simple de 5 tiendas es seleccionada de 452 tiendas regionales en las cuales se vende el producto. 6 5 ∑ xi2 = 587146 i =1 y = 355. 09 τ y ∈ (129940. cuando se utiliza el estimador de razón. Los datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a la nueva campaña.2 S V (τɵ y ) = N ( N − n ) r = 4761314. n’=5.85 ) 7. Por ejemplo si N = 103 y n = 5 .3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas. el 2º como punto inicial. Si se elige. k = 2. sobran 3. k se toma como el número entero menor o igual que el cociente N : n k≤ N . la decisión sobre el valor de k se tomará de forma que se asegure el número mínimo deseado de elementos de la muestra. 22º. 68 . N entero. 4. N se estima por defecto.2 Estimación de la media. Se selecciona aleatoriamente un elemento (llamado punto de inicio o pivote) de los primeros k elementos de la población. o se ordenan. n Nos podemos encontrar con las siguientes situaciones: 1. 4. el tamaño muestral será mayor o igual de lo requerido. Ventajas. N es desconocido.6 y tomamos n n k = 20 . así k será menor de lo necesario y. 4. entonces = 20. b.1 Selección de una muestra sistemática.4.4 Determinación del tamaño muestral. aleatorias y periódicas. Una muestra sistemática de “1 en k” es la que se extrae de la siguiente forma: 1. 78º. En el muestreo sistemático los elementos de la población se enumeran. obtendríamos una muestra de tamaño 5: 18º. Podríamos elegir también el 102º y la muestra sería de tamaño 6. 62º. Muestreo sistemático. Según el punto inicial nos podemos encontrar con: a. 38º. por ejemplo. 98º 3. por ejemplo. Ventajas. 102º Al dividir la población en 5 intervalos de 20 elementos. 58º. 2. Usos. Usos. obtendríamos: 2º. 82º. 4. En este caso. 42º. Si elegimos. por tanto. Entonces se obtienen exactamente n observaciones. n N N no es entero. Después se seleccionan cada k -ésimo elemento hasta conseguir una muestra de tamaño n .1 Selección de una muestra sistemática. la observación 18º como la inicial. proporción y total poblacionales. 4. Al seleccionar las personas al azar podríamos encontrarnos que no hemos acabado de hacer la encuesta a un cliente cuando el siguiente a encuestar ya ha pasado. 4. Por ejemplo. con igual tamaño de muestra. Una muestra aleatoria simple podría seleccionar un gran número o incluso todos del mismo grupo. El muestreo sistemático. selecciona el mismo número de motores de ambos grupos.2 Estimación de la media. en cambio. mientras que en el muestreo aleatorio simple puede ocurrir que un gran número de observaciones se concentre en una parte de la población y descuide otras. Esto se debe a que la muestra sistemática se extiende uniformemente a lo largo de toda la población. En el muestreo aleatorio simple podría ser un problema si dos números aleatorios fueran consecutivos o muy próximos. el muestreo sistemático es mejor que el muestreo aleatorio simple. En este caso. los auditores cuando se enfrentan a largas listas de apuntes para comprobar y los investigadores de mercados cuando se enfrentan a personas en movimiento. supongamos que en una fábrica los primeros 3000 motores se fabrican correctamente y los últimos 3000 son defectuosos por un desajuste en la línea de montaje. Por ejemplo.Ventajas del muestreo sistemático frente al muestreo aleatorio simple: • En la práctica el muestreo sistemático es más fácil de llevar a cabo y está expuesto a menos errores del encuestador. dando una estimación mejor. sería difícil escoger una muestra aleatoria simple de personas entre las que entran a un supermercado. dando una mala estimación de la proporción de defectuosos. el muestreo sistemático proporciona mejor información que el muestreo aleatorio simple. Pero sí sería fácil coger 1 de cada 20 personas que pasen hasta completar la muestra. proporción y el total poblacionales • µˆ = ysy = ESTIMADOR DE LA MEDIA POBLACIONAL: 1≤ i ≤ k 1 n ∑ yi +( j −1) k n j =1 i=punto de inicio o pivote 69 . donde en cierta medida hay un orden en la población. Usos: Este tipo de muestreo es muy utilizado por los planes de muestreo para el control de calidad dentro del proceso de fabricación. • Frecuentemente. 1 Los funcionarios de un museo están interesados en el número total de personas que visitaron el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades estuvo en exhibición. • • ESTIMADOR DEL TOTAL POBLACIONAL: τˆ = Ny sy VARIANZA ESTIMADA DE τˆ : 2 2 ˆ 2 S N −n ˆ V (τˆ ) = N V ( y sy ) = N n N Ejemplo 4. la varianza del estimador de la media se estima igual que en el muestreo aleatorio simple (véase 4. éstas son: V (y) = σ2 N −n n N −1 y V ( y sy ) = σ2 n [1 + (n − 1)ρ ] donde ρ = coeficiente de correlación entre los elementos de una muestra sistemática. La información de esta muestra sistemática de 1 en 10 se resume en esta tabla Día Nº personas que visitan el museo 3 160 13 350 23 225 ⋮ ⋮ 173 290 18 ∑ yi = 4868 i =1 18 yi2 = 1321450 ∑ i =1 Use estos datos para estimar el número total de personas que visitaron el museo durante el periodo especificado y el límite para el error de estimación. - Si se desconoce el tamaño poblacional por su gran magnitud.3 Comparación con el muestreo aleatorio simple). Aunque las varianzas de los estimadores no son realmente iguales. Puesto que el control de visitantes en el museo cada día es muy costoso. el estimador es sesgado. Cuando N es conocido también se puede estimar el total poblacional.• S2 N −n ˆ ( ) V y sy = n N VARIANZA ESTIMADA DE y sy : Comentarios. los funcionarios decidieron obtener estos datos cada diez días. 70 . entonces - Cuando N no es múltiplo exacto de n . El tamaño poblacional se desconoce en muchas situaciones prácticas en las que se usa el muestreo sistemático. N −n ≅ 1. N Como puede observarse. Se instala un puesto de control en una carretera nacional y se detiene un conductor de cada siete. que las varianzas estimadas son iguales a las del muestreo aleatorio simple. Automóvil Respuesta 1 1 8 1 15 0 ⋮ ⋮ 2794 1 400 yi = 324 ∑ i =1 Solución pˆ sy = y sy = 324 = 0. Establezca un límite para el error de estimación.Solución τˆ = Nysy = 180 N = 180 4868 = 48680 visitantes 18 2 4868 ) ( 1321450 − n = 289.34 Como en el muestreo aleatorio simple. yi = 0.18 n N Bτ = 1370.2 La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el permiso de conducir. Use los datos de la tabla adjunta para estimar la proporción de conductores que portan su licencia. Ejemplo 4. 79 S2 = n −1 S2 N .81 400 71 .n Vˆ ( τˆ ) = N 2 = 469461. de nuevo. Suponga que 2800 autos pasan por el puesto de verificación durante el periodo de muestreo. 1 pˆ sy qˆ sy N − n n −1 N Notemos. las propiedades del estimador de la proporción son análogas a las propiedades de la media muestral: • ESTIMADOR DE LA PROPORCIÓN POBLACIONAL: pˆ sy = 1≤ i ≤ k • 1 n ∑ yi+( j −1) k n j =1 i=punto de inicio o pivote Vˆ ( pˆ sy ) = VARIANZA ESTIMADA DE pˆ sy : . aleatorias y periódicas Veamos bajo qué condiciones la varianza estimada de los estimadores en el muestreo sistemático se puede suponer igual a la del muestreo aleatorio simple. 4. el muestreo sistemático puede utilizarse dentro de cada estrato en lugar del muestreo aleatorio simple. análogamente a como se han utilizado las del muestreo aleatorio simple para aproximar el comportamiento del muestreo sistemático. N −1 Distinguimos los siguientes casos: A.pˆ qˆ N − n 0. pero en otros casos no.81) 2800 − 400 Vˆ ( pˆ sy ) = sy sy = = 0. 72 .000330612 ⇒ n −1 N 400 − 1 2800 B = 0. en una lista de cuentas por cobrar que estén ordenadas de mayor a menor cantidad. Población ordenada (ρ ≤ 0) Una población es ordenada cuando los elementos que la constituyen están ordenados de acuerdo a los valores.81(1 − 0. Según las expresiones V (y) = σ2 N −n n N −1 éstas serán similares cuando y V ( y sy ) = σ2 n [1 + (n − 1)ρ ] N −n ≅ 1 y ρ ≅ 0 . de una determinada característica. Al utilizar las varianzas estimadas de los estimadores del muestreo aleatorio simple en el muestreo sistemático conseguimos una estimación conservadora del error (mayor que el error real que cometemos en el muestreo sistemático). aplicándose las fórmulas del muestreo aleatorio estratificado. 0364 Si la estratificación de la población fuese ventajosa. crecientes o decrecientes. ya que la muestra se extiende uniformemente a lo largo de toda la población: ρ ≤0 ⇒ V ( y sy ) ≤ V ( y ) Por ejemplo.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas. En este caso es preferible el uso del muestreo sistemático. las estimaciones de una muestra sistemática tendrían en general una varianza menor que las de una muestra aleatoria simple (es posible que ésta última contenga solo cantidades grandes o cantidades pequeñas). Ventas diarias de un supermercado a partir de una muestra sistemática con k = 7. Por ejemplo: a. el investigador puede cambiar varias veces el punto de inicio aleatorio. C. Población periódica (ρ ≥ 0) Una población es periódica cuando los valores de la variable objeto de estudio tienen una variación cíclica. En poblaciones aleatorias no tendremos problemas. En este caso es preferible el muestreo aleatorio simple dado que ρ ≥0 ⇒ V ( y sy ) > V ( y ) . En este caso es indiferente el uso del muestreo aleatorio simple y el muestreo sistemático ya que ρ ≅0 ⇒ V ( y sy ) ≅ V ( y ) . Por ejemplo. la estimación de sus calificaciones sería similar con ambos muestreos ya que las calificaciones no dependen del apellido del estudiante.B. Población aleatoria (ρ ≅ 0) Se dice que una población es aleatoria cuando sus elementos están ordenados al azar. Esto tiene el efecto de mezclar los elementos de la población y comportarse como una población aleatoria.4 Determinación del tamaño muestral El tamaño muestral requerido para estimar la media poblacional con un límite B para el error de estimación se obtiene de las expresiones del muestreo aleatorio simple. en cuyo caso el uso de las expresiones del muestreo aleatorio simple en el muestreo sistemático estaría justificado. Una muestra sistemática con k par proporcionaría solo una lista de mujeres o de hombres. 4. Supongamos que tenemos una lista en la que los nombres de mujeres y hombres se alternan. Lo que conduce a obtener muestras más grandes de las necesarias en poblaciones ordenadas y muestras más pequeñas en poblaciones periódicas (si no se mezclaran los elementos cambiando el punto de inicio). b. 73 . en una lista de estudiantes por orden alfabético. Para evitar este problema. Tamaño muestral requerido para estimar µ y τ con un límite B para el error de estimación B2 4 para estimar la media con D = 2 B para estimar el total 4 N 2 Nσ 2 n= ( N − 1) D + σ 2 Tamaño muestral requerido para estimar p y τ con un límite B para el error de estimación n= B2 4 para estimar p con D = 2 B para estimar el total 4 N 2 Npq (N .81) = = 1176.81× (1 − 0. La gerencia de una compañía privada con 2000 empleados está interesada en estimar la proporción de empleados que están a favor de una nueva política de inversión.2) En un nuevo control. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo (las respuestas a favor se han representado como 1) 74 . la Guardia Civil de Tráfico espera que pasen unos 5000 automóviles por el puesto de verificación.3 (continuación del ejemplo 4.81) ) 4 4 k≤ Si tomáramos k=5 ⇒ n = N = 4.81× (1 − 0.97 ≅ 1177 automóviles 2 B 0. Tomando k=4 ⇒ n = = 1250 ≥ 1177 .19 Npq 5000 × 0. Solución p = 0. 5 4 EJERCICIOS RESUELTOS 1. Determine el tamaño de muestra y k para estimar p con un error inferior al 2%.81 n= qɵ = 1 − p = 0. 25 n 5000 5000 = 1000 . 02 2 ( N − 1) + pq (5000 − 1) + ( 0.1)D + pq Ejemplo 4. 4 1975 1613135 1531063 3144198 14. SOLUCIÓN 110 0.Empleado Respuesta muestreado 3 1 13 0 23 1 ⋮ ⋮ 1993 1 200 ∑y i =1 i = 110 Se quiere volver a repetir el anterior estudio pero con un error de estimación inferior al 5% (considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios).4 1970 1915378 1816008 3731386 18.39 ≈ 100 k = = 10 2 ( N − 1) D + σ n N = 1000 R = 21000 σ 2 ≅ 3. Año Nac. SOLUCIÓN 21000 2 1000000 2 = 27562500 D = = 250000 42 4 ×1000 2 Nσ 2 N n= = 99. ambos inclusive.0 1960 2179708 2078142 4257850 23.55 qɵ = 1 − p = 0.Femeninos Total de Nac. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a 1000000€ y con una confianza del 95%. 75 . Natalidad 1955 2073719 1973576 4047295 26. N = 26 . 052 = 0.9 Estime el número medio de varones nacidos por año para el periodo 1955-1980. SOLUCIÓN Desde 1955 hasta 1980.7 1965 1927054 1833304 3760358 19. Para ello decide tomar una muestra sistemática de 1 en k .Masculinos Nac. El valor de cada una de estas cuentas no suele superar los 21000€. Un auditor se enfrenta a una larga lista de 1000 cuentas por cobrar de una empresa. La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente.6 1980 1852616 1759642 3612258 15. 45 D = = 0. 7 ≈ 331 k ≤ = 6. 04 ⇒ k = 6 ( N − 1) D + pq n N = 2000 p= 2. y establezca un límite para el error de estimación. hay 26 años. 000625 200 4 Npq N n= = 330. ¿Qué tipo de muestra sistemática deberá obtenerse? (indique n y k). Determine el valor de k. Considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios. considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios. SOLUCIÓN: N=650 B = 0. Los datos de la tabla adjunta representan una muestra sistemática 1 en 300 de una producción diaria de 1800 latas. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 33cl que salen de una línea de producción.µˆ = ysy = 1 n 1 yi = 11.935 ∑ 6 n i =1 S 2 = 37913412871. 0441 4 n= Nσ 2 = 17.5 33 32 31 Determine el tamaño de la muestra y k para estimar el contenido medio de las latas con un error de estimación inferior a 0. SOLUCIÓN: N=1800 n’=6 (con las funciones estadísticas del modo SD de la calculadora ) : S n2'−1 = 0.85 n N B = 139437. Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje.8 ≈ 215 ( N − 1) D + pq k≤ 650 = 3. Se quiere repetir el estudio anterior con un error de estimación inferior al 5%. 000625 4 Npq = 214. 02 215 k =3 .35 4. Cantidad de llenado en cl 33 32.926.561.20 (con las funciones estadísticas en el modo SD de la calculadora) S2 N − n Vˆ ( ysy ) = = 4860693957. Los funcionarios tomaron una muestra sistemática de 1 en 10.5 33. ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k). a partir de una lista en orden alfabético de los 650 miembros registrados.8 D= B2 = 0.610 = 1. obteniendo que 47 estaban a favor de los cambios propuestos. 2769 B2 = 0. 7231 65 qɵ = 1 − 0.97 ≈ 18 ( N − 1) D + σ 2 k= σ 2 = Sn2'−1 1800 = 100 18 5.42cl. 7231 = 0. 05 n= 76 n’=65 D= p= 47 = 0. se selecciona una muestra aleatoria simple de conglomerados.3 5. (Alumnos que asisten a clase = elemento.1 Necesidad y ventajas del muestreo por conglomerados. Muestreo por conglomerados. tomar varias observaciones dentro de un conglomerado no aporta más información. yi = suma de las observaciones en el conglomerado i 77 . Conglomerados y estratos. Los conglomerados. mi = elementos en el conglomerado i n = conglomerados en la muestra.2 5. Recordemos que los estratos debían ser tan homogéneos como fuera posible y diferir tanto como se pudiera uno de otro con respecto a la característica que está siendo esudiada. mientras que es fácil lograr un marco que liste los conglomerados. Determinación del tamaño muestral. 5. proporción y total poblacionales. 5.1 5. Conglomerados y estratos. Si los elementos dentro de un conglomerado presentan características similares.3 Estimación de la media. aulas = conglomerados) El coste de obtención de las observaciones es menor debido al agrupamiento de los elementos. sin embargo. 5.4 Necesidad y ventajas del muestreo por conglomerados. Una vez especificados los conglomerados. Vamos a utilizar la siguiente notación: N = conglomerados en la población. Estimación de la media.5. 5. proporción y total poblacionales. deben ser tan heterogéneos dentro de ellos como sea posible y muy similar uno a otro para que el muestreo por conglomerados esté indicado y proporcione buenos resultados.2 Formación de los conglomerados. El muestreo por conglomerados es útil para obtener información en las siguientes situaciones: Es complicado disponer de una lista de los elementos de la población. Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo es una colección (o conglomerado) de elementos. así una muestra con pocos conglomerados recogería gran cantidad de información sobre el parámetro poblacional. Los elementos de un conglomerado deben ser diferentes entre sí. Formación de los conglomerados. V ( y) = 1 N − n S c2 2 N n M donde Sc2 = ( 1 n ∑ yi − ymi n − 1 i =1 ) 2 ( M es estimado por m . n i =1 M= (A) Estimación de la media.. hablaremos de la proporción poblacional p y de la proporción muestral p . En este caso al número total de elementos 78 . por lo que la varianza estimada de y toma la forma de la varianza de un estimador de razón. n 1 n µ = y = ∑ yi = m i =1 ∑y i =1 n i ∑m i =1 i La media y tiene la forma de un estimador de razón. El sesgo desaparece cuando los tamaños de los conglomerados son iguales ( m1 = m2 = . M2 n A veces N no se conoce debido a su gran tamaño y N −n se aproxima por 1. Notas: • La expresión de V ( y) = 1 N − n S c2 2 N n M no se suele simplificar como N ( N − n ) Sc2 V ( y) = para poder calcularla fácilmente cuando N y M sean desconocidos.. = mN ). si se desconoce) La varianza estimada es sesgada y sería un buen estimador de V ( y ) si n es grande ( n ≥ 20 ). El estimador de la media poblacional µ es la media y . Si M es N desconocido M debe ser estimada por m . • Si la variable que estamos estudiando es dicotómica.N M = ∑ mi = elementos en la población (con frecuencia es desconocido) i =1 n m = ∑ mi = elementos en la muestra i =1 1 N ∑ mi = tamaño medio de los conglomerados de la población (con frecuencia es desconocido) N i =1 1 n m = ∑ mi = tamaño medio de los conglomerados de la muestra (se utililza para estimar M ). siendo el estimador del total poblacional τ τɵ = M y y la varianza estimada del mismo S2 M 2 S2 V (τɵ ) = M 2 V ( y ) = N ( N − n) c ≅ 2 c n m n (sea cual sea el valor de M.en el conglomerado i que poseen la característica de interés se nota como ai en lugar de yi como es habitual en variables numéricas. Por el mismo razonamiento empleado en el muestreo aleatorio simple. o equivalentemente del total poblacional τ . debemos construir un estimador del total que no dependa de M . aunque sí al valor del estimador del total) Como en la estimación del total con un estimador de razón. Así tendremos que n p=y= ∑a i =1 n i ∑m i =1 i Salvo esta diferencia en la notación. 2 n m (C) Estimación del total cuando se desconoce el tamaño de la población. 79 . es el promedio de los totales de los conglomerados de la muestra y un estimador n i =1 insesgado del promedio de los N totales de los conglomerados de la población. la varianza del N estimador del total se aproxima por M 2 Sc2 . Frecuentemente el número de elementos en la población no es conocido en problemas donde se aplica el muestreo por conglomerados. (B) Estimación del total. En ese caso no podemos utilizar el estimador del total τɵ = M y . todo lo anteriormente expuesto para variables numéricas es válido para variables dicotómicas. cuando M es desconocida y se estima por m y N −n se aproxima por 1 debido al gran tamaño de N. éste no afecta a la varianza ni al error del estimador. De la relación entre la media y el total poblacional µ = τ M se sigue que τ = M µ . La cantidad yt = 1 n ∑ yi . N y t es un estimador insesgado de la suma de los totales de todos los conglomerados. Ejemplo 5. Calcule el límite para el error de estimación. para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es 1500. mi . 80 . b) Con un intervalo de confianza estime el número de hogares interesados en contratar dicho sistema. la varianza de τɵ t = N y t es generalmente mayor que la varianza de τɵ = M y . Cuando los tamaños de los conglomerados son iguales. es un estimador insesgado de la media poblacional y también es insesgado el estimador de su varianza. además el estimador de la media. y . Esto es debido a que el estimador τɵ t = N y t no usa la información proporcionada por los tamaños de los conglomerados.1 En una ciudad se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital. Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital.En resumen τɵ t = N y t 2 S V (τɵ t ) = N 2 V ( y t ) = N ( N − n) t n N − n St2 V ( yt ) = N n donde St2 = ( 1 n ∑ yi − y t n − 1 i =1 ) 2 yt = 1 n ∑ yi n i =1 Si existe una gran variación entre los tamaños de los conglomerados y además los tamaños están altamente correlacionados con los totales de los conglomerados. V ( y ) (lo mismo vale para el total). Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la manzana Nº hogares interesados 1 8 2 2 7 2 3 9 3 4 6 3 5 5 3 a) Estime la proporción de hogares interesados en contratar el sistema de televisión digital. los dos estimadores del total coinciden. y por ello puede ser menos preciso. 12 ) 81 .8 2 V (τɵ ) = 160.3222 y − 2 y y m + y mi2 = = 0. V (τɵ ) = M 2 V ( y ) = 6478. a) N=200 mi yi mi2 yi2 mi yi 8 7 9 6 5 35 2 2 3 3 3 13 64 49 81 36 25 255 4 4 9 9 9 35 16 14 27 18 15 90 n=5 n p=y= ∑y i =1 n ∑m i =1 Sc2 = i = 13 = 0. 3 n −1 n 2 i N ( N − n) St2 V (τɵ t ) = = 2. tanto para variables numéricas como dicotómicas. 0028795 2 N n M Obsérve que al conocer M . 6 ∑ n i =1 5 ∑ (y − y ) n S = 2 t i =1 i t n −1 2 2 V ( y ) = 0.3714 35 p = 37.98 ( 396. 616.8306 ∑ ∑ ∑ i i i n − 1 i =1 4 i =1 i =1 Ya que M es desconocido. 003305 2 m N n yt = b) 1 n 13 yi = = 2.14 M= 1500 = 7. 75) 2 V (τɵ t ) = 96.5 200 V ( y) = 1 N − n Sc2 = 0.115 11. 718.5% τɵ t = N y t = 520 2 1 n y − yi ∑ ∑ n i =1 = i =1 = 0. utilizaremos esta última para unificar la notación a emplear en el muestreo por conglomerados.14% i ( 1 n ∑ yi − ymi n − 1 i =1 ) 2 = n n 2 1 n 2 3.340 n ( 423. M debe ser estimada por m m= 1 n 35 mi = = 7 hogares / manzana ∑ n i =1 5 V ( y) = 1 N − n S c2 = 0.SOLUCIÓN Aunque en un caso de variables dicotómicas como éste se suele usar en los textos la notación ai en lugar de yi . 75 c) τɵ = M y = 557. la estimación de V ( y ) es diferente de la obtenida en a). 25 .16 . El límite para el error de estimación es más pequeño en b) que en c).4 Determinación del tamaño muestral. 08 ). debido a que los tamaños de los conglomerados no están correlacionados con los totales de los conglomerados ( rmy2 = 0. siendo B2 para la estimación del total. 012 × 7 2 D= = = 0.8306 2 c 1 n 35 M ≅ m = ∑ mi = =7 n i =1 5 n= 82 Nσ c2 = 154. En otras palabras. 5. SOLUCIÓN S = 0. cómo debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un límite para el error de estimación del 1%. 001225 4 4 . el número de conglomerados en la muestra para obtener un determinado límite para el error de estimación B viene dado por n= D= Nσ t2 ND + σ t2 ( B2 1 n 2 2 y σ se estima mediante S = ∑ yi − y t t t 4N 2 n − 1 i =1 ) 2 de una muestra previa.1 representan una muestra previa. 4N 2 Habitualmente el tamaño promedio de los conglomerados de la población M no se conoce y tiene que estimarse por el tamaño medio m de los conglomerados de una muestra previa. Supongamos que los conglomerados ya están formados y vamos a seleccionar el número de conglomerados n para conseguir un determinado límite para el error de estimación B Nσ c2 n= ND + σ c2 donde σ c2 se estima mediante Sc2 = B2 M D= 4 ( 1 n ∑ yi − ymi n − 1 i =1 2 para la estimación de la media y D = ) 2 de una muestra previa. Cuando se utiliza N y t para estimar el total.2 Suponiendo que los datos del ejemplo 5. 4 ≈ 155 ND + σ c2 2 B2 M 0. los tamaños de los conglomerados proporcionan poca información sobre los totales de los conglomerados. Ejemplo 5. el Ministerio de Cultura desea estimar el número de libros comprados cada mes en una localidad.125 ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 Nσ c2 = 96. La industria consta de 57 plantas. cuántas manzanas debe tener una nueva muestra si se quiere estimar los libros comprados cada mes con un error de estimación inferior a 140 unidades. Se selecciona una muestra aleatoria simple de 5 plantas y se obtienen las opiniones de los empleados en estas plantas a través de un cuestionario. 25 D = B2 = 0. obteniéndose los siguientes resultados: manzana 1 2 3 4 Determine. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias. Con motivo del cuarto centenario del Quijote.92 ≈ 97 ND + σ c2 Una industria está considerando la revisión de su política de jubilación y quiere estimar la proporción de empleados que apoyan la nueva política. usando los datos libros comprados cada mes por familia 1 2 1 0 3 2 1 0 1 2 1 0 2 2 0 0 1 3 2 1 1 1 1 0 2 1 2 2 2 1 1 0 2 1 0 3 de la encuesta piloto.EJERCICIOS RESUELTOS 1. SOLUCIÓN mi yi 10 8 11 7 36 13 9 15 8 45 mi2 yi2 mi yi 100 169 130 64 81 72 121 225 165 49 64 56 334 539 423 n M = 6200 N = 700 y= ∑y i =1 n ∑m i =1 σ c2 ≅ Sc2 = ( 1 n ∑ yi − ymi n − 1 i =1 ) n= 2. 2 = i = 1. 01 4N 2 i n n 2 1 n 2 2 y + y m − 2 y mi yi = 1. Los resultados se presentan en esta tabla: 83 . Se selecciona una localidad con 6200 hogares agrupados en 700 manzanas de viviendas. 00278 N n M b) 2 2 2 V ( p) = 0. El investigador tiene 84 . Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde no existe una lista disponible de adultos residentes. La industria modificó su política de jubilación después de obtener los resultados de la encuesta. 7232 ⇒ p = 72. SOLUCIÓN: a) N = 57 n=5 mi yi 51 62 49 73 101 336 42 53 40 45 63 243 mi2 2601 3844 2401 5329 10201 24376 yi2 1764 2809 1600 2025 3969 12167 mi yi 2142 3286 1960 3285 6363 17036 n p= ∑y i =1 n ∑m i =1 Sc2 = ( 1 n ∑ yi − pmi n − 1 i =1 ) 2 = i = 243 = 0.Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53 3 49 40 4 73 45 5 101 63 a. Por esta razón para el diseño de la encuesta utiliza muestreo por conglomerados. 052 × 4515. 06 ≈ 18 ND + σ c2 3.54% 2 B2 M 0.84 5 1 N − n Sc2 V ( p) = 2 = 0. Ahora se quiere estimar la proporción de empleados a favor de la política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 5% para el error de estimación? Use los datos anteriores para aproximar los resultados de la nueva encuesta. 7 ∑ ∑ ∑ i i i n − 1 i =1 i =1 i =1 2 336 M ≈m = = 4515.84 D= = = 2.1054 ⇒ 10. Se divide la ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser considerado como un conglomerado.8224 4 4 σ ≈S 2 c 2 c Nσ c2 n= = 17.32% 336 i n 2 n 1 n 2 y − 2 p y m + p mi2 = 68. Estime la proporción de empleados en la industria que apoyan la nueva política de jubilación y establezca un límite para el error de estimación. Los conglomerados son numerados del 1 al 415. b. tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a cada hogar dentro de cada uno. c) Suponiendo que existen 2500 residentes en la ciudad. mi = 6 ∀i . Observe como coinciden las dos estimaciones así como la varianza del estimador y el límite para el error de estimación. supongamos conocido M = 6 × 415 = 2490 ) y estime el total por los dos métodos ( ) estudiados τɵ = M y τɵ t = N y t . Se seleccionan aleatoriamente 25 conglomerados y se realizan las entrevistas. estime el ingreso total de todos los residentes de la ciudad mediante un intervalo de confianza. NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo. 85 . b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de estimación. obteniéndose estos datos: Conglomerado (i) Nº de residentes (mi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8 151 residentes Ingreso total por conglomerado en € (yi) 96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000 1329000 € a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de estimación. suponiendo que M es desconocido. SOLUCIÓN: a) (este ejemplo no se puede resolver con una calculadora de 10 dígitos de forma exacta por la dificultad de trabajar con cantidades muy grandes) n=25 N=415 n µ=y= ∑y i =1 n i ∑m i =1 = 1329000 = 8801. = 8403000 i =1 Sc2 = i i ( 1 n ∑ yi − ymi n − 1 i =1 ) 2 = n n 2 1 n 2 15227502247 y − 2 y y m + y mi2 = = 634501213. cómo debe tomarse la muestra en una encuesta futura para estimar el ingreso promedio por persona con un límite para el error de estimación de 500€. 04 € . = 1047 n ∑ y m = ( 96000 × 8) + .. 40 ∑ ∑ ∑ i i i n − 1 i =1 24 i =1 i =1 Ya que M es desconocido.. 04 residente / bloque ∑ n i =1 25 V ( y) = 1 N − n Sc2 = 653785. M debe ser estimada por m . = 82039000000 ∑m i =1 i =1 2 i = 82 + .d) Tomando los anteriores datos como una muestra previa.. m= 1 n 151 mi = = 6.617..19 2 N n M 2 V ( y ) = 1.14€ b) yt = 1 n 1329000 yi = = 53160 € / bloque ∑ n i =1 25 2 1 n 1 y − ∑ yi ∑ 82039000000 − (1329000) 2 n i =1 25 = i =1 = = n −1 24 n St2 = = ( 1 n ∑ yi − y t n − 1 i =1 ) 2 2 i 11389360000 = 474556666. 6 24 2 S V (τɵ t ) = N ( N − n) t = 3072279860000 n 86 τɵ t = N y t = 22061400 € 2 V (τɵ t ) = 3505584.32 € / residente 151 i n n ∑ yi2 = 960002 + ... 40 2 c n= B2 M 5002 × 6.9482 2 N n M V (τɵ ) = M 2 V ( y ) = 4107755926250 2 V (τɵ ) = 4053519. 40 2500 = 6.c) N = 415 n = 25 M= Sc2 = 634501213. 26056831. Para ello decide seleccionar una muestra de 10 de las 85 inscritas en el registro mercantil.34€ .18€ ) Como puede observarse el límite para el error de estimación es más pequeño en b) que en c) debido a que los tamaños de los conglomerados no están altamente correlacionados con los totales de los conglomerados en este ejemplo ( rmy2 = 0. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. los tamaños de los conglomerados proporcionan poca información referente a los totales de los conglomerados. 2 d) S = 634501213. (b) Estime la proporción de empresas que usarían los servicios ofertados y el límite del error de estimación.92 (17949791. 04 2 D= = = 2280100 4 4 Nσ c2 = 166. 87 . el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No 6 0 8 No 7 1 21 Si 8 0 4 No 9 4 35 No 10 6 92 Si (a) Estime el número de bajas en el último año en las empresas del pueblo y el límite del error de estimación. En otras palabras. 0241 415 V ( y) = τɵ = M y = 22003311. El número de bajas en el último año.58 ≈ 167 ND + σ c2 4. 0919 ). 26€ 1 N − n S c2 = 657240. 25 6. 88 .94 2 St = = 8. Se selecciona una muestra aleatoria de 3 barrios de la ciudad de un total de 60. 02353 85 10 − 1 B = 2 0. (y − y ) yi i 1 2 9 0 2 0 1 0 4 6 25 2 t 2.5 bajas / empresa 10 ⌢ ⌢ 80.3068 (30.5 τɵ t = 85 × 2.25 2.25 0. 4 × 0. Se diseña una encuesta económica para estimar la cantidad media gastada en servicios por hogar de una ciudad formada por 3600 hogares. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados.25 42.08 = 151.5 85 − 10 8.25 80. los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 Estime la cantidad media de gastos en servicios por hogar en la ciudad y el límite para el error de estimación. por tanto para estimar el total consideraremos un muestreo aleatorio simple tomando como elementos muestrales las empresas.25 12. 08 9 85 10 yt = Bτ = 2 5702. 6 = 0.5 bajas 25 = 2.25 2. 7892157 ⇒ V (τɵ t ) = 852 V ( y t ) = 5702. 02 bajas b) p= V ( p) = 4 = 0.25 0. 02353 = 0.5 = 212. 68%) 5.25 6.94 ⇒ V ( y t ) = = 0. 40 (40%) 10 85 − 10 0.25 6.SOLUCIÓN: a) Se trata de un muestreo por conglomerados (cada empresa es un conglomerado) donde no se conoce el número total de empleados para toda la población. 5 Estime el volumen medio de los envases y la cota del error de estimación.04 2 V ( y ) = 0.33 3 ∑ yi = 391 i =1 3 ∑m 2 i i =1 3 ∑y i =1 2 i = 48 = 50961 89 . 23 2 N n M = 2612. cada uno de los cuales contiene 4 envases.5 33 33 33. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 3 de los 40 paquetes envasados en una hora.96 € 6.5 31 34 2 32. 49 € i n n 2 1 n 2 2 y + y m − 2 y mi yi ∑ i ∑ ∑ i n − 1 i =1 i =1 i =1 1 N − n Sc2 = 0. Las observaciones se presentan en la tabla adjunta: Paquete nº Volumen envasado en cl 1 33. SOLUCIÓN: N=40. n=3.5 3 30.5 32 33 32.SOLUCIÓN: mi yi 121550 143400 153090 n ∑m y i =1 N = 60 n i i n=3 M= n ∑ mi = 178 3600 = 60 60 n ∑ mi2 = 10594 i =1 = 418040 n ∑ yi = 7030 i =1 ∑y i =1 i =1 2 i = 16501100 n y=µ= ∑y i =1 n ∑m i =1 Sc = 2 ( 1 n ∑ yi − ymi n − 1 i =1 V ( y) = ) 2 = i = 39. y se mide el volumen que cada envase contiene. mi 4 4 4 yi 131 130 130 mi yi 524 520 520 3 ∑m y i i = 1564 i =1 (con las funciones del modo SD de la calculadora ) : M =m=4 3 ∑ mi = 12 i =1 y t = 130.5 32. 4 n ∑m i =1 y t = 118 90 n i = 32 ∑ yi = 590 i =1 n ∑m 2 i i =1 n ∑y i =1 2 i = 264 = 90700 . Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias.3 y=µ= ∑y i =1 3 2 = ∑m i =1 Sc = i yt = 32. El fabricante selecciona una muestra aleatoria simple de 5 de 100 industrias a las que da servicio. Entonces decide usar muestreo por conglomerados.5833 cl m i ( 1 3 ∑ yi − ymi n − 1 i =1 V ( y) = ) 2 = 3 3 2 1 3 2 2 y + y m − 2 y mi yi ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 1 N − n Sc2 = 0. Los datos sobre coste total de reparaciones por industria y el número de sierras son: Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 Estime el coste medio de reparación por sierra para el mes pasado y el límite para el error de estimación. 006423 2 N n M = 0.3333 2 V ( y ) = 0. pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria.1603 cl 7. SOLUCIÓN: N=100 n=5 mi yi 150 770 2530 1260 120 n ∑m y i =1 i i = 4830 (con las funciones del modo SD de la calculadora ) : M = m = 6. con cada industria como un conglomerado. El fabricante no puede obtener un coste de reparación para cada sierra. El periódico quiere hacer la estimación el día de la elección. pero antes de que se haya hecho el recuento final de los votos. 57 2 V ( y ) = 3. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A. 2934 € 8. SOLUCIÓN: N=495 n=5 mi yi 877200 738270 399000 1514700 651832 n ∑m y i =1 i i = 4181002 (con las funciones del modo SD de la calculadora ) : M = m = 1260.5 y=µ= ∑y i i =1 5 ∑m 2 yt = 18. Se selecciona una muestra aleatoria de 5 distritos de un total de 495. 6 n i = 6301 ∑ yi = 3193 i =1 n ∑m 2 i i =1 n ∑y i =1 2 i = 8270161 = 2183195 91 . para obtener la información pertinente directamente de los votantes. Ya que la selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa. con distritos como conglomerados. se utiliza muestreo por conglomerados. 4375 € m i i =1 Sc = = ( 1 n ∑ yi − ymi n − 1 i =1 V ( y) = ) 2 = n n 2 1 n 2 2 y + y m − 2 y mi yi ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 1 N − n Sc2 = 2. 2 n ∑m i =1 y t = 638. Los resultados se muestran en la tabla: Nº votantes Nº votantes que apoyan A 1290 680 1170 631 840 475 1620 935 1381 472 Estime la proporción de votantes que apoyan al candidato A y el límite para el error de estimación. Los reporteros son enviados a los lugares de votación de cada distrito en la muestra. 7116 2 N n M = 584. 506745 m ( 50. 67% ) i ( 1 n ∑ yi − ymi n − 1 i =1 V ( p) = 92 i ) 2 = n n 2 1 n 2 2 y + y m − 2 y mi yi ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 1 N − n Sc2 = 0. 00216573 2 N n M 2 V ( y ) = 0.31% ) .5 p=µ= ∑y i =1 5 ∑m i =1 Sc = 2 = yt = 0.505 ( 9. 0930748 = 17372. 1 segundos y S = 0. B = 0. Un dentista está interesado en la efectividad de una nueva pasta dental. y fueron medidos sus tiempos de reacción.4 segundos. se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad. En un estudio sociológico. Una muestra aleatoria simple de 60 hogares fue seleccionada de la guía.000 niños de escuela participó en el estudio. 2. B = 0. Usando los datos de la siguiente tabla: Número de caries en seis meses 1 0 2 4 3 2 4 3 5 2 6 0 7 3 8 4 9 1 10 1 ¿Se puede decir que la incidencia media de las caries ha disminuido? Niño Solución: 2. Al terminar la investigación de campo. Solución: pˆ = 0. Un grupo de 1. según la guía de teléfonos más reciente. Una muestra aleatoria simple de 20 pacientes fue seleccionada.1.1833.1697 3. Estime la proporción poblacional y establezca un límite para el error de estimación. en 11 habita al menos una persona mayor de 65 años.06. La ciudad tiene 621 hogares. Estime la media poblacional y establezca un límite para el error de estimación. con los resultados siguientes: y = 2. Un psicólogo desea estimar el tiempo de reacción medio para un estímulo en 200 pacientes de un hospital especializado en trastornos nerviosos.0958 93 . el dentista muestreó 10 niños para determinar cuánto habían progresado con la nueva pasta dental.RELACIÓN DE EJERCICIOS 1. de los 60 hogares muestreados.94) ⇒ No 2.2 caries cada seis meses para el grupo. realizado en una pequeña ciudad. Después de un año de iniciado el estudio.2 ∈ (1. Muestreo Aleatorio Simple 1. Solución: µˆ = 2. Los registros de un estudio anterior mostraron que había un promedio de 2. Una muestra aleatoria simple presentó 70 facturas al por mayor y 30 al por menor.413 ≅ 400 6. Un auditor desea muestrear 100 de sus facturas para estimar el valor medio de las facturas de la empresa (Nota para estimar el total necesitaríamos conocer N). 77 ≅ 67 2. La media muestral para las 100 parcelas de 1 acre fue y = 25. y cada parcela fue examinada en relación con el número de árboles de tamaño grande.500 acres. identificar las facturas individuales sin consultar un archivo es complicado. construyendo un intervalo de confianza al 95%. con un límite para el error de estimación de 1. Esta información se utiliza para estimar el volumen total de madera en la plantación.848 familias.104.2 árboles. Una gran empresa sabe que el 40% de las facturas que emite son al por mayor y el 60% al por menor. determine el tamaño de muestra requerido para estimar el número total de árboles grandes en la plantación. Solución: (44. 58.9408 5. El número de personas por familia en la muestra obtenida fue el siguiente: 5 6 3 3 2 3 3 3 4 4 3 2 7 4 3 5 4 4 3 3 4 3 3 1 2 4 3 4 2 4 Estimar el número total de personas en la zona. Usando los datos del ejercicio anterior.04 ) n = 66. con una cuasivarianza muestral de S 2 = 136 . Sin embargo. Solución: n = 399.09. Una muestra aleatoria de 30 familias fue extraída de una zona de cierta ciudad que contiene 14. Un investigador está interesado en estimar el número total de árboles mayores de un cierto tamaño específico en una plantación de 1. Estime el número total de árboles de tamaño grande en la plantación.800.842. Solución: τˆ = 37. Los datos son separados en facturas al por mayor y al por menor después del muestreo. con los siguientes resultados en €: Por mayor Por menor Valor total facturas=36400€ Valor total facturas=8400€ n1 = 70 94 y1 = 520€ S1 = 210€ n2 = 30 y 2 = 280€ S2 = 90€ . Establezca un límite para el error de estimación. B = 3. Una muestra aleatoria simple de 100 parcelas de 1 acre fue seleccionada.4.500 árboles.379. Muestreo Aleatorio Estratificado 1. Decide investigar muestras de 40 profesores ayudantes.395 universidades de Estados Unidos. Una reportera del periódico de los estudiantes quiere averiguar si los profesores están realmente en sus despachos durante las horas de tutorías.0685 4. B = 28. 127 profesores asociados y 208 profesores titulares. De las 1.8 Desviación típica 87. Se recogieron de manera independiente.731.2058. 95 . Solución: (a) τˆst = 480. y fije un límite para el error de estimación.0826 3. Solución: yst = 376€. 300 y 200 facturas.7214. 40 asociados y 50 titulares. Las medias muestrales y las desviaciones típicas del número de estudiantes matriculados el pasado año en asignaturas de estadística aparecen a continuación. una muestra aleatoria simple de 40 universidades con estudios de dos años y otra de 60 con estudios de 4 años. Algunos estudiantes voluntarios llamaron a la puerta de los profesores de la muestra durante sus horas de tutorías. Se halló que 31 de los profesores ayudantes.14€ 2.031 estudios universitarios de cuatro años. se investigó también en qué proporción de las universidades la asignatura de estadística para economistas era impartida por miembros del departamento de economía. Un auditor quiere estimar el valor medio de las facturas por cobrar de una compañía.3 411.594. B = 0.9 a) Estimar el número total de estudiantes matriculados en asignaturas de estadísticas.3 219. 29 de los asociados y 34 de los titulares se encontraban realmente en sus despachos. Dar un límite de error de estimación. Solución: pˆ st = 0. 364 imparten estudios universitarios de dos años y 1.Estime el valor medio de las facturas de la empresa. Estimar la proporción de universidades en las que esta asignatura es impartida por profesores del departamento de economía. En la muestra se halló que en 7 de las universidades con carreras de dos años y en 13 de las que tienen carreras de cuatro años sucedía esto. Hallar un intervalo de confianza para la proporción de profesores que permanecen en sus despachos durante las horas de tutorías. B = 57. 400. B = 0. La población se divide en cuatro estratos que contienen 500. Dar un límite de error de estimación. Carreras de 2 años Carreras de 4 años Media 154.84 (b) pˆ st = 0. Una universidad tiene 152 profesores ayudantes. b) En el estudio del ejercicio anterior. Los costos por efectuar la observación de un cliente actual es de 4€ y de 8€ para uno que no lo es.55 5. con el fin de 96 . n3 = 22.84 ≅ 95. (Suponemos que cada padre tiene un solo hijo en el centro) Años Alumnos matriculados 150 130 120 100 Porcentaje de participación en años anteriores 40% 30% 25% 20% Coste de encuestar a un elemento 4 9 16 25 4-6 6-8 8-12 12-14 Sol. Registros existentes nos dan que existen 97 familias que en la actualidad utilizan las instalaciones y 145 que no lo hacen. Un determinado embarque de una fábrica consistía en las máquinas producidas por la citada fábrica a lo largo de las dos últimas semanas. respectivamente. Se va a realizar una encuesta para estimar la proporción de familias con niños que utilizarán las instalaciones ampliadas. n2 = 83. n 4 = 19.65 ≅ 21 ⇒ n = 202 7. n = 130 (b) n1 = 22. n1 = 94. En un centro escolar se quiere realizar una encuesta para conocer la proporción de padres que estarían dispuestos a participar en actividades. Las familias están dividas en aquellas que en la actualidad usan las instalaciones y las que aún no la usan. a) Encuentre el tamaño muestral aproximado y la asignación necesaria para estimar la proporción poblacional con un límite de 0. b) Suponga que el costo total de muestreo se fija en 400 € . Elija el tamaño de la muestra y la asignación que minimiza la varianza del estimador para este costo fijo.05 para el error de estimación. 30 y 40 euros. de cada estrato. Solución: (a) n1 = 47. Aproximadamente el 90% de los que usan las instalaciones y el 50% de los que no las usan van a utilizar las nuevas instalaciones.27 ≅ 52. n 2 = 19.respectivamente.3. Determinar el tamaño muestral y la asignación para estimar el valor medio de las facturas por cobrar cometiendo un error de como mucho 5 euros. n 4 = 20.53 ≅ 34. n = 61 6. Se quiere estimar la proporción de padres tanto a nivel global como para cada grupo de edad de los alumnos por lo que se decide estratificar según la edad de los alumnos. n 2 = 51. Se decide estratificar basándose en las semanas.83.83. El coste de transportar mercancías en avión depende del peso. n = 80. hay que encuestar para que la proporción de participación de los padres con hijos de edades entre 6 y 8 años sea estimada con un error menor o igual al 10%. n2 = 39.31. Un ayuntamiento está interesado en ampliar las instalaciones de un centro de atención diurna para niños. n3 = 33. se estima que las desviaciones típicas en estos estratos son de 15. A partir de la información proporcionada por la siguiente tabla.59. Basándose en una experiencia previa. n = 200. obtener el número óptimo de padres que. Solución: n1 = 18. 20. 30.98 ≅ 59.6 58. L=Lento. Una cadena de almacenes está interesada en estimar la proporción de cuentas no cobradas.8 59. 19.5 a. b.1 58. en el caso de que se quiera estimar el peso total del embarque.80 ≅ 23. Las muestras aleatorias simples de los pesos (en kilos) de las máquinas transportadas en el embarque. B = 0.3 59.6 60.2 59. Los estudiantes de la escuela se agrupan en tres estratos según el tipo de aprendizaje.1 59. Determinar el tamaño de la muestra y su asignación. Solución: (a) τˆ = 19.850'56) (c) n = 65. n 2 = 31. b. con un límite del error de estimación del 5%.35 ≅ 39. En el 97 .593'71. n 4 = 12. n3 = 58. sabiendo que el número total de máquinas producidas ha sido de 162 en la semana A y de 170 en la semana B.2 60. A=Avanzado.7 59. c.4 60.3 59. Una escuela desea estimar la calificación media que puede obtener en el examen final de matemáticas en este curso.37 ≅ 35.17 ≅ 13 ⇒ n = 134 9.722. siendo el coste de muestreo igual para todos. Estrato I Estrato II Estrato III Estrato IV N 3 = 93 N 4 = 25 Nº cuentas por cobrar N 1 = 65 N 2 = 42 n1 = 14 n2 = 9 n3 = 21 n4 = 6 Tamaño muestra Nº cuentas no cobradas 4 2 8 1 a.observar si existe variación semanal en la cantidad producida. Estime la proporción de cuentas no cobradas para la cadena y fije un límite para el error de estimación. mostraron las siguientes mediciones: Semana A Semana B 58. Considere las muestras anteriores como muestras previas para estimar los parámetros necesarios. Solución: (a) pˆ = 0. n1 = 38.1173 (b) n = 132. con un límite para el error de estimación de 50 kg. La cadena está formada por 4 almacenes. con cada tienda como un estrato. clasificado como N=Normal.30.30 ≅ 32 ⇒ n = 67 8.67.13 (b) (19. n 2 = 22. para las dos semanas. Utilice los datos anteriores para determinar la asignación y el tamaño de la muestra necesarios para estimar la proporción de cuentas no cobradas. n1 = 34. Obtenga un intervalo de confianza para el peso total del embarque de maquinaria. Se usa muestreo aleatorio estratificado. Las dispersiones en los pesos se suponen diferentes de una semana a otra. Estimar el peso total del embarque de maquinaria. De una medida del error de estimación. qué tamaños muestrales en cada estrato son necesarios para un error máximo admisible de 2 puntos. se tomó una muestra aleatoria de estudiantes.14 ≅ 20 ⇒ n = 28 . b. Para actualizar esta información. Se desea mejorar la estimación de la nota media del examen final en matemáticas. se les hizo el examen final de matemáticas y se obtuvieron las siguientes calificaciones (entre paréntesis. Se desea estimar el salario medio de los empleados de una empresa. la distribución de los alumnos según el tipo de aprendizaje es 50 normal. n3 = 7. 43.69). n1 = 18. el número de estudiantes con aprendizaje normal que han superado los 80 puntos. 21 (b) µˆ = 77. teniendo en cuenta más información.26 ≅ 8 ⇒ n = 38 (d) (11.25 (c) n = 36. utilizando asignación Proporcional.59. B = 3. con unas cuasivarianzas de 80. ¿Qué ocurre si no se tiene en cuenta el tipo de aprendizaje? Compare los resultados de ambos métodos de estimación. 77 ≅ 8 n2 = 19. el tipo de aprendizaje de cada estudiante): 70(L) 88(A) 72(N) 85(N) 90(N) 82(A) 61(N) 92(N) 65(L) 87(A) 91(A) 81(N) 79(N) 63(L) 82(N) 75(N) 78(A) 71(L) 61(L) Se pide: a. Estime. 89 para el avanzado y 70 para el lento.8 ≅ 17 10. Estime la calificación media en el examen final de matemáticas. la calificación media de los estudiantes según el tipo de aprendizaje fue en el primer examen parcial: 75 para el normal. ¿Cuál debe ser el tamaño de la muestra y su asignación para que al estimar el salario medio mensual el error de estimación sea inferior a 100 euros? Solución: Neyman n = 26.87. c. así como determine la ganancia en precisión. n = 16.15 ≅ 19. n 2 = 10. Los primeros son 143 y su salario varía entre 1500 y 2500 euros mensuales.91 98 n1 = 7.31. B = 4. 30 y 40 respectivamente. Si se pudiera planificar de nuevo la muestra. Los contratos temporales son 320 y su salario está comprendido entre 700 y 1800 euros mensuales.53. Se decide clasificarlos en dos estratos: los que tienen contrato fijo y los que poseen un contrato temporal. Usando estos resultados como muestra previa.89 ≅ 11.presente curso. ¿qué tamaño de muestra sería necesario para que esta misma estimación tuviera un error máximo admisible de 10 estudiantes? Solución: (a) µˆ = 78. con un intervalo de confianza. 30 avanzado y 20 lento. d. 5 42.0 1981.4 35. (Existen 45 sectores industriales que se utilizan para determinar el ingreso nacional total).4 (a) Encuentre el estimador de razón del ingreso total de 1981 14.9 48.5 221. Muestreo con información auxiliar 1. Se dispone de los datos del ingreso de 1980 para los 45 sectores industriales y los totales son 2. Los datos se presentan en la tabla adjunta: Industria 1980 Producto de fábricas textiles 13.4 Bienes Raíces 198.2 Equipo eléctrico y electrónico 48. El ingreso nacional para 1981 será estimado con base en una muestra de 10 sectores industriales que declaran sus ingresos de 1981 antes que las 35 restantes.4 Vehículos y equipo 19.2 114.0 17.1467.2 (en miles de millones).3 Servicios de Salud 99. y establezca un límite para el error de estimación.6 25.2 Servicios de Educación 15. Una muestra aleatoria de 14 familias fue seleccionada de entre 150. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en alimentos sobre el ingreso por año. y establezca un límite para el error de estimación. Los datos de la muestra se presentan en la siguiente tabla: Familia Ingreso Total Gasto en alimentos 1 25100 3800 2 32200 5100 3 29600 4200 4 35000 6200 5 34400 5800 6 26500 4100 7 28700 3900 8 28200 3600 9 34600 3800 10 32700 4100 11 31500 4500 12 30600 5100 13 27700 4200 14 28500 4000 Estime la razón poblacional.7 15.1 53.5 Banca 44.0102 2.6 Productos químicos y relacionados 37. Solución: r = 0. B = 0.7 Madera aserrada y leña 15.174.6 Transporte y almacenaje 33. para las familias de una pequeña comunidad.3. 99 . (c) Encuentre el estimador de diferencia del ingreso total de 1981. Solución: (a) µˆ = 180. Se obtuvieron los siguientes resultados: N 1 = 80. por la fuerte relación entre las variables. 4.432. este año (Y) y el año pasado (X): Pueblo A Pueblo B xi yi xi yi 204 210 137 150 143 160 189 200 82 75 119 125 256 280 a.43. y establezca un límite para el error de estimación. Compare los estimadores que se obtienen en cada caso justificadamente. b. B = 49.81 (c) µˆ = 171.30.433. n 2 = 8. 100 N 2 = 60.91. B = 53. Tomamos una muestra aleatoria de 4 habitantes del pueblo A y otra de 3 habitantes del pueblo B para los que se conoce su consumo del producto bajo estudio (expresado en euros). Se desea conocer las ventas medias (en euros / habitante) en este año de un determinado producto en un municipio formado por un pueblo A con 291 habitantes y un pueblo B con 200 habitantes. N 3 = 40.69 (b) µˆ = 171.(b) Encuentre el estimador de regresión del ingreso total de 1981. B = 45.53 (d) La mejor estimación es en la que se usa el estimador de razón. Se sabe que las ventas medias en ese municipio el año pasado fueron de 170 euros / habitante. Sin hacer distinción entre pueblos.95 (b) τˆYL = 2. Dé un límite para el error de estimación. n1 = 10.64 (c) τˆY = 2.90. Por este motivo.455. Los investigadores piensan que hay razones para creer que el comportamiento es diferente dependiendo de la zona de crianza. (d) ¿Cuál de los tres métodos es el más apropiado en este caso?¿Por qué? Solución: (a) τˆY = 2.91. B = 180. B = 48. n3 = 6 .07 3. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado ni se hace distinción entre pueblos? d. Se está investigando la eficacia de una nueva dieta alimenticia en la crianza de conejos.53. deciden formar estratos observándose el peso de los conejos antes de introducir la nueva dieta (X) y el peso resultante al cabo de un mes de tratamiento (Y). ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado pero si el pueblo? c. El muestreo estratificado se comporta mal porque los estratos no son homogéneos. y establezca un límite para el error de estimación. B = 5. estime las ventas medias para este año utilizando un estimador de razón. Si se le permite un error de estimación de 0.1 3.1 3.15 ≅ 49.8 4.8 2.1 3.0793 (d) µˆ = 3. Los resultados fueron los siguientes: 101 . A partir de una muestra aleatoria de estudiantes para los cuales se observó la nota del examen final en el curso 00/01 y la calificación de dicho alumno en la prueba correspondiente al curso 99/00.0 4. Estimar el peso medio de los conejos al final del tratamiento utilizando muestreo aleatorio simple.1 ≅ 33 ⇒ n = 147 (c) µˆ y = 4. Dar el límite de error de estimación.0008. se desea estimar la calificación media que puede obtenerse en el examen final de matemáticas en el curso 00/01. B = 0. B = 0. n 2 = 48.8 3.0 3.7 3.0617 5.0 3.0 3. Sabiendo que el peso medio de los conejos antes de introducir la nueva dieta era de 3.1 3. Estimar el peso medio estratificado de los conejos al principio y al final del tratamiento.9 3. B = 0.0 3.9 3. Dar una estimación del error.2 kilogramos.2 ≅ 65.0516.2 4.4.8875. En una escuela de 560 alumnos.9 2.6 3.8944.9 4.1 3.7 2.9 2. Comentar los resultados.2 2.1467. n1 = 64.0 4. n3 = 32.9 3.1 3.0 2.8 3.2 4.9 3.0 3. B = 0.2 4. c.0 3.9 4. b.7 2.8 3.1 3.8 3.01 para estimar el peso medio estratificado al final del tratamiento.1 3. estimar el peso medio de los conejos al final del tratamiento utilizando un estimador de razón.8 3.Zona A Zona B Zona C X Y X Y X Y 3.1 3. µˆ y = 3.0523 (b) n = 144.8 3.8 3.0 3.2 4.8 2. Solución: (a) µˆ x = 3. Se toma como información auxiliar la calificación de los mismos alumnos en el examen final de matemáticas del curso 99/00 con una nota media de 75.8 a.7 2. d. ¿cuáles deben ser los nuevos tamaños muestrales? Usar asignación Proporcional. 44 ) (c) n = 38. es de 12. obtenidos según la cantidad en fotografía es 4200.9 ≅ 39 7. Se toma una muestra aleatoria de 10 parcelas. El número total de abetos muertos. b. B = 7. en general. Usando una fotografía aérea. Dar una estimación del error de muestreo. Estime la razón poblacional y obtenga su intervalo de confianza. Solución: µˆ y = 75. Parcela 1 2 3 4 5 6 7 8 Cantidad en fotografía 12 30 24 24 18 30 12 6 Cantidad en terreno 9 10 36 42 18 42 24 36 24 36 14 10 48 54 a. b. Un director de recursos forestales está interesado en estimar el número de abetos muertos por una plaga en una zona de 300 hectáreas. Estime el número total de abetos muertos en el área de 300 hectáreas y fije un límite para el error de estimación. con un límite de error de estimación de 200 abetos? Solución: (a) r = 1. (1'2057..000. B = 428.3077. para la que es conocido que el gasto total general durante un periodo de un año. Supongamos que de esos 4 hogares tenemos también los valores anuales de su gasto general (en um): 102 .000 um. el director divide la zona en 200 parcelas de hectárea y media. ¿Cuál ha de ser el tamaño de la muestra necesario para estimar el total de abetos muertos. 1'4097) (b) τˆ y = 5.31.45 6.492. c.Nota curso Nota curso 99/00 00/01 80 87 78 65 98 86 45 47 61 67 83 94 79 67 56 67 Estimar la calificación media del curso 00/01 utilizando como información auxiliar la calificación obtenida en el curso 99/00 mediante un estimador de razón. Estimar el gasto total en alimentación para los 40 hogares mediante un intervalo de confianza. se obtiene una muestra aleatoria simple de tamaño 4 que proporciona los siguientes valores anuales (en um): Gasto en alimentación 125000 150000 100000 175000 a. De una población de 40 hogares. B = 10. Teniendo en cuenta que 291 eran chicos y las calificaciones medias del examen previo fueron de 47 para los chicos y 52 para las chicas. ¿obtendríamos mejores resultados si utilizamos esta información auxiliar?¿Por qué? c. b.54 (b) µˆ = 73.Gasto General 250000 300000 200000 350000 Antes de calcular otro estimador.46 4. Estimar mediante un estimador de razón el total de gasto en alimentación. B = 9.76. Solución: (a) µˆ y = 80.255. 103 .000. Corroborar la respuesta del apartado b indicando qué estimador es mejor.744) (b) ρ = 1 (c) τˆ y = 6. Los datos de la tabla adjunta representan una muestra sistemática 1 en 50 de la producción de un día. Muestreo Sistemático 1. De una medida del error de estimación.5 (c) µˆ = 76.97. Sin tener en cuenta el sexo. 6. Solución: (a) (4.724. utilizando la información auxiliar del apartado b. d. a partir de los datos de la tabla siguiente.275. ¿Qué ocurre si no se tiene en cuenta la información auxiliar ni el sexo? d. Se consideraron dichas calificaciones como una variable auxiliar de la variable “calificación final en cálculo”. Compare los estimadores que se obtienen en cada caso justificadamente. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 12 onzas que sale de una línea de producción. el del apartado a o el del apartado c. En una universidad se realizó una prueba de conocimientos matemáticos antes del ingreso a 486 estudiantes. estima la calificación media en el examen final de cálculo utilizando un estimador de razón. B = 9. ¿Qué ocurre si no se tiene en cuenta la información auxiliar pero si el sexo? c.000 (d) B = 0 (límite del error de estimación del apartado (c) 8. se pide: CHICOS CHICAS Examen previo Examen de cálculo Examen previo Examen de cálculo 39 65 57 92 43 78 47 89 21 52 28 73 64 82 75 98 34 56 52 75 a. 97 12.008 3.80 11.063 3. B = 0.386 18.047.05 12.073.927. B = 139.295 26.437. Sea y i = 1 si la i-ésima persona muestreada favorece los cambios propuestos e y i = 0 si se opone a los cambios. Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. y establezca un límite para el error de estimación.93 12. Solución: (a) µˆ sy = 11.054 1. a partir de una lista en orden alfabético de los 650 miembros registrados.Cantidad de llenado (en onzas) 12.03 12. 65 ∑ y i = 48 i =1 Solución: pˆ sy = 0.88 12.531.759.93 11. (c) Si.642 3.04 a.576 4. (b) µˆ sy = 19.35 . Establezca un límite para el error de estimación.94 11.05 11.6 1980 1.87 11.01 11.Masculinos Nac.915.90 11.1042 3.01 unidades. 104 . Estime µ .0 1960 2.760.935.94.179.078. Determinar el tamaño de muestra requerido para estimar µ dentro de 0.03 11.719 1.17 .01 11.7385.0259 (b) n = 217.67.358 19.142 4.85 11.258 15.05 11. B = 0.72 11.83 11. b.850 23.87 12. Use los siguientes datos de la muestra para estimar la proporción de miembros en favor de los cambios propuestos.731.198 14.89 11.95 11.Femeninos Total de Nac.7 1965 1.816.4 1970 1.378 1.91 11.612.91 11. Los funcionarios toman una muestra sistemática de 1 en 10. y establezca un límite para el error de estimación.1 ≅ 218 2.98 11. (a) Estime el número medio de varones nacidos por año para el periodo 1955-1980.98 11.97 11. Observando la tendencia de las muestras se puede decir que las poblaciones en estudio están “ordenadas” de forma decreciente. Suponga que N=1. B = 3.616 1.257.02 12.00 11.98 12.304 3. (c) ¿Cree usted que el muestreo sistemático es mejor que el muestreo aleatorio simple para los problemas de los apartados (a) y (b)?¿Por qué? Año Nac.87 11.98 12.4 1975 1. Natalidad 1955 2. y establezca un límite para el error de estimación.144.833.93 11.926. La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente. (b) Estime la tasa media anual de natalidad para el periodo 1955-1980.87 12.613.800.00 11.135 1.708 2.9 Solución: (a) µˆ sy = 1.01 12.973.852. 4. pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. ¿Es en este caso el muestreo sistemático mejor o peor que el muestreo aleatorio simple?¿Por qué? Solución: µˆ sy Año Tasa Año Tasa 1900 0.7 1945 3.6 1910 0.3 1915 1. Los datos sobre coste total de reparaciones por industria y el número de sierras son: Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 6 12 280 7 14 240 8 3 45 9 5 60 10 9 230 11 8 140 105 . con cada industria como un conglomerado.8 1935 1. El fabricante selecciona una muestra aleatoria simple de 20 de 96 industrias a las que da servicio. en general. 6.7 1980 5. se observa.0 1960 2.5 1925 1. una tendencia creciente en los datos de la muestra.26.2 1940 2. El fabricante no puede obtener un coste de reparación para cada sierra. Mejor.6 1965 2.5 1930 1. Entonces decide usar muestreo por conglomerados.9 1955 2.6 1975 4. Estime la tasa media anual de divorcios para tal periodo y establezca un límite para el error de estimación. 1.57 . Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias.5 1970 3. B = 0.2 1920 1.5 1905 0.0 = 2. aunque se rompa ese orden parcial en los años 1945-1955. Muestreo por Conglomerados.8 1950 2. En la tabla anexa se presentan los datos sobre las tasas de divorcio (por cada 1000 personas) en Estados Unidos para una muestra sistemática de los años de 1900-1980. Se diseña una encuesta económica para estimar la cantidad media gastada en servicios para los hogares en una ciudad. Estime el costo medio de reparación por sierra para el mes pasado. B = 1. B = 3. y establezca un límite para el error de estimación.110. Usando esta información adicional. Después de verificar sus registros de ventas.73.175. B = 1. con barrios formando los conglomerados. estime la cantidad total gastada en reparación de sierras por estas industrias. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados.78 2. Se selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60. c.78 (b) τˆ = 12. Estime la cantidad total gastada por las 96 industrias en la reparación de sierras. b. los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 4 58 2380 5 71 2760 6 78 3110 7 69 2780 8 58 2370 9 52 1990 10 71 2810 11 73 2930 12 64 2470 13 69 2830 14 58 2370 15 63 2390 16 75 2870 17 78 3210 106 . Ya que no se encuentra disponible una lista de hogares. y establezca un límite para el error de estimación.312. el fabricante se percata de que ha vendido un total de 710 sierras a esas industrias. se usa muestreo por conglomerados. Establezca un límite para el error de estimación.008.85.12 6 130 13 3 70 14 2 50 15 1 10 16 4 60 17 12 280 18 6 150 19 5 110 20 8 120 a. Solución: (a) µˆ = 19.07 (c) τˆ = 14. 7 16. La selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa por lo que se utiliza muestreo por conglomerados.1 4 15.0 15.0 15.9 16. El periódico quiere hacer la estimación el día de la elección. El inspector selecciona aleatoriamente 5 y mide el peso de llenado de cada caja en los paquetes muestreados.9 16.9 16.18 51 2430 19 67 2730 20 70 2880 a. con los resultados (en onzas) que se muestran: Paquete Onzas de llenado 1 16.9 3 16.1 16.000€ para el error de estimación.0 5 16. Solución: µˆ = 16.2 16.9 16.1 16.1 16. c.88 (c) n = 29.9 16.9 Estime el peso medio de llenado para las cajas empaquetadas por esta fábrica.8 16.64 (b) τˆ = 157.1 15.2 15. B = 0.8 16. Es por eso que los reporteros son enviados a los lugares de votación de cada distrito en la muestra.020.0050. B = 6. con un límite de 5.1 15.9 16.1 15.3 15.0 2 15. y establezca un límite para el error de estimación.0215 4.9 16. La encuesta económica se va a llevar a cabo en una ciudad vecina de estructura similar.0 15.0 16.1 16. El cereal está en paquetes que contienen 12 cajas cada uno.1 15. Estime la cantidad total gastada en servicios por todos los hogares de la ciudad y establezca un límite para el error de estimación.0 15.9 15.2 15.3 15. b. Se selecciona una muestra aleatoria de 50 distritos (conglomerados) de un total de 497 que tiene el estado.0 16. Estime la cantidad media de gastos en servicios por hogar en la ciudad y establezca un límite para el error de estimación.9 15.7 16. Los resultados se muestran en esta tabla: 107 . Un inspector quiere estimar el peso medio de llenado para cajas de cereal empaquetadas en una fábrica.3 16. B = 0.0 16.2 16.927.1 15. Suponga que el número total de cajas empaquetadas por la fábrica es lo suficientemente grande para que no se tome en cuenta la corrección por población finita.9 16.8 16.0 16. En la encuesta anterior se desconoce el número de hogares en la ciudad. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A en una elección estatal.1 16.3 15.17. pero antes de que se haya hecho la cuenta final de los votos.1 15. El objetivo es estimar la cantidad total gastada en servicios por los hogares de la ciudad.0 15.9 16.1 15.0 16.0 16.4 ≅ 30 3. Solución: (a) µˆ = 40. para obtener la información pertinente directamente de los votantes.8 16.8 15.1 16.2 16.8 16. Use los datos anteriores para encontrar el número aproximado de conglomerados que se necesitan para obtener ese límite.8 16.1 16.9 15. 78 6. obtenga el límite para el error de estimación en cada caso y comente los resultados. Un empresario quiere estimar el número de tubos de dentífrico usados por mes en una comunidad de 4000 hogares divididos en 400 bloques. Estime la proporción de votantes que apoyan al candidato A. El periódico quiere realizar una encuesta similar durante la siguiente elección. Se selecciona una muestra aleatoria simple de 4 bloques que proporciona los siguientes resultados: Bloque tubos gastados por hogar 1 1 2 1 3 3 2 1 4 2 1 3 2 2 3 1 4 1 1 3 2 1 1 1 3 2 2 4 1 1 3 2 1 5 1 3 Estime de distintas formas el número total de tubos gastados. ¿Cómo de grande debe ser la muestra para estimar la proporción de votantes a favor de un candidato similar con un límite del 5% para el error de estimación? Solución: pˆ = 0.1 ≅ 21 5. y se mide el volumen que cada envase contiene. y establezca un límite para el error de estimación.85 Muestreo aleatorio simple τˆ = 6400. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 5 de los 40 paquetes que tiene la fábrica. Solución: Muestreo por conglomerados τˆ = 8000.5701.0307 (b) n = 20. b. cada uno de los cuales contiene 4 envases. B = 562. B = 0.Nº votantes Nº votantes A Nº votantes Nº votantes A Nº votantes Nº votantes A 1290 680 1893 1143 843 321 1170 631 1942 1187 1066 487 840 475 971 542 1171 596 1620 935 1143 973 1213 782 1381 472 2041 1541 1741 980 1492 820 2530 1679 983 693 1785 933 1567 982 1865 1033 2010 1171 1493 863 1888 987 974 542 1271 742 1947 872 832 457 1873 1010 2021 1093 1247 983 2142 1092 2001 1461 1896 1462 2380 1242 1493 1301 1943 873 1693 973 1783 1167 798 372 1661 652 1461 932 1020 621 1555 523 1237 481 1141 642 1492 831 1843 999 1820 975 1957 932 a. B = 1077. Las observaciones se presentan en la tabla adjunta: 108 . b. (b) (1415.6 33. 2704. Determinar cuántas manzanas se deberían muestrear para estimar el total poblacional. Estimar el número total de horas que se ve el programa ``Gran Hermano'' a través de Canal Digital. c.4 ≅ 197 109 . y se interroga a cada familia acerca de si están conectados a Vía Digital y cuántas horas ven el programa. B = 0. emitido las 24 horas del día por un canal Digital.5 33. Solución: (a) τˆ = 2060 . De un pedido de 50 tableros se seleccionan 10 de ellos para su estudio.1 33 33.22 7.6 Estime el volumen medio por envase y dar la cota de error de estimación.8 32. Solución: µˆ = 32.1 32.5 31.4 4 34.2 2 32 32.6 33.7 34. con un límite para el error de estimación de magnitud 20.0674 8. Cierto tipo de tableros posee 12 microcircuitos cada uno.1333.Paquete nº Volumen envasado en cm3 1 33 32.5 3 30. Obtener un intervalo de confianza para el número total de horas. Los datos de la encuesta se encuentran en la siguiente tabla: Manzana Nº hogares con Nº total horas que canal Digital ven programa 1 8 13 2 7 13 3 9 14 4 6 13 5 5 0 6 9 10 7 6 6 8 8 14 9 9 16 10 6 4 a.1 32.1 33. Se extrae una muestra aleatoria simple de 10 manzanas.9 33. Solución: pˆ = 0.30. En una pequeña ciudad se quiere estimar el número total de horas diarias que sus residentes dedican a ver el programa ``Gran Hermano''. El número de microcircuitos defectuosos por tablero fue 2 0 1 3 2 0 0 1 3 4 Estime la proporción de microcircuitos defectuosos en la población y establezca una cota para el error de estimación.70) (c) n = 196. B = 0.2 5 32 32. Dicha ciudad está dividida en 200 manzanas de viviendas. Considere la muestra anterior como una muestra previa para estimar los parámetros necesarios.80. 0143 10. Vˆ ( pˆ ) = 0. Realizada una encuesta a los empleados de 5 factorías elegidas al azar entre las 50 que tiene la empresa. con un límite de error de 275. 20 ≅ 7 110 .48. Se consideran 1000 conglomerados de 5 familias cada uno.0002 11.1167. Solución: pˆ = 0. En un municipio de 5000 familias se pretende estimar el porcentaje de las que poseen ordenador. Hay 100 cajas en el embarque. en los que el número de familias con ordenador es: 2 1 5 3 0 1 4 3 5 0 Estimar la proporción de familias que poseen ordenador y la varianza del estimador usado para estimar dicha proporción. Obtenga una estimación de la varianza del estimador empleado. Estime el peso total de mariscos dañados en el embarque y establezca un límite para el error de estimación. Un gran embarque de mariscos congelados es empaquetado en cajas. Un inspector del gobierno determina el peso total de mariscos dañados para cada una de las 5 cajas muestreadas. 22 (b) n = 6. Solución: (a) τˆ = 600. los resultados han sido: Factoría Nº empleados Dispuestos 1 250 225 2 190 175 3 210 190 4 400 350 5 150 120 Estimar la proporción de empleados que no están dispuestos a trasladarse a la nueva factoría. y se elige una muestra aleatoria de 10 conglomerados. conteniendo cada una 24 paquetes de 5 kilos. B = 308. Solución: pˆ = 0. b. Se desea conocer la proporción de empleados de una empresa que no están dispuestos a trasladarse a una nueva planta de producción. Determine el tamaño de la muestra necesario para estimar el peso total de mariscos dañados en el embarque.9. Los datos son: 9 6 3 10 2 a. Vˆ ( pˆ ) = 0. 1 ( ) ( ) S2 = S n 1 n ∑ yi − y n − 1 i =1 = pqɵ 2 = n pqɵ n −1 pqɵ n −1 2 V ( p) = 2 D= 2 2 V ( p) = pqɵ n −1 pqɵ pqɵ p−2 . n i =1 s2 = 1 n ∑ yi − y n i =1 yi = 0.FORMULARIO de MUESTREO (95% de confianza. y+2 y−2 n n INTERVALO DE CONFIANZA p= S2 n VARIANZA DEL ESTIMADOR TAMAÑO MUESTRAL PROPORCION B2 4 n= pq pq = B2 D 4 D= 111 B2 4 . z=2) MUESTREO ALEATORIO SIMPLE EN POBLACIONES INFINITAS. MEDIA y= ESTIMADOR VARIANZA MUESTRAL s2 = (apenas se utiliza en muestreo) CUASIVARIANZA MUESTRAL S2 = 1 n ∑ yi n i =1 ( 1 n ∑ yi − y n i =1 ( 1 n ∑ yi − y n − 1 i =1 ) ) 2 2 = 2 1 n 2 yi − y ∑ n i =1 n ∑ yi n yi2 − i =1 ∑ n = i =1 n −1 V ( y) = B LIMITE DEL ERROR DE ESTIMACIÓN 2 V ( y) = 2 n= σ2 B2 4 = σ2 D 1 n ∑ yi . p+2 n −1 n −1 S S . N ( y + 2 V ( y ) )) B2 D= (media ) 4 B2 D= (total ) 4N 2 pqɵ N − n n −1 N 2 V ( p) 2 V (τɵ ) = N 2 V ( y ) Nσ 2 ( N − 1) D + σ 2 yi = 0. y + 2 V ( y ) 1 n ∑ yi n i =1 τɵ = N p n ∑y 2 n= TAMAÑO MUESTRAL N n p= S V (τɵ ) = N 2 V ( y ) = N ( N − n) n (y − 2 INTERVALO DE CONFIANZA PROPORCION TOTAL (p −2 (τɵ − 2 = (N ( p − 2 n= V ( p) . p + 2 V ( p) ) V (τɵ ) .MUESTREO ALEATORIO SIMPLE EN POBLACIONES FINITAS. τɵ + 2 V (τɵ ) ) = = ( N ( y − 2 V ( y ) ) . τɵ + 2 V (τɵ ) = ) ( V ( p) . MEDIA TOTAL y= ESTIMADOR 1 n ∑ yi n i =1 τɵ = N y = V ( y) = VARIANZA DEL ESTIMADOR B LIMITE DEL ERROR DE ESTIMACIÓN 112 i =1 i S2 N − n n N V ( p) = 2 V (τɵ ) = N 2 V ( p) ) (τɵ − 2 V (τɵ ) . N p + 2 V ( p) Npq ( N − 1) D + pq B2 ( proporcion) 4 B2 D= (total ) 4N 2 D= ) )) . 1 pqɵ V (τɵ ) = N 2 V ( p ) = N ( N − n) n −1 2 V ( y) V ( y) . MUESTREO ALEATORIO ESTRATIFICADO: ESTIMACIÓN. MEDIA TOTAL y st = ESTIMADOR 1 N L L i =1 i =1 ∑ Ni y i = ∑ PROPORCION TOTAL Ni yi N p st = L = VARIANZA DEL ESTIMADOR 1 N2 L =∑ i =1 L ∑N i =1 L ∑ Ni2 i =1 2 i L i =1 i =1 ∑ Ni pi = ∑ Ni pi N τɵ st = N p st = ∑ Ni pi i =1 1 N2 L L τɵ st = N y st = ∑ N i y i V ( y st ) = 1 N i =1 V ( yi ) = Si2 N i − ni = ni N i 2 N i Si N i − ni N ni N i 2 L S2 N − n V (τɵ st ) = N 2 V ( y st ) = ∑ Ni2 i i i ni Ni i =1 V ( p st ) = 1 N2 L ∑N i =1 V ( pi ) = 2 i p i qɵ i N i − ni = ni − 1 N i i =1 2 L N p qɵ N − n =∑ i i i i i ni Ni i =1 N = 1 N2 L ∑ Ni2 L p qɵ N − n V (τɵ st ) = N 2 V ( p st ) = ∑ N i2 i i i i ni − 1 N i i =1 MUESTREO ALEATORIO ESTRATIFICADO: TAMAÑO MUESTRAL. MEDIA TOTAL L FORMULACIÓN GENERAL (error fijo B) ∑ n= i =1 PROPORCION TOTAL N i2σ i2 ωi L N 2 D + ∑ N iσ i2 i =1 L ∑ n= i =1 N i2 pi qi ωi L N 2 D + ∑ N i pi qi i =1 113 . MUESTREO ALEATORIO ESTRATIFICADO: ASIGNACIÓN MUESTRAL. MEDIA TOTAL (error fijo B) L ∑N σ n= i i =1 PROPORCION TOTAL (error fijo B) Ni σ i ci L ∑ ci i i =1 L N 2 D + ∑ N iσ i2 L ∑N n= i =1 i =1 n= (coste fijo C) N iσ i ci L i =1 L i i =1 n= ci i i =1 L ∑N i =1 N jσ j ∑ i =1 2 i i =1 n= L N D + ∑ N iσ i =1 ωj = 2 i N jσ j i i =1 ASIGNACIÓN PROPORCIONAL (error fijo B) i i =1 1 N ωj = D 114 L ∑ Niσ i2 pi qi ci i i =1 ) 2 pi qi i L N 2 D + ∑ N i pi qi N j p jqj L ∑N pi qi i L n= ∑N pq Nj i i =1 ND + i =1 1 N ωj = N B2 (media ) 4 B2 D= (total ) 4N 2 D= (∑ N i =1 ∑ Ni σ i2 ND + ∑N i =1 L n= L ωj = L ∑Nσ cj L i 2 ASIGNACIÓN DE NEYMAN (error fijo B) pjq j i =1 (∑ N σ ) L n= ωj = N iσ i ci L pi qi ci i Nj cj ωj = pi qi ci C ∑ Ni L ∑Nσ i =1 i N 2 D + ∑ N i pi qi (coste fijo C) C∑ i L i =1 ASIGNACIÓN ÓPTIMA L ∑N pi qi ci i i L ∑N pq i =1 i i i Nj N B2 ( proporcion) 4 B2 D= (total ) 4N 2 D= pi qi ci . MEDIA TOTAL RAZÓN µ y = rµx n ESTIMADOR r= ∑y i =1 n i ∑x i =1 y = x i τɵ y = rτ x S r2 = VARIANZA RESIDUAL 1 n 2 ( yi − rxi ) ∑ n − 1 i =1 V ( µ y ) = µ x2 V (r ) = VARIANZA DEL ESTIMADOR 1 N − n Sr2 1 N − n Sr2 V (r ) = 2 ≅ µx N n x2 N n n= TAMAÑO MUESTRAL Nσ r2 ND + σ r2 N − n S r2 N n N − n Sr2 τ x2 Sr2 V (τɵ y ) = τ x2V (r ) = N 2 ≅ N n x2 n 2 σ r = Sr2 de una muestra previa B 2 µ x2 ( para estimar R) 4 B2 D= ( para estimar µ y ) 4 B2 D= ( para estimar τ y ) 4N 2 D= 115 .ESTIMACIÓN DE RAZÓN. ESTIMACIÓN DE REGRESIÓN. MEDIA TOTAL sx2 = ( 1 n ∑ xi − x n i =1 ) VARIANZA. DE CORRELACIÓN sxy = ∑ xi − x MUESTRALES n i =1 ( r = 2 xy 2 )( = 2 1 n 2 xi − x ∑ n i =1 ) yi − y = (análogamente para la variable Y) 1 n ∑ xi yi − x y n i =1 sxy2 sx2 s y2 ∑ ( x − x )( y n µ yL = y + b( µ x − x) ESTIMADOR b= sxy sx2 i = i −y i =1 ∑ ( x − x) n ) 2 i i =1 τɵ yL = N µ yL VARIANZA RESIDUAL ( ( 1 n S = ∑ yi − y + b( xi − x) n − 2 i =1 2 L )) 2 2 n 2 s xy = sy − 2 n − 2 sx n 2 s y (1 − rxy2 ) = n−2 S L = S L2 ERROR TÍPICO DE ESTIMACIÓN V ( µ yL ) = VARIANZA DEL ESTIMADOR N − n S L2 N n V (τɵ yL ) = N 2 V ( µ yL ) n= TAMAÑO MUESTRAL Nσ L2 ND + σ L2 B2 D= 4 116 2 σ L = S L2 de una muestra previa ( para estimar µ y ) B2 D= 4N 2 ( para estimar τ y ) . COVARIANZA Y 1 n COEF. MEDIA TOTAL µ yD = y + ( µ x − x) = µ x + d d = y−x ESTIMADOR τɵ yD = N µ yD VARIANZA RESIDUAL S D2 = ( 1 n ∑ yi − ( xi + d ) n − 1 i =1 ) 2 = V ( µ yD ) = VARIANZA DEL ESTIMADOR ( 1 n ∑ di − d n − 1 i =1 ) 2 di = yi − xi N − n S D2 N n V (τɵ yD ) = N 2 V ( µ yD ) n= Nσ D2 ND + σ D2 D= B2 4 2 σ D = S D2 de una muestra previa TAMAÑO MUESTRAL ( para estimar µ y ) D= B2 4N 2 ( para estimar τ y ) 117 .ESTIMACIÓN DE DIFERENCIA. MEDIA o PROPORCIÓN TOTAL (M conocido) TOTAL n µ=y= ESTIMADOR ∑y i =1 n i ∑m i =1 1 n y = yi ∑ t n i =1 τɵ t = N y t i τɵ = M y V ( y) = VARIANZA DEL ESTIMADOR 1 N − n Sc2 2 N n M 2 S V (τɵ ) = M 2 V ( y ) = N ( N − n) c n Sc2 = ∑( n −1 n 1 yi − ymi i =1 n= TAMAÑO MUESTRAL 2 S V (τɵ t ) = N 2 V ( y t ) = N ( N − n) t n Nσ c2 ND + σ c2 ) 2 St2 = B2 M D= 4 B2 D= 4N 2 i − yt i =1 2 σ c = Sc2 ∑ (y n −1 n 1 de una muestra previa n= Nσ t2 ND + σ t2 ) 2 2 σ t = St2 de una muestra previa 2 (media) D= B2 4N 2 (total ) (total ) NOTACIÓN: N = conglomerados en la población (habitualmente conocido) mi = elementos en el conglomerado i n = conglomerados en la muestra yi = suma de las observaciones del conglomerado i N M = ∑ mi = elementos en la población (habitualmente desconocido) i =1 n m = ∑ mi = elementos en la muestra i =1 1 N M mi = = tamaño medio de los conglomerados de la población (habitualmente desconocido) ∑ N i =1 N 1 n m m = ∑ mi = = tamaño medio de los conglomerados de la muestra . Este valor m se usa para estimar el anterior. M .MUESTREO POR CONGLOMERADOS. n i =1 n M= 118 .