6/5/20165. MUESTREO SISTEMÁTICO Profesor: Johnny Madrigal Pana. M.Sc. 1 INTRODUCCIÓN • Es uno de los procedimientos más conocidos y aplicados en la práctica del muestreo • Se le considera un muestreo pseudo-aleatorio. Comentar • Se utiliza conjuntamente con el muestreo estratificado y el de conglomerados • La idea es la siguiente: – Si N=2.000 fincas – Se requiere una n=25 fincas – k=2.000/25=80 – r1=67, r2=67+80=147, r3=147+80,….hasta completar n=25 fincas 2 1 6/5/2016 PROCEDIMIENTO DE SELECCIÓN • Se numera la población del marco desde 1 hasta N • Se calcula k=N/n. n r+(n-1)k 3 k=80 r n r+(n-1)k 1 1 67 2 2 147 • 3 3 227 Caso de fincas 4 5 4 5 307 387 • 6 6 467 N=2000 7 8 7 8 547 627 • 9 9 707 n=25 10 11 10 11 787 867 • 12 12 947 k=2000/25=80 13 14 13 14 1027 1107 15 15 1187 16 16 1267 17 17 1347 18 18 1427 19 19 1507 20 20 1587 21 21 1667 22 22 1747 23 23 1827 24 24 1907 25 25 1987 26 26 2067 27 27 2147 28 28 2227 4 2 . con rn=r+(n-1)k hasta completar el tamaño de muestra requerida Elemento Selecionado 1 r 2 r+k 3 r+2k 4 r+3k 5 r+4k . lo que constituye el espaciamiento • Se selecciona un número aleatorio r1. donde 1≤r1≤k • A r1 se le denomina el punto de arranque • El segundo elemento a seleccionar es r2=r+k • El tercer elemento a seleccionar es r3=r+2k • Y así se procede. . . . . . El sistemático recoge la estratificación de la N cuando existe 2. eso significa que cada unidad recibe la misma probabilidad f=n/N=1/k. Es a prueba de errores. 6 3 . La selección sistemática. Pueden hacerse varios arranques sin afectar el sistema. para prevenir problemas de selección (entre 5 y 20 arranques). Si N=12 y n=4. Si hay errores es fácil descubrirlos 2. 8 y 11 UNIDADES DE MUESTREO EN LA POBLACIÓN DE INTERÉS 1 ② 3 4 ⑤ 6 7 ⑧ 9 10 ⑪ 12 Zona 1 Zona 2 Zona 3 Zona 4 Son cuatro zonas o estratos implícitos de tres unidades cada una • Puesto que el primer número se selecciona al azar de 1 a k. es fácil. entonces k=3. entonces los seleccionados son 2. 6/5/2016 Observaciones • En el sistemático existen lo que se denomina estratos implícitos o zonas • Esto se produce porque k divide a la población en n zonas de k unidades cada una y dentro de cada zona se selecciona una unidad. 5. es como una muestra estratificada proporcional. cuando la población está ordenada de acuerdo con la variable de estudio. 6. Es flexible y pueden aprovecharse más las ventajas de las listas ordenadas 3. Supongamos que r=2. Explicar 4. ¿Cuál muestreo es más representativo entre el sistemático y el mia? 1. Esto es importante 5 VENTAJAS DEL SISTEMÁTICO 1. aunque no es exactamente igual. que ocupa la misma localización en todas las zonas • Ejemplo. Si la población está muy revuelta es mejor usar un mia. Permite supervisar mejor el trabajo de campo y de oficina 5. Otra opción es duplicarlos al azar. Eliminar con mesip suficientes UM para lograr que N se múltiplo de k.25 – Se escoge k de manera que N sea mayor que nk. entonces N no es múltiplo de k → problema. • Ejemplo: • Si N=2.05263 • Si se eliminan 5 elementos de la población con mesip. 6/5/2016 PROBLEMAS DE INTERVALOS Si k=N/n no es entero. Permitir que el tamaño de muestra sea n o n+1 • Esto funciona bien cuando la fracción de muestreo es pequeña • Ejemplo: – Si N=100 y n=16. n=95 y k=21 n= 4 7 3.000 y n=95 entonces k=21. Considerar la lista como circular k=4 k=3 • Si N=20 y n=5. k=2. – En este caso la probabilidad de selección para cada unidad se mantiene como 1/k 7 2.995. entonces N=1.857 3 11 9 • Ver cuadro adjunto y explicar el caso 21 4 15 12 5 19 15 6 18 8 7 21 4 . Soluciones: 1. pero menor que (n+1)k – Si k´=6 entonces nk´<N<(n+1)k´=96<N<102 – Básicamente se agregan blancos o se elimina UM. entonces k=6. k=4. no hay problema 1 3 3 2 7 6 • Pero si N=20 y n=7. en el muestreo sistemático. para calcular la variancia – Sin embargo. – Supongamos que r=78 Seleccionados 78 7 + 92 = 170 17 + 92 = 262 26 + 92 • Es un procedimiento mesip = 354 35 + 92 = 446 44 … … … 9 ESTIMACIONES EN MUESTRAS SISTEMÁTICAS 1. r+2(92). La variancia – Teóricamente. Intervalo fraccionario • Ejemplo – N=920 y n=100.2 – Trabaje con 92 y seleccione 1 ≤r≤92 – Seleccione r. La media – Una muestra sistemática es mesip. – Estrictamente hablando. en forma independiente. r+3(92). equivalente a 1/k – Por esta razón la media de la muestra es una estimación insesgada de la media poblacional (con n fijo) 2. r+92. 6/5/2016 4. pues cada elemento tiene una probabilidad igual de ser seleccionada . se requieren al menos dos selecciones por estrato implícito. una muestra proveniente de una selección sistemática no es medible porque la variancia no puede calcularse a partir de una sola muestra UNIDADES DE MUESTREO EN LA POBLACIÓN DE INTERÉS 1 ② 3 4 ⑤ 6 7 ⑧ 9 10 ⑪ 12 Zona 1 Zona 2 Zona 3 Zona 4 Son cuatro zonas o estratos implícitos de tres unidades cada una 10 5 . existe una selección única en cada estrato implícito y las selecciones no son independientes de un estrato a otro. – Lo anterior sucede porque k divide a la población en k conglomerados de n elementos cada uno y la selección aleatoria de 1 hasta k escoge solamente un conglomerado.…. k=9. etc) y se asume una estratificación proporcional – Esto supone la existencia de la división de N en estratos y de una mezcla a fondo de las unidades dentro de los estratos H (1. orden geográfico. 6/5/2016 Alternativas • El experto en muestreo debe tener buenas bases teóricas y empíricas para formular supuestos razonables • Opción 1: Modelo irrestricto aleatorio – En este caso la población debe estar bien mezclada y el mia es aplicable 2 y 1 n 1 2 s p(1.n/2 MODELO DE SELECCIONES PAREADAS Selección 1 2 ③ 4 5 6 ⑦ 8 9 10 ⑪ 12 13 14 ⑮ 16 Zona 1 Zona 2 Zona 3 Zona 4 Procedimiento ③-⑦ ⑪-⑮ Zona 1 Zona 2 12 6 .….+ y ) s = var( y ) = (1..f) var( y ) = n 2 n h=1 h sh 2 11 • Opción 3: Modelo de selecciones pareadas – Puede ser razonable suponer que cada par sucesivo de selecciones fue tomada al azar.3. la tercera con la cuarta y así sucesivamente – El número de zonas es H=n/2 – Los pares se designan como ha y hb – h toma valores 1. dos de cada estrato implícito o zona y que en cada zona los elementos fueron mezclados.f) p i 1 2 y n n-1 n n i=1 n n • Opción 2: Modelo estratificado aleatorio – Las unidades cercanas se asemejan entre sí (archivos en orden cronológico.2.p) 2 y = = y = ( y + y + .. – Aquí es importante el orden de la selección pues la primera se compara con la segunda.f) s = var(p)= (1. 1) var( y ) = ( y g . (2-3). ⑦-⑪.y hb )2 • Variancia con n impar – Se selecciona al azar uno de los elementos seleccionados y se usa dos veces.((n-1)-n) – Los grados de libertad son más de n/2.. ⑪-⑮ 14 7 . 6/5/2016 𝑛 /2 𝑛 𝑦 𝑖 𝑦𝑖 1 • La media 𝑦= = = (𝑦ℎ𝑎 + 𝑦ℎ𝑏 ) 𝑛 𝑛 𝑛 ℎ n/2 1.y g+1 )2 g MODELO DE SELECCIONES SUCESIVAS Selección 1 2 ③ 4 5 6 ⑦ 8 9 10 ⑪ 12 13 14 ⑮ 16 Procedimiento ③-⑦. pero menos de n-1 – La estimación de la media se hace igual – La estimación de la variancia es 1 .….f • Variancia con n par var( y ) = n 2 ( yh ha . (3-4).f n -1 2n(n.y hb )2 h MODELO DE SELECCIONES PAREADAS Selección 1 1 1 1 1 1 2 ③ 4 5 6 ⑦ 8 9 ⑪ ⑮ 0 2 3 4 6 Zona 1 Zona 2 Zona 3 Zona 4 Procedimiento ③-⑦ ⑪-⑮ 13 Zona 1 Zona 2 • Opción 4: Modelo de diferencias sucesivas – Es una modificación del anterior y contempla las n-1 diferencias sucesivas – (1-2). 1 .f m n(2m ) – El número de pares será (n+1)/2=m´ var( y ) = ( y ha . pero también más raras y fáciles de descubrir y evitar (preferencia de dígitos y rechazo de algunos números (13) 16 8 . lo que fomenta una confianza o desconfianza exagerada en los datos • Tendencia monótona en la lista ordenada de la población • Fluctuaciones periódicas • Éstas últimas son más peligrosas. 6/5/2016 ESTIMACIÓN DE TOTALES Y SU RESPECTIVO ERROR ESTÁNDAR • Con N conocido 𝑌 = 𝑁𝑦 𝑦 𝑠𝑢 𝑒𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑒𝑠 𝑁𝑠𝑦 𝑦 • Con N desconocido 𝑌 = = 𝑦𝑘 𝑦 𝑠𝑢 𝑒𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑒𝑠 𝑦𝑘𝑠𝑦 = 𝐹2 𝑠𝑦 𝑓 • Los IC se calculan de la manera usual • Orden de las UM en el archivo de datos para calcular las variancias 15 PROBLEMAS DE SELECCIÓN SISTEMÁTICA • Debe tenerse precaución con las tendencias no aleatorias en el orden de las UM en la población • El efecto de las tendencias es que incrementa o disminuye las variancias. k=40.368 (408) 17 4. No suele ser práctico y destruiría las tendencias que podrían ser beneficiosas para la estratificación 2. 3.328. Introducir la selección aleatoria. aplicando sistemático en cada réplica – En vez del intervalo k. Cambiar varias veces el arranque aleatorio. k=2 para el muestreo sistemático – Si se decide hacer 4 réplicas (muestras) ¿cómo se procede? – ck=4*2=8 – Se seleccionan 4 números aleatorios 1≤r≤8 – Cada número producirá una muestra replicada – Si los números aleatorios fueron 1. Aleatorización del orden de la población. 288. 43. 6/5/2016 Soluciones posibles 1. Con esto se reduce el efecto de cualquier arranque aislado – Ejemplo: Si N=400 y n=10. 83. Se hace una selección replicada de c muestras diferentes. 163 (203) – en las segundas 5 selecciones: 208. 123. se aplica c veces el intervalo k (ck) – Supongamos que N=32 y n=16. 4 y 7 ¿cuáles son las réplicas resultantes? Réplica 1 Réplica 2 Réplica 3 Réplica 4 1 3 4 7 9 11 12 15 17 19 20 23 25 27 28 30 18 9 . Se selecciona aleatoriamente dentro de los estratos 3. 248. Entonces: – en las primeras 5 selecciones: 3. 000 – La fracción de muestreo para la réplica es 1/(ck)=1/(10*100)=1/1.000/1000=20 selecciones de cada zona – Cada réplica es una muestra sistemática seleccionada con un intervalo de ck=10*100=1. 125.… Pero ahora se harán c=10 réplicas – ck=10*100=1.000/1.000 – La fracción total de muestreo es f=n/N=c/cF=10/1.000 a cada uno Quiere decir que en este caso se tiene lo siguiente: – La n consiste de c=10 réplicas. 325.000 y se aplica el intervalo 1. cada uno de 1 hasta 1.000=1/100 – Puede trabajarse con nϒ variable o igual 20 10 . k=100 – Entonces seleccionamos 1≤r≤100 – La muestra sería 25. 225.000 – Se seleccionan 10 arranques aleatorios. 6/5/2016 Replicado UM Sistemático Réplica 1 Réplica 2 Réplica 3 Réplica 4 1 * 2 * 3 * 4 * * 5 6 * 7 * 8 * 9 * 10 * 11 * 12 * * 13 14 * 15 * 16 * 17 * 18 * 19 * 20 * * 21 22 * 23 * 24 * 25 * 26 * 27 * 28 * * 29 30 * * 31 32 * 19 GENERALIZANDO: MUESTREO REPLICADO Para el caso sistemático normal – Si N=20.000=200 casos – Cada réplica tiene nϒ=n/c=N/cF=20.000 y n=200. cada una mesip – La muestra completa tiene n=cN/cF=N/F=20. basados en n más grandes tienden a la normal • Usar muchas también tiene ventajas (20 a 100 réplicas) – Variancia tiene mayor precisión – Variaciones periódicas tienen poco efecto – La normalidad de la media es más segura.f var( x ) = ( x . En caso contrario. aún cuando xϒ no lo sean • Otros usos del replicado 22 11 . usar t-student • ¿Cuántas réplicas usar? • Usar pocas tiene ventajas (4 a 10 réplicas) – Simplifica los procedimientos de selección – Puede usarse estratificado. ] c(c .x )2 = [ x2 .f 1.1) c(c . 6/5/2016 ESTIMACIONES DE MEDIA Y VARIANCIA • Se calculan las estadísticas xϒ deseadas para cada réplica • La media se calcula así 1 c c x= x • La variancia de la media es ( x ) 2 1. pero se puede usar cualquier diseño que sea eficiente y conveniente • Las nϒ deben ser suficientemente grandes para usar la normal.1) c • Aclaraciones Réplica 1 Réplica 2 Réplica 3 Réplica 4 sobre los cálculos 1 3 4 7 9 11 12 15 porque xϒ puede 17 19 20 23 25 27 28 30 ser cualquier estadística 21 Observaciones finales • Las c réplicas deben usar el mismo diseño y las mismas fracciones de muestreo. si las zonas son estratos – El cálculo de la variancia es fácil – Aleatorización de codificadores y enumeradores es factible – Los resultados replicados de xϒ. 10. 3. Ahora divida la muestra de 300 familias en 5 réplicas y calcule el número de familias por réplica en la muestra.910. el error estándar del gastos familiar promedio y el intervalo de confianza para el gasto familiar promedio. (Cuadro o Gráfico 1). Haga un cuadro o un gráfico y comente las diferencias entre las variancias y los errores estándar. el número de familias por réplica en la población. Calcule la variancia y el error estándar de la media asumiendo un mia. 12. 7. 6.Entregar tarea impresa en Word con lo solicitado anteriormente. Se utilizará el archivo “Gastos Familiares” y la variable “gastos total mensual (hv119). Haga un cuadro o un gráfico y comente.Muestre en un cuadro o gráfico y compare los intervalos de confianza obtenidos en 7 y 9. 13. selecciones pareadas y diferencias sucesivas. Haga un cuadro o gráfico y comente (Cuadro o Gráfico 3). 2. Ordene los gastos desde el menor hasta el mayor. 23 9. Seleccione una muestra de 300 hogares con muestreo sistemático. la probabilidad de selección de la muestra total.Incluya en un anexo la muestra seleccionada. la variancia del gasto familiar promedio. la probabilidad de selección de una réplica. Numere los casos desde 1 hasta 3. el gasto familiar promedio. Gracias… 24 12 . Calcule los intervalos de confianza con las tres mediciones del error estándar (confianza del 95%). 6/5/2016 TAREA 1. 8. (Cuadro o Gráfico 2). 11. 4.La tarea puede hacerla con cualquier software. 5. (Cuadro o Gráfico 4).