ESTADÍSTICA INFERENCIAL

March 29, 2018 | Author: CBTa173 | Category: Sampling (Statistics), Normal Distribution, Standard Error, Statistics, Standard Deviation


Comments



Description

Matemáticas aplicadas Estadística InferencialSECUENCIA DIDÁCTICA: “Muestreando en la escuela” Autor: Alejandro Acebo Gutiérrez Contenido temático Teoría elemental de muestreo Propósito del contenido temático: Conocer los conceptos básicos de la teoría elemental de muestreo para que el alumno lo utilice al realizar trabajos de investigación científica. Conceptos fundamentales: Teoría elemental de muestreo Conceptos subsidiarios: Teoría de muestreo, muestreo aleatorio simple, con y sin reemplazamiento, diseño de muestras, distribución muestral de medias, errores al muestrear. Tema integrador La Educación Número de sesiones 2 (semanas) con alto porcentaje de estudio independiente Valores y actitudes Libertad, justicia, solidaridad, tolerancia. Categorías Diversidad y espacio. BLOQUE: ACTIVIDADES DE APERTURA Observación Te damos una cordial bienvenida como estudiante del curso de matemáticas aplicadas y te deseamos éxito en éste último semestre de tu bachillerato. Al igual que otros semestres, te recomendamos que contestes todas tus actividades de aprendizaje y participes activamente en las siguientes secuencias didácticas para que construyas un aprendizaje significativo. Recuerda lo importante es que aprendas a aprender, a resolver problemas de la vida cotidiana. Iniciamos, ayudándole al director Un CBTA del estado Nayarit, tiene inscritos a un total de 550 estudiantes, de los cuales 290 cursan el primer año, 188 el segundo año y 72 el tercer año. El director, quiere saber su opinión sobre la infraestructura de la escuela, pero no considera conveniente preguntar a todos, debido, entre otras causas, al alto costo que representa. a) ¿Cuántos alumnos se deben de seleccionar de los tres grupos, si se desea saber la opinión de solo 100 estudiantes? b) ¿Qué diseño de muestreo se debe utilizar?. c) Por qué ese diseño? Argumentar Integrados en equipos de 3 estudiantes encuentra la solución y argumenta tus respuestas Contextualizar el tema integrador en base a: Las expectativas educativas en el presente semestre y al momento de egresar del bachillerato. BLOQUE: ACTIVIDADES DE DESARROLLO Revisión de contenidos: 1.- Lee de manera individual y cuidadosamente, los contenido relacionados al problema en tu guía didáctica. Como la teoría de muestreo, el muestreo aleatorio simple, los números aleatorios, el muestreo con o sin reemplazamiento y el de diseños de muestras. 2.- Junto con los integrantes de tu equipo, comenten las estrategias para la solución de las preguntas antes señaladas. 3. Realicen otras consultas, en libros, internet, o apuntes diversos. Consultar la presente guía didáctica para argumentar su solución y otras bibliografías. BLOQUE: ACTIVIDADES DE CIERRE  En reunión plenaria, expondrán las vías de solución que hallan encontrado a dichos preguntas ya sea con rotafolio, láminas, o presentaciones PowerPoint.  También podrán confrontar las respuestas de otros equipos  En la plenaria, encontraras la solución más idónea entre todo el grupo.  De manera respetuosa podrás solicitar a todo el grupo, te disipen algunas dudas que tengas respecto al tema y a la solución del problema en general. El facilitador propiciará la exposición libre de las emociones y sentimientos generados durante el desarrollo del tema. Se considera conveniente realiza un ejercicio similar en tu escuela, como tarea. 1 Matemáticas aplicadas Estadística Inferencial n el curso pasado de Probabilidad y Estadística (V semestre), pudiste conocer el área de estudio y las aplicaciones de la estadística descriptiva; por lo que ya estas preparado, para incursionar en el ámbito de la estadística inferencial, pero antes de iniciar con esta interesante rama de la Estadística, reflexiona y contesta las siguientes preguntas. E ¿Cómo le harías para conocer el grado de aceptación de una bebida refrescante, entre los integrantes de tu grupo escolar? ____________________________________________________________________________ ________________________________________________ ¿Cómo le harías si quisieras saber lo anterior, pero ahora, entre los estudiantes del plantel? ____________________________________________________________________________ ________________________________________________ ¿Cómo le harías si quisieras saber lo mismo, pero entre los integrantes de la comunidad donde esta ubicado tu plantel? ____________________________________________________________________________ ________________________________________________ ¿Cómo le harías si quisieras saber lo mismo, pero entre los habitantes de la capital de tu estado? ____________________________________________________________________________ ________________________________________________ Ahora observa, la siguiente imagen… Si la observas muy de cerca, es equivalente a tomar una pequeña muestra de la imagen; en principio solo tienes en tu mente, un conjunto de datos que no te dicen nada. Sin embargo, si te alejas unos 3 a 5 metros y observas de nuevo la imagen, empezarás a extraer más información de la imagen o población y posiblemente, adivines qué representa ésta imagen. Si logras lo anterior, habrás hecho una inferencia de los datos muestrales, para tener una imagen del conjunto. Esto es en resumidas cuentas, el objeto de la Estadística Inferencial. Obtener muestras, e inferir datos sobre la población. Al dar respuesta a las preguntas anteriores, es momento de iniciar otra aventura en el mundo de la Estadística Inferencial. ADELANTE Y CON MUCHO ENTUSIASMO. 2 Matemáticas aplicadas Estadística Inferencial INTRODUCCIÓN: Una diferencia importante entre la estadística y probabilidad es que: En la Probabilidad se razona a partir de la población hasta llegar a la muestra. En la Estadística el razonamiento parte de la muestra para llegar al conocimiento de toda la población. El estudio de una población tomando como base las muestras, se llama ESTADÍSTICA INFERENCIAL o INDUCTIVA, algunos autores la citan como teoría de muestras. La inferencia estadística trata de conocer o explicar el comportamiento de la población, mediante los datos obtenidos de una muestra. Como no podemos estar absolutamente seguros de la veracidad de las inferencias obtenidas, las llamaremos probabilidades. Ahora, para predecir a partir de una muestra, es necesario haberla seleccionado y recopilado cuidadosamente; si la muestra no se selecciona adecuadamente, o si la recolección es incorrecta o hay desviaciones en los datos, con ningún análisis estadístico que se aplique, se llegará a buenas conclusiones. POR LO TANTO ES NECESARIO ESTUDIAR LA… TEMA: ---------------- TEORÍA DE MUESTREO a teoría de muestreo es el estudio de las relaciones existentes entre una población y las muestras extraídas de ellas. Es de gran utilidad en muchos campos; por ejemplo, para ESTIMAR características desconocidas de poblaciones (como la media y la varianza poblacionales), denominadas parámetros de la población o simplemente parámetros, a partir del conocimiento de las características muestrales correspondientes, nombradas estadísticos de la muestra o, en forma sencilla, estadísticos. Esto es… L A los valores μ (mu) y σ (ro) que son, respectivamente la media y la desviación estándar poblacionales, se les llama PARÁMETROS de la población. Como la media de la muestra ( x ) nos da una idea del valor de μ, se dice que x ESTIMA a μ o que x es un estimador del parámetro μ; análogamente, s (desviación estándar) estima a σ (Desviación estándar de la población), o de otra forma, que s es un estimador de σ. Recordemos sus fórmulas: 3 TEORIA ELEMENTAL DEL MUESTREO Cómo son las fórmulas de la media y de la desviación estándar Matemáticas aplicadas Estadística Inferencial Parámetros de la población “Parámetros” Símbolo Nombre Fórmula μ Media poblacional i X N µ · ∑ σ Desviación estándar poblacional 2 ( ) i X N µ σ − · ∑ Estadísticos de la muestra “Estimadores” x Media muestral i X x n · ∑ S Desviación estándar muestral 2 ( ) 1 i X X S n − · − ∑ La teoría del muestreo también sirve para determinar si las diferencias observadas entre dos muestras se deben a variaciones por el azar o si en realidad son significativas. Dichas cuestiones surgen, por ejemplo, al probar un nuevo suero para el tratamiento de una enfermedad o al decidir si un proceso de producción es mejor que otro. Sus respuestas involucran el uso de las denominadas pruebas significativas y de hipótesis, que son importantes en la teoría de decisiones, la cual estudiaremos más adelante. MUESTREO ALEATORIO SIMPLE O AL AZAR Y NÚMEROS ALEATORIOS C omo ya se señaló al principio de este apartado; para que las conclusiones de la teoría de muestreo y la estadística inferencial sean válidas, se deben elegir muestras REPRESENTATIVAS de la población. Una forma de obtener una muestra representativa, es por medio del proceso denominado MUESTREO ALEATORIO SIMPLE, en el cual cada miembro de una población tienen las mismas probabilidades de ser incluido en la muestra. Una técnica de obtención de una muestra aleatoria es la asignación de números a cada miembro de la población, anotar estos números en pedazos de papel, colocarlos en una urna y después sacar números de dicha urna, teniendo cuidado de mezclarlos muy bien antes de cada extracción. Otro concepto importante es si la población es finita o infinita. Una población es FINITA, si consta de un número finito o fijo de elementos, medidas u observaciones. En cambio, una población es INFINITA, al menos hipotéticamente, porque contienen una infinidad de elementos, medidas u observaciones. Resumiendo… Recordemos con un ejemplo ¿Cuántas muestras distintas de n, podemos tomar de una población finita de tamaño N ?. 4 Una muestra de tamaño n de una población finita de tamaño N, es una variable aleatoria si se selecciona de manera tal que cada una de las (N Cn) muestras posibles, tiene la misma probabilidad, 1/N Cn de ser seleccionada Matemáticas aplicadas Estadística Inferencial Cuando n = 2 y N = 12? Solución; hay 12C2= 12.11/ 2! = 66 muestras distintas. Y cuando n = 3 y N = 100 Solución; Hay 100C3 = 161,700 muestras distintas. Ahora con población infinita Por “independiente” queremos decir, que las probabilidades relacionadas con cualquiera de las variables aleatorias son las mismas, sin que tengan importancia los valores que se hayan observado, para las otras variables aleatorias. NÚMEROS ALEATORIOS Otro método alternativo al muestreo aleatorio o al azar, es el uso de una tabla de NÚMEROS ALEATORIOS, especialmente elaborados para dicho propósito (como la tabla de la página seis), que contienen números entre cero y uno, distribuidos uniformemente. Para obtener una muestra aleatoria, escogemos un número cualquiera de éstos, digamos que elegimos el séptimo número de la quinta columna (.266194) y a partir de él, tomamos tantos números como tenga la muestra. Para elegir una muestra de 6 de 20 individuos nos fijamos en los siguientes cinco números, los multiplicamos por 20, (el tamaño de la población), y redondeamos a números enteros. En la siguiente tabla tenemos estos cálculos: ri .246194 .361474 .721938 .874239 .588587 .987107 20 x ri 4.92388 7.22948 14.43876 17.48478 11.77174 19.74214 Redondeado 5 7 14 17 12 20 Esto significa que la muestra que obtuvimos, consiste de los individuos 5, 7, 14, 17, 12 y 20. En caso de que después de redondear, obtengamos un número repetido simplemente lo ignoramos y tomamos un número aleatorio más de la tabla. Existen tablas extensas de números aleatorios que pueden consultarse en caso necesario, o bien, es posible generar secuencias de números aleatorios en hojas de cálculo para computadoras personales. MUESTREO CON Y SIN REEMPLAZAMIENTO i se saca un número de una urna, existe la opción de reponer o no, el número en la urna antes de la segunda extracción. En el primer caso, el número puede salir una y otra vez, mientras que en el segundo caso, esto pasaría una vez. El muestreo en que cada miembro de la población sería elegido más de una vez, se denomina MUESTREO CON REEMPLAZAMIENTO, mientras que si cada miembro no puede ser elegido más de una vez, se denomina MUESTREO SIN REEMPLAZAMIENTO. S Las poblaciones son finitas o infinitas. Si, por ejemplo, se extraen 10 bolas sucesivamente sin reemplazamiento de una urna con 100 bolas, se hace un muestreo de una población finita; mientras que si se lanza una moneda 50 veces y se cuenta el número de caras, el muestreo es 5 Una muestra de tamaño n de una población infinita, es aleatoria si consta de valores de variables aleatorias independientes, que tienen la misma distribución. Matemáticas aplicadas Estadística Inferencial de una población infinita. Una población finita en la que se realiza un muestreo con reemplazamiento, puede considerarse teóricamente infinita, ya que es posible extraer cualquier número de muestras sin agotar la población. Para muchos propósitos prácticos, efectuar el muestreo de una población finita muy grande, llega a tomarse como muestreo de una población infinita. TABLA DE NÚMEROS ALEATORIOS .695068 .562823 .320635 .905239 .385775 .122307 .086846 .450445 .805913 .002301 .782180 .796922 .831441 .788578 .724832 .015705 .094442 .232042 .352716 .451598 .967543 .714261 .542868 .916486 .654244 .266617 .077187 .292421 .725393 .753031 .545621 .207688 .290330 .131461 .627016 .828471 .781755 .565886 .578796 .365034 .748739 .941812 .905990 .550117 .183213 .187656 .316564 .111104 .221169 .319317 .466664 .081688 .246194 .361474 .721938 .874239 .588587 .987107 .647365 .173754 .646875 .284028 .239494 .749584 .937687 .689820 .818804 .740821 .989363 .644515 .080688 .916764 .002736 .946318 .035611 .655810 .381565 .742813 .305726 .226729 .603410 .390122 .967842 .731978 .355516 .915298 .250148 .385909 .715715 .919611 .240272 .415541 .054394 .571107 .670640 .167211 .597542 .913490 .279269 .744025 .428829 .629999 .275269 .350164 .006625 .790428 .639912 .390941 .434190 .780697 .425575 .713078 .396010 .023133 .876266 .060652 .657453 .311012 .687109 .276703 .755674 .693671 .840188 .733594 .825936 .944366 .361341 .741072 .600667 .658730 .616694 .813899 .322635 .078211 .787992 .858724 .421401 .723064 .151870 .171769 .637507 .150843 .260049 .685027 .005809 .959250 .723322 .880411 .993144 .258811 .133291 .071528 .720998 .359282 .805228 .389532 .862456 .823710 .282315 .280507 .885559 .412858 .592425 .158577 .007733 .097627 .463281 .989519 .482054 .657293 .249104 .947260 .022476 .390369 .680906 .980937 .714028 .737552 .078762 .699915 .513055 .293689 .945228 .773218 .855181 .346466 .111000 .089797 .055481 .962412 .844186 .223863 .999352 .456042 .301013 .916413 .496661 .653221 .211123 .308422 .249058 .416967 .078323 .179296 .801952 .157172 .019341 .287353 .144735 .259332 .732924 .346352 .591400 .813805 .890398 .363413 .530463 .874892 .316023 .237563 .810613 .752123 .232516 .696245 .442014 .148786 .976778 .433333 .635090 .281786 .337549 .696245 .366574 .482655 .932723 .210948 .277263 .956223 .032354 .380662 Guillermo Pastor. Estadística Básica. Editorial trillas, Conalep. 1ª Edición 12ª reimpresión enero 2003. DISEÑOS DE MUESTRAS as clases de muestras que hasta ahora hemos estudiado, son las muestras aleatorias simples y números aleatorios y no hemos considerado la posibilidad, de que en ciertas condiciones, puede haber muestras que son más fáciles de obtener, más económicas o más informativas que las muestras aleatorias y no hemos entrado en detalles sobre la pregunta de lo qué, podría hacerse, cuando el muestreo aleatorio es imposible. L 6 Matemáticas aplicadas Estadística Inferencial Hay muchas otras maneras de seleccionar una muestra de la población y hay gran cantidad de bibliografía sobre el tema de los procedimientos del diseño del muestreo. A continuación estudiaremos brevemente, algunos diseños de muestras que no es más que un plan determinado, antes de recopilar cualquier dato, para tomar una muestra de una población. MUESTREO SISTEMÁTICO En algunos casos, la manera más práctica de efectuar un muestreo, consiste en seleccionar, digamos, cada vigésimo nombre de una lista, cada decimosegunda casa de un lado de una calle y así sucesivamente. Esto se conoce como muestreo sistemático. En este caso, se divide la población en subconjuntos de tamaño igual, según la fórmula que a continuación analizaremos, después se toma al azar, la unidad en la que se debe comenzar, que ocupa el lugar K y el resto de los elementos de la muestra, ocupan los siguientes lugares. ... , , K n N K n N K 2 + + Hagamos un ejemplo para comprender mejor este muestreo… En una colonia de la ciudad de Xalisco, Nayarit; de 8060 habitantes según el censo, se va a hacer una encuesta, y se selecciona una muestra sistemática de 20 personas, entre 1200 padres de familia, para conocer el grado de aceptación de la gestión administrativa de la ciudad, por parte del presidente municipal. Primero calculamos el factor de elevación = 60 20 1200 · · n N , a continuación seleccionamos un elemento, AL AZAR, entre el 1 y el 60, supongamos que el seleccionado es el 27(este será K), entonces, el primer número será 27; el segundo número será 27+60 = 87; el tercer número seleccionado será 27+ 2(60) = 147; el cuarto número 27+ 3(60)= 207 y así sucesivamente serán el 267, 327, 387, 447, 507, 567, 627, 687, 747, 807, 867, 927, 987, 1047, 1107, 1167. Se han seleccionado a 20 personas, a las que les corresponden los números citados. Cuando el resultado de N/n no es entero, se redondea al entero menor, esto puede producir una pequeña dificultad que no afecta y debe despreciarse cuando n > 50. MUESTREO ESTRATIFICADO En este muestreo, la población se divide en estratos homogéneos internamente y lo más heterogéneos externamente entre sí. Si tenemos información acerca de la constitución de una población (es decir, su composición) y ésta es importante para nuestra investigación, podemos mejorar el muestreo aleatorio por medio de la ESTRATIFICACIÓN. Este es un procedimiento, que consiste en estratificar (o dividir) en un número de subpoblaciones o estratos que no se traslapen y luego tomar una muestra de cada estrato. Si los artículos, personas o cosas seleccionados de cada estrato 7 El muestreo sistemático es semejante al aleatorio simple, si se selecciona el elemento inicial en forma aleatoria. Sus ventajas son: de fácil aplicación y se extiende la muestra a toda la población. Sus desventajas son que se presentan dificultades al tratar de calcular la varianza, y aumento de la varianza si existe periodicidad en la numeración de los elementos; además, de posible presencia de periodicidades ocultas. Matemáticas aplicadas Estadística Inferencial constituyen muestras aleatorias simples, el procedimiento completo (primero la estratificación y luego el muestreo aleatorio) se conoce como muestreo aleatorio simple estratificado. Hagamos un ejemplo para analizar mejor este tipo de muestreo. En una colonia con una población aproximada de 17000 habitantes se sabe, según el censo reciente, que 7800 son jóvenes, 2950 de la tercera edad y 6250 son niños. Calcular el tamaño de la muestra de cada estrato, si se desea saber las preferencias de 300 personas, en sus programas de televisión. Para las personas jóvenes su cálculo será: 300 (7800/17000) = 300 (0.4588) = 138 Para la tercera edad: 300 (2950/17000) = 300 (0.1735) = 52 Para los niños: 300 (6250/17000) = 300 (0.3674) = 110 Suma total = 300 Se continúa con el muestreo aleatorio, para seleccionar las personas de cada estrato que van a hacer motivo de la investigación. MUESTREO POR CONGLOMERADOS Esta técnica tiene utilidad, cuando el universo que se requiere estudiar admite ser subdividido en universos menores, de características similares a las del universo total. La población se divide en áreas, que se llaman conglomerados; cada uno de éstos, será lo más heterogéneo posible internamente, y lo más homogéneo entre sí; a continuación se selecciona, al azar, uno o algunos conglomerados, que forman la muestra. Para ilustrar esta clase de muestreo, supongamos que una gran empresa quiere estudiar los diferentes gastos familiares, en el área de Guadalajara, Jalisco. Al intentar elaborar los programas de gastos de 1,200 familias, la empresa encuentra que el muestreo aleatorio simple es prácticamente imposible. Dado que no se cuenta con las listas adecuadas, y el costo de ponerse en contacto con las familias dispersas en esta gran ciudad, es muy alto. Una manera en que se puede tomar una muestra de esta situación, es dividiendo el área total de Guadalajara, en varias áreas más pequeñas que no se traslapen, digamos, manzanas, regiones, sectores etc., de la ciudad; entonces se seleccionan algunas casas al azar, y todas las familias que residen en estas manzanas, constituyen la muestra definitiva. Tanto en el muestreo estratificado como en el de conglomerados, la población se divide en grupos bien definidos. Usamos el muestreo estratificado, cuando cada grupo tiene una pequeña 8 La ventaja del muestreo estratificado, es que permite obtener información, sobre las características motivo de estudio y aumenta la precisión de las estimaciones sobre toda la población; y en general, da mejores resultados que el muestreo aleatorio, mientras más diferentes sean los estratos entre sí y sean más homogéneos internamente. Sus desventajas son: dificultad para decidir a qué estrato se asigna cada uno de los elementos de la población y cómo elegir el tamaño de la muestra de cada estrato, para que el total sea n. Este método, se utiliza cuando resulta muy costoso elaborar una lista completa, de todos los elementos de la población. El inconveniente se presenta, cuando los conglomerados no son homogéneos entre sí, ya que la muestra final, puede no ser representativa de la población. Sin embargo, tiene la ventaja de simplificar, el “levantamiento” de la población Matemáticas aplicadas Estadística Inferencial variación dentro de sí mismo, pero hay una amplia variación dentro de los grupos. Usamos el muestreo por conglomerados en el caso opuesto: cuando hay una variación considerable dentro de cada grupo, pero los grupos son esencialmente similares entre sí. ERRORES AL MUESTREAR. ecordemos que la muestra descansa, en el principio de que las partes representan al todo y, por tal, refleja las características que definen a la población de la cual fue extraída, lo cual nos indica, que es representativa. Es decir, que para hacer una generalización exacta de una población, es necesario tomar una muestra representativa. Por lo tanto, la validez de la generalización, depende de la validez y tamaño de la muestra. R Cuando trabajamos con muestras, generalmente se presentan dos tipos de errores:  Error sistemático. Llamado de distorsión o sesgo de la muestra, se presentan por causas ajenas a la muestra: • Situaciones inadecuadas : se presentan, por ejemplo, cuando el encuestador tiene dificultades para obtener la información y la sustituye por la que más fácilmente está a su alcance, que no siempre es la más confiable. • Insuficiencia en la recolección de datos : hay distorsión por falta de respuestas, o respuestas inadecuadas, ya sea por ignorancia o falta de datos relativos a los elementos incluidos. Distorsiones del encuestador causadas por prejuicios, interés personal o por fallas en la aplicación de instrumentos. • Errores de cobertura a causa de que no se han incluido elementos importantes y significativos para la investigación que se realiza.  Error de muestreo o muestral. Cualquiera que sea el procedimiento utilizado y la perfección del método empleado, la muestra diferirá de la población. A esta diferencia se la denomina error de muestreo. Cuando una muestra es aleatoria o probabilística, es posible calcular sobre ella, el error muestral. Este error, indica el porcentaje de incertidumbre, es decir, el riesgo que se corre que la muestra elegida no sea representativa. Si trabajamos con un error calculado en 5%, ello significa que existe un 95% de probabilidades de que el conjunto muestral, represente adecuadamente, al universo del cual ha sido extraído. A medida que incrementamos el tamaño de la muestra, el error muestral tiende a reducirse, pues la muestra va acercándose más al tamaño del universo. Del mismo modo, para una muestra determinada, su error será menor cuanto más pequeño sea el universo a partir del cual se la ha seleccionado. Así, para un universo de 10,000 casos, una muestra de 200 unidades tendrá un error mayor que una de 300; esto es; N = 10,000 y n = 200 por lo tanto su fracción de muestreo n/N = 200 / 10,000 = 0.02 y N = 10,000 y n = 300 por lo que su fracción de muestreo n/N = 300 / 10,000 = 0.03, por lo tanto la fracción de muestreo más chica (0.02), será la que tenga mayor error muestral. De manera similar, si varía el tamaño del universo con igual tamaño de muestra, se confirma también la anterior afirmación; por ejemplo para una muestra de n = 200 casos, se tendrá un error mayor, si el universo tiene 10,000 unidades, que si el universo posee solamente 2,000 unidades. 9 Matemáticas aplicadas Estadística Inferencial Hagamos los cálculos, n = 200 y N = 10,000; la fracción de muestreo es n/N = 0.02; en la otra población N = 2,000 y n = 200, n/N = 0.1 se confirma que la primera fracción de muestreo que es la más chica, tendrá un error de muestreo mayor, ya que disminuyó el universo de la población, con una misma muestra. Para fijar el tamaño de la muestra adecuado a cada investigación, es preciso primero determinar el porcentaje de error que estamos dispuestos a admitir. Una vez hecho esto, deberán realizarse las operaciones estadísticas correspondientes, para poder calcular el tamaño de la muestra, que nos permite situarnos dentro del margen de error aceptado. Dichos cálculos se estudiarán en otro apartado; sin embargo, si el tamaño de la muestra queda determinado previamente por consideraciones prácticas; no hay otra alternativa que aceptar el nivel de error, que su magnitud acarree. Antes que contestes las preguntas de la página siguiente... Elabora en tu cuaderno un mapa conceptual o esquema, con los principales conceptos hasta aquí estudiados. COMPARALO CON OTROS TRABAJOS DE TUS COMPAÑEROS Ahora sí, contesta correctamente las siguientes actividades de aprendizaje... A CONTINUACIÓN RESUELVE LAS SIGUIENTES ACTIVIDADES DE APRENDIZAJE PARA QUE REAFIRMES LO APRENDIDO HASTA EL MOMENTO… Si tienes dudas, vuelve a leer los temas, pregunta a tus compañeros del grupo, consulta otros libros o artículos, relacionados con los temas, etc. TU PUEDES… SI QUIERES. 10 Educación humana y de calidad SAETA- Aceboman, espero me ayudes a salir adelante ¿Sale? Matemáticas aplicadas Estadística Inferencial ACTIVIDADES DE APRENDIZAJE: Contesta correctamente las siguientes preguntas 1. Escribe el nombre y símbolo de los dos principales parámetros de la población, así como sus dos estadísticos de la muestra. 2. ¿Cuántas muestras distintas de tamaño n = 4 , podemos escoger de una población finita de tamaño N = 30? Respuesta: _________ 3. ¿Cuántas muestras distintas de tamaño n =3, podemos tomar de una población finita de tamaño N = 110?, Respuesta: _________ 4. ¿Cuales son los tipos de errores que se pueden cometer cuando se trabaja con muestras? ___________________________ y ______________________ explícalos brevemente con tus palabras. 5. Asigna a cada uno de los integrantes de tu grupo un número y utiliza la tabla de números aleatorios de la página 5, a partir del elemento 21 de la sexta columna hacia la derecha determina una muestra aleatoria de seis estudiantes. Realiza tus cálculos aquí o aun lado de la hoja, por favor. 6. De los números asignados en el ejercicio anterior, ahora a partir del 14 elemento de la primera columna hacia abajo determina una muestra aleatoria de cuatro estudiantes. 7. Escribe que entiendes por MUESTREO ALEATORIO SIMPLE: ________________________ ____________________________________________________________________ 11 Matemáticas aplicadas Estadística Inferencial 8. De la lista de tus compañeros del grupo, anota en un pedazo de papel el número que corresponde a cada uno de ellos. Mezcla bien todos los papelitos en una caja o urna y extrae sin reemplazamiento 6 estudiantes para un muestra aleatoria simple. Anota aquí tu resultado. __________________ _________________ _________________ __________________ _________________ _________________ 9.- De la misma manera que el ejercicio anterior, Extrae una muestra aleatoria simple de 5 estudiantes con reemplazamiento. Anota aquí tus resultados. __________________ _________________ _________________ __________________ _________________ 10. En la colonia “2 de agosto” de Tepic, Nayarit, de 1980 habitantes, se pretende realizar una encuesta y seleccionar a 16 personas entre 180 señoras, para conocer el grado de aceptación de un nuevo producto de limpieza. De acuerdo al tipo de muestreo sistemático, calcula, ¿cuales serán las 16 personas seleccionadas para ser entrevistadas? Realiza tus cálculos a un lado de la hoja, por favor. 11. La Universidad Autónoma de Nayarit, tiene una población aproximada de 12,500 estudiantes, profesores y trabajadores y de los cuales 8500 son estudiantes, 1990 son profesores y 2010 son trabajadores. Calcula el tamaño de la muestra de cada estrato. si se desea saber la opinión de 500 personas de la universidad, sobre la gestión del actual rector. Realiza tus cálculos aun lado de la hoja, por favor. 12. Un CBTA tiene inscritos a 550 estudiantes, de los cuales 290 cursan el 1er año, 188 el 2do año y 72, 3er. año. Calcula el tamaño de la muestra de cada estrato, si se desea saber la opinión de sólo 100 estudiantes, sobre la eficiencia de la infraestructura del plantel. Realiza tus cálculos aun lado de la hoja, por favor. 13. A medida que se incrementa el tamaño de la muestra, ¿Se incrementa el error muestral? SI___ NO____ Porque? _______________________________________________________ 14. Observa detenidamente los siguientes datos y contesta ¿Cuál tendrá mayor error muestral? Población 1 Universo (N = 350) y Muestra (n = 150) Población 2 Universo (N = 350) y Muestra (n = 250) ¿Qué población tiene mayor error muestral? ______ 15. Población 1 N = 70 y n = 15 Población 2 N = 800 y n = 150 ¿ Qué población tiene mayor error muestral? ______ 12 Matemáticas aplicadas Estadística Inferencial DISTRIBUCIONES MUESTRALES: E l concepto de distribución muestral, es el concepto más básico de la inferencia estadística y se puede definir como una distribución de probabilidad, que consta de todos los valores posibles de un estadístico de la muestra de tamaño n (con o sin reemplazo). En cada muestra, se suele calcular un estadístico, como la media o la desviación estándar, que varía de una muestra a otra. De esta forma se obtiene una distribución del estadístico denominada distribución muestral. Si por ejemplo, el estadístico utilizado es la MEDIA MUESTRAL, entonces la distribución se llama distribución del muestreo de medias o distribución muestral de la media. De forma similar, se puede obtener distribuciones muestrales de las desviaciones estándar, las varianzas, las medianas, etcétera. DISTRIBUCIÓN MUESTRAL DE MEDIAS: C on el propósito de familiarizarnos con la forma de estudiar estos problemas, analizaremos un caso muy simple. Supongamos que tenemos una población de N = 5 niños y que nuestras muestras son de tamaño n = 2. (Es claro que para un problema de este tamaño simplemente tomamos las alturas de los cinco niños, las sumamos, dividimos entre 5 y se acabó.) El objetivo de éste análisis, es entender algunos aspectos importantes de la distribución muestral de medias a través de este ejemplo. La media poblacional de las alturas es: 1.20 1.18 1.32 1.23 1.28 1.24 5 µ + + + + · · Y su desviación estándar poblacional es: Ahora ¿Cuántas muestras posibles hay en una población( N ) de 5 niños y queremos muestras (n) de tamaño 2, sin reemplazo? O dicho de otra manera, ¿Cuáles son todas las muestras de tamaño igual a 2, que pueden obtenerse sin reemplazo de la población de 5 niños? Como es sin reemplazo, hay un total de 5C2 = (5)(4) / 2! = 10 muestras posibles. Que son los NIÑOS: {1,2}, {1,3}, {1,4}, {1,5}, {2,3}, {2,4}, {2,5}, {3,4}, {3,5}, {4,5}. Estas 10 muestras posibles, se pueden observar en la siguiente tabla Niño 1 2 3 4 5 Altura 1.20 1.18 1.32 1.23 1.28 13 2 2 2 (1.20 1.24) (1.18 1.24) ... (1.28 1.24) 0.0514 5 σ − + − + + − · · x µ 12.42 1.24 10 x x N µ · · · ∑ Matemáticas aplicadas Estadística Inferencial TABLA DE DISTRIBUCIÓN MUESTRAL DE MEDIAS “Muestras del tamaño igual a 2 sin reemplazo de población de 5 niños” Niño ( altura ) 1 (1.20) 2 (1.18) 3 (1.32) 4 (1.23) 5 (1.28) 1 ( 1.20 ) (1.20; 1.18) (1.20; 1.32) (1.20; 1.23) (1.20; 1.28) 2 ( 1.18 ) (1.18;1.32) (1.18; 1.23) (1.18; 1.28) 3 ( 1.32 ) (1.32; 1.23) (1.32; 1.28) 4 ( 1.23 ) (1.23; 1.28) 5 ( 1.28 ) Para cada una de estas muestras, tenemos una media . Por ejemplo, para la muestra {1,2}, su media es = (1.20 + 1.18) / 2 = 1.19 y para la muestra {3,5} su media es = (1.32 + 1.28)/2 = 1.30, etc. Según se muestra en la siguiente tabla de medias. MEDIAS DE LA DISTRIBUCIÓN MUESTRAL DE MEDIAS Niño (altura) 2 (1.18) 3 (1.32) 4 (1.23) 5 (1.28) Total 1 ( 1.20 ) (1.20+1.18) = 1.19 (1.20+1.32) = 1.26 (1.20+1.23) = 1.215 (1.20+1.28) = 1.24 4.905 2 ( 1.18 ) (1.18+1.32) = 1.25 (1.18+1.23) = 1.205 (1.18+1.28) = 1.23 3.685 3 ( 1.32 ) (1.32+1.23) = 1.275 (1.32+1.28) = 1.30 2.575 4 ( 1.23 ) (1.23+1.28) = 1.255 1.255 Total = 1.19 2.51 3.695 5.025 12.42 Ahora calculemos dos aspectos importantes de esta variable aleatoria, como son la MEDIA Y LA DESVIACIÓN ESTÁNDAR de la distribución muestral de medias. La media que denotamos por la llamamos MEDIA DE LA DISTRIBUCIÓN MUESTRAL que es la media de las medias de cada muestra. Su fórmula es resultado es igual a la media poblacional obtenida. 14 x x x x σ Matemáticas aplicadas Estadística Inferencial Esto es, LA MEDIA DE LA POBLACIÓN, ES IGUAL A LA MEDIA DE LA DISTRIBUCIÓN MUESTRAL DE MEDIAS (1.24) Ahora, la desviación estándar, que denotamos y llamaremos ERROR ESTÁNDAR DE LA MEDIA, que es la desviación estándar de la distribución muestral de medias; Calculemos, siguiendo los datos de la tabla y posteriormente analizaremos otra manera más fácil…. ERROR ESTÁNDAR DE LA MEDIA Muestra Medias Medias al cuadrado {1,2} 1.19 1.4161 {1,3} 1.26 1.58761 {1,4} 1.215 1.476225 {1,5} 1.24 1.5376 {2,3} 1.25 1.5625 {2,4} 1.205 1.452025 {2,5} 1.23 1.5129 {3,4} 1.275 1.625625 {3,5} 1.30 1.69 {4,5} 1.255 1.575025 Total = 12.42 15.4356 Con los datos anteriores, podemos utilizar una fórmula y obtener el error estándar de la media que es. Hasta aquí, hagamos un espacio de reflexión: Hay dos resultados muy importantes, que describen la distribución de la variable aleatoria de la distribución muestral de medias. El primero de ellos nos dice, que la media de la distribución muestral de medias, siempre coincide con la media de la población y que el error estándar de la media, es siempre menor que la desviación estándar de la población, o igual a ella, si la dividimos entre la raíz cuadrada del tamaño de la muestra. Más precisamente: 15 x 2 x 03156 0 100 42 12 4356 15 10 2 2 2 2 . ) . ( ) . ( ) ( ) ( · − · − · ∑ ∑ N x x N x σ Si tomamos muestras de tamaño n de una población de tamaño N con media μ y desviación estándar σ, y se simbolizan la media y la desviación estándar de la distribución muestral de medias por y respectivamente, entonces: Las medias y las desviaciones ó x µ x σ µ µ · x x n σ σ · 1 − − · N n N n x σ σ Matemáticas aplicadas Estadística Inferencial Para el ejemplo que venimos desarrollando, utilizaremos la última fórmula para estimar la desviación estándar de las medias muestrales o el error estándar de la media. Coincide con el valor que obtuvimos antes para la desviación estándar de la distribución muestral de medias. Pero es preciso indicar que el factor 1 N n N − − de la segunda fórmula, se conoce como factor de corrección de la población finita (cpf), ya que sin éste, las dos fórmulas (para poblaciones infinitas y finitas) son las mismas. Una regla de uso muy frecuente, establece que el factor de corrección de población finita (cpf), se puede pasar por alto cuando n/N es menor o igual a 0.05, esto es, cuando la muestra contiene el 5% o menos de la población. Por lo tanto, si la población es infinita; o el muestreo se hace de una población infinita con reemplazamiento; o cuando N > 20n la fórmula para encontrar el error estándar se reduce a Para encontrar el error estándar de la media cuando la población es finita y el muestreo se hace sin reemplazo; o cuando N <20n es: En la siguiente página Realiza un ejercicio de síntesis de lo que se ha estudiado, donde debes completar los espacios, para que escribas lo que consideres más conveniente. 16 0.05154 5 2 0.05154 3 . . . 0.03156 1 5 1 4 2 2 x N n N n σ σ − − · · · · − − x n σ σ · . 1 x N n N n σ σ − · − Yo voy a ponerle ganas, para que aceboman, también me ayude. Matemáticas aplicadas Estadística Inferencial ACTIVIDADES DE APRENDIZAJE: Contesta adecuadamente las siguientes preguntas y completa los espacios correctamente: ¿El tamaño de la muestra se denota como?_____________ ¿El tamaño de la población se denota como?____________ ¿La media poblacional se denota como?____________ ¿La desviación estándar poblacional se escribe como?____________ ¿La media de la distribución muestral de medias se denota?__________ ¿El error estándar de la media se denota como? _________________ En una distribución muestral de medias : La fórmula de la media de la distribución muestral de medias es: __________________ y su resultado es: ________________ a la media poblacional. (Igual o diferente) En cambio el error estándar de la media es:____________________________, que la (Igual o diferente) desviación estándar poblacional. Son dos fórmulas para calcular el error estándar de la media (1) Para poblaciones ______________o muestreo ________________ su fórmula es… (Finitas o infinitas) (Con o sin reemplazo) _________________________________ (2) Para poblaciones _______________o muestreo _______________ su fórmula es… (Finitas o infinitas) (Con o sin reemplazo) __________________________________ Cuando N > 20n se utiliza la fórmula _________________para poblaciones______________ Cuando N < 20n se utiliza la fórmula _________________para poblaciones______________ Finalmente, en una ficha bibliográfica, realiza un esquema, mapa conceptual, o formulario con los anteriores conceptos y fórmulas, para que las tengas a la mano y las utilices posteriormente. 17 Gracias Aceboman, me caes bien 3 3000 25 . . 0.59759 0.6 lg 1 3000 1 25 x N n pu N n σ σ − − · · · · − − Matemáticas aplicadas Estadística Inferencial HORRIBLEMENTE BIEN, FELICIDADES… … A CONTINUAR AUTOAPRENDIENDO ERROR ESTÁNDAR O TÍPICO omo se señaló en el ejemplo anterior, en lugar de decir "la desviación estándar de la distribución de las medias de la muestra" nos referimos al error estándar de la media. De manera similar, la "desviación estándar de la distribución de las proporciones de la muestra" se abrevia como error estándar de la proporción. C El término error estándar se utiliza porque da a entender que la variabilidad en los estadísticos de la muestras, provienen de un error de muestreo debido al azar; es decir, hay diferencias entre cada muestra y la población, y además entre las diversas muestras debido únicamente a los elementos que decidimos escoger para las muestras. Por lo tanto, mide el grado en el que se puede esperar que fluctúen o varíen los estadísticos de una muestra como consecuencia del azar, pero no solo mide el error de azar que se ha cometido, sino también la probable precisión que obtendremos si utilizamos una estadística de muestra para estimar un parámetro de población. Si el error estándar es bajo, hay buenas posibilidades de que el estadístico de una muestra se aproxime al de la población; en cambio… Si el error estándar es alto es más probable que obtengamos una muestra que difiera considerablemente de la población. Supóngase que la estatura de 3,000 estudiantes universitarios hombres, se distribuye normalmente, con una media de 68.0 pulg. y una desviación estándar de 3.0 pulg. Si se obtienen 80 muestras de 25 estudiantes cada una. ¿Cuáles serían las medias y las desviaciones estándar (error estándar) esperadas de la distribución muestral de medias, si los muestreos se hubieran hecho a) con reemplazamiento y b) sin reemplazamiento? El número de muestras de tamaño 25 que podrían obtenerse “teóricamente” de un grupo de 3,000 estudiantes con reemplazamiento es de (3,000) 25 = 8.47 x 10 86 y sin reemplazamiento es de 3000C25= 4.91 x 10 61 , que son mucho mayores que 80. Por tanto, no se obtiene una verdadera distribución muestral de medias, sino sólo una distribución muestral teórica. Por tanto… a) Con reemplazamiento 68.0 lg x pu µ µ · · . y 3 0.6 lg. 25 x pu n σ σ · · · 18 Entonces analicemos un problema, para comprender mejor todo lo estudiando hasta aquí ¿sale? Compañeros, urge hacer un ejercicio para practicar Mmmmm. Está bien ¡Ánimo! Matemáticas aplicadas Estadística Inferencial b) Sin reemplazamiento 68.0 lg x pu µ · y Éste último resultado, es sólo ligeramente menor que 0.6 pulg. y puede, para propósitos prácticos, considerarse igual que el muestreo con reemplazamiento. Por lo tanto, se esperaría que la distribución muestral de medias esté distribuida aproximadamente de manera normal, con media de la distribución muestral x µ · 68.0 pulg. y el error estándar de la media x σ · 0.6 pulg. Pero profundicemos un poco más; ahora queremos saber… ¿Cuántas muestras de las 80 del anterior problema, esperaríamos encontrar la media entre 66.8 y 68.3 pulg? y también ¿Cuántas muestras de las 80, sus medias son menor que 66.4 pulg.? DISTRIBUCIÓN NORMAL E ntre la gran cantidad de distribuciones continuas que se usan en la estadística, la más importante, es la distribución normal o curva normal. La fórmula de esta distribución fue publicada por primera vez por Abraham Demoivre (1667-1754) en 1733. Otros matemáticos que figuran, en la historia inicial de la distribución normal, son Pierre Simon, el Marqués de Laplace ( 1749-1827) y Carl Friedrich Gauss (1777-1855), en cuyo honor se denomina a veces, como distribución de Gauss. La fórmula de la distribución normal es: 2 1 1 ( ) exp 2 2 x f x µ σ σ π ] − | ` · − ] . , ] ] donde : μ = la media de la distribución σ = la desviación típica de la distribución π = la constante 3.14159… y 2 1 exp 2 x µ σ ] − | ` − ] . , ] ] indica que el término entre corchetes es el exponente de e, donde e = la constante 2.71828… La curva normal, es una curva en forma de campana que se extiende indefinidamente en ambos extremos, cada vez, pegándose más al eje horizontal sin llegarlo a tocarlo. Algunas características importantes de la distribución normal, son las que se mencionan a continuación: 1. El área total comprendida bajo la curva y por encima del eje horizontal, es igual a 1 (unidades cuadradas). 2. La distribución es simétrica al respecto de su media. Es decir, el 50% del área está a la derecha de la media y el 50% a la izquierda. 19 ¡Momento! para esto, antes debemos repasar aunque sea someramente, la famosa distribución normal y el teorema del límite central, ¿sale? A darle; A los caballos; Órale o Ipso facto Matemáticas aplicadas Estadística Inferencial 3. La media, la mediana y la moda son todas iguales. 4. La distancia horizontal, que hay desde el punto de inflexión de la curva (el punto donde la curva deja de ser cóncava hacia abajo y empieza a ser cóncava hacia arriba), hasta una perpendicular levantada sobre la media, es igual a la desviación estándar σ, como se muestra en la siguiente figura: 5. La distribución normal, es realmente una “familia” de distribuciones, puesto que existe una distribución diferente para cada valor de μ y σ. En la siguiente figura se pueden ver tres distribuciones normales con la misma desviación estándar, pero diferente media. Las distribuciones que tienen diferentes medias, se sitúan en diferentes posiciones sobre el eje horizontal. Ahora se muestran, tres distribuciones normales con la misma media, pero con diferentes desviaciones estándar. Aquí nos muestra, cómo mientras más grande sea la distribución estándar, más plana y más extendida es la gráfica de la distribución. 6. La curva de una distribución normal se extiende de – ∞ (infinito) hasta + ∞ Afortunadamente en la práctica, no es necesario alargar estas “colas” muy lejos, pues se encuentran tan cerca del eje horizontal, que el área bajo ellas es despreciable cuando nos alejamos más de cuatro o cinco desviaciones estándar de la media. En la práctica, se pueden calcular las probabilidades de una variable X que está distribuida normalmente, y que tenga valores entre ciertos números Xa y Xb, utilizando la tabla “áreas bajo 20 Punto de inflexión σ μ Distribución normal con media μ y desviación estándar σ Tres distribuciones normales con desviaciones estándar iguales pero diferentes medias μ μ μ Tres distribuciones normales con medias iguales pero desviaciones estándar diferentes σ = 0.7071 σ =1.5 σ = 1 Matemáticas aplicadas Estadística Inferencial la curva normal estándar” (que se encuentra en la página 23), donde aparecen las áreas entre los valores 0 y z, con z > 0, para la curva normal estándar.(μ= 0 y σ = 1 ). Si utilizamos la simetría de la curva alrededor de la media, podemos calcular áreas entre cualquiera de los dos valores Xa y Xb. Para obtener áreas bajo cualquier curva normal, efectuamos el cambio de escala (ver la figura siguiente), que convierte las unidades de medida de la escala original o la escala X, en unidades estándar por medio de la formula x z µ σ − · , esta nueva escala o valor de Z simplemente, nos indica en cuántas desviaciones estándar por encima o por debajo de la media de su distribución, se desvía el valor correspondiente de X. Antes de utilizar la fórmula para valores de Z, te invitamos a que reflexiones detenidamente unos ejemplos y calculemos, las áreas correspondientes a probabilidades de una variable aleatoria normal. a) Encuentra el área bajo la curva normal estándar a la izquierda de 0.83 o P(Z < 0.83) Como el área bajo toda la curva es 1, el área que está a la izquierda del 0 es 0.5; el área que está a la izquierda de 0.83 es igual a la suma del área a la izquierda del 0 más el área entre 0 y 0.83. En la tabla “áreas bajo la curva normal estándar de la página 22” encontramos que este último valor es 0.2967. El área que buscamos es entonces 0.5 + 0.2967 = 0.7967… observa su curva. El área que se ha calculado corresponde a la probabilidad de que esta variable, tome valores menores a 0.83 que es de 0.7967 o 79.67% b) Encuentra el área bajo la curva normal estándar a la derecha de 1.07 o P(Z > 1.07) El área a la derecha del 0 es 0.5 y la podemos descomponer como la suma del área entre 0 y 1.07 y el área a la derecha del 1.07. En la tabla “áreas bajo la curva normal estándar”, obtenemos que el área 21 μ μ + σ μ + 2σ μ + 3σ μ - σ μ - 2σ μ - 3σ Escala X 0 1 2 3 -1 -2 -3 Escala Z 99.73 %%% % 95.45 %%% % % 68.27% 0 0.83 Área bajo la curva normal estándar a la izquierda de 0.83 = 0.7967 1.07 0 Área bajo la curva normal estándar a la derecha de 1.07 = 0.1423 Matemáticas aplicadas Estadística Inferencial entre 0 y 1.07 es 0.3577. El área a la derecha de 1.07 es lo que le falta a 0.3577 para llegar a 0.5, es decir, 0.5 – 0.3577 = 0.1423. Por tanto, la probabilidad de que esta variable tome valores mayores a 1.07 es de 0.1423 o 14.23% c) Encuentra el área bajo la curva normal estándar entre 0.24 y 1.18 o P(0.24 ≤ Z < 1.18) Si el área entre 0 y 1.18 le restamos el área entre 0 y 0.24 obtenemos el área que buscamos. El área entre 1.18 y 0.24 es 0.3810 – 0.0948 = 0.29 Por tanto, la probabilidad de que esta variable tome valores entre 0.24 y 1.18 es de 0.29 o 29% d) Encuentra el área bajo la curva normal estándar entre – 1.70 y – 0.93 o P(-1.70≤Z<-0.93) Debemos observar primero que el número -1.70 está a la izquierda del -0.93. El área que deseamos calcular es el área de -1.70 a 0, menos el área de 0.93 a 0, esto es, 0.4554 – 0.3238 = 0.1316 Por tanto, la probabilidad de que esta variable tome valores entre -1.70 y -0.93 es de 0.1316 o 13.16% e) Encuentra el área bajo la curva normal a la derecha de – 0.47 o P ( Z ≥ - 0.47) Esta área es la suma del área de – 0.47 a 0 más el área a la derecha del 0, que por la tabla “áreas bajo la curva normal estándar” vemos que es 0.1808 + 0.5 = 0.6808 Por tanto, la probabilidad de que esta variable aleatoria tome valores mayores a -0.47 es de 0.6808 o 68.08% 22 1.18 0.24 Área bajo la curva normal estándar entre 0.24 y 1.18 = 0.29 - 0.93 - 1.70 Área bajo la curva normal estándar entre -1.70 y -0.93 = 0.1316 - 0.47 Área bajo la curva normal estándar a la derecha de -0.47 = 0.6808 Matemáticas aplicadas Estadística Inferencial TABLA: ÁREAS BAJO LA CURVA NORMAL ESTANDAR, desde 0 a z. z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359 0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753 0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141 0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517 0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879 0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224 0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549 0.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852 0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133 0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389 1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621 1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830 1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015 1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177 1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319 1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441 1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545 1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633 1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706 1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767 2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817 2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857 2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890 2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916 2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936 2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952 2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964 2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974 2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981 2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986 3.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990 Jhon E. Freund y Gary A. Simon. Estadística elemental. 8ª. Edición. Edit. Prentice may 1992. También para z= 4.0, 5.0 y 6.0 las áreas son 0.49997, 0.4999997 y 0.499999999. SIGUE PRACTICANDO CON OTROS VALORES, TU SOLO(A) 23 0 z Los valores de la tabla, son las probabilidades de que una variable aleatoria que tiene la distribución normal estándar, tome un valor de entre 0 y z. Matemáticas aplicadas Estadística Inferencial ACTIVIDADES DE APRENDIZAJE Te recomendamos que utilices una curva normal por cada ejercicio, y apoyándote en la tabla de la página 21, encuentres las respuestas correctas. Sigue los ejemplos de las páginas 18 y 19. a) ENTRE 0 Y 1.68 P(0 ≤ Z < 1.68) b) A LA DERECHA DE 0.69 P(Z ≥ 0.69) c) ENTRE 1.07 y 1.46 P(1.07 ≤ Z < 1.46) d) ENTRE -2.36 y 0 P(-2.36 ≤ Z < 0) e) ENTRE -0.91 y 0.45 P(-0.91 ≤ Z < 0.45) f) ENTRE -2.12 y -1.18 P(-2.12 ≤ Z < -1.18) g) A LA IZQUIERDA DE – 0.35 P(Z < -0.35) 24 Matemáticas aplicadas Estadística Inferencial TEOREMA DEL LÍMITE CENTRAL a relación entre la forma de la distribución de la población y la forma de la distribución de muestreo se denomina teorema del límite central, que es tal vez, el teorema más importante de toda la inferencia estadística; su importancia radica en que nos permite usar los estadísticos de la muestra, para hacer inferencias con respecto a los parámetros de población, sin saber nada sobre la forma de la distribución de frecuencias de esa población, más que lo que podamos obtener de la muestra. L El teorema del límite central, nos permite el empleo de la distribución normal en una amplia variedad de problemas; aún, cuando la variable en estudio no tenga distribución normal, o su distribución sea desconocida. Si el número de elementos de la muestra es suficientemente grande, por aplicación del Teorema del Límite Central, la media aritmética igualmente va a tener aproximadamente distribución normal. Aun cuando no especifica que tan grande debe ser el tamaño de la muestra n, para poder aproximar la distribución muestral x por una distribución normal, una buena regla es que basta que n sea mayor o igual a 30, o sea, n ≥ 30 Otro aspecto importante, es que para convertir cualquier variable aleatoria normal, en una variable aleatoria normal estándar, debemos sustraer la media de la variable que se está estandarizando y dividir el resultado entre el error estándar (la desviación estándar de dicha variable), según la siguiente fórmula, donde z = son las unidades estándar. Análogamente, también podemos utilizar la fórmula… 1 x x z s − · Siguiendo el mismo ejercicio de la página 16, de los 3000 estudiantes universitarios que se distribuyen normalmente con una media µ · 68.0 pulg y desviación estándar σ · 3.0 pulg y donde calculamos un error estándar de la media x σ · 0.6 pulg. Ahora las preguntas serán… ¿En cuántas muestras de las 80 del anterior problema, esperaríamos encontrar la media a) entre 66.8 y 68.3 pulg y también… 25 TEOREMA DEL LÍMITE CENTRAL: Si n es grande, la distribución muestral de las medias puede aproximarse a una distribución normal, sin importar la forma de la distribución de la población. Ahora si, practiquemos esta formula con el ejemplo anterior ¿sale? Matemáticas aplicadas Estadística Inferencial b) menor que 66.4 pulg.? La media x de una muestra en UNIDADES ESTANDAR está dada aquí por: 68.0 0.6 x x x z µ σ − − · · a) Cuántas muestras hay entre 66.8 y 68.3 pulgadas? o P (66.8 ≤ Z < 68.3) 66.8 en unidades estándar = 68.3 en unidades estándar = La proporción de muestras con medias entre 66.8 y 68.3 pulg es igual al área bajo la curva normal entre z= -2.0 y z= 0.5, esto es igual al (área entre z= -2.0 y z= 0) + mas (área entre z= 0 y z = 0.5) Buscamos los valores en la tabla “áreas bajo la curva normal estándar” y encontramos que para 2 = 0.4772 y para 0.5 = 0.1915 Sumamos los dos valores = 0.6687 = 66.87% y entonces finalmente, el número esperado de muestras es (80) (0.6687) = 53.496 o 53 muestras b) Cuántas muestras son menor que 66.4 pulg .?o P (Z < 66.4) 66.4 en unidades estándar = La proporción de muestras con medias menores que 66.4 pulg. = (área bajo la curva normal a la izquierda de z = -2.67) = (área a la “derecha” de z = 0) – menos (área entre z= -2.67 y z = 0) = 0.5 – 0.4962 = 0.0038 = 0.38%- Por lo tanto, el número esperado de muestras es (80) (0.0038) = 0.304 o cero muestras. 26 z = 0.5 μ= 68.0 z = -2.0 μ = 68.0 z = 0 z = -2.67 Vamos hacer otro problema para aprender otra forma de su cálculo ¿Sale? − · − 66.8 68.0 2.0 0.6 − · 68.3 68.0 0.5 0.6 − · − 66.4 68.0 2.67 0.6 Matemáticas aplicadas Estadística Inferencial Con base en el teorema del límite central. ¿Cuál es la probabilidad de que el error de una variable aleatoria sea menor que 5, cuando se usa la media de una muestra aleatoria de tamaño n = 64 para estimar la media de una población infinita con σ = 20? Aunque el valor de μ es desconocida, sabemos que la distribución muestral de las medias es normal con la media poblacional μ. Por lo tanto, la probabilidad se obtiene por medio del área de la zona bajo la curva de normal estándar, entre… y Dado que la entrada de la tabla corresponde a z = -2.00 es 0.4772 y z = 2.00 es 0.4772 la probabilidad que se pide es 0.4772 + 0.4772 = 0.9544 Entonces afirmamos, la probabilidad de que una media de una muestra aleatoria de tamaño n = 64 de la población infinita con σ = 20, difiera de la población por menos de 5 es de 0.9544 o el 95.44% SIGUE PRACTICANDO OTROS PROBLEMAS, Y TE RECOMENDAMOS QUE INGRESES A LA PAGINA INTERACTIVA DE INTERNET http://descartes.cnice.mec.es/ del ministerio de educación y ciencia de España, específicamente en la unidad didáctica del bachillerato, modalidad de humanidades y ciencias sociales, en el tema, Distribución Normal e inferencia estadística. ENTRA A ESTA PÁGINA… E INCREMENTA TU APRENDIZAJE ¡ NO TE VAS A ARREPENTIR ! A CONTINUACIÓN RESUELVE LAS SIGUIENTES ACTIVIDADES DE APRENDIZAJE PARA QUE REAFIRMES LO APRENDIDO HASTA EL MOMENTO… 27 5 2 20/ 64 z − · · − 5 2 20/ 64 z · · μ z = 0 μ - 5 z = -2.0 μ+ 5 z = 2.0 0.4772 0.4772 Educación humana y de calidad SAETA x x u z σ − · Matemáticas aplicadas Estadística Inferencial ACTIVIDADES DE APRENDIZAJE: Con el propósito que reafirmes lo aprendido, contesta… utilizando tus palabras y criterio las siguientes preguntas 1. Explica brevemente qué entiendes por distribución muestral? Respuesta: __________________________________________________________________ ____________________________________________________________________________ 2. ¿Qué estudiamos cuando analizamos una distribución muestral de medias? Respuesta: __________________________________________________________________ ____________________________________________________________________________ 3. ¿Cuál es el número de muestras de tamaño 5, que podrían obtenerse de un grupo de 200 estudiantes, con reemplazo y sin reemplazo? Realiza tus cálculos aquí. Por favor. Con reemplazo: _________ Sin reemplazo: __________ 4. ¿Cuál es el número de muestras de tamaño 4, que podrían obtenerse de un grupo de 30 personas, con reemplazo y sin reemplazo? Con reemplazo: __________ Sin reemplazo: __________ 5. ¿Que es lo que mide el error estándar en una distribución muestral de medias? Respuesta: __________________________________________________________________ ____________________________________________________________________________ 6. Si el error estándar es bajo o alto que nos sugiere? Si es bajo indica: ___ Si es alto indica: ___ 7. Que nos indica el teorema del límite central? Respuesta: A UN LADO DE ÉSTA HOJA, O EN TU CUADERNO DE ESTADÍSTICA, RESUELVE ADECUADAMENTE LOS SIGUIENTES PROBLEMAS. 28 Matemáticas aplicadas Estadística Inferencial 8. Una población consiste de cinco números 2, 3, 6, 8 y 11. Considere todas las muestras de tamaño igual a 2 que pueden obtenerse, con reemplazamiento y sin reemplazamiento, a partir de estas poblaciones. Calcule a) la media de la población, b) la desviación estándar de la población, c) la media de la distribución muestral de medias, y d) la desviación estándar de la distribución de medias, es decir, el error estándar de medias. 9. Quinientos baleros de rodamiento tienen un peso medio de μ = 5.02 g y una desviación estándar de σ = 0.30 g., de una muestra aleatoria de n = 100 baleros de rodamiento elegida de este grupo. Calcula la probabilidad de que, el peso combinado esté entre 496 y 500 g, si el peso medio de los 100 baleros, está entre 4.96 y 5.00 g y la probabilidad de que el peso combinado excederá 510 g, si el peso medio de los 100 baleros excede 5.10 g. 10. Una región agrícola consta de 200 000 hectáreas donde se siembra trigo. Para estimar la producción media por hectárea, se realiza una muestra de 900 hectáreas que tuvieron en promedio una productividad de = 3.4 toneladas. La SAGARPA estima que la que la desviación estándar de la productividad del trigo en la región es de σ = 0.8 Toneladas. ¿Cuál es la probabilidad de que nuestra estimación de la producción media en la región, tenga un error de a lo más 0.05 toneladas? 11. La media de una muestra aleatoria de tamaño n = 300 es usada para estimar la media del ingreso familiar de una población de 20,000 familias de una región. Si el INEGI estima que la desviación estándar del ingreso familiar en la región es σ = $ 1500. Determina la probabilidad de que el error de estimar la media sea a) menor que $200 y b) menor que 250 12. La media de una muestra aleatoria de tamaño n = 50 barricas, es empleada para estimar el contenido de alcohol de la producción tequilera en una bodega de 20000 barricas. Si la desviación estándar del contenido alcohólico del tequila es de σ = 0.5%. Determina la probabilidad de que el error de estimar la media sea a) menor al 0.01% y b) menor al 0.02% 29 Matemáticas aplicadas Estadística Inferencial SECUENCIA DIDÁCTICA “Estimando la confianza” Autor: Alejandro Acebo Gutiérrez Contenido temático Teoría de estimación estadística Propósito del contenido temático: Analizar los conceptos de la teoría de la estimación estadística, para que el estudiante los utilice durante el desarrollo de trabajos estadísticos inferenciales. Conceptos fundamentales: Intervalos de confianza Conceptos subsidiarios: Intervalos de confianza de parámetros poblacionales: Intervalos de confianza para medias e Intervalos de confianza para proporciones. Tema integrador Relaciones humanas (convivencia) Número de sesiones 2 (semanas ) con alto porcentaje de estudio independiente Valores y actitudes Solidaridad, Tolerancia, Libertad y Justicia, Categorías Diversidad y espacio. BLOQUE: ACTIVIDADES DE APERTURA Observaciones Te invitamos a que reflexiones un momento sobre el tema de las RELACIONES HUMANAS y la difícil tarea de tomar decisiones. Contesta honestamente @ Cuáles son las personas que más respetas y por que? @ Cuáles son las personas que menos toleras y por que? @ Por qué son importantes las relaciones humanas en la toma decisiones? A continuación se presenta un problema. Por favor, ayúdale al director a resolverlo: El director de un CBTA no sabe que hacer; según el, es urgente incrementar las inscripciones porque la infraestructura de la escuela está en pésimas condiciones, pero también sabe que los alumnos son de escasos recursos económicos y no quiere dañar su buena imagen ante ellos, por lo que decide obtener una muestra aleatoria de 200 alumnos del CBTA, de los cuales, 144 se oponen a un incremento de la inscripción y 56 están a favor de dicho incremento. a) Construye un intervalo de confianza del 95%, para la proporción de la población de estudiantes que se oponen al incremento de la inscripción. Interpreta su resultado b) Construye un intervalo de confianza del 95%, para la proporción de la población que está a favor del incremento de la inscripción. Interpreta su resultado Es conveniente un tiempo aceptable para desarrollar esta importante introducción. Integrarse en equipos de 3 estudiantes. BLOQUE: ACTIVIDADES DE DESARROLLO 1.- Consultar la presente guía didáctica, en los temas correspondientes a: Estimación de parámetros; Estimación sin sesgo; Estimación puntual y estimación por intervalos; Estimación por intervalos de confianza de los parámetros poblacionales: para medias y de proporciones. Error probable o error máximo y Tamaño de la muestra. 2. Investigar de manera personal, otras fuentes de información a tu alcance para enriquecer tus conocimientos de los temas antes mencionados. 3.- Integrado en equipos de tres compañeros, comenten las estrategias para la solución de las preguntas antes señaladas. 3. Realicen esquemas, láminas, o presentaciones para su exposición grupal en el aula. Consultar la presente guía didáctica para argumentar su solución y otras bibliografías. BLOQUE: ACTIVIDADES DE CIERRE  En reunión plenaria, expondrán ya sea con rotafolio, láminas, o presentaciones El cierre se hará en 30 Matemáticas aplicadas Estadística Inferencial PowerPoint; las vías de solución que se hayan encontrado a dichos preguntas.  En la plenaria, encontraras la solución más idónea entre todo el grupo.  De manera respetuosa podrás solicitar a todo el grupo, te disipen algunas dudas que tengas respecto al tema y a la solución del problema en general. El facilitador propiciará la exposición libre de las emociones y sentimientos generados durante el desarrollo del tema. dos fases 1ra. Sobre las relaciones humanas 2da. Sobre el problema estadístico TEMA ----------------- ay dos tipos de inferencia estadística; la estimación y la verificación de hipótesis; en este tema (teoría de la estimación estadística) vamos a estudiar los conceptos y técnicas fundamentales de la estimación de intervalos y en el apartado siguiente (teoría de la decisión estadística), analizaremos los principios indispensables para la verificación o prueba de hipótesis. H ESTIMACIÓN DE PARÁMETROS En el tema anterior, se revisó la manera en que la teoría de muestreo puede emplearse para obtener información acerca de las muestras obtenidas aleatoriamente de una población conocida. También observamos, cómo la desviación estándar de la población y el tamaño de la muestra, determinan la variabilidad de la distribución muestral de la medias, ya que entre menor sea el error estándar de la media, mejor será nuestra estimación. Un problema que consideraremos en este tema, es el de la estimación de parámetros poblacionales o simplemente parámetros, como la media y la desviación estándar, a partir de los estadísticos muestrales correspondientes o también llamados estadísticos, como la media y la desviación estándar muestrales. ESTIMADOS SIN SESGO Y EFICIENTE Si la media de la distribución muestral de un estadístico, es igual al parámetro poblacional correspondiente, el estadístico se denomina estimador sin sesgo (insesgado) del parámetro; de otra manera, es denominado estimador sesgado. La media de la distribución muestral de las medias μ es x µ µ · , la media poblacional. Por lo tanto, la media muestral X es un estimado sin sesgo de la media poblacional μ. Si las distribuciones muestrales de dos estadísticos tienen la misma media, entonces el estadístico con la MENOR varianza o desviación estándar, se denomina estimador eficiente de la media, mientras que el otro estadístico, se llama estimador ineficiente. Si se consideran todos los estadísticos posibles, cuyas distribuciones muestrales tienen la misma media; aquél con la menor varianza o desviación estándar, suele denominarse el mejor o más eficiente estimador de dicha media. ESTIMACIÓN PUNTUAL Y ESTIMACIÓN POR INTERVALO El estimado de un parámetro poblacional dado por un solo número, se denomina estimado puntual del parámetro. El estimado de un parámetro poblacional dado por dos números, entre los cuales, se considera que, está el parámetro, se denomina estimado por intervalo del parámetro. Los estimados por intervalo, indican la precisión de un estimado y son, por lo tanto, preferibles al estimado puntual. Si se dice que una distancia es de 5.28 metros, se está dando un estimado puntual. Si por otro lado, la distancia es de 5.28 ± 0.03 metros, es decir, la distancia está entre 5.25m y 5.31m, se está dando un estimado por intervalo. La información sobre el error (o precisión) de un estimado, se conoce como su confiabilidad. 31 TEORIA DE ESTIMACIÓN ESTADÍSTICA Matemáticas aplicadas Estadística Inferencial ESTIMACIÓN POR INTERVALOS DE CONFIANZA DE PARÁMETROS POBLACIONALES En este apartado únicamente vamos a analizar dos parámetros poblaciones, los intervalos de confianza para medias y los intervalos de confianza de proporciones. Sean μs y σs la media y la desviación estándar (error estándar), en ese orden, de la distribución muestral de un estadístico. Entonces, si la distribución muestral es en forma aproximada a la normal (lo cual es verdadero para muchos estadísticos, si el tamaño de la muestra es N ≥30), se puede esperar encontrar un estadístico muestral, real que caiga en los intervalos μs – σs “a” μs + σs cerca de 68.26%, de las veces. μs – 2σs “a” μs + 2σs cerca de 95.44% de las veces. y μs – 3σs “a” μs + 3σs cerca de99.74% de las veces. en probabilidad será Debido a lo anterior, se llaman intervalos de confianza a 68.26%, 95.44% y 99.74% de estimación para μs. Los números extremos de estos intervalos, se denominan límites de confianza. De forma similar, S ± 1.96σs y S ± 2.58σs son los límites de confianza a 95% y 99% (o 0.95 y 0.99) de S. El porcentaje de confianza suele denominarse nivel de confianza. Las cifras 1.96, 2.58, etcétera, en los límites de confianza; se llaman coeficientes de confianza o valores críticos y se denotan por zc. A partir de los niveles de confianza se pueden calcular los coeficientes de confianza y viceversa. En la tabla siguiente se muestran algunos de los valores críticos de zc, correspondientes a diversos niveles de confianza. Los valores de zc, para los niveles de confianza, no incluidos en la tabla, pueden obtenerse en la tabla áreas bajo la curva normal estándar de la página 22. Completa la tabla, ejemplo: 95%/2 = 47.5 / 100 = 0.475 en la tabla Zc = 1.96 Nivel de confianz a 99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27% 50% zc 2.575 1.96 1.645 Si queremos un intervalo de 90% de confianza, tenemos 1 – α= 0.90, y el valor correspondiente a un área central de 0.90 en la distribución normal estándar es de zc = 1.645 según se indica en la tabla y la figura siguiente. Denotamos con la letra griega α (alfa) a la probabilidad con la que estamos dispuestos a cometer error (α=0.10); entonces, no cometer el error o confiabilidad será: 1-α (0.90), recordando que la probabilidad de un 32 x μ μ + σ μ + 2σ μ + 3σ μ - σ μ - 2σ μ - 3σ Escala x 95.44% 68.26% 99.74% α/2 = 0.05 z c = 1.645 1-α = 0.90 α = 0.10 z c = - 1.645 α/2 = 0.05 % 74 . 99 ) 3 3 ( % 44 . 95 ) 2 2 ( % 26 . 68 ) ( · + ≤ ≤ − · + ≤ ≤ − · + ≤ ≤ − σ µ σ µ σ µ σ µ σ µ σ µ X P X P X P x x Matemáticas aplicadas Estadística Inferencial evento más la probabilidad de su complemento, es igual a 1; dicho de otra manera, como α se ha definido como la probabilidad de cometer el error y la probabilidad del evento complementario a este, es la probabilidad de NO cometer error, esto es, la confiabilidad, entonces se tiene que la suma de estos eventos complementarios es 1. Resolvamos un problema para analizar y resumir lo dicho hasta el momento INTERVALOS DE CONFIANZA PARA MEDIAS E n la zona metropolitana de la ciudad de México, se tomó una muestra de 30 lecturas del nivel de ozono durante cierto periodo invernal. En la tabla siguiente tenemos estas lecturas: 178 190 228 211 187 165 172 244 229 208 193 203 215 226 231 209 220 258 278 235 246 227 211 195 202 212 219 216 204 193 La media de esta muestra es = 213.5 inmecas Si ésta es la única información que tenemos, podemos emplear este valor como una estimación de la media del nivel de ozono en la zona durante la época invernal. Una estimación así es llamada una estimación puntual pues consiste de un único número o punto de la recta real. Este tipo de estimación puntual no brinda información sobre el tamaño del error. Una alternativa que brinda más información, consiste en estimar la media por medio de un intervalo o aquellos números reales que se encuentran entre dos valores o límites del intervalo. El teorema del límite central nos permite entonces asociar a un intervalo alrededor de nuestro valor de = 213.5, una probabilidad o grado de certidumbre de que la media que estimamos se encuentre efectivamente entre estos límites. Cuando no se tiene mayor información acerca de la desviación estándar de la población σ, y n es grande ( n ≥ 30 ) podemos sustituir σ por la desviación estándar de la muestra s. En nuestro problema tenemos que la desviación estándar, como se trata de una muestra, está dada por… También podríamos haber utilizado la fórmula: ( ) ( ) 2 2 ( 1) n x x s n n − · − ∑ ∑ para calcular este valor. 33 2 2 2 ( ) (178 213.5) ... (193 213.5) 24.87 1 29 x x s n − − + + − · · · − ∑ Si la población es grande en relación al tamaño de la muestra (N > 20n), el tamaño de la muestra es mayor o igual que 30 y si el muestreo se lleva acabo a partir de una población infinita o de una población finita con reemplazamiento, el intervalo de confianza para μ de grado de confianza α es : ó si el muestreo se realizó sin reemplazamiento de una población finita. Donde el área de la curva normal estándar entre 0 y Z c es α / 2, esto es, con un grado de confianza α el error al estimar la media (μ ) por es menor a 1 c N n X Z N n σ − t − c X Z n σ t x Matemáticas aplicadas Estadística Inferencial Una estimación por intervalos o un intervalo de confianza consta de 3 partes (primera ecuación); que es el estimador; t Zc es el factor de confiabilidad y que es el error típico del estimador y en la segunda ecuación incluye, el factor de corrección finita Los grados de confianza que más emplearemos son 0.95 y 0.99 y sus correspondientes coeficientes de confianza o valores críticos Zc que son 1.96 y 2.575, respectivamente. A estos intervalos, también se les conoce, como los intervalos de confianza del 95% y 99%. Para encontrar los intervalos de confianza al 95 % de confianza, en el caso del nivel de contaminación de ozono tenemos: 213.5 – 1.96. (4.54) = 213.5 – 8.90 = 204.60 “y” 213.5 + 1.96. (4.54) = 213.5 + 8.90 = 222.40 por lo que el intervalo de confianza del 95% es 204.60 < μ < 222.40 por lo tanto… Con una probabilidad de 0.95 la media poblacional se encuentra entre 204.60 y 222.4 o bien, que con un grado de confianza del 95% el error al estimar la media como 213.5 es menor a 8.9. Analicemos más detenidamente esto último… ERROR PROBABLE Y TAMAÑO DE LA MUESTRA a expresión . c Z n σ representa el error probable o máximo al estimar la media poblacional ( μ ) con grado de confianza α , y puede ser usada para determinar el tamaño de la muestra, cuando se desea cierto grado de precisión; esto lo analizaremos un poco más adelante. L Por lo tanto, el Error máximo del nivel de contaminación de ozono al 95% de confianza es: Si se aumenta el grado de confianza, aumentará el error máximo al estimar la media. SEGUIMOS PRACTICANDO CON LOS INTERVALOS DE CONFIANZA… Si deseamos aumentar el grado de certeza al 99% ¿Cuál será el intervalo de confianza y su error probable? 213.5 – 2.575.(4.54) =213.5 – 11.69 = 201.81 “y” 213.5 + 2.575.(4.54)=213.5 + 11.69 = 225.19 El error probable o máximo al estimar la media con 99% de confianza, es de 11.69 Los intervalos de confianza a un 99% es de 201.81< μ < 225.19. Observamos, que entre mayor sea la certidumbre (grado de confianza), mayor es también el intervalo. Por lo tanto, podemos afirmar que con una probabilidad de 0.99, la media poblacional se encuentra entre 201.81 y 225.19. y con un grado de confianza del 99%, el error al estimar la media como 213.5 es menor a 11.69. Resolvamos otro problema para comprender y aprender mejor este tema… 34 24.87 213.5 1.96. 30 c X Z n σ t · t 24.87 213.5 2.575. 30 c X Z n σ t · t 24.87 . 1.96. 1.96(4.54) 8.90 30 c Z n σ · · · x x n σ 1 − − N n N x x Matemáticas aplicadas Estadística Inferencial Consideremos de nuevo el ejemplo del capitulo anterior de la región agrícola de 200,000 hectáreas, donde se siembra trigo. Se realizó una muestra de 900 hectáreas, con una productividad media de = 3.4 toneladas y donde la desviación estándar de la productividad del trigo, es de σ = 0.8 toneladas. Obtengamos los intervalos de confianza de 90%, 95% y 99% y sus errores máximos Como el número total de hectáreas (200,000, N > 20n) es muy grande podemos emplear la fórmula… Para obtener el intervalo de confianza del 90%, debemos encontrar el valor de Zc (de la tabla áreas bajo la curva normal estándar de la página 22), que corresponde a 90/2 (dos colas)= 0.45 que es Zc = 1.645 debido a que 0.4495 = 1.64 y 0.4505 = 1.65 la parte media será 0.45 =1.645. Por lo tanto, los intervalos al 90 % de confianza serán… 3.4 –1.645.(0.0267) = 3.4 – 0.0439 = 3.36 “y” 3.4 + 1.645. (0.0267) = 3.4 + 0.0439 = 3.44 El intervalo de confianza al 90% es 3.36 < μ < 3.44 y su error máximo de 0.0439 Como ya sabemos el valor de Zc = 1.96 para el nivel de confianza de 95 %, por lo tanto, sus intervalos de confianza serán… 3.4 –1.96.(0.0267) = 3.4 – 0.0523 = 3.35 “y” 3.4 + 1.96. (0.0267) = 3.4 + 0.0523 = 3.45 El intervalo de confianza al 95% es 3.36 < μ < 3.44 y su error máximo de 0.0523 Finalmente y como ya sabemos, el valor de Zc = 2.575 para el nivel de confianza de 99 %, por lo tanto, sus intervalos de confianza serán… 3.4 –2.575.(0.0267) = 3.4 – 0.0688 = 3.33 “y” 3.4 + 2.575. (0.0267) = 3.4 + 0.0688 = 3.47 El intervalo de confianza al 99% es 3.33 < μ < 3.47 y su error probable de 0.0688 TAMAÑO DE LA MUESTRA Como se indicó anteriormente, la expresión . c Z n σ representa el error máximo al estimar la media poblacional (μ), por con un grado de confianza α y puede ser usada, para determinar el tamaño de la muestra, cuando se desea cierto grado de precisión. Para comprender mejor, resolvamos un problema de un fabricante de llantas. Un Fabricante de llantas, desea determinar la vida promedio de cierto tipo de llantas, con un grado de certeza del 99% y con un error menor a 1000 Km. Por estudios previos, el fabricante sabe, que la desviación estándar para este tipo de llantas es de 3000 Km. ¿Qué tan grande debe ser la muestra? Si E, es el error máximo o error probable, entonces 3000 . 2.575. c E Z n n σ · · y como deseamos que E sea menor de 1000, obtenemos la ecuación 3000 1000 2.575. n · , que al resolver da 35 c X Z n σ t 0.8 3.4 900 c Z t 0.8 3.4 1.96 900 t 0.8 3.4 2.575 900 t Ahora si, vamos a obtener el tamaño de la muestra ¡Animo! x Matemáticas aplicadas Estadística Inferencial 1000 3000 2.575 n · se despeja (2.575)(3000) 7.725 1000 n · · . Para obtener el valor de n, elevamos al cuadrado para llegar a n = 59.67, y como este número, no es entero debemos redondear hacia arriba para tener n = 60 llantas. Con un 99% de certeza, el fabricante de llantas, debe obtener una muestra de 60 llantas para tener un error menor de 1000 Km. También se puede utilizar la siguiente fórmula para calcular el tamaño de la muestra, para estimar a μ como sigue… Último ejemplo para reflexionar; Un investigador a cuyo cargo está un departamento de educación física, desea hacer una estimación del consumo de oxígeno (en litros por minuto), de los estudiantes normales que estén entre los 17 y los 21 años de edad, después de haber hecho un tipo especial de ejercicio. El investigador, desea que su estimación se encuentre por lo menos a 0.10 litros de la media verdadera, con una confianza del 95%. Los estudios que se han hecho, indican que la varianza del consumo de oxígeno de este tipo de sujetos, bajo las condiciones especificadas, es aproximadamente igual a 0.09 litros por minuto cuadrado. ¿Qué tamaño debe tener la muestra que necesita este investigador? Con base en la información dada, tenemos que E = 0.10, z = 1.96 y σ = σ =0.30. La sustitución de estos valores se efectúan en la siguiente ecuación: 57 . 34 10 . 0 ) 3 . 0 )( 96 . 1 ( 2 · ] ] ] · n Como el tamaño de la muestra tiene que ser un entero, el investigador necesitará tomar una muestra de tamaño 35, para lograr la confianza y la amplitud de intervalo deseadas. Es importante señalar lo siguiente en este tema: Si hay que sacar la muestra de una población finita, puede resultar conveniente incorporar el factor de corrección poblacional finita (cpf), a la fórmula para n, en este caso la fórmula se transforma en… ) 1 ( 2 2 2 2 2 − + · N E z Nz n σ σ A CONTINUACIÓN, RESUELVE LAS SIGUIENTES ACTIVIDADES DE APRENDIZAJE, PARA QUE REAFIRMES LO APRENDIDO, HASTA EL MOMENTO… ACTIVIDADES DE APRENDIZAJE. 36 2 / 2 ( ) Z n E α σ ] · ] ] [ ] 2 2 2 2.575(3000) 7725 7.725 59.67 1000 1000 n ] ] · · · · ] ] ] ] 2 / 2 ( ) Z n E α σ ] · ] ] Aceboman, yo también le echaré muchas ganas ¿he¿ p x x x Matemáticas aplicadas Estadística Inferencial A un lado de ésta hoja, resuelve adecuadamente los siguientes problemas. 1) Un centro de verificación vehicular, efectúa una muestra aleatoria de 50 vehículos para estimar el tiempo promedio, que se requiere para efectuar la prueba obteniendo una media de 7.2 minutos y una desviación estándar s = 0.8 minutos. Determina los intervalos de confianza de la media del 95% y del 99%, así como los errores máximos de estos grados de confianza. Al 95%: Al 99%: 2) Se desea estimar las horas que un amplificador de música puede ser usado antes de necesitar alguna reparación. Si por estudios previos se sabe que σ = 500 horas, ¿Qué tan grande debe ser el tamaño de la muestra, si necesitamos tener un grado de confianza del 95% y un error de 100 horas? RESPUESTAS CORRECTA: ______________ 3) Una compañía de reparto de paquetería, efectúa una muestra tamaño n = 60 del número de paquetes que entrega por día una camioneta. Si se obtuvo una media de = 26.8 paquetes y una desviación estándar de s = 1.4 paquetes, construye los intervalos de confianza del 90% y del 95%, para el promedio de paquetes que entrega una camioneta. Al 95%: Al 90%: 4) Una compañía de seguros efectúa una muestra de tamaño n = 80 reclamaciones hospitalarias, obteniendo un periodo promedio de hospitalización de 4.5 días y una desviación estándar de 0.81 días. Si = 4.5 días se emplea como la estimación del periodo promedio de hospitalización de sus asegurados… a) ¿Cuál es el error máximo en esta estimación, si se desea tener un grado de confianza del 95% y cuál es el correspondiente intervalo de confianza? RESPUESTAS CORRECTA: ________________ 5) ¿Cuál es el error máximo en esta estimación, si se desea tener un grado de confianza del 99% y cuál es el correspondiente intervalo de confianza? 37 x x Matemáticas aplicadas Estadística Inferencial RESPUESTAS CORRECTA: ___________________ 6) Una empresa publicitaria, desea investigar el tiempo promedio semanal que las amas de casa, de cierta región dedican a ver telenovelas. Si saben que es razonable tomar σ =2.8 horas para estos estudios. ¿Qué tan grande debe ser la muestra, si desean tener un grado de confianza del 99% y un error máximo de media hora? RESPUESTAS CORRECTA: ____________________ 7) El diámetro promedio de una muestra aleatoria de 40 balines, fue de = 0.998 pulgadas y su desviación estándar fue s = 0.002 pulgadas. ¿Cuál es el máximo error al estimar el diámetro promedio del lote de balines en 0.998 pulgadas, si deseamos tener un grado de confianza del 95%? RESPUESTAS CORRECTA: _____________________ 8) Unos diseñadores industriales, desean determinar el tiempo promedio que un adulto requiere para ensamblar un juguete “fácil de ensamblar”, para lo cual obtuvieron una muestra de n = 36 = 19.9 y s = 5.73 ¿Encuentre un intervalo de confianza del 95% para el tiempo promedio que un adulto, requiere ensamblar dicho juguete?. RESPUESTAS CORRECTA: _____________________ 9) Un profesor, quiere calcular el tamaño de la muestra del tiempo promedio que los estudiantes necesitan para pasar de una clase a otra, y quiere afirmar con una probabilidad de 0.95, que su error será a lo sumo de 0.25 minutos.¿Cuál es el tamaño de la muestra que necesita, si sabe que en estudios similares σ = 1.50 minutos? RESPUESTAS CORRECTA: _____________________ INTERVALOS DE CONFIANZA 38 p Matemáticas aplicadas Estadística Inferencial HPARA PROPORCIONES asta aquí hemos analizado, que a partir de la información contenida en una muestra aleatoria y con una confiabilidad preestablecida (1 – α), podemos determinar los extremos de un intervalo de confianza para parámetros de interés, como la media poblacional ( μ ) . Ya se ha comentado que el valor de los parámetros poblacionales en general se desconocen, por lo que, podemos hacer una estimación puntual de P, por medio de la proporción p’ con la que ocurre la categoría bajo estudio, en una muestra aleatoria de la población. Cabe señalar, que la probabilidad de ocurrencia (llamado éxito) de un evento es p, mientras que la probabilidad de la NO ocurrencia (llamado fracaso) del evento es q = 1 – p El teorema central del límite para variables categóricas, nos dice que una variable categórica, cuyas categorías ocurren con una proporción P en la población correspondiente. Si se extraen de la población muestras aleatorias de tamaño n, entonces: 1) Los valores p’ calculados en cada una de las muestras, se distribuyen en forma normal si el valor de n es grande. 2) El promedio poblacional de los valores p’, al que llamaremos μp, es igual a la proporción poblacional P: μp = p 3) La desviación estándar poblacional de los valores p’ , a la que llamaremos σp, es tal que: ( ) 1 p P p n σ − · Lo que dice el teorema anterior, es que si llamamos distribución muestral de p’ a la distribución de los valores de p’, calculados en las muestras de tamaño n extraídas de una misma población, entonces esta distribución muestral de p’, es aproximadamente normal. La media de esta distribución es P, la proporción poblacional y su desviación estándar es igual a ( ) 1 p P p n σ − · . Este valor recibe el nombre de error estándar de la proporción estimada p’. Recordemos que en el caso de la distribución muestral de medias, se mencionó que el teorema central del límite se puede considerar válido si n ≥ 30. En este caso, consideraremos que si el tamaño de la muestra, n, es tal que np’ > 5 y n (1 – p’) > 5, entonces la distribución muestral de p’ es prácticamente normal. Es decir, podremos considerar que n es grande si np’ > 5 . El teorema anterior, nos permitirá encontrar el intervalo de confianza para P con una confiabilidad predeterminada (1 - α) y siguiendo un proceso similar al establecido en el tema anterior, cuando se encontró el intervalo de confianza para μ con σ conocida o estimada por s. ahora tenemos… 39 Si P, es la proporción en la que ocurre una categoría de una variable categórica en una población, y si se extrae de ésta una muestra de tamaño n en la que la categoría ocurre con proporción p’, entonces un intervalo de (1 – α) 100% de confianza para P, si np’ > 5 y n(1- p) es > 5 y si el muestreo se efectuó de una población infinita o una finita con reemplazamiento es: ó si el muestreo se realizó sin reemplazamiento de una población finita. Donde Z c es el valor de la distribución normal estándar que corresponde a “1– α en área central” o a “α en dos colas”. '(1 ') ' 1 c p p Np n p Z n Np − − t − '(1 ') ' c p p p Z n − t Matemáticas aplicadas Estadística Inferencial Si n/N ≤ 0.05 el coeficiente de población finita (cpf) no se usa. Si n/N > 0.05 el coeficiente de población finita (cpf) si se usa. Resolvamos el primer problema para comprender y aprender mejor este tema… En una agrupación de profesionista con 10 000 miembros, se ha tomado una muestra aleatoria de 392 miembros. A la pregunta “¿Los problemas gremiales que no le conciernen directamente, son de interés para usted?, 97 miembros dieron respuestas: “no, para nada” o bien “no se”. Estimar con 95% de confianza, la proporción de los miembros que hubiesen dado respuestas semejantes, si se hubiera tomado un censo completo, preguntando a todos los miembros de la agrupación. Primer paso: se procede a realizar la prueba np’ > 5 y n (1- p ) > 5 n = 392 p’ = 97/ 392 = 0.2474 np’ = (392) (0.2474) = 96.8 y n ( 1 - p’ ) = (392) (0.7526) = 295.2 Por lo tanto… Como ambos np’ y n ( 1 - p’ ) son mayores que 5, podemos continuar con la prueba. Segunda prueba: la relación n/N, para saber si se utiliza el coeficiente de población finita (cpf) 392 / 10,000 = 0.0392 < 0,05 por lo tanto no se usa el “cpf” Como se requiere una confiabilidad de 95% Zc = 1.96, y por lo tanto tenemos: (0.2474)(0.7526) 0.2474 1.96 0.2474 0.0427 0.2047 392 − · − · (0.2474)(0.7526) 0.2476 1.96 0.2476 0.0427 0.2903 392 + · + · El intervalo de confianza al 95% es 0.2047 ≤ p’ ≤ 0.2903 o también < 0.2047, 0.2903 > Entonces podemos afirmar con 95% de confianza, que la proporción de miembros de la agrupación gremial que contestarán “no, para nada” o “no se” a la pregunta planteada, está entre 0.2047 y 0.2903. En otros términos, podemos decir, con una confianza de 95%, que el porcentaje de miembros del gremio a quienes no les interesan los problemas, que no les conciernen directamente está entre 20.47% y 29.03 %. Analicemos otro problema para confirmar lo aprendido… En un estudio sobre las razones que dan los alumnos suspendidos en el CBTA; un profesor tomó una muestra de 200 estudiantes en una población de 1500 que habían sido suspendidos. De los 200 estudiantes suspendidos que fueron entrevistados, 140 dijeron que habían fallado debido a dificultades económicas en su familia. El profesor quería construir una estimación del intervalo de confianza del 95%, para la verdadera proporción de jóvenes que habían fallado por esta razón. Primer paso: se procede a realizar la prueba np’ > 5 y n (1- p ) > 5 n = 200 p’ = 140/ 200 = 0.70 Por lo tanto np’ = (200) (0.70) = 140 y n ( 1 - p’ ) = (200) (0.30) = 60 Como ambos np’ y n ( 1 - p’ ) son mayores que 5, podemos continuar con la prueba. Segunda prueba: la relación n/N, para saber si se utiliza el coeficiente de población finita (cpf) 200/ 1,500 = 0.1333 > 0,05 por lo tanto si se usa el “cpf” Si sustituimos los valores en la fórmula, tendremos: 40 p '(1 ') ' 1 c p p Np n p Z n Np − − t − '(1 ') ' c p p p Z n − t Matemáticas aplicadas Estadística Inferencial 06 . 0 70 . 0 ) 9312 . 0 )( 0324 . 0 ( 96 , 1 70 . 0 1499 200 1500 200 ) 30 . 0 )( 70 . 0 ( 96 . 1 70 . 0 t · t · − t Finalmente tenemos que 0.70 + 0.06 = 0.76 y 0.70 – 0.06 = 0.64 El intervalo de confianza al 95% es 0.76 ≤ p’ ≤ 0.64 o también < 0.76, 0.64 > Tenemos el 95% de confianza de que este intervalo contenga a p, puesto que, en un muestreo repetido, aproximadamente el 95% de los intervalos construidos en esta forma a partir de todas las muestras de tamaño 200 que se pueden hacer en la población de 1500 suspendidos, incluiría a p. ACTIVIDADES DE APRENDIZAJE. En tu cuaderno de estadística, resuelve adecuadamente los siguientes problemas. Recuerda, antes de calcular el intervalo, debes verificar que el tamaño de la muestra sea lo suficientemente grande, es decir, que np>5 y n(1-P) >5 y n/N, para saber si se va utilizar el factor (cpf). 1. Un profesor se interesa por saber qué proporción P de alumnos de la escuela donde trabaja, participan en actividades culturales. Para ello, elige aleatoriamente a 50 estudiantes y encuentra que 37 de ellos participan en actividades culturales. Calcule un intervalo de 95% de confianza para P. Interpreta el resultado. 2. En una muestra aleatoria, 136 de 400 personas a quienes se les administró una vacuna contra la gripe, experimentaron alguna molestia. La población total de pacientes es de 5500. Elabore un intervalo de confianza del 95% para la proporción real de personas, que experimentarán esta molestia como resultado de la vacuna. Interpreta el resultado. 3. Una muestra aleatoria de 200 delincuentes juveniles, sacada de 3000 internos de una escuela correccional, reveló que para 40 de ellos, el delito por el cual habían sido detenidos era el de robo de automóviles. Construir un intervalo de confianza de 90 %, para la proporción poblacional de los que habían sido detenidos por robos de automóviles. Interpreta el resultado 4. De una población de 1540 personas, se obtuvo una muestra aleatoria de 140 supuestos contactos con OVNIS, 119 se podrían explicar fácilmente en términos de fenómenos naturales. Elabore un intervalo de confianza del 99% para la probabilidad de que un supuesto contacto con un OVNI, se puede explicar fácilmente en términos de fenómenos naturales. Interpreta el resultado 41 p Matemáticas aplicadas Estadística Inferencial 5. Entre 180 pescados de un lago grande, 24 no eran comestibles como resultado de la contaminación. a) Elabore un intervalo de confianza del 99% para la proporción real correspondiente. B) ¿Qué podemos decir, con una confianza del 99% acerca del error máximo si usamos la proporción de la muestra, como una estimación de la proporción de la población? Interpreta el resultado 6. En un anuncio publicitario se afirma que 8 de cada 10 médicos utilizan cierto producto. Supongamos que un estudiante desconfiado elige aleatoriamente a 100 médicos y encuentra que 30 de ellos utiliza o recomienda el citado producto. Encuentre un intervalo de 99% de confianza para la proporción de médicos que utilizan o recomiendan el producto. Interpreta el resultado. ¿Cree usted que sea muy probable que lo que afirma en el anuncio sea correcto? 7. En una encuesta aplicada a 16 niños seleccionados aleatoriamente en una ciudad, se encontró que el 25% de los niños no tenían una alimentación adecuada. Calcule un intervalo de 95% de confianza para la proporción de niños de toda la ciudad que no reciben alimentación adecuada. Interpreta el resultado 8. En todo el CBTA-XALISCO existen 850 alumnos, se está planteando la construcción de espacios para practicar deporte y se detectó que, de 48 alumnos elegidos al azar, 33 preferían el básquetbol. Con un 95% de confianza calcula un intervalo de confianza para estimar la proporción de alumnos de toda la escuela, que prefieren el básquetbol. Interpreta el resultado 9. En el mismo CBTA se desea estimar la proporción de jóvenes, cuyos padres asisten regularmente a las juntas de padres de familia citados por la escuela. Para ello, se toma una muestra aleatoria de 130 alumnos de la escuela y se encuentra que los padres de 44 de ellos asisten regularmente a juntas de padres de familia. Encuentre un intervalo de 90% de confianza para la proporción poblacional. Interpreta el resultado 42 Matemáticas aplicadas Estadística Inferencial SECUENCIA DIDÁCTICA: “Probando la hipótesis” Autor: Alejandro Acebo Gutiérrez Contenido temático Teoría de decisión estadística Propósito del contenido temático: Reflexionar y ejecutar las decisiones estadísticas, sobre poblaciones con base en la información de muestras, para poner a prueba las hipótesis planteadas. Conceptos fundamentales: Prueba de hipótesis sobre una media y una proporción poblacional Conceptos subsidiarios: Decisiones estadísticas, Hipótesis estadísticas, Estrategia de prueba, Dos tipos de errores, Esquema general de la prueba de hipótesis, prueba de hipótesis para una media y de una proporción poblacional. Tema integrador La Salud Número de sesiones 3 (semanas ) con alto porcentaje de estudio independiente Valores y actitudes Persistencia, responsabilidad, Solidaridad, y Libertad. Categorías Diversidad y espacio. BLOQUE: ACTIVIDADES DE APERTURA Observaciones Para contextualizar la presente secuencia didáctica, se sugiere reflexionar sobre los avances tecnológicos en la salud humana; específicamente, en la importancia de la estadística inferencial en la longevidad de la vida humana. Algunas preguntas podrían ser; ¿Por qué el promedio de vida es más largo hoy, que en siglos pasados? ¿Cómo ha influido la estadística inferencial, en éste importante fenómeno? A continuación se presenta un problema. Un fabricante de una medicina, dice que el tiempo promedio para que se disuelva el contenido de cierta cápsula es de 50 minutos; el equipo de investigadores de una empresa de la competencia NO cree en esto. Por eso, hace una prueba con una muestra al azar de 20 cápsulas y calcula una media muestral de 54 minutos y desviación estándar de 15. ¿El equipo de investigadores puede concluir, que el tiempo promedio que se requiere para que se disuelva el contenido, es mayor que 50 minutos? Plantea, desarrolla y verifica la prueba de hipótesis con un 95% de confianza. Proyectar videos, audio, o presentaciones estadísticas Integrarse en equipos de 3 estudiantes para su análisis. BLOQUE: ACTIVIDADES DE DESARROLLO 1.- Integrado en equipos de 3 estudiantes, realizar una lectura comentada y analítica de los contenidos de la presente guía didáctica, correspondientes a los temas: Decisiones estadísticas, hipótesis estadísticas, estrategia de prueba, errores que se cometen y el esquema general de la prueba de hipótesis. 2. Reflexionar y discutir los ejemplos del apartado referente a las pruebas de hipótesis sobre una media poblacional de ésta guía. 3. Consultar de manera personal, otras fuentes de información a tu alcance, para enriquecer los conocimientos de los temas antes mencionados. Mínimo dos citas. 4.- Integrado en equipos, desarrollar las estrategias para la solución de las preguntas antes señaladas. 5. Realicen esquemas, láminas, o presentaciones para su exposición grupal en el aula. Consultar la presente guía didáctica y otras bibliografías, para argumentar la solución. BLOQUE: ACTIVIDADES DE CIERRE  El facilitador propiciará la exposición libre de las emociones, y sentimientos generados durante el desarrollo del tema.  En reunión plenaria, expondrán ya sea con rotafolio, láminas, o presentaciones PowerPoint; las vías de solución que hallan encontrado a dichos preguntas. El cierre se hará en dos fases 1ra. Sobre las relaciones humanas 2da. Sobre el 43 Matemáticas aplicadas Estadística Inferencial  En la plenaria, encontraras la solución más idónea entre todo el grupo.  De manera respetuosa podrás solicitar a todo el grupo, te disipen algunas dudas que tengas respecto al tema y a la solución del problema en general. problema estadístico TEMA ----------------- EDECISIONES ESTADÍSTICAS n la práctica, con frecuencia se está obligado a tomar decisiones sobre poblaciones con base en la información de muestras. Éstas se denominan decisiones estadísticas. Por ejemplo, quizás se quiera decidir, apoyado en datos muestrales, si un procedimiento educativo es mejor que otro; si un nuevo suero es realmente efectivo para curar una enfermedad; si un material didáctico (libro o apuntes) es mejor que otro; si un fertilizante es mejor que la materia orgánica, para el desarrollo de algunas plantas, etcétera. En el tema anterior, estudiamos los conceptos y las técnicas de la estimación por intervalos de una media y de una proporción poblacional; esto ha servido para empezar a familiarizarse con la inferencia estadística, que consiste en ver si se puede considerar, a través de la información contenida en una muestra representativa de la población bajo estudio, como verdadera una conjetura planteada acerca de la población. En el presente tema, vamos a analizar otro problema típico de la inferencia estadística: LA PRUEBA DE HIPOTESIS. Los métodos estadísticos que permiten poner a prueba una hipótesis; conforman una importante rama de la estadística; dichos métodos siguen una estrategia general; nosotros abordaremos el camino que sigue del planteamiento de una hipótesis de investigación hasta su manejo estadístico, comentaremos los tipos de errores que se pueden cometer, así como los conceptos y la estrategia básica para la prueba de hipótesis. Con el propósito de abordar de manera diferente éste tema, y esperando que sea ameno y sobre todo, más lógica su comprensión, abordaremos con un ejemplo sencillo, los distintos subtemas en donde iremos realizando actividades de aprendizaje y cuando sea conveniente, generalizaremos el concepto que estemos analizando (hipótesis estadísticas, estrategia de prueba, dos tipos de errores, regla de decisión, esquema general de la prueba de hipótesis), para después, regresar nuevamente a nuestro ejemplo. En el estado de Nayarit, un grupo de profesores realizan una investigación acerca del aprendizaje de las matemáticas, en las escuelas secundarias. Uno de los objetivos de la investigación es comparar el nivel de conocimientos, que tienen los jóvenes de las zonas rurales, con el que tienen, los de las zonas urbanas del estado. Para ello, diseñan un examen de conocimientos en matemáticas, cuyas características permiten considerar, que la calificación que obtenga cada joven, es un indicador de su nivel, así como que las calificaciones se distribuyen normalmente. Este examen es aplicado a todos los jóvenes que asisten a las escuelas secundarias de las zonas urbanas del estado, y se encuentra que el promedio de calificaciones es de 7.5. Los profesores sospechan que los jóvenes de las zonas rurales tienen un nivel de conocimientos en matemáticas diferentes del de los de 44 TEORIA DE DECISIÓN ESTADÍSTICA x Matemáticas aplicadas Estadística Inferencial zonas urbanas, por lo que plantean que, de aplicarse el examen en zonas rurales, se obtendría un promedio de calificaciones, distinto de 7.5. Sin embargo, las zonas rurales del estado de Nayarit, son de difícil acceso, por lo que resulta impráctico aplicar el examen en todas las escuelas de dichas zonas. Por ello, los profesores deciden trabajar con una muestra representativa de 30 jóvenes de las zonas rurales, dicha muestra es elegida con base en técnicas de muestreo que ya analizamos en el primer tema, por lo que el promedio de las calificaciones obtenidas por los 30 jóvenes, será un estimador del promedio de las calificaciones de todos los jóvenes de las zonas rurales, del estado de Nayarit. Hagamos un breve análisis de algunos elementos de este problema. La variable con la que trabajaremos es la calificación, obtenida en el examen de matemáticas y la denotamos con x. La población que nos interesa es la colección de las calificaciones que obtendrían en los exámenes, todos los jóvenes de las zonas rurales del estado y la característica que nos interesa es el promedio de estas calificaciones; es decir, el valor del parámetro μ. El valor de μ es desconocido, pero podemos estimarlo puntualmente, mediante la media de las calificaciones obtenidas por los 30 jóvenes. SUPONGAMOS que esta media muestral es de 7.86, es decir = 7.86 ¿Se podría afirmar que, como x ≠ 7.5, el promedio de calificaciones en zonas rurales difiere del de zonas urbanas? SI_________ o NO __________ ¡Claro que no! Recuerde que la media ( ), varía de muestra a muestra, por ello, no es evidente que a partir del valor de obtenido en una muestra, podamos inferir que el promedio poblacional, μ, difiere del promedio de calificaciones en zonas rurales. HIPÓTESIS ESTADÍSTICAS a palabra hipótesis se define como: (1) Una afirmación que está sujeta a verificación o comprobación. (2) Una suposición que se utiliza como base para una acción. (3) Una conjetura que se hace sobre algo, para sacar una conclusión. El punto clave de estas definiciones está, en que una hipótesis es una afirmación o suposición y no un hecho establecido. L Al intentar tomar una decisión, es útil hacer suposiciones o conjeturas acerca de las poblaciones implicadas. Dichas suposiciones, que pueden o no ser verdaderas, se denominan hipótesis estadísticas. En general las hipótesis, son afirmaciones acerca de las distribuciones de probabilidad de las poblaciones. Podemos expresar, en términos estadísticos la conjetura del grupo de profesores de nuestro ejemplo como sigue: “El promedio poblacional μ, de las calificaciones que obtendrían en el examen de matemáticas los jóvenes de las zonas rurales del estado de Nayarit, difieren del promedio poblacional de las calificaciones, obtenidas por los jóvenes de las zonas urbanas” Denotemos con μu (“mu” “u” de urbana) al promedio de las zonas urbanas, entonces sabemos, μu = 7.5 y la conjetura de los profesores se puede expresar: μ ≠ 7.5 o bien μ ≠ μu En adelante nos referimos a la conjetura de los profesores como hipótesis de investigación y la expresamos como sigue: 45 ¡Pero con calma¡ primero analicemos los diferentes tipos de hipótesis, ¿Sale? x x Matemáticas aplicadas Estadística Inferencial  Hinv : μ ≠ 7.5 o bien Hinv : μ ≠ μu (Prueba Bilateral por corresponder a ambos lados de la media o en ambas colas de la distribución, 2 colas) Es importante señalar que los profesores de nuestro ejemplo, podrían haberse planteado alguna de las siguientes hipótesis:  “El nivel promedio de conocimientos en matemáticas, de los jóvenes de las zonas rurales es mayor que el de los jóvenes de las zonas urbanas”. En este caso se conjetura que μ > μu y la hipótesis de investigación es Hinv : μ > μu. (Prueba Unilateral, una cola de la distribución)  “El nivel promedio de conocimientos en matemáticas de los jóvenes de las zonas rurales es menor que el de los jóvenes de las zonas urbanas”. En este caso se conjetura que μ < μu y la hipótesis de investigación es Hinv : μ < μu . (Prueba Unilateral, una cola de la distribución)  “El nivel promedio de conocimientos en matemáticas de los jóvenes de las zonas rurales no difiere al de los jóvenes de las zonas urbanas”. Hinv : μ = μu (Prueba Bilateral o de 2 colas) Nosotros nos limitaremos a estudiar los casos en los que las hipótesis de investigación plantea la existencia de alguna diferencia, como en las tres posibilidades señaladas en nuestro ejemplo: Hinv : μ ≠ μu , Hinv : μ > μu , Hinv : μ < μu . Como se indicó anteriormente, al tomar una decisión, es útil hacer suposiciones o conjeturas acerca de las poblaciones implicadas. Dichas suposiciones, pueden o no ser verdaderas, a éstas se les denominan hipótesis estadísticas. Esto nos conduce a considerar DOS POSIBILIDADES; una coincide con la hipótesis de investigación y la otra la contradice.  La hipótesis que contradice a la hipótesis de investigación se llama HIPÓTESIS NULA y se denota H0   La hipótesis que coincide con la hipótesis de investigación se llama HIPÓTESIS ALTERNATIVA y se denota H1  Ahondaremos más en este aspecto, para ver cómo se generan las hipótesis estadísticas. Para ello, consideremos las distintas modalidades que, según se mencionó anteriormente, puede adoptar la hipótesis de investigación. CASO 1. En nuestro ejemplo se postuló: Hinv : μ ≠ 7.5 o bien (Hinv : μ ≠ μu ). La hipótesis nula, que niega a la hipótesis de investigación, es: H0: μ = 7.5 o bien (H0: μ = μu) Y la hipótesis alternativa, que afirma lo mismo que la de investigación, es: H1: μ ≠ 7.5 o bien (H1: μ ≠ μu). (Prueba Bilateral o de 2 colas) CASO 2. Si se hubiera postulado que el nivel de conocimientos en promedio de matemáticas es más alto en las zonas rurales que en las urbanas, se tendría: Hinv : μ > 7.5 o bien (Hinv : μ > μu ). Como la hipótesis nula contradice a la de investigación, sería de la siguiente manera: 46 Ja,ja,ja ¡Que fácil! aceboman Matemáticas aplicadas Estadística Inferencial H0: μ ≤ 7.5 o bien (H0: μ ≤ μu ). La hipótesis alternativa sería: H1: μ > 7.5 o bien (H1: μ > μu ). (Prueba Unilateral o de 1 colas) CASO 3. Si se hubiera postulado que el nivel de conocimientos en promedio de matemáticas es más bajo en zonas rurales que en las urbanas, se tendría: Hinv: μ < 7.5 o bien (Hinv: μ < μu). La hipótesis nula tendría la forma: H0: μ ≥ 7.5 o bien (H0: μ ≥ μu). La hipótesis alternativa sería: H1: μ < 7.5 o bien (H1: μ < μu). (Prueba Unilateral o de 1 colas) La siguiente tabla, resume la relación de símbolos que aparecen en las hipótesis en los tres casos considerados: En la hipótesis de investigación (Hinv) aparece el símbolo En la hipótesis Nula (H0) aparece el símbolo En al hipótesis alternativa (H1) aparece el símbolo La prueba se llama Caso 1 ≠ = ≠ Bilateral o de dos colas Caso 2 > ≤ > Unilateral o de una cola Caso 3 < ≥ < Unilateral o de una cola Gracias aceboman ¡¡HURRA¡¡ ES MOMENTO DE RESOLVER LAS SIGUIENTES, ACTIVIDADES DE APRENDIZAJE PARA QUE REAFIRMES LO APRENDIDO HASTA EL MOMENTO… 47 Educación humana y de calidad SAETA Matemáticas aplicadas Estadística Inferencial ACTIVIDADES DE APRENDIZAJE: 1. Establezca las hipótesis nula (H0) y las hipótesis alternativa (H1) en cada uno de los siguientes casos: a) Hinv: μ > 0 H0 : _______________ H1 :______________ b) Hinv: μ ≠ 9.43 H0 : _______________ H1 :______________ c) Hinv: μ < -3.28 H0 : _______________ H1 :______________ d) Hinv: μ -10.11< 0 H0 : _______________ H1 :______________ e) Hinv: μ + 4.01 > 0 H0 : _______________ H1 :______________ Si se está trabajando con una variable categórica y el parámetro de la población, que nos interesa, es la proporción poblacional P, con la que ocurre cierta categoría, se puede hacer una hipótesis de investigación sobre P. En seguida te damos una lista de hipótesis de investigación Hinv. Establezca la hipótesis nula H0 y la hipótesis alternativa H1 en cada uno de los casos: a) Hinv: p ≠ .37 H0 : _______________ H1 :______________ b) Hinv: p < .5 H0 : _______________ H1 :______________ c) Hinv: p - .48 ≠ 0 H0 : _______________ H1 :______________ d) Hinv: p - .93 > 0 H0 : _______________ H1 :______________ 48 x x x Matemáticas aplicadas Estadística Inferencial ESTRATEGIA DE PRUEBA R egresemos a nuestro ejemplo… La hipótesis de investigación Hinv: μ ≠ 7.5 generó la pareja siguiente de hipótesis estadísticas Hipótesis nula H0: μ = 7.5 y la Hipótesis alternativa H1: μ ≠ 7.5 Con estas hipótesis, nos estamos haciendo preguntas acerca del parámetro μ,. Estas preguntas pueden ser: Hipótesis nula H0: ¿Podemos considerar que μ es igual al promedio (μu = 7.5) obtenido en zonas urbanas? Hipótesis alternativa H1: ¿Podemos considerar que μ es distinto de μu? Como no conocemos el valor de μ, la respuesta a estas preguntas se obtendrá de una inferencia a partir del valor del estimador de μ, que es . Para esto, le daremos a priori, mayor credibilidad a la hipótesis nula que a la hipótesis alternativa, es decir, seremos estrictos con nuestra hipótesis de investigación: para que la aceptemos, NO bastará que la información de la muestra, proporcione evidencia a su favor, sino que exigiremos también que dicha información, proporcione evidencia en contra de la hipótesis nula H0, que es su negación. Para ello, consideraremos provisionalmente que la hipótesis nula es verdadera y luego, veremos si la información contenida en la muestra, contradice este supuesto o no. a) Si lo contradice , nuestra conclusión estadística, será rechazar la hipótesis nula, con lo que podremos considerar, que la hipótesis de investigación, es verdadera. b) Si no lo contradice , la conclusión será no rechazar la hipótesis nula, por lo que no podremos considerar, que la hipótesis de investigación, sea verdadera. Recordemos que el estimador de la media poblacional (μ), la media muestral de las 30 calificaciones es = 7.86, por lo tanto… Si esta media muestral difiere “MUCHO” de 7.5, podemos considerar que μ es distinto de 7.5 y la información contenida en la muestra contradice, en este caso, a la hipótesis nula. Si la media muestral difiere “POCO” de 7.5, estaremos inclinados a pensar que μ es igual a 7.5 por lo que la información contenida en la muestra no contradice, en este caso, a la hipótesis nula. Pero… ¿Qué tanto es “MUCHO” y qué tanto es “POCO”?. Necesitamos un criterio que nos aclare estos términos y que nos indique si la diferencia – μ u= 7.86 – 7.5 = 0.36 puede ser considerada “GRANDE” o “PEQUEÑA”. Este criterio, que veremos más adelante, recibe el nombre de regla de decisión y es el que nos permite llegar a la conclusión de rechazar o no la hipótesis nula. DOS TIPOS DE ERRORES 1) Si la media muestral difiere “MUCHO” de 7.5, la conclusión estadística será rechazar H0. Ahora bien, en realidad puede ocurrir una de dos situaciones: a) H0 es verdadera:en este caso estaremos cometiendo un error, al rechazar una hipótesis nula, que es verdadera; 49 Matemáticas aplicadas Estadística Inferencial b) H0 es falsa: en cuyo caso nuestra conclusión será acertada. 2) Si la media muestral difiere “POCO” de 7.5, la conclusión será no rechazar H0. Ahora bien, también aquí puede ocurrir en realidad, una de las dos situaciones mencionadas. a) H0 es verdadera: en este caso nuestra conclusión será acertada b) H0 es falsa: en este caso estaremos cometiendo un error, al no rechazar una hipótesis nula, que es falsa. Es decir, en cada posibilidad de conclusión estadística podemos estar cometiendo un error. Estos errores reciben los siguientes nombres: 1) El error que cometemos en caso de rechazar una hipótesis nula, que es verdadera se llama ERROR TIPO I 2) El error que cometemos en caso de no rechazar una hipótesis nula, que es falsa se llama ERROR TIPO II. En la siguiente tabla se resume lo anteriormente señalado: Antes de seguir adelante, veamos en qué consiste cada uno de estos dos errores, en los términos de nuestro ejemplo inicial. Hinv: μ ≠ 7.5 H0: μ = 7.5 H1: μ ≠ 7.5 Como vimos anteriormente, la estrategia de prueba será considerar como verdadera, la hipótesis de investigación Hinv,, sólo si podemos rechazar la hipótesis nula H0. Entonces: 1) El error tipo I consiste en rechazar la hipótesis H0: μ =7.5 cuando en realidad es verdadera. Dicho en otras palabras, si en nuestro problema se cometiera el error de tipo I, esto equivaldría a considerar que el nivel en matemáticas, que tienen los jóvenes de las zonas rurales del estado de Nayarit, difiere del que tienen los de las zonas urbanas del estado, cuando en realidad, no difieren. 2) El error tipo II consiste en no rechazar la hipótesis H0: μ =7.5 cuando en realidad es falsa. O sea, si en nuestro problema se cometiera el error tipo II, esto equivaldría a no considerar que el nivel en matemáticas, que tienen los jóvenes de las zonas rurales, del estado de Nayarit, difiera del que tienen los de las zonas urbanas, cuando en realidad, si difieren. La probabilidad de cometer el error de tipo I, lo llamaremos P(EI) y la probabilidad de cometer el error tipo II, lo llamaremos, P(EII). Ahora, si deseamos tener el mínimo riesgo posible de cometer error, en caso de que consideremos la hipótesis de investigación como verdadera, entonces, lo que queremos es tener el mínimo riesgo posible de cometer el error tipo I, por lo tanto, deseamos que P(EI) sea un número pequeño. SITUACIÓN REAL ( desconocida) H0 es verdadera H0 es falsa S I T U A C I Ó N E S T A D Í S T I C A Se rechaza H0 Se comete el error tipo I con una probabilidad α No se comete Error La probabilidad de que esto ocurra es 1 - β NO se rechaza H0 No se comete Error. La probabilidad de que esto ocurra es 1 - α Se comete el error tipo II con una probabilidad β 50 Matemáticas aplicadas Estadística Inferencial Los valores de P(EI) que se usan más comúnmente son: 0.10, 0.05, 0.01. Al decidir qué probabilidad de cometer el error tipo I permitimos; estamos diciendo qué confianza queremos tener, en caso de considerar la hipótesis de investigación verdadera. Los valores de P(EI) que acabamos de dar ,corresponden a confiabilidades de 90%, 95% y 99% respectivamente. ACTIVIDAD DE APRENDIZAJE La siguiente tabla es similar a la de la página 46, en donde está expresada en términos de H0. Ahora tú exprésala en términos de la hipótesis alternativa, H1. SITUACIÓN REAL ( desconocida) S I T U A C I Ó N E S T A D Í S T I C A REGLAS DE DECISIÓN O SIGNIFICANCIA os procedimientos que permiten determinar si las muestras observadas, difieren significativamente de los resultados esperados y que, por lo tanto, ayudan a decidir si se aceptan o rechazan las hipótesis, se denominan pruebas de decisión o significancia. L Regresemos a nuestro ejemplo, para esto, los profesores cuentan con una muestra de 30 calificaciones, en la que se obtuvo un promedio muestral de 7.86, es decir: n = 30 y x = 7.86. La regla de decisión que queremos, nos debe indicar si la diferencia x – μu = 7.86 – 7.5 = 0.36 puede ser considerada lo suficientemente “GRANDE”, como para rechazar la hipótesis nula, o si, por el contrario, debe ser considerada los suficientemente “PEQUEÑA”, como para no rechazar H0. También, que los valores de la media de distintas muestras tienen una distribución muestral, cuya dispersión estimamos mediante el error estándar muestral, x s n σ · , si esta dispersión es grande, el promedio de cada muestra, puede alejarse bastante del promedio poblacional μ, y si es pequeña se espera que cada promedio esté cercano a μ. Esto hace que evaluemos la diferencia x – μu , con respecto al error estándar muestral x s n σ · ; diremos que el promedio muestral x difiere “mucho” o “poco” de μu con respecto al error muestral s n .Para ver cómo es la regla de decisión que nos permitirá decir una cosa u otra, nuestro punto de partida será, el intervalo de confianza para μ que ya estudiamos en el tema anterior. Como sabemos, para hacer una estimación por intervalo de μ, decidiremos con qué probabilidad estamos dispuestos a cometer el error en la estimación. 51 Matemáticas aplicadas Estadística Inferencial Por ejemplo si decidimos que α = 0.05, sabemos que podemos encontrar un intervalo de (1-α ) 100% = 95% confianza para μ. Debido a que no conocemos el valor de σ (desviación estándar poblacional), tendremos que calcular de la muestra, el valor de s (desviación estándar muestral) y hacer uso de la distribución “ t de Student ” para construir el intervalo de confianza; ( 1) n s x t n − t donde t (n -1) es el valor de la distribución “t de Student” con n -1 grados de libertad** y α en dos colas. En nuestro ejemplo, t (n – 1) es el valor de la distribución “t de Student” con 30 – 1 = 29 grados de libertad y α = 0.05 en dos colas. Entonces (ver la tabla“t de Student” de la página 52), t (n – 1) = t (29) = 2.045, y tenemos que, con una probabilidad 1– α = 0.95, μ está en el intervalo. 2.045 2.045 s s x x n n µ − < < + de donde se deduce que, con una probabilidad de 0.95: 2.045 2.045 / x s n µ − − < < … Observemos que esta regla de decisión es precisamente la que deseábamos obtener, ya que: 1) Si el valor de / u x s n µ − no está en el intervalo < -2.045, 2.045>, podemos decir que 7.5 / x s n − difiere “mucho” de cero y que es porque la diferencia x - 7.5 (que puede ser negativa o positiva) difiere “mucho” de cero con respecto al error estándar muestral / s n . Este es el caso en el que x difiere “mucho” de 7.5 y que nos dice cuándo podemos rechazar la hipótesis nula. 2) Si el valor de / u x s n µ − sí está en el intervalo < -2.045, 2.045>, podemos decir que 7.5 / x s n − difiere “poco” de cero y que es porque la diferencia x - 7.5 difiere “poco” de cero con respecto al error estándar muestral / s n . Este es el caso en el que x difiere “poco” de 7.5 y que nos dice cuándo no podemos rechazar la hipótesis nula. ** Grados de libertad: Es un parámetro de la distribución t. para determinar un estimado de intervalo de una media de población, tiene n – 1 grados de libertad, siendo n el tamaño de la muestra aleatoria. (ver glosario de conceptos al final de la guía didáctica. 52 Matemáticas aplicadas Estadística Inferencial TABLA DE DISTRIBUCIÓN “ t de Student ” Valores de t para algunas probabilidades α en área central .10 .30 .50 .60 .70 .80 .90 .95 .98 .99 .995 .998 .999 α en dos colas .90 .70 .50 .40 .30 .20 .10 .05 .02 .01 .005 .002 .001 α en una cola .45 .35 .25 .20 .15 .10 .05 .025 .01 .005 .0025 .001 .0005 Grados de libertad Valores de t 1 .158 .510 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657 127.32 318.31 636.62 2 .142 .445 .816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.598 3 .137 .424 .765 .978 1.250 1.638 2.353 3.182 4.541 5.841 7.453 10.214 12.924 4 .134 .414 .741 .941 1.190 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610 5 .132 .408 .727 .920 1.156 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869 6 .131 .404 .718 .906 1.134 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959 7 .130 .402 .711 .896 1.119 1.415 1.895 2.365 2.998 4.490 4.029 4.785 5.408 8 .130 .399 .706 .889 1.108 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041 9 .129 .398 .703 .883 1.100 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781 10 .129 .397 .700 .879 1.093 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587 11 .129 .396 .697 .876 1.088 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437 12 .128 .395 .695 .873 1.083 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318 13 .128 .394 .694 .870 1.079 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221 14 .128 .393 .692 .868 1.076 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140 15 .128 .393 .691 .866 1.074 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073 16 .128 .392 .690 .865 1.071 1.337 1.746 2.120 2.583 2.921 3.252 3.686 4.015 17 .128 .392 .689 .863 1.069 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965 18 .127 .392 .688 .862 1.067 1.330 1.734 2.101 2.552 2.878 3.197 3.610 3.922 19 .127 .391 .688 .861 1.066 1.328 1.729 2.093 2.539 2.861 3.174 3.579 3.883 20 .127 .391 .687 .860 1.064 1.325 1.725 2.086 2.528 2.845 3.153 3.552 3.850 21 .127 .391 .686 .859 1.063 1.323 1.721 2.080 2.518 2.831 3.135 3.527 3.819 22 .127 .390 .686 .858 1.061 1.321 1.717 2.074 2.508 2.819 3.119 3.505 3.792 23 .127 .390 .685 .858 1.060 1.319 1.714 2.069 2.500 2.807 3.104 3.485 3.767 24 .127 .390 .685 .857 1.059 1.318 1.711 2.064 2.492 2.797 3.091 3.467 3.745 25 .127 .390 .684 .856 1.058 1.316 1.708 2.060 2.485 2.787 3.078 3.450 3.725 26 .127 .390 .684 .856 1.058 1.315 1.706 2.056 2.479 2.779 3.067 3.435 3.707 27 .127 .389 .684 .855 1.057 1.314 1.703 2.052 2.473 2.771 3.057 3.421 3.690 28 .127 .389 .683 .855 1.056 1.313 1.701 2.048 2.467 2.763 3.047 3.408 3.674 29 .127 .389 .683 .854 1.055 1.311 1.699 2.045 2.462 2.756 3.038 3.396 3.659 30 .127 .389 .683 .854 1.055 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3.646 40 .126 .388 .681 .851 1.050 1.303 1.684 2.021 2.423 2.704 2.971 3.307 3.551 60 .126 .387 .679 .848 1.046 1.296 1.671 2.000 2.390 2.660 2.915 3.232 3.460 120 .126 .386 .677 .845 1.041 1.289 1.658 1.980 2.358 2.617 2.860 3.160 3.373 ∞ .126 .385 .674 .842 1.036 1.282 1.645 1.960 2.326 2.576 2.807 3.090 3.291 UPN-SEP. Introducción a los métodos estadísticos. Sistema de Educación a Distancia. Volumen 2. 1982. Grados de libertad: Número de valores de una muestra que podemos especificar libremente, una vez que separamos algo de ella. 53 Matemáticas aplicadas Estadística Inferencial A la expresión / u x s n µ − la llamaremos estadístico de prueba y la denotamos por tc. Si este valor de tc es tal que tc si está en el intervalo <-2.045, 2.045>, no se rechaza H0, por lo que al intervalo <-2.045,2.045> se le denomina la región de no rechazo de H0. Si el valor de tc es tal que tc no está en el intervalo <-2.045, 2.045>,se rechaza H0 Gráficamente, se tiene: Sabemos que si rechazamos H0 , podemos estar cometiendo el error tipo I. Por lo tanto, se tiene que α es la probabilidad de que siendo H0 verdadera, tc no esté en el intervalo y rechacemos H0. ESQUEMA GENERAL DE LA PRUEBA DE HIPÓTESIS. a mayoría de los conceptos que hemos estudiado hasta el momento, son comunes a todos los procesos estadísticos de prueba de hipótesis. Enseguida se propone por parte del Sistema de Educación a Distancia UPN-SEP en el libro, Introducción a los métodos estadísticos 1982., un esquema general para probar hipótesis en el cual se consideran en forma sistematizada y secuencial las partes que se deben considerar en cada prueba de hipótesis. L Los pasos que consideraremos al probar una hipótesis son los siguientes: 1. Planteamiento de las hipótesis 2. Estadístico de prueba y condiciones para su uso. 3. Regla de decisión 4. Cálculos 5. Decisión estadística 6. Interpretación de los resultados. A continuación se detallan cada uno de ellos de manera somera. 1) Planteamiento de las hipótesis. Se planteará en términos del problema a tratar la hipótesis de investigación, la que se traducirá a términos estadísticos. Se plantearán también las hipótesis nula y alternativa. 2) Estadístico de prueba y condiciones para su uso. Se indicará el estadístico de prueba, que es una variable aleatoria que relaciona el planteamiento de la hipótesis nula con la información contenida en la muestra. Se identificará la distribución que tiene el estadístico de prueba bajo el supuesto de que la hipótesis nula es 54 -2.045 2.045 Región de NO rechazo de H 0 Región de rechazo de H 0 Región de rechazo de H 0 0 t (29) α = .05 Matemáticas aplicadas Estadística Inferencial cierta. Además, se enunciarán las condiciones para el uso del estadístico de prueba y en algunos casos, deberemos suponer que se cumplen las condiciones. 3) Regla de decisión Se especificará el valor de α,esto es, la probabilidad con la que se está dispuesto a cometer el error de tipo I, y se indicará, de acuerdo con el planteamiento de la hipótesis alternativa, si α se localiza en una o dos colas de la distribución que tiene el estadístico de prueba bajo el supuesto que de que la hipótesis nula es verdadera. Se consultará la tabla de probabilidades correspondiente a dicha distribución y se encontrará el valor (que suele llamarse valor crítico) que permita definir las regiones de rechazo de H0 y de no rechazo de H0. 4) Cálculos Se encontrará el valor del estadístico de prueba correspondiente a la muestra obtenida, sustituyendo en la expresión algebraica del estadístico de prueba, los números que corresponden a los estimadores y demás datos muestrales y los que corresponden al planteamiento de la hipótesis nula. 5) Decisión estadística Se identificará en cuáles de las regiones definidas en el paso 3, se encuentra el valor del estadístico de prueba calculado en el paso 4. Si este valor está en la región de rechazo de H0 se tomará la decisión de rechazar H0, y si está en la región de no rechazo de H0 , se tomará la decisión de no rechazar H0. 6) Interpretación de los resultados Se expresará la decisión tomada en el paso 5 en términos de la hipótesis de investigación. Esto es, se traducirán las conclusiones que se obtuvieron en términos estadísticos a los términos del problema original. Ahora Terminemos el ejemplo haciendo un resumen y sometámos a prueba la hipótesis inicial . 1) Planteamiento de las hipótesis. El nivel de conocimientos que tienen los jóvenes de las escuelas secundarias de las zonas rurales del estado de Nayarit, es diferente del de los jóvenes de las escuelas secundarias de las zonas urbanas del estado. Hinv: μ ≠ 7.5 Las hipótesis estadísticas son: H0 : μ = 7.5 H1 : μ ≠ 7.5 Recordando que μ es el promedio de calificaciones que se obtendrían en las zonas rurales y μu es el promedio de calificaciones que se obtuvo en las zonas urbanas (μu = 7.5). Conocemos el valor de μu, pero no el de μ. 2) Estadístico de prueba y condiciones para su uso . El estadístico de prueba que usaremos es: 7.5 / c x t s n − · el cual se distribuye en forma “t de Student” con n – 1 grados de libertad bajo el supuesto de que H0 es cierta. La condición para usar este estadístico de prueba es que la variable bajo estudio se distribuye normalmente. Como el examen se construyo de tal forma que la calificación fuera una variable que se distribuyera normalmente, esta condición se cumple. 55 Matemáticas aplicadas Estadística Inferencial 3) Regla de decisión Como se desea probar H1: μ ≠ 7.5 (μ ≠ μu) con un nivel de significancia de 5%, se tienen que α=0.05 en dos colas. El valor en la tabla de la distribución “t de Student” con 30 – 1= 29 grados de libertad es t (29) = 2.045. A partir de este valor se definen las regiones de rechazo y no rechazo de H0 , como sigue No se rechaza H0 si tc está en el intervalo <-2.045, 2.045> Se rechaza H0 si Se rechaza H0 si tc está < – ∞,–2.045] tc está [2.045,∞> 4) Cálculos Como n = 30, x =7.86, s = 0.71 y μu = 7.5, tenemos: 5) Decisión estadística Como tc = 2.778 no está en el intervalo < -2.045,2.045>, se decide rechazar H0. 6) Interpretación de los resultados Como se rechazó la hipótesis nula, H0 : μ = 7.5 con α = 0.05 se puede señalar: La muestra proporciona evidencia suficiente para considerar, con 95% de confianza, que la hipótesis de investigación es verdadera, o sea que los jóvenes de las escuelas secundarias ubicadas en las zonas rurales del estado de Nayarit, tienen un nivel de conocimientos en matemáticas que es distinto del que tienen los jóvenes de las secundarias urbanas del mismo estado. Dicho de otra forma, podemos decir que hay diferencias significativas del nivel de conocimientos en matemáticas entre los jóvenes de las escuelas secundarias de las zonas rurales y los de las zonas urbanas del estado de Nayarit. Si reflexionas y analizas detenidamente lo anterior, observaras que para llegar a éstas conclusiones estadísticas, intervinieron además del valor de μu (postulado por la hipótesis nula H0 : μ = μu ), los siguientes números; • El promedio muestral ( x ); • La desviación estándar muestral(s); • El tamaño de la muestra (n ); y • La probabilidad con la que se está dispuesto a cometer el error tipo I (α). En las siguientes actividades de aprendizaje te permitirá reflexionar cómo influye cada uno de estos números en la conclusión estadística de rechazar o no rechazar la hipótesis nula. ANIMO, CORRE HACIA TU AUTOAPRENDIZAJE 56 –2.045 2.045 Región de NO rechazo de H 0 Región de rechazo de H 0 Región de rechazo de H 0 0 t (29) α = .05 7.86 7.5 0.36 2.778 0.1296 / 0.71/ 30 u c x t s n µ − − · · · · Matemáticas aplicadas Estadística Inferencial ACTIVIDADES DE APRENDIZAJE: Realiza tus cálculos aún lado de la hoja, por favor. 1) En el ejercicio se trabajó con s = 0.71, n = 30 y α = 0.05. Obtenga la conclusión estadística si x hubiera sido cada uno de los indicados en la columna de la izquierda en la siguiente tabla: x tc Región de NO rechazo de H0 < -tc (n-1) , tc (n-1)> Conclusión estadística: ¿Se rechaza H0 y se acepta H1? 7.00 17.14 7.35 7.50 7.65 7.86 2.778 < -2.045, 2.045> SI 8.00 ¿Qué relación guarda la distancia entre x y μu=7.5 con la distancia entre tc y cero? ¿Que relación guarda la distancia entre x y μu con la conclusión estadística?, analiza tus conclusiones ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________ 2) En el ejercicio se trabajó con x = 7.86, n = 30 y α = 0.05. Obtenga la conclusión estadística si s hubiera sido cada uno de los indicados en la columna de la izquierda en la siguiente tabla: s tc Región de NO rechazo de H0 < -tc (n-1) , tc (n-1)> Conclusión estadística: ¿Se rechaza H0 y se acepta H1? 0.30 0.50 0.71 2.778 < -2.045, 2.045> SI 0.90 1.10 1.30 1.50 ¿Qué relación hay entre la dispersión de los datos de la muestra (s) y el valor tc del estadístico de prueba? ¿Qué relación hay entre la dispersión de los datos de la muestra y la conclusión estadística? ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________ 3) En el ejercicio se trabajó con x = 7.86, s = 0.71 y α = 0.05. Obtenga la conclusión estadística si n hubiera sido cada uno de los indicados en la columna de la izquierda en la siguiente tabla: n tc Región de NO rechazo de H0 < -tc (n-1) , tc (n-1)> Conclusión estadística: ¿Se rechaza H0 y se acepta H1? 57 Matemáticas aplicadas Estadística Inferencial 5 10 15 20 25 30 2.778 < -2.045, 2.045> SI 40 ¿Qué relación hay entre n y el intervalo; n con tc ; n y la conclusión estadística?, analiza tus conclusiones ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________ 3) En el ejercicio se trabajó con x = 7.86, s = 0.71 y n = 30. Obtenga la conclusión estadística si n hubiera sido cada uno de los indicados en la columna de la izquierda en la siguiente tabla: α tc Región de NO rechazo de H0 < -tc (n-1) , tc (n-1)> Conclusión estadística: ¿Se rechaza H0 y se acepta H1? 0.10 0.05 2.778 < -2.045, 2.045> SI 0.02 0.01 0.005 0.002 0.001 ¿Qué relación hay entre α y la amplitud de la región de no rechazo de H0? ¿Con cuanta confianza podemos aceptar H1?, analiza tus conclusiones ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________ PRUEBA DE HIPÓTESIS SOBRE UNA MEDIA POBLACIONAL edicaremos este espacio para plantear en forma general, el método que sirve para probar hipótesis del tipo que ya señalamos en el tema de decisión estadística , esto es, la prueba para hipótesis estadísticas de la forma: D H0: μ = μ0 H0: μ ≤ μ0 H0: μ ≥ μ0 o bien o bien H1 : μ ≠ μ0 H1: μ > μ0 H1: μ < μ0 58 Matemáticas aplicadas Estadística Inferencial Una observación importante es que si la variable en estudio es continua, un estadístico de prueba para estos casos es, 0 / c x t s n µ − · , cuya distribución, bajo el supuesto de que H0 es cierta, es la “t de Student” con n-1 grados de libertad; además que los resultados que se obtienen son válidos tanto para muestras grandes como para muestras pequeñas. Para realizar dicha prueba de hipótesis seguirán siendo válidos los seis pasos del “esquema general para la prueba de hipótesis” propuesto en el tema anterior. El siguiente cuadro resume este método: Primer ejemplo, para a n a l i z a r detenidamente… El gerente de compras de una tienda de autoservicio analiza la cantidad de azúcar de un lote de naranjas procedentes de Veracruz para determinar su precio de venta. De acuerdo con el productor, el contenido de azúcar de las frutas es en promedio 12.5%. El gerente envía a analizar una muestra aleatoria de n = 20 naranjas y los resultados del laboratorio arroja una media en x = 11.9% de azúcar y una desviación estándar s = 0.9%. ¿Debe el gerente aceptar la afirmación del producto de que el promedio de azúcar es del 12.5% si el nivel de significancia es de 0.05? 1) Planteamiento de las hipótesis: 59 Si X es una variable que se distribuye normalmente como media μ, y si se tiene una de las siguientes hipótesis nulas: H 0 : μ = μ 0 H 0 : μ ≤ μ 0 H 0 : μ ≥ μ 0 Donde μ 0 es un valor conocido, entonces un estadístico de prueba es Donde y s son la media y la desviación estándar de una muestra de tamaño n representativa de la población. Si H 0 es cierta, la distribución de t c es la distribución “t de Student” con n – 1 grados de libertad. Para una α determinada, la regla de decisión se plantea de acuerdo a la siguiente tabla: Forma de H 1 Región de rechazo de H 0 0 t (n–1) es el valor de t con α en, H 1 : μ ≠ μ 0 H 1 : μ > μ 0 H 1 : μ < μ 0 < – ∞,– t (n–1) ] U [ t (n–1) , ∞ > [ t (n–1) , ∞ > < – ∞,– t (n–1) ] Dos colas Una cola Una cola 0 / c x t s n µ − · Matemáticas aplicadas Estadística Inferencial Hinv : El promedio del contenido de azúcar del lote de naranjas procedentes de Veracruz es diferente al promedio afirmado por el productor del 12.5%. Hinv : μ ≠ 12.5 Hipótesis estadísticas H0: μ = 12.5 H1 : μ ≠ 12.5 2) Estadístico de prueba y condiciones para su uso: El estadístico de prueba que usaremos es: 0 / c x t s n µ − · Cuya distribución es la de “t de Student” con n – 1 grados de libertad, bajo el supuesto de que H0 es cierta. La condición para usar este estadístico de prueba, es que la variable bajo estudio se distribuya normalmente y suponemos que el contenido de azúcar de las naranjas se distribuye normalmente por lo que ésta condición se cumple. 3) Regla de decisión: Como se desea probar H1: μ ≠ 12.5 con un nivel de significancia de 0.05 o 5%, se tiene α = 0.05 en dos colas. El valor en la tabla (ver página 53) de la distribución “t de Student” con 20 – 1 = 19 grados de libertad es = 2.093. Apartir de este valor se definen las regiones de rechazo y no rechazo de H0, como sigue… No se rechaza H0 si tc está en el intervalo <-2.093, 2.093> Se rechaza H0 si Se rechaza H0 si tc está < – ∞,–2.093] tc está [2.093,∞> 4) Cálculos: Como n = 20, la media muestral es x = 11.9, la desviación estándar muestral es s = 0.9 tenemos 0 11.9 12.5 2.98 / 0.9/ 20 c x t s n µ − − · · · − 5) Decisión estadística: como tc = - 2.98 no se encuentra en el intervalo <-2.093, 2.093>, se debe rechazar la H0 (μ = 12.5%) dicho de otra manera, t c < -2.093 ya que -2.98 se encuentra a la izquierda de -2.093 en la recta real, por lo tanto se debe rechazar la hipótesis nula. 6) Interpretación de resultados: Como se rechazó la hipótesis nula nos indica lo siguiente: Hay evidencia suficiente para considerar, con una confianza de 95% que el promedio del contenido de azúcar de las naranjas de las muestras ( x = 11.9%) es significativamente diferente respecto al promedio del contenido de azúcar de las frutas que aseguraba el productor (μ = 12.5%). Por lo tanto, en respuesta a la pregunta inicial, el gerente no debe aceptar la afirmación del producto de que el promedio de azúcar es del 12.5%; o lo que es lo mismo, la diferencia en el porcentaje de azúcar entre 12.5 y 11.9 es muy grande para deberse a la variabilidad de las diferentes muestras. 60 Región de Rechazo de H0 Región de Rechazo de H0 –2.093 2.093 Región de NO rechazo de H 0 0 t (19) α = .05 Matemáticas aplicadas Estadística Inferencial Otro problema para confirmar aprendizajes… Un especialista en lectura hace una investigación acerca de las repercusiones que puede tener el uso de textos programados en los estudiantes preuniversitarios. Una de sus hipótesis es que el uso de textos programados no fomenta la comprensión en lectura. Una investigación reciente reporta que se aplicó una prueba de comprensión de lectura, cuyos puntajes se distribuyen normalmente, a estudiantes que usaron textos programados en sus estudios preuniversitarios, y se obtuvo un promedio de puntaje de 4.25. El especialista plantea que si esta prueba se aplicara a estudiantes que no usaron textos programados en sus estudios preuniversitarios el promedio de puntaje sería mayor, pero como en la investigación citada no se reportan informes acerca de estos últimos elige aleatoriamente a 125 de ellos y les aplica la prueba de comprensión de lectura antes mencionada. Obtiene un promedio de 5.30 y una desviación estándar de 1.8. ¿Con α = 0.05 proporcionan estos datos evidencia suficiente para apoyar el planteamiento del especialista? 1) Planteamiento de las hipótesis: La hipótesis de investigación: El puntaje promedio obtenido en la prueba de comprensión de lectura es mayor para los estudiantes que no usaron textos programados que para los estudiantes que usaron textos programados en sus estudios preuniversitarios. O sea, Hinv.= μ > 4.25 Las hipótesis estadísticas son: H0: μ ≤ 4.25 y H1 = μ > 4.25 2) Estadístico de prueba y condiciones para su uso: El estadístico de prueba que usaremos es: 0 / c x t s n µ − · Cuya distribución es la de “t de Student” con n – 1 grados de libertad, bajo el supuesto de que H0 es cierta. La condición para usar este estadístico de prueba es que la variable bajo estudio se distribuya normalmente, como se sabe que los puntajes se distribuyen normalmente, esta condición se cumple. 3) Regla de decisión: Como se desea probar H1 : μ > μ0 con un nivel de significancia de 5% se tiene α = 0.05 en una cola. El valor en la tabla de la distribución “t de Student” con 125 – 1 grados de libertad es t ( 124) ≈ t (120) = 1.658 (en un caso así se puede usar el valor más próximo, que este caso es de t(120)) A partir de este valor se definen las regiones de rechazo y no rechazo de H0, como sigue: No se rechaza H0 si tc está en el intervalo <-∞, 1.658> Se rechaza H0 si tc está [1.658,∞> 61 1.658 Región de NO rechazo de H 0 Región de Rechazo de H 0 0 t (124) α = .05 Matemáticas aplicadas Estadística Inferencial 4) Cálculos: Como n = 125, x = 5.30, s = 1.8 y μ0 = 4.25, tenemos: 0 5.30 4.25 6.522 / 1.8/ 125 c x t s n µ − − · · · 5) Decisión estadística: Como tc = 6.522 y está en [1.658,∞> , se rechaza H0 . 6) Interpretación de los resultados : Como se rechazó H0 : μ ≤ 4.25 con α = 0.05, hay suficiente evidencia para considerar que el puntaje promedio en la prueba de comprensión de lectura es más alto para los estudiantes que no usaron textos programados que para los estudiantes que usaron textos programados en sus estudios preuniversitarios con una confiabilidad de 95%. PRUEBA DE HIPÓTESIS SOBRE UNA PROPORCIÓN POBLACIONAL asta el momento hemos analizado como probar hipótesis sobre una media poblacional. En este último apartado vamos a pensar y comprender, cómo probar hipótesis similares al tema anterior, con la salvedad que ahora tendremos variables categóricas y nos plantearemos preguntas acerca de la proporción con la que ocurre, en la población, determinada categoría. Esto es, estudiaremos la prueba de hipótesis sobre una proporción poblacional. H 62 Educación humana y de calidad SAETA Matemáticas aplicadas Estadística Inferencial El esquema de seis pasos para la prueba de hipótesis, que planteamos anteriormente, y que utilizamos en la prueba de hipótesis sobre la media poblacional, nos servirá aquí también. Supongamos que estamos estudiando un fenómeno que tiene asociada una variable categórica, y que estamos interesados en comparar la proporción poblacional p con la que ocurre cierta categoría de la variable, con un determinado valor p0 que es conocido o que se supone como dado. Entonces, las hipótesis estadísticas serán de la forma: H0: p = p0 H0: p ≤ p0 H0: p ≥ p0 o bien o bien H1: p ≠ p0 H1: p > p0 H1: p < p0 El método general para probar hipótesis sobre una proporción poblacional es el siguiente: Procedamos a realizar dos problemas para estar listos para las actividades de autoaprendizaje Problema para reflexionar… Se sospecha que menos del 60% de los profesores ayudan a los niños disléxicos (dificultad de la lectura) a mejorar sus habilidades. Se realizó una investigación para saber si esto es verdad en cierta zona escolar. Para ello, se eligieron aleatoriamente a 230 maestros y se realizó una entrevista con ellos para detectar si, al desarrollar su labor docente, ayudan a los niños disléxicos a mejorar sus habilidades; se encontró que 134 de ellos sí ayudan a los niños disléxicos. Supongamos que se desea someter a prueba la hipótesis con ά = 0.05 63 Si p es la proporción con la que ocurre cierta categoría de una variable categórica en una población, y si se tiene una de las siguientes hipótesis nulas: H 0 : p = p 0 H 0 : p ≤ p 0 H 0 : p ≥ p 0 Donde p 0 es un valor conocido, entonces un estadístico de prueba es e Donde p es la proporción con la que ocurre la categoría en una muestra representativa de tamaño n de la población. Si np 0 > 5 y n (1- p 0 ) > 5, y si H 0 es cierta, la distribución de z c es la normal estándar. Para una α determinada, la regla de decisión se plantea de acuerdo a la siguiente tabla: Forma de H 1 Región de rechazo de H 0 0 z es el valor de Z con α en, H 1 : p ≠ p 0 H 1 : p > p 0 H 1 : p < p 0 < – ∞,– z ] U [ z, ∞ > [ z, ∞ > < – ∞,–z ] Dos colas Una cola Una cola Matemáticas aplicadas Estadística Inferencial 1) Planteamiento de la hipótesis: La hipótesis de investigación es: Menos de 60% de los profesores ayudan a los niños disléxicos a mejorar sus habilidades. O sea, Hinv: p < 0.60 Las hipótesis estadísticas son: H0: p ≥ 0.60 H1: p < 0.60 2) Estadístico de prueba y condiciones para su uso: El estadístico de prueba que usaremos es: La distribución de este estadístico, bajo el supuesto de que H0 es cierta, es la distribución normal estándar. La condición para usar este estadístico de prueba, es que np0 > 5 y n (1-p0) > 5. Como 230 (0.60) = 138 y es > 5 y además 230 ( 1- 0.60) = 92, también > 5, esta condición se cumple. 3) Regla de decisión: Tenemos un ά = 0.05, y como H1: p < 0.60, entonces ά quedará en la cola izquierda de la distribución normal estándar. El valor en la tabla de la distribución normal estándar es z = 1.645. A partir de este valor se definen las regiones de rechazo y no rechazo de H0 como sigue No se rechaza H0 si zc está en el intervalo <- 1.645, ∞> 4) Cálculos: Como n = 230, p = 134 / 230 = 0.5826 (proporción de los que si ayudan a los niños) y p0 = 0.60, tenemos: 5) Decisión estadística: Como zc = -0.5387, se encuentra en la región de no rechazo, en el intervalo < -1.645,∞ >, por lo tanto, la H0 no se rechaza. 6) Interpretación de los resultados Como no se rechazó H0: p ≥ 0.60, no hay evidencia suficiente para considerar, con una confianza de 95%, que el porcentaje de los maestros que ayudan a los niños disléxicos a mejorar sus habilidades sea menor de 60%. 64 ( ) n p p p p z c 0 0 0 1− − · –1.645 Región de NO rechazo de H 0 0 α = .05 Región de rechazo de H 0 ( ) 5387 . 0 0323 . 0 0174 . 0 230 ) 40 . 0 )( 60 . 0 ( 60 . 0 5826 . 0 1 0 0 0 · − · − · − − · n p p p p z c Matemáticas aplicadas Estadística Inferencial Otro último problema para confirmar aprendizajes… Un Psicólogo opina que más de 30% de los jóvenes cuyas edades fluctúan entre 16 y 19 años tienen interés en conocer aspectos de educación sexual. Para someter a prueba su hipótesis, elige aleatoriamente 150 jóvenes y por medio de una entrevista y una prueba detecta que 63 de ellos están interesados en temas de educación sexual. Supongamos que el psicólogo desea una confiabilidad en su prueba de 99% ( por lo que α = 0.01). 1) Planteamiento de la hipótesis: La hipótesis de investigación es: Más de 30% de los jóvenes cuyas edades fluctúan entre 16 y 19 años tienen interés en conocer aspectos de ecuación sexual, O sea, Hinv: p > 0.30 Las hipótesis estadísticas son : H0 : p ≤ 0.30 H1 : p > 0.30 2) Estadístico de prueba y condiciones para su uso: El estadístico de prueba que usaremos es: La distribución de este estadístico, bajo el supuesto de que H0 es cierta, es la distribución normal estándar. La condición para usar este estadístico de prueba, es que np0 > 5 y n (1-p0) > 5. Como 150 (0.30) = 45 > 5 y 150 (1- 0.30) = 105 > 5, esta condición se cumple. 3) Regla de decisión: Tenemos α = 0.01. Como H1: p > 0.30, entonces α quedará en la cola derecha de la distribución normal estándar. El valor en la tabla de la distribución estándar es z = 2.326. A partir de este valor se definen las regiones de rechazo y no rechazo de H0 como sigue: No se rechaza H0 si zc está en el intervalo <-∞, 2.326> Se rechaza H0 si zc está [2.326,∞> 4) Cálculos: Como n = 150, p = 63 / 150 = 0.42 (proporción interesada en temas de educación sexual) y p0 : 0.30, tenemos: 65 ( ) n p p p p z c 0 0 0 1− − · 2.326 Región de NO rechazo de H 0 Región de Rechazo de H 0 0 α = .01 ( ) 21 . 3 0374 . 0 12 . 0 150 ) 70 . 0 )( 30 . 0 ( 30 . 0 42 . 0 1 0 0 0 · · − · − − · n p p p p z c Matemáticas aplicadas Estadística Inferencial 5) Decisión estadística: Como 3.21 está [2.326,∞> , se rechaza H0 6) Interpretación de los resultados: Como se rechazó H0: p ≤ 0.30 con α = 0.01, hay suficiente evidencia para considerar, con 99% de confianza, que más de 30% de los jóvenes cuyas edades fluctúan entre 16 y 19 años, tienen interés en conocer aspectos de educación sexual. Terminamos nuestra primera parte ¡¡¡ BRAVO POR FIN !!! ES MOMENTO DE RESOLVER LAS PRUEBAS DE HIPÓTESIS PARA QUE REAFIRMES LO APRENDIDO, REALIZA LAS SIGUIENTES ACTIVIDADES… MUY BIEN POR TU ESFUERZO DEDICACIÓN Y ENTUSIASMO ¡¡MUCHAS FELICIDADES!! ACTIVIDADES DE APRENDIZAJE Resuelve las siguientes pruebas de hipótesis para una media y proporción poblacional y Realiza tus operaciones en tu cuaderno y aquí escribe tus respuestas correctas 1) La productividad de Maíz de 5 hectáreas elegidas aleatoriamente en la región sur del Estado de Nayarit fue de 4.1, 3.7, 3.2, 3.3, y 3.5 toneladas. a) Determina la productividad media y la desviación estándar de esta muestra. 66 Educación humana y de calidad SAETA Gracias aceboman quiero y merezco mi 10 Matemáticas aplicadas Estadística Inferencial b) De acuerdo con el INEGI, la productividad media de la región es de 3.5 toneladas por hectárea. ¿Debemos rechazar la hipótesis nula H0: μ = 3.5 y aceptar la hipótesis alternativa μ ≠ 3.5 a un nivel de significancia de 0.05? realiza los 6 pasos para comprobar dicha hipótesis. 2) Un inspector de Hacienda sospecha que las ventas semanales promedio de una empresa superan los $ 36 750.00 que indicó la empresa en su declaración anual. El inspector selecciona aleatoriamente 9 semanas y al estudiarlas detalladamente obtiene que durante estas 9 semanas las ventas semanales tuvieron una media de x = $ 40 500.00 y una desviación estándar de s = $ 2 850.00. El inspector decide continuar con la auditoria en caso de que deba rechazar la hipótesis nula μ = 36 750.00 y aceptar la hipótesis alternativa μ > 36 750.00 a un nivel de significancia de 0.05. ¿Continuará la auditoria el inspector? Realiza los 6 pasos… 3) Una empresa entrevista a una muestra de 18 secretarias provenientes de una escuela que afirma que sus egresadas escriben en la computadora 70 palabras por minuto. La media de esta muestra fue x = 67.3 palabras por minuto y la desviación estándar fue de s = 4.4 palabras por minuto. Usa el nivel de significancia de 0.05 para decidir si la empresa debe rechazar la hipótesis nula H0 : μ = 70 y aceptar la hipótesis alternativa μ < 70. Realiza los 6 pasos… 4) En un informe acerca de la deserción, se menciona que en los CBTAs del estado de Nayarit, el 40% de los alumnos abandonan sus estudios porque carecen de recursos económicos. Un profesor piensa que en su CBTa esto no coincide con la realidad; para someter a prueba su hipótesis, obtiene una muestra aleatoria de 70 estudiantes desertores, y encuentra que 30 de ellos carecen de recursos económicos. ¿Puede el profesor, con un nivel de significancia α = 0.05, considerar que, entre los alumnos desertores, los que carecen de recursos económicos son un porcentaje distinto de 40%?. Realiza los 6 pasos… 5) Un trabajador social cree que menos del 25% de las parejas de cierta región, han utilizado por lo menos una vez, alguna forma de control natal. Con el fin de ver si esta suposición es razonable, el trabajador social selecciona una muestra aleatoria de 120 parejas de la región, de las cuales 20 dijeron que habían empleado algún método de control natal. Realiza los 6 pasos para verificar la hipótesis planteada. 67
Copyright © 2024 DOKUMEN.SITE Inc.