UCV LIMAFORMACIÓN GENERAL ÁREA DE ESTADÍSTICA ESTADÍSTICA GENERAL Lic. Carlos Ortega Muñoz Ing. Elba Vega Durand Lic. Ernesto Zeña Raya 2009 Agradecemos el apoyo irrestricto de la UCV LIMA, hacia el área de Estadística a través del cual se ha hecho la elaboración del presente módulo. ÍNDICE Pág. INTRODUCCIÓN SESIÓN 1. La Estadística. Importancia. Conceptos básicos 7 SESIÓN 2. Escala de Medición. Recolección de datos. 23 SESIÓN 3. Descripción de frecuencia para una variable cualitativa y una Cuantitativa discreta. Gráficos. 41 SESIÓN 4. Descripción de frecuencia para una variable cualitativa y una cuantitativa discreta. Gráficos. 54 SESIÓN 5. Distribución de frecuencia para dos variables cuantitativas y/o cualitativas. 66 SESIÓN 6. Medidas de tendencia central 82 SESIÓN 7. Medidas de dispersión o de variabilidad. 102 SESIÓN 8. Probabilidad básica. Distribución normal (Z) y distribución de t. 116 SESIÓN 10. Estadística inferencial: puntual y por intervalo. 155 SESIÓN 11. Muestreo. Tipos. Selección de la muestra. Tamaño de muestra 170 SESIÓN 12. Prueba de Hipótesis sobre la media poblacional, proporción poblacional y diferencia de medias. 188 SESIÓN 13 Prueba de hipótesis para la independencia de variables en 213 una tabla de contingencia. SESIÓN 14. Correlación y análisis de regresión. 223 INTRODUCCIÓN El presente módulo titulado “ESTADÍSTICA GENERAL” expone de manera sencilla los conceptos y métodos de la Estadística, que se consideran básicos e indispensables para su posterior aplicación en cualquier campo. Además no pretende usar muchas demostraciones matemáticas salvo que se considere necesario para no perder la rigurosidad requerida. El módulo es una guía en la cual se presentan ejercicios desarrollados y propuestos para desarrollar en las sesiones de clase. En la primera parte del material, se muestra que el objetivo básico de la Estadística Descriptiva es hacer una descripción lo más sencilla posible de los resultados obtenidos en la muestra. Esta descripción se hará mediante representaciones de cuadros y/o gráficos mostrando que hay una idea implícita, lo que ocurre en toda la población, la cual inferimos a partir de la muestra. Aunque los métodos de la estadística descriptiva son importantes para presentar y caracterizar los datos, éstos han sido la base de la estadística inferencial y han hecho posible aplicar la estadística a todos los campos de investigación. El objetivo de la segunda parte es inferir las propiedades de la población a partir de las propiedades de la muestra, para lo cual iniciaremos con los fundamentos de la probabilidad seguido por las estimaciones puntuales; esta estimación difícilmente acertará con el valor exacto del parámetro, aunque normalmente lo que buscamos es que el verdadero valor del parámetro quede cerca de la estimación. Esta parte se verá claramente en la estimación de intervalos de confianza. En las pruebas de hipótesis no se buscará estimar el valor del parámetro desconocido, sino que trataremos de decidir si es sensato rechazar o no rechazar la hipótesis de que el valor del parámetro se sitúa en una determinada región. Queda claro que estas decisiones tendrán que estar basadas en los resultados de un muestreo aleatorio realizado en las poblaciones correspondientes. Finalmente nos ocuparemos de problemas que implican dos o más variables numéricas como un medio a considerar las relaciones que existen entre ellas. Se analizarán dos técnicas, el análisis de regresión y la correlación. En el primero se utilizará para hacer predicciones, mientras que en la segunda se utilizará para medir la intensidad de la asociación entre estas dos variables numéricas. Clasificación Definiciones básicas Rol de la Estadística en Investigación científica Importancia Concepto LA ESTADÍSTICA SESIÓN 1 La Estadística: Concepto, Importancia, Rol de la estadística en la Investigación Científica, Definiciones básicas. Variables. Tipo de Variable, División de la Estadística. 1.- ESTADÍSTICA.- 1.1- Concepto.- Es una ciencia que cumple las siguientes funciones, recolectar, organizar, presentar, analizar e interpretar los datos. La Estadística permite caracterizar cuantitativa y cualitativamente el volumen, la estructura y la dinámica de los fenómenos en estudio así como el comportamiento de la relaciones entre las variables. 1.2.- Importancia.- La Estadística como todas las ciencias surge para cubrir una necesidad en el hombre y su desarrollo ha sido en ese sentido, a medida que aumenta la complejidad de nuestro mundo, se hace cada vez más difícil tomar decisiones inteligentes y bien documentadas. Con frecuencia tales decisiones deben tomarse con mucho menos que un conocimiento adecuado y experimentando una gran incertidumbre. La estadística es la herramienta que nos permite obtener la información que requerimos, así como reelaborarla y presentarla para su adecuada evaluación y consecuente toma de decisiones, convirtiéndose así en un elemento activo en la solución de los problemas. 1.3.- Rol de la Estadística en la Investigación Científica La estadística cumple básicamente con dos funciones, brindar la información necesaria para: a.- La toma de decisiones. b.- La solución de problemas. Decisiones sobre cómo aplicar la tasa tributaria, la estructuración de un programa de reconstrucción, el nivel de inversión requerido en obras de infraestructura para el próximo año, etc., son decisiones que se deben tomar a nivel del Estado y para las cuales se requiere de información. En el caso de la empresa, la búsqueda de rentabilidad, el control de la calidad, la minimización de costos, la rotación de inventarios, la contratación de trabajadores, convierte a la estadística en una aliada inestimable para la toma de decisiones y la solución de estos problemas. 1.4 DEFINICIONES BÁSICAS 1.4.1 Población.- Llamado también universo. Conjunto infinito o finito de datos muy grandes que tienen la misma característica. Conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). El tamaño de una población es importante en el proceso de investigación estadística. El tamaño viene dado por el número de elementos que constituyen la población. Según el número de elementos la población puede ser finita o infinita. Cuando el número de elementos que integra la población es muy grande, se puede considerar a esta como una población infinita. Ejemplo: a) Problema a estudiar: “El bajo nivel del rendimiento académico en alumnos del 4to. Grado “ Población: ____________________________________________________________ b) Problema a estudiar: “El tiempo que se demora un alumno en llegar a la universidad”. Población: _________________________________________________________ c) Problema a estudiar: “Conocer el nivel de educación de las madres solteras”. Población: _________________________________________________________ d) Problema a estudiar: ________________________________________ Población: _________________________________________________________ e) Problema a estudiar: ________________________________________ Población: ________________________________________________ f) Problema a estudiar: _________________________________________ Población: __________________________________________________________ 1.4.2 Muestra.- Es el conjunto de observaciones extraídas de la población y se espera que sea lo más representativa de ella. Ejemplo: a) Problema a estudiar: “El bajo nivel del rendimiento académico en alumnos del 4to. Grado “ Población: ________________________________________________ Muestra: ________________________________________________ b) Problema a estudiar: “El tiempo que se demora un alumno en llegar a la universidad”. Población: _______________________________________________ Muestra: ____________________________________________________ c) Problema a estudiar: “Conocer el nivel de educación de las madres solteras”. Población:_________________________________________________ Muestra: _________________________________________________________ d) Problema a estudiar: ________________________________________ Población: _________________________________________________________ Muestra: _________________________________________________________ e) Problema a estudiar: ________________________________________ Población: ________________________________________________ Muestra: _________________________________________________________ f) Problema a estudiar: ________________________________________ Población: _________________________________________________ Muestra: _________________________________________________________ Luego, podemos señalar que nuestro objeto de estudio es un atributo o característica particular de los elementos de una determinada población. Es decir para una misma población podemos estudiar un gran número de atributos. Por ejemplo: a) Población: Alumnos de 4to. Grado de colegios estatales en Lima Metropolitana Atributos o características a estudiar: 1. Estatura 2 Peso 3 _________________________________________________________ 4 _________________________________________________________ 5 _________________________________________________________ b) Población: __________________________________________________________ Atributos o características a estudiar: 7 _____________________________________ 8 _____________________________________ 9 _____________________________________ 1.4.3. Variable. Es la característica de la muestra o población que se está observando. Si el gerente de ventas de una línea aérea está interesado en determinar el flujo de pasajeros de sus vuelos en los últimos seis meses, la variable a analizar es el número de pasajeros. 1.4.4. Clasificación Las variables pueden ser: a. Cuantitativas Las observaciones se expresan numéricamente. Tiene sentido hacer operaciones algebraicas con ellos. Es el caso del monto de la pensión, el ingreso familiar, la nota del parcial, el tiempo que me toma llegar de mi casa a la universidad, etc. Las variables cuantitativas se clasifican a su vez en: i) Discreta. Es aquella en la cual se expresa en número entero. Ejemplo: edad, el número de compañeros que tuve en mi clase a lo largo de mi carrera, las veces que he llegado tarde a clase, el número de exámenes que he aprobado en este ciclo. Ejemplos: ___________________________________________________________ ___________________________________________________________ ___________________________________________________________ ___________________________________________________________ ii) Continua. Son aquellas que toman infinitos valores en un intervalo dado, de forma que se puede ubicar en la recta numérica. En este tipo de variable los valores que pueden tomar pueden ser decimales o fraccionarios. Ejemplo: El peso, talla, presión sanguínea, temperatura. Ejemplos: ___________________________________________________________ ___________________________________________________________ ___________________________________________________________ b. Atributo o Cualitativas Las observaciones se miden de manera no numérica. No se pueden hacer operaciones algebraicas con ellos como por ejemplo, la carrera que seguimos, el género de nuestros compañeros de clase, el distrito en el que residimos. Las variables cualitativas se expresan en categorías o modalidades. Ejemplos: Variable Categorías o modalidades . Estado Civil Soltero Casado Divorciado Viudo Conviviente . Género Masculino Femenino . Ocupación Directivos Profesionales Técnicos Auxiliar . Evaluación del rendimiento de un empleado excelente muy bueno Bueno Regular Malo . Motivación en el proceso de aprendizaje Interna Externa Ejemplos: ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ La variable cualitativa se clasifica en: b.1 Nominal.- Cuando no existe una Jerarquía u orden en las modalidades. Ejemplo: - Sexo Hombre, mujer - - b.2 Ordinal.- Cuando si existe una jerarquía u orden en las modalidades. Ejemplo: - Grado de instrucción. Primaria, secundaria, superior, etc - - - 1.4.5. Parámetro Una vez obtenido todos los valores de las variables a estudiar podemos querer ahora describir este conjunto de valores usando sólo una determinada característica o medida. Por ejemplo: el promedio de todos los valores obtenidos, el porcentaje de cada una de las categorías, etc. Estos indicadores cuando se toman de datos poblacionales se conocen como Parámetro. Por ello, los parámetros mas usado son: _____________________________________________________________ _____________________________________________________________ _____________________________________________________________ _____________________________________________________________ 1.4.6. Estadístico Son indicadores que provienen de datos muestrales. Los más usados son: ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ 1.5.- División de la Estadística a. Estadística Descriptiva.- Nos brinda la información que describe a una población o muestra. Es el proceso de recolectar, agrupar y presentar datos de una manera tal que describa fácil y rápidamente los datos. El estudio de la Estadística descriptiva se refiere a los siguientes elementos: Parámetros (Población) Estadístico (Muestra) De Tendencia central: Media aritmética simple Media ponderada Mediana Moda µ µ p Me Mo X X p me mo De dispersión: Rango Varianza Desviación estándar Coeficiente de variación Rango o 2 o C.V. Rango S 2 S c.v. Ejemplo: El rango de ingresos de la PEA en Lima oscila entre 420 a 6,500 nuevos soles mensuales. Si los distribuimos por percentiles tendremos que el 25% de menores ingresos alcanza un ingreso no mayor a 532,5 nuevos soles. El 50% medio pobre de la PEA 1045,00 nuevos soles, el 75% medio alto 3050,00 nuevos soles y el 25% más rico obtiene ingresos mayores a 3050 hasta 6,500 nuevos soles. Reporte SPSS N 3’600,000 Percentiles 25% 532,50 50% 1045,00 75% 3050,00 100% 6500.00 b. Estadística Inferencial.- Nos permite arribar a conclusiones sobre el comportamiento de las variables analizadas. Involucra la utilización de una muestra para sacar alguna inferencia o conclusión sobre la población de la cual parte la muestra. Ejemplo: En el Ministerio de Trabajo se necesita tomar una decisión sobre a qué nivel elevar el actual ingreso mínimo vital. Tienen ya estudios sobre la canasta de consumo de los trabajadores y se espera mejorar la cobertura de sus necesidades actuales. Calcular el ingreso promedio de la PEA, así como su máximo, mínimo y moda les permitirá definir cuál es el nivel del ingreso mínimo vital más adecuado. EJ ERCICIOS DE APLICACIÓN N° 1.- 1. De acuerdo a la ocupación que planea seguir después de su titulación, analice para el área en la cual quiere especializarse los tipos de problemas que pueden surgir y el tipo de decisiones que tendrá que tomar cuando el análisis estadístico puede ser de utilidad. ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ 2. Clasifique adecuadamente las siguientes variables estadísticas y mencione las categorías para aquellas que son de atributo o cualitativa: a) Inflación : .................................................................. b) Gastos en publicidad : ................................................................... c) Grupo sanguíneo : ................................................................... d) Precio de un producto : ................................................................... d) Escuela a la que pertenecen el estudiante: …………….............................. e) Material del que está hecho una casa: ……………………………………… e) Comida principal del día: …………………………………………………...... f) Lugar de distracción preferido para los fines de semana: ………………… f) Tipo de Hotel en la ciudad del Cuzco: …..………………………………… 3. Un informe reciente de Fortune reveló que los japoneses pronto controlarán hasta un 35% de las ventas de autos en Estados Unidos, comparado con el 28% de finales de los años 80 está apenas un 8% por encima de lo ocurrido en 1970 ¿esta información contiene estadística descriptiva, inferencial o ambas? Explique ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ________________________________________________________ 4. Cite varios ejemplos de comerciales de radio o televisión que utilicen la estadística para vender sus productos ¿utilizan la estadística descriptiva o la inferencial? ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ 5.- Plantee UD. ejemplos de su especialidad en donde se utilice estadística descriptiva o la estadística inferencial. Ejemplo 1: ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ Ejemplo 2: ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ Recolección de Datos Técnicas Instrumentos Censo Encuesta Observación Entrevista Entrevista por cuestionario cuestionario Experimento Sesión 2 Escala de medición de variables. Método estadístico. Recolección de datos: métodos, técnicas e instrumentos. 2.1. ESCALA DE MEDICIÓN DE VARIABLES.- a. Nominales.- Se utilizan nombres para establecer categorías dentro de las cuales las variables puedan registrarse exclusivamente. Por ejemplo: - Género: se puede clasificar en masculino o femenino. -________________________________________________________ -_________________________________________________________ -_________________________________________________________ b. Ordinales.- Clasifican las observaciones en categorías con un orden significativo, por ejemplo - Nivel de riesgo: bajo, alto, muy alto; - ______________________________________________________ - ______________________________________________________ - ______________________________________________________ c. Escala de intervalo.- Las variables se miden de manera numérica, en la cual no solo ordenamos las observaciones, sino que establecemos que las distancias que hay entre un valor medido y el siguiente son iguales. Es decir estamos en capacidad de distinguir, ordenar y establecer una distancia entre los elementos. También se indica que el cero en este tipo de escala no es significativo. Ejemplo: - La Temperatura: tomada con termómetro nos permite aseverar que la cantidad de incremento de temperatura es igual para distancias iguales en la escala. - ______________________________________________________ - ______________________________________________________ d. De Razón.- Se basa en un sistema numérico en el cual el cero es significativo. Además permite establecer en que proporción es mayor un valor que otro. Por ejemplo: - La participación en un 40% de una empresa en el mercado, tiene el doble de participación que otra de 20%. - _______________________________________________________ _______________________________________________________ - _______________________________________________________ _______________________________________________________ EJERCICIO: Plantee Ud. a) PROBLEMA: _________________________________________________________________________________ POBLACIÓN: ___________________________________________________________________________________ MUESTRA : ___________________________________________________________________________________ CAUSAS NOMBRE DE VARIABLE TIPO DE VARIABLE MODALIDAD ESCALA DE MEDICIÓN 2.2. EL MÉTODO ESTADÍSTICO Existe similitud entre el método estadístico y el método científico. Así, el método estadístico consta de cuatro etapas: Etapa 1. Planeamiento. Etapa 2. Recolección de datos. Etapa 3. Procesamiento. Etapa 4. Análisis e Interpretación 2.2.1. PLANEAMIENTO.- En esta etapa se diseña la investigación en todos sus aspectos: - Formulación del problema de investigación. - Se fijan los objetivos. - Se plantean las hipótesis. - Definición de términos y variables. - Se define la metodología del estudio 1 Tipo de estudio 2 Población de estudio 3 Diseño muestral 2.2.2. RECOLECCIÓN DE DATOS. La recolección de datos se refiere a los métodos usados para obtener información pertinente de las unidades elementales introducidas en una muestra o en una población. A esta etapa también se le conoce como "Recopilación de datos". En la recolección de información hay que tener en cuenta que hay errores de diversos tipos como son: 1°) Los errores que pueden cometerse al recoger la información y la forma de controlarlos. i) Errores dependientes del observador ii) Errores dependientes del método de observación. iii) Errores dependientes de los individuos observados 2°) Las ventajas y limitaciones de los diversos métodos empleados en la recolección de información. 3°) El diseño de formularios que servirá para la recolección de información. 4°) Las condiciones que deben reunir los individuos que se estudian y los procedimientos más convenientes para su elección. a) MÉTODOS DE RECOLECCIÓN DE DATOS.- a.1) DIRECTA.- Es aquella que provienen de las fuentes originales y se recopilan directamente en el campo específico, por ello se llama también fuente primaria. Por ejemplo: 1 Observación 2 Entrevista 3 Entrevista por cuestionario 4 Experimento, entre otros a.2) INDIRECTA.- Cuando los datos obtenidos provienen de los datos previamente recogidos y procesados por otros individuos. A veces se halla publicado en textos o revistas y en otros casos no está publicado. (en este último caso su obtención se hará difícil a causa del carácter confidencial con que fue recogida). Por ejemplo: - Publicaciones de las Instituciones, como el INEI - Registros civiles (información de hechos vitales). - Memorias de las empresas. - Internet - Boletín. - Etc. b) TÈCNICA E INSTRUMENTO PARA RECOLECTAR DATOS.- b.1) TÉCNICA.- - Censo: cuando se recoge datos de todos los elementos de la población. - Encuesta: cuando se recoge datos de una muestra de la población. b.2) INSTRUMENTO.- En una investigación hay dos formas de obtener el instrumento de recolección de datos: 1°) Se puede optar por un cuestionario ya desarrollado y validado en otra investigación similar el que debe adaptase al estudio actual. 2°) Construir un instrumento de recolección de datos para la investigación el que previamente debe ser probado. 2.3.- EL CUESTIONARIO El cuestionario es un instrumento de investigación, es "un medio útil y eficaz para recoger información en un tiempo relativamente breve". Este instrumento se utiliza, de un modo preferente, en el desarrollo de muchas investigaciones. La construcción, aplicación y tabulación poseen un alto grado científico. Elaborar un cuestionario válido no es una cuestión fácil; implica controlar una serie de variables. En su construcción pueden considerarse preguntas cerradas, abiertas o mixtas. a) Preguntas abiertas (no estructuradas). En este tipo de preguntas abiertas es el usuario encuestado quien responde con sus propias palabras a la pregunta formulada. Son esenciales para conocer el marco de referencia del encuestado y para redactar después las alternativas a ofrecer en las preguntas cerradas. Por ello resultan oportunas y adecuadas en el caso de estudios exploratorios o pre-encuestas (encuestas- piloto o sondeos previos) ¿Qué opinión le merece la biblioteca? …………………………………….............................................................................................. ¿Qué más le gusta de la biblioteca? ………………………………........................................................................................................ b) Preguntas cerradas (estructuradas). Se trata de un tipo que sólo contiene la pregunta y no establece previamente ninguna clase de respuesta, dejando ésta, por tanto, al libre arbitrio del encuestado. Para esta categoría presentamos dos modelos básicos de preguntas, cada uno con sus variaciones: preguntas dicotómicas-múltiples y preguntas de escalas. ¿Utiliza la biblioteca de su centro como lugar de trabajo, es decir, para trabajar con sus propios apuntes, libros, etc., al margen de los servicios que en ella se prestan?. (Utilice una sola respuesta). 1.- Sí 2.- No ¿Cuáles de los siguientes servicios que existen en la Biblioteca ha utilizado en su visita de hoy a la Biblioteca?: (Marque todas las posibles respuestas) 1. Servicio de lectura en sala 2. Servicio de préstamo a domicilio 3.- Servicio información bibliográfica 4. Servicio préstamo Interbibliotecario 5.-Servicio de atención al usuario 6. Servicio de microfilm o microfichas 7. Servicio de formación de usuarios 8. Servicio de acceso a bases de datos b1.- Preguntas de escalas de medición de actitudes y respuestas : ¿Cuánto tiempo hace que visita la biblioteca? (Utilice una sola respuesta). 1.- Más de diez años ( ) 2.- de cinco a diez años ( ) 3.-de uno a cuatro años ( ) 4.- menos de un año ( ) 5.- hoy es la primera vez ( ) 2.3.1.- Corrección del cuestionario Al diseñar un cuestionario hemos de asegurarnos la máxima exactitud de los datos. Ello dependerá de dos aspectos que se han de optimizar: la precisión o fiabilidad y la validez de la información. La validez, definida como la ausencia de sesgos, representa la relación entre lo que medimos y aquello que realmente queremos medir. Para garantizar dicha evidencia se tomará en cuenta los siguientes métodos: 1 El método relacionado con el contenido se centra en la muestra de las preguntas de un cuestionario (establecer el grado de representatividad de los contenidos recogidos en las preguntas del cuestionario) y lo que representa el completo dominio del contenido de las preguntas, por parte de los usuarios encuestados. 2 El método relacionado con los criterios se centra en las relaciones estadísticas existentes entre las mediciones, para poder saber si los cuestionarios pronostican lo que deben pronosticar. La precisión, definida como la ausencia de error aleatorio, representa la influencia del azar en nuestra medida; es decir, es el grado en el que las mediciones están libres de la desviación producida por los errores causales. Además, la precisión de una medida es lo que asegura su repetibilidad (si la repetimos, siempre da el mismo resultado). 2.3.2.- Comprobación y prueba del cuestionario Antes de iniciar el trabajo de campo, es imprescindible probar el cuestionario sobre un pequeño grupo de población. Esta prueba piloto ha de garantizar las mismas condiciones de realización que el trabajo de campo real. Su misión radica en contrastar hasta qué punto funciona el cuestionario como se pretendía en un primer momento, y verificar si las preguntas provocan el tipo de reacción deseada. Por ello, sí es necesario, se han de eliminar ambigüedades y preguntas superfluas, se pueden añadir al cuestionario preguntas relevantes o cambiar el orden de éstas para agilizar el flujo de respuestas. 2.3.3.- Diseñar el aspecto formal del cuestionario Las preguntas y el cuestionario deben presentarse en un formato atractivo y fácil de entender. Todas las preguntas y páginas deben estar numeradas claramente. El cuestionario debe ser y debe parecer corto. Para ello debe procurar no excederse en el número de preguntas ni ser redundante en los temas. 1 Es útil presentar las preguntas agrupadas por temas y numeradas dentro de cada uno de ellos. 2 Las preguntas deben estar ordenadas, de las fáciles a las difíciles y de lo general a lo específico. Esto ayuda a que el cuestionario sea y parezca fácil. 3 Si envía los cuestionarios por correo, adjunte una carta con sus datos personales, los objetivos de la encuesta y la dirección o el número telefónico de contacto. 4 Si los cuestionarios se completan por teléfono o en una entrevista personal, preséntese primero, y prepárese para responder a cuanto le pregunten sobre el cuestionario. Luego de elaborar el cuestionario es recomendable realizar una prueba piloto para valorar los siguientes aspectos: 1 Verificación de si el cuestionario responde a los objetivos del estudio. 2 Comprobación de si el cuestionario es fluido. Es decir, el cuestionario debe tener lógica y consistencia interna. 3 Comprensión de las preguntas y aceptabilidad por parte del encuestado. 4 Idoneidad en la secuencia de las preguntas. 5 Idoneidad de las respuestas cerradas preestablecidas. 6 Valoración de los casos en que nos encontremos que los encuestados no responden al cuestionario. 7 Idoneidad y nivel de preparación de los encuestadores. 8 Aspectos logísticos: disponibilidad, recogida y entrada de cuestionarios, la propia supervisión, etc. MODELO DE CUESTIONARIO.- CUESTIONARIO Objetivo.- Conocer los Factores que influyen en el éxito de un Profesional. Instrucciones.- - Este cuestionario está dividido en dos secciones: Datos generales, que nos permite caracterizar a la población en estudio y Datos específicos que en la parte 1 se refiere al éxito de la carrera y la parte 2 a los determinantes del éxito de carrera. - No existen respuestas malas o buenas por lo que le agradeceré responder todas ellas de acuerdo a su percepción personal. - Responda todas las preguntas y solo una opción. - Emplee lapicero para rellenar el cuestionario. - Sus respuestas son anónimas y absolutamente confidencial. I.- DATOS GENERALES.- 1. Edad Años 2. Género Masculino Femenino 3. Etapa familiar Soltero sin dependientes Soltero con dependientes Casado sin dependientes Casado con dependientes II.- DATOS ESPECIFICOS.- Parte 1: ÉXITO DE CARRERA Por favor haga un círculo en un solo número que mejor refleje su propia percepción. Completa mente de acuerdo De acuerdo Ni de acuerd o ni en desac uerdo En desac uerdo Compl eta- mente en desac uerdo 4. Estoy en una posición donde puedo poner mis propias metas 1 2 3 4 5 5. Estoy disfrutando los objetivos desafiantes que tengo en mi 1 2 3 4 5 actual trabajo 6. Tengo oportunidades de promoción ofrecidas por mi empleador 1 2 3 4 5 Completa mente de acuerdo De acuerdo Ni de acuerd o ni en desac uerdo En desac uerdo Compl eta- mente en desac uerdo 7. Estoy obteniendo un salario que cubre mi actual estilo de vida 1 2 3 4 5 8. Estoy bien pagado cuando comparo mi remuneración con lo ofrecido por trabajos similares en otras compañías 1 2 3 4 5 9. A menudo estoy haciendo algo con mis compañeros después del trabajo 1 2 3 4 5 10. Indique su salario anual en soles (incluyendo bonos y otros ingresos directos). ------------- 11. Indique el número de promociones (incremento en las responsabilidades del trabajo, alcance del trabajo, rotación a otras áreas con mayor responsabilidad) recibidas en su carrera profesional. ------------- Parte 2: DETERMINANTES DE ÉXITO Competencias Individuales Las siguientes afirmaciones describen comportamientos de las personas. Favor indicar que tan preciso lo describe a usted cada afirmación: Muy imprec isa Moder adame nte imprec isa Ni imprec isa ni precis a Moder adame nte precis a Muy precis a 12. Propongo buenas soluciones 1 2 3 4 5 13. Completo las tareas exitosamente 1 2 3 4 5 14. Llevo a cabo mis planes 1 2 3 4 5 Aspiraciones de carrera Por favor haga un círculo en el número que mejor refleje sus aspiraciones de carrera. Nunca Casi nunca En forma Ocasio nal En forma Const ante Con Frecu encia Casi siempr e Sie mp re 15. Me gusta trabajar independientemente 1 2 3 4 5 6 7 16. Considero mi carrera exitosa si mi compañía me garantiza un trabajo a largo plazo 1 2 3 4 5 6 7 17. El trabajo ideal para mí es el que da tiempo para la familia y actividades externas 1 2 3 4 5 6 7 18. Desearía obtener un trabajo que sea crucial para la organización 1 2 3 4 5 6 7 Redes personales 19. Indique el número total de personas que han actuado para ayudar a tu carrera, hablando por ti, proporcionándote información, oportunidades para la carrera, asesoría o apoyo psicológico, o con quién has hablado regularmente sobre dificultades en el trabajo, oportunidades de trabajo, alternativas u objetivos de la carrera a largo plazo. ------------- 20. Por favor indique el número de contactos, que fueron en el pasado o son actuales miembros de la organización donde se desempeña, que se encuentran o encontraron en niveles mayores al de usted en la organización. ------------- Experiencia profesional 21. Años de experiencia profesional. ------------ Gracias por tu tiempo y esfuerzo en llenar este cuestionario EJ ERCICIOS DE APLICACIÓN Nº 2. 1.- Una empresa dedicada a la fabricación de un documento de normas legales tiene planeado introducir al mercado dicha publicación. Para ello le encargó a una empresa investigadora de mercado la realización de un estudio el que le interesaba averiguar, entre otras cosas, la aceptación de la nueva publicación y el precio que las personas estarían dispuestas a pagar. La encuesta fue realizada en Lima y se entrevistaron a 250 personas. De los encuestados, el 67% estarían dispuestos a comprar dicho producto. Además se concluyó que el precio del producto debería oscilar entre 1,50 y 2.50 soles. Determine: a) La población y la muestra. b) Las variables, tipo y su escala de medición. c) Los estadísticos y los parámetros (si existen) 2.- Se realizó un estudio para establecer las posibilidades que tenía el candidato X de ganar las elecciones municipales en el distrito A. Se conoce que el 25% de los habitantes del distrito vive hace más de 5 años en dicha zona. Se encuestaron a 200 personas y se obtuvo lo siguiente: EL 40% de los habitantes del distrito A no ha decidido aún su voto. El 23,5% indicó que votarían por el candidato X. El principal problema a resolver por el nuevo alcalde es el de la delincuencia, tal como lo indicaron el 75% de los encuestados. Determine: a) Población y la muestra. b) Las variables de estudio, tipo y su escala de medición. c) Los estadísticos y los parámetros (si existen) d) Elabore Ud. un cuestionario tomando en cuenta los resultados dados y otras preguntas que Ud. considere conveniente y que no se haya tomado en cuenta. 3°) La revista Forbes reportó datos sobre las condiciones y estilos de vida en varias ciudades de Estados Unidos, tal como aparece en el cuadro. Ciudad Población Mediana Atracción Tasa de (Millones) de ingreso más visitada criminalidad Atlanta 3,5 43,249 Stone Mountain 846.2 Baltimore 2,5 43,291 Harborplace 1,296. St. Louis 2,5 39.079 Gateway Arch 263.4 Philadelphia 5,0 43,576 Liberty Bell 693.1 Raleigh-Durham 1,0 40.990 State Fair 634.9 ______________________________________________________________ a. Identifique: Variable: _______________________________________________ Tipo de variable: _________________________________________ Escala de medida: _______________________________________ b. ¿Cuáles son descriptivas y cuáles inferenciales? Descriptivas: ___________________________________________ Inferenciales: ___________________________________________ 4.- Plantee ud. 3 problemas de su especialidad, y para cada uno de ellos establezca la población, muestra, causas, variables, tipo de variables y escala de medición. Representaciones graficas Barras Lineales Circulares Distribución de frecuencias Variables Cualitativas Variables Cuantitativas discretas SESIÓN 3 Estadística descriptiva. Distribución de frecuencia para variable cualitativa y cuantitativa discreta. Cuadros. Gráficos. Interpretación. 3.- DISTRIBUCIÓN DE FRECUENCIA. Frecuencia.- es el número de casos pertenecientes a un grupo determinado. 3.1 DISTRIBUCIÓN DE FRECUENCIA: VARIABLE CUALITATIVA Nº NOMBRE DE VARIABLE f i h i p i 1 2 3 4 . . . k MODALIDADES f 1 f 2 f 3 f 4 . . . f k h 1 = f 1 / n h 2 h 3 h 4 . . . h k p i =h 1 *100% ¿ = = k i i n f 1 ¿ = = k i i h 1 1 ¿ = = k i i p 1 % 100 Identificado la variable de tipo cualitativo, se procede de la siguiente manera: a.- Se coloca en una columna todas las categorías o modalidades de la variable de atributo. b.- Se completan solamente con tres columnas: f i , h i y p i. f i frecuencia absoluta simple h i frecuencia relativa simple p i frecuencia porcentual simple. Ejemplo: 1) Suponga que el Gerente de una empresa desea saber el número de trabajadores según su estado civil, con la finalidad de asignarles cierta compensación familiar. CUADRO Nº 1. Distribución de frecuencia de los trabajadores de la empresa FIELD S.A. según su estado civil. 2009 ESTADO CIVIL Frecuencia absoluta simple (fi) Frecuencia relativa simple ( h i ) Frecuencia porcentual simple (pi) (%) Casados Divorciados con hijos Divorciados sin hijos Solteros Convivientes 52 32 41 99 26 52/ 250 = 0,21 32/ 250 = 0,21 * 100 = *100= TOTAL 250 1 100% Fuente: ________________________________________ Interpretación: ___________________________________________________________________ ___________________________________________________________________ ___________________________________________________________________ 2) Se tiene el siguiente cuadro de los trabajadores de la panadería y fuente de soda “Baguetipan” en el distrito de Los Olivos, según categoría para 2009. Se pide elaborar el cuadro de distribución de frecuencia. Solución.- CUADRO Nº 2. _________________________________________________ Categoría f i hi Pi (%) Panaderos Cajeras Tienda Limpieza Azafatas Secretaria 7 2 4 2 4 1 Total 20 100% Fuente: _____________________________________ Interpretación.- __________________________________________________________________ __________________________________________________________________ __________________________________________________________________ __________________________________________________________________ 3.2. DISTRIBUCIÓN DE FRECUENCIA: VARIABLE CUANTITATIVA (discreta) Nº NOMBRE DE VARIABLE f i h i p i 1 2 3 4 . . . k VALORES DE LA VARIABLE f 1 f 2 f 3 f 4 . . . f k h 1 = f 1 / n h 2 h 3 h 4 . . . h k p i =h 1 *100% ¿ = = k i i n f 1 ¿ = = k i i h 1 1 ¿ = = k i i p 1 % 100 3.- Se tiene información de un tamaño de muestra de 150 familias de las zonas marginales de la ciudad de Lima según los registros en la Municipalidad de Lima, para mayo 2007. Dicha información pueden ser de O hijos, 1 hijo, 2 hijos, 3 hijos o 4 hijos. Cuadro Nº 3: _________________________________________________ _________________________________________________ Nº Número de hijos f i hi p i (%) P i (%) 1 2 3 4 5 0 hijos 1 hijo 2 hijos 3 hijos 4 hijos 2 15 40 55 38 Total 150 1 100% Fuente: _________________________________________________ Interpretación: _________________________________________________________________ _________________________________________________________________ _________________________________________________________________ _____________________________________________________________ 3.3 REPRESENTACIONES GRÁFICAS: A continuación se presenta una serie de gráficos que se ha elaborado utilizando la función gráficos del programa SPSS. i) GRÁFICO DE BARRAS 2. ¿Está conforme con la atención que le brinda su seguro? 120 65 15 0 20 40 60 80 100 120 140 SI NO NO SABE ii) GRÁFICO CIRCULAR 3. Si tuviera oportunidad de cambiarse a otro seguro social, ¿Lo haría? No sabe 30% No sabe 25% Si 45% iii) GRÁFICO DE ÁREA 5. ¿Le interesaría afiliarse al sindicato de trabajadores del seguro al cual Ud. per- tenece. 0 20 40 60 80 100 120 SI NO NO SABE iv) GRÁFICO: PICTOGRAMAS v) GRÁFICO: CARTOGRAMAS Ejemplo: a) Elabore el gráfico para el cuadro Nº 1. b) Elabore el gráfico para el cuadro N°2 C) Elabore el gráfico para el cuadro Nº 3. EJERCICIOS DE APLICACIÓN Nº 3.- 1- Se hizo un trabajo de investigación donde se captó información de las causas por las cuales las niñas son internadas en los hogares para menores. Se tomó información de las fichas sociales de las niñas del hogar de menores Colonia Nº 2 de Ancón en 2009. Categoría Frecuencia Abandono maternal Abandono paternal Maltrato Escasez económica Huérfanos Abandonados Otros Sin datos 15 44 6 32 2 9 6 4 a Complete las columnas que faltan al cuadro o tabla de distribución de frecuencia. b Indique un nombre adecuado para el cuadro respectivo. c Señale la fuente de dicho cuadro. d Interprete dicho cuadro e Qué significa f 2 , p 3 2. El gobierno decide destinar S/. 200,000 para el desarrollo de un pueblo de la selva, la cual será invertida solo en educación (35%), vivienda (25%) y alimentación (?). Se muestra un diagrama circular o de pie de como se ha distribuido este dinero. 35% 25% a) ¿Cuánto ha sido utilizado en S/. del total, en alimentación? b) ¿Cuál es el ángulo central correspondiente a educación? c) ¿Cuánto se utilizo en vivienda? 3.- Se tiene el siguiente cuadro referente a la Pobreza en el Perú para 2007, se pide: a Plantee un nombre para dicho cuadro. b Grafique dicha variable utilizando las cifras porcentuales. c Interprete dicho cuadro y gráfico. ÁMBITO GEOGRÁFICO TOTAL GENERAL POBRE NO POBRE TOTAL EXTREMO NO EXTREMO TOTAL 100.0 44.1 18.7 25.4 55.9 COSTA Urbana Rural SIERRA Urbana Rural SELVA Urbana Rural LIMA METROP. 100.0 100.0 100.0 100.0 100.0 100.0 100.0 43.8 43.2 44.6 61.4 40.1 58.0 28.0 12.4 22.9 12.5 40.4 13.1 40.6 3.7 31.5 20.2 32.2 20.9 27.1 17.5 24.3 56.2 56.8 55.4 38.6 59.9 42.0 72.0 FUENTE: INEI - 2007 4.- La siguiente información ha sido obtenida por la empresa X en un estudio de mercado en Lima Metropolitana para el año 2008, en relación a la marca de cerveza que compraron los consumidores en los mercados WONG y mercado METRO. Número de consumidores MERCADO WONG MERCADO METRO Cristal Pilsen Cuzqueña Brama TOTAL 250 90 150 10 500 200 180 240 80 700 a) Exprese los datos del cuadro anterior en valores porcentuales. b) A qué conclusión llegaría Ud con los resultados obtenidos. Distribución de frecuencias - variables cuantitativa continua - Tipos Estructura Representaciones graficas Histograma Polígono de frecuencia Ojiva SESIÓN 4 Distribución de frecuencias para una variable cuantitativa continua. Cuadros y gráficos: histogramas, polígonos de frecuencia y ojiva. Interpretación. 4.- DISTRIBUCIÓN DE FRECUENCIA Y GRÁFICOS.- 4.1. DISTRIBUCIÓN DE FRECUENCIA: VARIABLE CUANTITATIVA (continuos o discretos con muchas alternativas) - Distribución de frecuencias.- Es el cuadro resumen de datos, los cuales están ordenados en clases o grupos con el número de observaciones o casos que pertenecen a cada uno de ellos. - Clase o grupo.- Es la distribución de los datos en categorías. Contiene al límite inferior ( l i ) y al límite superior ( l s ) de cada categoría. Cuadro Nº ____: Distribución de frecuencia ________________________ _____________________________________________ Nº Clase o grupo f i m i F i p i % P i % 1 2 3 4 . . . K l 1 -l 2 l 2 -l 3 l 3 -l 4 l 4 -l 5 . . . l i -l s f 1 f 2 f 3 f 4 . . . f k m 1 = (l 1 +l 2 )/2 m 2 = m 3 = m 4 = . . m k = F 1 = f 1 F 2 = f 1 + f 2 F 3 = f 1 + f 2 + f 3 F 4 . . . F K =n p 1 = f 1 *100 / n p 2 = f 2 *100 / n p 3 = f 3 *100 / n pk = f k *100 / n P 1 = p 1 P 2 = p 1 + p 2 P 3 = p 1 + p 2 + p 3 P k = 100 % ¿ = = k i i n f 1 ¿ = = k i i p 1 % 100 Fuente: ___________________________________________________ f i = Frecuencia absoluta. Número de observaciones que se registra en cada grupo o clase. m i = Marcas de clase. Promedio aritmético de los límites de clase. Se obtiene sumando el límite inferior ( l i ) y el límite superior ( l s ) y se divide entre dos. F i = Frecuencia absoluta acumulada Es el número de observaciones que pertenece a dicha clase más el número de individuos pertenecientes a las clases anteriores. p i % = Frecuencia porcentual La frecuencia absoluta se divide entre el número de observaciones (n) y se multiplica por 100. P i % = Frecuencia porcentual acumulada Es la suma de la frecuencia porcentual de cada clase o grupo más las frecuencias porcentuales halladas en las clases anteriores. Rango = Es la diferencia que existe entre el dato mayor y el dato menor. K = Número de clases o grupos en los que se van a agrupar las observaciones. I ó A i = Intervalo de Clase ó amplitud de clase. Es la amplitud de cada uno de las clases o grupos en los que se encuentra distribuidas las frecuencias. Procedimiento para llenar una tabla de distribución de frecuencias.- 1º Determinar el rango de la muestra. Rango = Dato mayor - Dato menor 2º Determinar el valor de k por cualquiera de estas formas: a. Ley de Sturges k = 1 +3.3 log n ( Muestra) k = 1 + 3.3 log N ( Población ) b. n k = ( muestra ) ; N k = ( Población) c. 5 < k < 20 - Una tabla de distribución con sólo 5 clases o grupos ( k = 5), la información estaría muy comprimida. - Una tabla de distribución con 20 clases o grupos (k=20), la información estaría muy dispersa. 3º Determinar el valor de “i” ó A i (intervalo de clase) Rango A i = ---------------- k 4º Determinar los límites para la primera clase. ( l 1 y l 2 ) l 1 = dato menor l 2 = l 1 + i y así sucesivamente Ejemplo: La Panadería y Fuente de Soda “Baguettipan” E.I.R.L. en el distrito de Los Olivos, cuenta con 20 trabajadores y se tiene información de su sueldo o ingreso de los trabajadores. Datos sin agrupar.- 420 350 350 320 190 190 300 300 190 190 350 350 300 400 300 350 320 300 300 350 Se pide elaborar una tabla de distribución de frecuencias. Solución.- 1º Determinar el rango: 2º Calculamos k, utilizando la ley de Sturges k = 3º Calculamos el intervalo, Ai Ai = ----------- = 4º Determinar los límites de la primera clase o grupo. l 1 = l 2 = y así sucesivamente, Completando en el cuadro siguiente, CUADRO Nº 4. ___________________________________________________ ___________________________________________________ Nº f i m i F i p i Pi 1 2 3 4 5 f 1 f 2 f 3 f 4 f5 m 1 = m 2 = m 3 = m 4 = m 5 = F 1 = F 2 F 3 F 4 F 5 p1= P1 = = ¿ =1 i i f ¿ = = i i p Fuente: __________________________________________________________________ Interpretación: _________________________________________________________________ _________________________________________________________________ _________________________________________________________________ 4.2. REPRESENTACIONES GRÁFICAS: HISTOGRAMA, POLÍGONO DE FRECUENCIA Y OJIVA. Las gráficas más comunes y de fácil aplicación son: - HISTOGRAMA - POLÍGONO DE FRECUENCIA - OJIVA. HISTOGRAMA Y POLÍGONO DE FRECUENCIA.- Cuando se esté efectuando el estudio con una gran cantidad de datos es conveniente representar gráficamente una tabla de distribución de frecuencias, ya que permite observar con más claridad algunas características de los mismos. Al hacer la representación gráfica de los datos se van formando una serie de rectángulos que tienen como base los limites de las clases o grupos y como altura la frecuencia absoluta (o puede ser también la frecuencia porcentual), a esta gráfica se llama histograma. Al unir los puntos medios o marcas de clase de todos los rectángulos, se va formando una línea el cual se le conoce con el nombre de polígono de frecuencia. Debe tenerse en cuenta al representar datos en ejes coordenados lo siguiente: en el eje de las abscisas (X) se representará siempre la variable que se está estudiando, mientras que en el eje de las ordenadas (Y) se representará las frecuencias absolutas correspondientes. Ejemplo: GRÁFICO Nº 4. ________________________________________________________ _________________________________________________________ OJIVA.- GRAFICO Nº 5. _______________________________________________________ Interpretación: ___________________________________________________________________ ___________________________________________________________________ ___________________________________________________________________ EJERCICIO DE APLICACIÓN Nº 4 1. Se da los 45 ingresos quincenales en dólares: 63 89 36 49 56 64 59 35 78 43 53 70 57 62 43 68 62 26 64 72 52 51 62 60 71 61 55 59 60 67 57 67 61 67 51 81 53 64 76 44 73 56 62 63 60 a Elabore una tabla de distribución de frecuencia con k= 8; realice su respectiva interpretación. b. Construya el histograma, polígono de frecuencia y ojiva. 2. Dada la distribución: ---------------------------------------------- m i 6 8 10 12 --------------------------------------------- f i ? ? 13 15 --------------------------------------------- F i 4 13 ? ? --------------------------------------------- a. Complete el cuadro. b Defina Ud. una variable X e interprete la tabla de distribución de frecuencia. c. Elabore un gráfico de ojiva. 3. En la siguiente distribución de frecuencias se dan los pesos de una muestra de 45 alumnos: ---------------------------------------------- m i 6 8 10 12 --------------------------------------------- f i ? ? 13 15 --------------------------------------------- F i 4 13 ? ? --------------------------------------------- a. Interprete el cuadro. b. Elabore su histograma, polígono de frecuencia y ojiva. 4. En una determinada empresa de producción de computadoras, el volumen de ventas para el año 2006 expresado en miles de dólares se da en el siguiente cuadro: --------------------------------------- Volumen de ventas fi ---------------------------------------------------------- [20 - 40> 10 [40 - 60> 25 [60 - 80> 46 [80 - 100> 9 [100 - 120] 10 --------------------------------------- a Complete la tabla de distribución de frecuencias. b Interprete dicho cuadro y grafique. 5.- Se hizo una encuesta sobre el número de personas aficionadas a la lectura y se las clasificó por edades. Se obtuvo el siguiente histograma. 7 6 5 4 3 2 1 10 20 30 40 50 60 70 Edad a Halle el tamaño de muestra. b Calcule el porcentaje de personas menores de 60 años aficionadas a la lectura. c Interprete el gráfico. 6.- En la Universidad Cesar Vallejo, en un semestre académico hay un total de 650 alumnos matriculados. Según su especialidad se clasifican en: Contabilidad (200), Administración (120), Turismo (45) e Ingeniería de Sistemas (235). Halle los porcentajes que representa cada una de las especialidades y elabore un gráfico. 7.- Se tiene las temperaturas observadas durante 24 días en el polo norte en el siguiente cuadro. (fi= Nº de días). Temperatura Fi pi(%) [-17° a - 15°> [-15° a - 13°> [-13° a - 11°> [-11° a - 9°> [ - 9° a - 7°> [ - 7° a - 5°] 5 10 2 13 4 a) Complete la tabla de distribución de frecuencias. b) Durante cuántos días se observó una temperatura de -11° a -9°? c) Durante cuántos días se observó una temperatura de -9° a -5°? Distribución de frecuencias para 2 variables 2 Variables Cuantitativas 2 Variables Cualitativas TABLAS DE CONTI NGENCI A SESIÓN 5 Distribución de frecuencia para dos variables cuantitativas y/o cualitativas. Gráficos. 5.1.- ANÁLISIS DE DATOS BIVARIADAS Hemos estudiado ahora datos provenientes de una sola variable, sin embargo con frecuencia es necesario analizar respecto a la relación entre dos variables. Supongamos que se toma una muestra de tamaño “n” de una población que se está investigando. Sean X e Y las variables a estudiar, tal que los datos obtenidos son: ( X 1 ,Y 1 ),( X 2 ,Y 2 ), ….,( X n ,Y n ). Distribución conjunta y marginal.- La tabla de frecuencia que agrupa a esta información se conoce “tabla de contingencia“. Por ejemplo, para el caso de dos variables cualitativas con dos modalidades o categorías, la tabla sería: Y Categoría 1 Categoría 2 Total Categoría 1 Celda f 11 Celda F 12 Total marginal f 1. Categoría 2 Celda f 21 Celda f 22 Total marginal f 2. Total Total marginal f .1 Total marginal f .2 Total de individuos n Distribución Marginal Cuando sólo interesa conocer la frecuencia de ocurrencia de cada una de las variables por separado se habla de Frecuencia Marginal de la variable Por ejemplo: Hábitos de Fumar SEXO SI NO Total VARON MUJER DISTRIBUCION CONJUNTA DISTRIBUCION MARGINAL Total DISTRIBUCION MARGINAL Tamaño de muestra ¿Cuántas variables tenemos? ________________________________________________ ¿Cuáles son? Ejemplo 1: Frecuencia absoluta: conjunta y marginal Hábitos de Fumar SEXO SI NO Total VARON 800 1200 2000 MUJER 1000 2000 3000 Total 1800 3200 5000 Frecuencia relativa: conjunta y marginal X / Y Categoría variable Y Categoría variable Y Total Categoría variable X f 11 n f 12 n Total marginal f 1. /n Categoría variable X f 21 n f 22 n Total marginal f 2. /n Total Total marginal f .1 /n Total marginal f .2 /n Total de indivíduos n/n Hábitos de Fumar SEXO SI NO Total VARON 0.16 0.24 0.40 MUJER 0.20 0.40 0.60 Total 0.36 0.64 1 Frecuencia porcentual: conjunta y marginal SEXO Hábitos de Fumar SI NO VARÓN MUJER Total Ejemplo 2: Frecuencia absoluta: conjunta y marginal Nacionalidad SEXO Masculino Femenino Peruano 6 2 8 Chileno 1 2 3 Argentino 3 1 4 Ecuatoriano 1 1 2 Boliviano 1 2 3 Total 12 8 20 ¿Cuántas variables tenemos? ______________________________________________ ¿Cuáles son? __________________________________________________________ Frecuencia relativa: conjunta y marginal Nacionalidad SEXO Masculino Femenino Peruano Chileno Argentino Ecuatoriano Boliviano Total Frecuencia porcentual: conjunta y marginal Nacionalidad SEXO Masculino Femenino Peruano Chileno Argentino Ecuatoriano Boliviano Total Frecuencia Condicional Cuando se “pregunta” por la frecuencia relativa de una de las variables, digamos X, restringida a los elementos observados de una clase dada de la otra; esto es, estudiar el comportamiento de una variable dado un valor fijo de la otra. Y Categoría variable Y Categoría variable Y Categoría 1 f 1 / f .1 f 12 /f .2 Categoría 2 f 21 /f .1 f 22 /f .2 Total 1 1 A continuación veremos dos casos de tablas y gráficos bivariadas: 1 Cualitativa vs cualitativa 2 Cualitativa vs cuantitativa 5.2.- CUALITATIVA VS CUALITATIVA 1.- Se quiere investigar la relación que existe entre el nivel de estudios del padre y el nivel de estudios de la madre. Ver la data encuesta USA 1991 En primer lugar convertir las variables cuantitativas “Años de escolarización del padre” y “Años de escolarización de la madre” en variables cualitativas, usando la recodificación en distintas variables y use los siguientes intervalos. 1.- Menos de 11 años 2.- 12 a 16 años 3.- Más de 16 años Luego realizar la recodificación seguir los pasos que se indican a continuación: CUADRO 1 Tabla de contingencia educacion del padre * educacion de la madre % de educaci on del padre 60.9% 27.6% 11.5% 100.0% 16.0% 73.7% 10.4% 100.0% 26.4% 33.9% 39.7% 100.0% 33.7% 45.6% 20.8% 100.0% Menos de 11 años 12 a 16 años Más de 16 años educacion del padre Total Menos de 11 años 12 a 16 años Más de 16 años educacion de la madre Total Los padres están casados en mayor porcentaje con mujeres que tienen su mismo nivel de estudio. Los hombres con menos de 16 años de estudios no priorizan como pareja a mujeres con alto nivel de estudio, ya que solo el 11.5% de ellos solo se juntaron con mujeres con mas de 16 años de estudios. Principalmente los hombres con un nivel intermedio de estudios buscan con mayor porcentaje a mujeres con el mismo nivel de estudio. CUADRO 2 Tabla de contingencia educacion del padre * educacion de la madre % de educaci on de l a madre 56.9% 19.1% 17.5% 31.5% 16.2% 55.4% 17.1% 34.3% 26.8% 25.5% 65.4% 34.2% 100.0% 100.0% 100.0% 100.0% Menos de 11 años 12 a 16 años Más de 16 años educacion del padre Total Menos de 11 años 12 a 16 años Más de 16 años educacion de la madre Total Las mujeres con más de 16 años de educación se relacionan en mayor porcentaje con hombres que tengan menos de 16 años de estudio, llegando solo al 17.5%. Mientras que en el caso de los hombres con alto nivel de estudios llegan hasta el 26.4% (ver cuadro 1). Mientras que los hombres con un nivel intermedio de estudio se relacionan en mayor cantidad con mujeres de su mismo nivel, son las mujeres con alto nivel de estudio las que se relacionan en mayor cantidad con hombres que tengan alto nivel de estudio. 5.3.- CUALITATIVA VS CUANTITATIVA Se quiere investigar la relación que existe entre el nivel de estudios y el salario que perciben. Ver la data de empleados En primer lugar convertir las variables cuantitativas “Años de escolarización” en variables cualitativas, usando la recodificación en distintas variables y use los siguientes intervalos. 1.- Menos de 11 años 2.- 12 a 16 años 3.- Más de 16 años Luego realizar la recodificación seguir los pasos que se indican a continuación: $24,399 $15,750 $21,150 $24,000 $29,250 $34,500 $31,345 $16,200 $24,150 $28,050 $34,500 $103,750 $67,852 $27,000 $59,375 $67,188 $75,000 $135,000 Menos de 11 años 11 a 16 años mas de 16 años Nivel educativo Media Mínimo Percenti l 25 Mediana Percenti l 75 Máximo Salario actual EJERCICIOS DE APLICACIÓN 5.- 1.- El interés de una comunidad es saber si la presentación de caries en niños está asociada con la experiencia de caries en los padres, para esto se tomaron 523 niños de entre 12 y 15 años de edad y se les clasificó según su estado dental (Baja, Normal y Alta) y según la experiencia de caries en sus padres (Baja, Normal y Alta), obteniéndose los siguientes datos: Baja Normal Alta Baja 142 20 48 Normal 46 108 47 Alta 30 15 67 Padres Niños ¿A qué conclusiones llega? 2.- En la ciudad de Lima se ha incrementado durante los últimos cinco años el número de restaurantes de comida rápida. Debido a esto los expertos la empresa de investigación de mercado Consultores-ECE se pregunta. ¿La preferencia de un cliente por la comida rápida tiene que ver la edad?. La empresa eligió una muestra aleatoria de 500 clientes de comida rápida mayores de 16 años y se les preguntó su restaurante favorito, obteniéndose los siguientes datos: Kentuky McDonalds Burger-King Otro 16 - 21 75 34 10 6 21 - 30 89 42 19 10 30 - 49 54 52 28 18 50 a más 21 25 7 10 Grupo de edad Restaurant ¿Cuáles serán las conclusiones que llegarán los expertos de la empresa Consultores-ECE? 3.- En la Universidad César Vallejo se realiza un estudio para saber si la orientación política es similar en ambos sexos. Para lo cual se realizo una encuesta a 126 estudiantes de ambos sexos tal como se muestra en la siguiente tabla: ¿Cuál será las conclusiones que llegará el presente estudio? Mediana Moda Media Aritmética Medidas de tendencia central SESIÓN 6 Medidas de tendencia central. Media aritmética, Mediana y Moda. 6.1 INTRODUCCIÓN Para la aplicación de las medidas de tendencia central y las de dispersión, es necesario que previamente tengamos una idea del comportamiento de la variable, y es así que ayudados por su representación gráfica, el cual puede ser el histograma, nos permita describir fácilmente la forma de la distribución, el cual es importante pues toda la base estadística (supuestos) radica en que la distribución de la variable en estudio tiene una distribución normal o curva normal. Por ello, de una inspección puede deducirse si las observaciones están o no muy concentradas en pocos valores de la variable, o si la concentración se produce en el centro del recorrido de la variable o en uno de los extremos. Curva normal ó ii) Campana de Gauss µ = Me = Mo Simétrica Asimétrica a la izquierda Asimétrica a la derecha El conocimiento de la asimetría de una distribución es importante, porque así puede saberse si las observaciones tienden a concentrarse en valores bajos o altos de la variable. 6.2 MEDIDAS DE TENDENCIA CENTRAL.- Son aquellos valores que representan a un conjunto de datos y que generalmente están ubicados en la parte central de la distribución. Estas medidas solo se calculan para variables cuantitativas. EL conocimiento de estas medidas es de gran utilidad tanto en los niveles de decisión como de ejecución. Las principales medidas de tendencia central son: MUESTRA POBLACIÓN - Media aritmética simple X µ - Media ponderada X p p µ - La Mediana me Me - La Moda mo Mo 6.2.1 LA MEDIA ARITMETICA SIMPLE.- Llamado también “promedio aritmético”, es la medida más conocida y utilizada en su forma más sencilla. A) Para datos sin agrupar: Sea X 1 , X 2 , ...... , X n ; valores de la variable X (Variable cuantitativa). La media aritmética simple poblacional se representa por µ y se calcula como: Suma de valores de la variable µ= ------------------------------------------------------------------------------- Tamaño de la Población (Nº de observaciones) N X N i ¿ = = 1 µ La media aritmética simple muestral está representada por X y se calcula como: n X X n i ¿ = = 1 Ejemplo: Halle la edad promedio de cinco personas cuyas edades son: 8, 26, 23, 19, y 44 Solución: Interpretación: __________________________________________________ B Para datos agrupados .- Sea m 1 , m 2 , m 3 ,....,m k , las marcas de clases en una tabla de distribución de frecuencias y las fi, las frecuencias simples absolutas de cada grupo o clase, entonces: La media aritmética poblacional se calcula: N m f k i i i ¿ = µ donde: f i = Frecuencia absoluta simple de cada grupo o clase. m i = Marca de clase N = Tamaño de la población La media aritmética muestral se calcula: n m f X k i i i ¿ = donde: f i = Frecuencia absoluta simple de cada grupo o clase. m i = Marca de clase n = tamaño de la muestra Ejemplo: Se ha estudiado el Centro de Salud “Villa Esperanza” ubicado en el Kilómetro 18.5 de la Av. Túpac Amaru - Comas. Se obtuvo información referente a la frecuencia con que acudían las mujeres embarazadas para su “Control de gestación” durante 2007, obteniéndose la siguiente información: Tiempo de gest. (semanas) f i [ 4 - 12> [12 - 20> [20 - 28> [28 – 36] 9 18 16 17 Total 60 Se pide hallar el tiempo promedio de gestación de las madres que asisten a su control pre-natal. Solución.- Se trabajará primero un cuadro auxiliar: Tiempo de gest. (semanas) f i m i f i m i [ 4 - 12> [12 - 20> [20 - 28> [28 – 36] 9 18 16 17 60 Fuente: ______________________________________________________ Interpretación: __________________________________________________________________ __________________________________________________________ 6.2.2 MEDIA PONDERADA Es aquella "media" que se toma en cuenta para su cálculo algunas ponderaciones o "pesos" previos. Sea p 1 , p 2 , ... , p r , los pesos asociados a los valores de la variable X: X 1 , X 2 , ..., X r respectivamente, luego la media ponderada poblacional y muestral será: ¿ ¿ = = = r i i r i i i p p X p 1 1 µ ¿ ¿ = = = r i i r i i i p p X p X 1 1 Ejemplo 1: Hay 10 personas en un ascensor, 4 mujeres y 6 hombres. EL peso medio de las mujeres es de 60 kilos y el de los hombres es de 80. ¿Cuál es el peso medio de las 10 personas del ascensor? Solución: Ejemplo 2.- Se quiere saber el precio promedio de venta de un kilo de limón en el mercado de Covida en el distrito de Los Olivos, para ello se tomó una muestra en la que se encontró que 5 Kg. se vende a S/. 1.20 el Kg. y 3,5 Kg. se vende a S/. 1.00 el Kg. Solución.- p 1 = 5 ; p 2 = 3,5 ; X 1 = 1.20 X 2 = 1.00 X p = ---------------------------------------------------------- X p= ----------------------------------- = soles por kilo Interpretación:______________________________________________________ Ejemplo 3: SI los porcentajes de mujeres en una muestra de 3 colegios diferentes en Lima Metropolitana son: COLEGIO Nº DE ALUMNOS % DE MUJERES ----------------------- ---------------------------- ---------------------------- A 30 50 B 50 70 C 45 30 Hallar el porcentaje promedio de mujeres por escuela. Solución.- Aplicando la fórmula: p 1 = 30, p 2 = 50, p 3 = 45 X 1 = 50, X 2 = 70, X 3 = 30 X p = .................................................................... X p= .......................... = Luego el porcentaje promedio de mujeres en los 3 colegios es de % 6.2.3 LA MEDIANA.- Es la medida que divide en dos grupos iguales a la distribución de datos, previa ordenación en forma ascendente o descendente. En otras palabras es el valor que ocupa del lugar central. La mediana se usa generalmente cuando los datos son bastantes dispersos o también cuando se tienen intervalos, grupos o clase en que algunos de sus límites no está definido. A PARA DATOS SIN AGRUPAR.- a.1.- Número de datos u observaciones ( n) es impar.- Se busca el valor central de modo que quede el 50% a cada lado. Ejemplo: Se tiene las edades de cinco personas, hallar la mediana. Datos u observaciones: 8 26 22 19 44 Solución: 1º Se ordenan en sentido creciente (también puede ser de orden decreciente). 2º El valor central es 22, por lo tanto: Med = Interpretación: ______________________________________________________________ ______________________________________________________________ a.2. Número de datos u observaciones ( n) es par.- Se suma los dos valores centrales y se divide entre dos. Ejemplo 1.- Se tiene las edades de 6 personas, hallar la mediana. 8 30 34 19 22 26 Solución: 1º Se ordenan los datos en forma creciente 2º Los valores centrales serán 3º Se calcula el valor promedio de ambos: Med = ---------------- = ------- = Interpretación: ______________________________________________________________ ____________________________________________________________ Ejemplo 2.- Una empresa de transporte tiene 20 unidades de vehículos. La siguiente información son los kilómetros recorridos (en miles) de cada vehículo durante el año 2007. 4.8 7.3 3.3 9.2 3.4 7.1 5.2 6.0 1.2 7.8 7.4 2.6 4.0 6.2 7.6 3.7 6.5 4.3 6.1 2.8 Se desea saber cual es la mediana de la distribución. Solución.- Datos sin agrupar.- 1°) Ordenamos los datos en forma ascendente o creciente. 1.2 2.6 2.8 3.3 3.4 3.7 4.0 4.3 4.8 5.2 6.0 6.1 6.2 6.5 7.1 7.3 7.4 7.6 7.8 9.2 2°) El número de observaciones es par (20 observaciones) 3°) Sumamos los valores que ocupan la posición central de la distribución ordenada y dividimos entre dos. Me = ---------------------------- = Interpretación.- ____________________________________________________________ B PARA DATOS AGRUPADOS.- Cuando los datos se encuentran agrupados en una tabla de distribución de frecuencia y se desea hallar la mediana, se utilizará la siguiente fórmula. Cuando se trabaja con población: Ai f F N l Me me i i ) 2 ( 1 ÷ ÷ + = y cuando se trabaja con muestra: Ai f F n l me me i i ) 2 ( 1 ÷ ÷ + = En ambos casos, i = límite inferior del grupo o clase donde se encuentra la mediana. f me = frecuencia absoluta simple del grupo o clase donde se encuentra la mediana. F i-1 = Frecuencia absoluta acumulada anterior al grupo o clase donde se encuentra la mediana. Ai = Amplitud de intervalo del grupo o clase donde se encuentra la mediana. N = tamaño de la población n = tamaño de la muestra Ejemplo.- Con los datos del ejemplo anterior, calcular la mediana con los datos agrupados con K (Nº de clases o grupos) = 4. Solución.- Con datos agrupados Km. Recorridos ( en miles) f i F i [0 - 2 > [2 - 4 > [4 - 6 > [6 - 8 > [8 -10] 2 5 4 8 1 Del grupo seleccionado se extrae los siguientes datos: l i = F i-1 = n = i = f me = Me = + ( -----------------------) Me = Interpretación.- ______________________________________________________ Nota: La Mediana ( Me) para datos sin agrupar, y la de datos agrupados no siempre sale el mismo valor. 6. 2.4 LA MODA.- Es el valor que se presenta con más frecuencia en un conjunto de observaciones. A) Datos no agrupados.- Ejemplo 1.- La producción diaria de 10 plantas ordenadas es: 0 27 34 35 58 62 68 72 72 112 Solución.- La moda sería 72, pues este valor se repite 2 veces. Ejemplo 2.- Se tiene información de Distribución de la cadena de farmacias Delta: Farmacia Localidad (zonas) A 1 B 2 C 3 D 2 E 2 F 4 G 3 Interpretación: __________________________________________________ B) Datos agrupados.- Mo l d d d i i = + + ( ) 1 1 2 Mo = Moda poblacional, mo = moda muestral l i = Límite inferior de la clase modal d 1 = f m - f i - 1 d 2 = f m - f i + 1 f m = frecuencia de la clase modal f i-1 = frecuencia de la clase anterior a la clase modal f i+1 = frecuencia de la clase posterior a la clase modal i = amplitud del intervalo de la clase modal Ejemplo: Las ventas totales en miles de dólares de la Compañía Ford del año 2007 están en grupos o clases, según el cuadro adjunto. Se pide calcular la moda. Ventas Nº de ventas [30 – 40> 1 [40 – 50> 4 [50 – 60> 5 [60 – 70> 9 f i-1 [70 – 80> 16 f m [80 – 90> 7 f i+1 [90 – 100] 3 Solución.- i = f m = f i-1 = f i+1 = d 1 = d 2 = Mo = + ( -----------------) Mo = Interpretación.- __________________________________________________________________ USO ADECUADO DE LA MEDIA, MEDIANA Y MODA.- De las tres medidas de tendencia central, se observa que: 1°) La media aritmética tiene la ventaja de que toma en cuenta para su cálculo, la totalidad de los valores de la variable, aumentando o disminuyendo de acuerdo a ellos, pero a causa de este problema, puede tener la desventaja que es afectada por la existencia de valores muy altos o muy bajos en los extremos. En conclusión cuando el comportamiento de la variable es más o menos simétrico la media aritmética es la más recomendable. 2°) La mediana se usa cuando existe mucha dispersión de los datos. 3°) Así también la mediana es la mas ventajosa en usarla cuando en el primer o último grupo o clase no tiene límite definido. 4°) La moda no es muy usual, pero se emplea cuando se quiere conocer el valore que se presenta más frecuentemente. EJERCICIO DE APLICACIÓN Nº 6.- 1. Dadas las ventas en miles de dólares de un determinado producto durante el mes de Mayo de 2007 es como sigue: 22 33 43 78 45 33 22 43 22 76 43 33 28 33 26 65 30 39 34 55 70 69 45 57 59 63 Halle la venta promedio mensual e interprete. 2. Una Cía. produce cierto insumo para la fabricación de cierto producto. La información que sigue corresponde a las ventas efectuadas por la cía. expresada en miles de $ para el 2007 --------------------------------------------------------- VENTAS (MILES DE $) f i --------------------------------------------------------- [500 - 1000> 5 [1000 – 1500> 10 [1500 – 2000] 3 ---------------------------------------------------------- Halle el promedio de ventas efectuadas por la Cía. e interprete. 3.- Se tiene las edades de los siguientes trabajadores de una determinada empresa. Elabore la tabla de distribución de frecuencia respectiva en 6 grupos o clases. 27 34 20 48 67 30 36 75 40 58 46 50 67 53 60 71 34 70 56 43 74 45 43 77 68 43 25 34 34 34 a) Halle la edad promedio de los trabajadores e interprete. b) Elabore un gráfico de acuerdo a los datos. 4.- La distribución del número de niñas por familia en el centro maternal de un cierto colegio femenino es la siguiente: N° de niñas familias ----------------------------------------------------- 8 1 7 2 6 6 5 8 4 20 3 38 2 60 1 60 0 35 Halle el número medio de niñas por familia. 5.- Se muestra las notas de 11 alumnos en un examen de matemática. 10 12 09 12 08 14 12 10 11 12 08 Halle: a) la moda b) la mediana: c) Si el profesor decide aprobar a los alumnos cuyas notas sea mayor o igual que la mediana ¿Cuántos aprueban? d) Si se elimina la mayor nota, halle la mediana de las notas restantes. 6.- El resultado de los coeficientes de inteligencia (CI) de un grupo de 24 niños de primaria que realizan los test pertinentes es el siguiente: 98 115 122 99 111 99 113 101 108 103 95 89 100 101 104 107 96 114 116 113 103 90 100 102 a) ¿Cuál es el C.I.medio y el C.I.mediano del grupo? b) Se puede afirmar que las puntuaciones obtenidas obedecen a la ley normal conociendo la media y la mediana. Coeficiente de Variación Desviación estándar Varianza Rango Medidas de Dispersión SESIÓN 7 Medidas de dispersión. Rango, Varianza. Desviación estándar. Coeficiente de variación 7.- MEDIDAS DE DISPERSIÓN Son indicadores estadísticos que representan cuan dispersas se encuentran los datos de la variable, señalándonos el grado de concentración de los mismos con respecto al promedio de la distribución. Las medidas de dispersión más usuales son: MUESTRA POBLACIÓN - Rango R R - Varianza S 2 o 2 - Desviación estándar S o Las medidas de dispersión se usan para: a) Verificar la confiabilidad de los promedios. b) Establecer como base para el control de la variable. Así tenemos: Alta dispersión (medida de dispersión alta) --- baja concentración alrededor del promedio. DATOS HETEROGÉNEOS Baja dispersión (medida de dispersión baja) -- Alta concentración alrededor del promedio. DATOS HOMOGÉNEOS 7.1.- RANGO.- El rango de una variable es la diferencia entre el valor máximo y su valor mínimo y se define como: Su uso es muy limitado, pues solo toma en cuenta los valores extremos. Ejemplo: La edad de 10 alumnos en un aula de clase, es según se muestra a continuación. Se pide hallar el rango. 23 18 28 18 16 26 19 20 21 18 Solución. Rango = 28-16 = 12 Luego, existe una dispersión de 12 años. 7.2 VARIANZA Y DESVIACIÓN ESTANDAR.- - Son medidas de dispersión o variabilidad de los datos. La variancia se define como las desviaciones al cuadrado con respecto al promedio ( o 2 ). Así también se le conoce como el promedio de la dispersión en la distribución de una variable. - La desviación estándar, es la raíz cuadrada de la variancia y se representa por o o o = 2 A) DATOS SIN AGRUPAR.- VARIANCIA: ( ) N x N i i ¿ = ÷ = 1 2 2 µ o ( ) 1 1 2 2 ÷ ÷ = ¿ = n x x S n i i Donde: X i : Valores de la variable X N : Tamaño de la población n : Tamaño de la muestra o 2 : Varianza poblacional S 2 : Varianza muestral DESVIACIÓN STANDARD: o o = 2 2 S S = Donde: o Desviación estándar poblacional S Desviación estándar muestral Ejemplo 1.- En una de las fábricas de Motor Perú, se producen autos de diversas marcas, desde Enero a Agosto de 2007 Meses : Ene Feb Mar Abr May Jun Jul Agos Producción: 100 130 90 120 100 140 110 98 Defina la variable en estudio y halle la varianza y Desviación Standard. Solución.- Variable de estudio: ___________________________________________________ Calculando la varianza: = = ¿ = N X N i i 1 µ ( ) = ÷ ¿ = N i i X 1 2 µ Luego, aplicando la fórmula de varianza: = 2 o = Calculando la desviación estándar = o Ejemplo 2.- Defina la variable en estudio y calcule la varianza y la desviación estándar de los años de experiencia de una muestra de 7 trabajadores de la fábrica textil “Universal S.A.” para el año 2007 Los datos son los siguientes: 3 10 8 6 16 4 2 Solución.- Variable de estudio: _____________________________________________ Calculando la varianza: = = ¿ = n X X n i i 1 = ( ) = ÷ ¿ = n i i X X 1 2 = = = 2 S = ------------------------ Calculando la desviación estándar.- B.- DATOS AGRUPADOS.- Cuando los datos están en una tabla de distribución de frecuencia, la varianza se halla según la fórmula: ( ) N f m K i i i ¿ = ÷ = 1 2 2 . µ o ( ) 1 . 1 2 2 ÷ ÷ = ¿ = n f x m S i k i i donde: f i = frecuencia absoluta simple de cada clase o grupo m i = marcas de clase de cada clase o grupo. N = tamaño de la población. n = tamaño de la muestra o 2 = Varianza poblacional S 2 = varianza muestral Nota.- No olvide que la desviación estándar es la raíz cuadrada de la varianza. Ejemplo.- Se tiene información para 2007 de la edad de los jóvenes del 5 to . Año de secundaria del Centro Educativo Particular “San Antonio del Pinar”. Se pide: a) Define la variable en estudio. b) Calcule la varianza y la desviación estándar Grupo de Edad f i [15 - 17> [17 - 19> [19 - 21> [21 – 23] 27 7 0 1 Total 35 Solución.- a) Variable en estudio: ___________________________________________ b) Calculando la varianza (cuadro auxiliar) Grupo de Edad m i f i (m i - µ) 2 (m i - µ) 2 . f i [15 - 17> [17 - 19> [19 - 21> [21 – 23] 27 7 0 1 35 Σ = 2 o = 2 o = 2 o Calculando la desviación estándar 7.3 COEFICIENTE DE VARIACIÓN.- Es el grado de desviación con relación a la media. Este coeficiente se usa para comparar las medias aritméticas o promedio de diferentes muestras. Nota.- Cuanto menor es el C.V mejor será la estimación del promedio y el proyecto será mejor. % 100 * . . µ o = V C % 100 * . . X S v c = Donde: C.V. = Coeficiente de variación de la población c.v = Coeficiente de variación muestral o = Desviación estándar poblacional µ = Media aritmética poblacional S = Desviación estándar muestral X = Media aritmética muestral Ejemplo.- Considere dos proyectos de inversión A y B. Ambos tienen una ganancia promedio igual a $ 500. La desviación estándar es 63.25 y 516.20 respectivamente. Halle cuál de los dos proyectos es mejor. Solución: A B µ 500 500 o 63.25 516.20 C.V. Luego el mejor proyecto es: EJ ERCI CI OS DE APLI CACI ÓN Nº 7.- 1 En una prueba de Estadística tomada a una muestra de 35 alumnos del IV ciclo de la Escuela de Ing. De Sistemas, se obtuvo los siguientes resultados: µ = 12 Me = 10 Mo = 11 o = 13.23 Explique el significado de cada uno de ellos. 2.- Los pesos de Kg. de una población de 12 niños cuyas edades fluctúa entre 1 año y 2 años es como sigue: 21 20 22 15 19 28 18 28 26 21 16 14 Calcule e interprete: Moda y Desviación estándar. 3.- Se tiene 36 ingresos quincenales en dólares y se quiere tabular en una distribución de frecuencia de 8 grupos o clases. La Información es: 63 89 36 49 56 64 59 35 78 43 53 70 57 62 43 68 62 26 64 72 52 51 62 60 71 61 55 59 69 67 57 67 61 67 51 81 Calcule la moda y la desviación estándar. Interprete el resultado. 4.- Dadas las edades de 20 señoritas : 15 17 19 20 18 18 19 17 16 17 20 15 20 18 15 15 16 17 15 17 Que se puede decir de la moda i) Es unimodal ii) bimodal iii) Multimodal? 5.- En una prueba de Estadística aplicada a 20 alumnos, se obtuvo la siguiente distribución de puntos: Puntos [35-45> [45-55> [55-65> [65-75> [75-85> [85-95] N° alumnos 1 3 8 3 3 2 Calcule el coeficiente de variación e interprete. 6.- Las secciones A, y B, de la asignatura de Estadística General rinden el mismo examen parcial. Los resultados obtenidos se registran en las siguientes tablas: Secc. A mi Fi Secc.B Clase m i f i 2.5 3 2 - 6 16 7.5 8 6 - 10 144 12.5 22 10 - 14 240 17.5 30 14 - 18 32 18 - 20 0 a) El profesor de la sección A sostiene que la suya es mejor. ¿Es correcta esta afirmación? b) ¿En cuál de las secciones las notas son más homogéneas, lo que quiere decir aquella que tenga menor dispersión? 7.- Se tiene los sueldos mensuales de Profesores y Médicos de cierta ciudad y se obtienen los siguientes resultados: Profesores Médicos X = S/. 620.00 X = S/. 1,600.00 S 1 = S/. 2000.00 S 2 = S/. 5400.00 ¿Son los sueldos de los profesores más o menos dispersos en relación con los de los médicos? Espacio Muestral Probabilidad de un Evento Nociones PROBABILIDAD SESIÓN 8 Probabilidad básica. Espacio muestral. Probabilidad de un evento. Probabilidad condicional. Distribuciones de Probabilidad continua: Normal estándar (Z) y t de student. 8.- PROBABILIDAD Definiciones Previas: 8.1 Experimento Aleatorio ( E ) : Es aquel cuyo resultado depende del azar y cumple ciertas características: a) Que sea repetible en igualdad de condiciones. b) Que se pueda describir el conjunto de todos los resultados posibles aunque no se pueda asegurar un resultado en particular. c) Si se repite un número grande de veces debe aparecer cierta regularidad estadística. Ejemplos: 1) Observar el lanzamiento de una moneda. 2) Observar el lanzamiento de un dado. 3) Medir la duración de un equipo electrónico. 4) Contar el número de vehículos que pasan por un cruce en lapsos de un minuto 5) El lanzamiento de dos dados. 6) Lanzamiento de un dado y una moneda 8.2 Espacio Muestral ( S ) . Es el conjunto de todos los resultados posibles de un experimento aleatorio. A los ejemplos previos corresponden los siguientes espacios muestrales en notación de conjuntos: { } { } 1 , , S cara sello c s = = { } 6 , 5 , 4 , 3 , 2 , 1 2 = S { } 0 : 3 > = t t S S 4 = S 5 = S 6 = Un punto muestral es un elemento del espacio muestral de cualquier experimento dado. 8.3 Suceso o Evento ( A, B, etc) Es cualquier subconjunto de resultados de un espacio muestral S. Los siguientes son eventos asociados a los espacios muestrales previos. 1) E 1 : Lanzamiento de una moneda. { } { } 1 , , S cara sello c s = = Podremos plantear los siguientes eventos: A 1 : que salga cara A 1 = { c } A 2 : que salga sello A 2 = ______ 2) E 2 :Lanzamiento de un dado { } 6 , 5 , 4 , 3 , 2 , 1 2 = S B 1 : que salga numero par B 1 = _______________________ B 2 : que salga numero impar B 2 = _______________________ B 3 : que salga los números 4 ó 5 B 3 = _______________________ 3) E 3 : Medir la duración de un equipo electrónico. S 3 = C: que dure hasta 5 años C = _______________________ 4) E 4 : Contar el número de vehículos que pasan por un cruce en lapsos de un minuto. S 4 = D: ___________________________ D = ________________________ 5) E 5 : Lanzamiento de dos dados G 1 : Suma de los lados de la cara superior de los dados sea igual a 7 G 1 =__________________________________________________________ G 2: Suma de los lados de la cara superior de los daos sea igual a 4 G 2 = __________________________________________________________ G 3 : Suma de los lados de la cara superior sea menor de 4 G 3 = __________________________________________________________ 6) E 6 :Lanzamiento de un dado y una moneda S 6 = H: salga una seis y una cara H = ________________________ 8.4 Álgebra de conjuntos.- Algunos conceptos de teoría de conjuntos extendidos a sucesos de probabilidad se deben recordar: 8.4.1 UNIÓN.- La unión de dos sucesos A y B en un espacio S se define como: A B = {x:/ x e A ó x e B}, el símbolo e significa que el elemento x pertenece al conjunto correspondiente e indica que el resultado puntual x ha ocurrido. A B significa que ocurre A, ocurre B u ocurren A y B. 8.4.2 INTERSECCIÓN.- La intersección de dos sucesos A y B en un espacio S se define como: A · B = AB = {x: x e A y x e B}, A · B significa que ocurren A y B conjunta o simultáneamente. Las operaciones de unión e intersección gozan de las propiedades de clausura, idempotencia, conmutación, asociación y se vinculan mediante la propiedad distributiva de la intersección respecto a la unión, es decir, A(BC)=AB AC. ¿Es igual A (BC) a (A B) ∩ (A C)? 8.4.3 COMPLEMENTO.- El Complemento del suceso A en el espacio S se define como la diferencia entre el conjunto S y el conjunto A:S-A = A C = A’ = A = {x: x e S y x e A} y significa que no ocurre A. ¿Qué propiedades cumple la diferencia de sucesos? ¿Que propiedades cumplen la unión, la intersección y el complemento cuando interviene el conjunto vacío | ? 8.4.4 Leyes de Morgan.- Observe que un conjunto cualquiera se puede expresar como la unión de dos conjuntos que son excluyentes. Esto es ( ) ( ) B A ' B A A · · = y ( ) ( ) | = · · · B A ' B A o sea que ( ) ' B A · y B A· son excluyentes. La anterior expresión evidencia las conocidas Leyes de Morgan. ( ) ' B ' A ' B A · = y ( ) ' B ' A ' B A = · Además ( ) A ' ' A = 8.5. Definición de probabilidad según las tres escuelas de pensamiento diferentes: la teoría clásica, la teoría de frecuencia relativa y la teoría subjetiva 8.5.1 La teoría clásica. Definición axiomática debida a Andrei Kolmogorov, 1903 a 1987, probabilista ruso. Sea S el espacio muestral asociado a un experimento aleatorio y sean S A i c para n .., , 2 , 1 i = eventos. DEFINICIÓN DE PROBABILIDAD CLÁSICA Probabilidad de un evento = # de resultados favorables # de resultados posibles DEFINICIÓN DE PROBABILIDAD CLÁSICA Probabilidad de un evento = # de resultados favorables # de resultados posibles Ejemplo 1: Se tiene el siguiente experimento aleatorio E: Lanzamiento de dos monedas al aire. a) ¿Calcule el espacio muestral? b) Sea el evento A: salga solo una cara. Plantee el evento A, utilizando conjunto c) ¿Cuál es la probabilidad de que salga 1 cara? Ejemplo 2.- Halle la probabilidad de sacar un “Rey” al extraer una carta de una baraja de 52 cartas. 8.5.2 La teoría de la Frecuencia relativa.- El concepto de frecuencia relativa se abstrae típicamente como un modelo aleatorio y es la anticipación del modelo formal de probabilidad. Se debe a Pierre Simón de Laplace, 1749 a 1827. Supónga que repetimos n veces un experimento aleatorio, sean A un evento asociado al experimento y al espacio S. Sean A n el número de veces en que ocurren A o sea el número de elementos del conjunto. Definimos la frecuencia relativa del evento A así: n n n n h A A A s s = 0 ; como n n 0 A s s entonces 1 n n 0 A s s o sea 0 ≤ h A ≤ 1 Ejemplo 1. Se tiene información acerca de los cargos y el sexo del personal de cierta empresa. Cuál es la probabilidad de que al seleccionar un trabajador éste sea: a) Contador y sea hombre b) Abogado y mujer c) Mujer d) Sabiendo que el trabajador es ingeniero. ¿Cuál es la probabilidad de que sea hombre? e) Sabiendo que el trabajador sea mujer. ¿Cuál es la probabilidad de que sea abogado? Sexo TOTAL Abogado Contador Ingeniero Hombres 10 5 6 Mujeres 15 4 7 TOTAL Solución.- a) b) c) d) e) En el caso de espacios muestrales finitos el valor de frecuencia relativa de un suceso coincidirá con su valor de probabilidad. Ejemplo 2. Localice todos los valores de probabilidad asociados a la siguiente tabla de Carrol que ofrece información sobre la hipertensión y el hábito de fumar. No fumadores Fumadores moderados Fumadores empedernidos Hipertensos 10 20 15 No hipertensos 30 15 10 a. Si se selecciona aleatoriamente uno de estos pacientes, encuentre la probabilidad de que la persona sea: i) Fumadora moderada: _________________________________________ ii) No hipertensa: _______________________________________________ iii) No hipertensa ni fumadora : _____________________________________ iv) Hipertensa y fumadora empedernida: _____________________________ v) Sabiendo que el paciente no fuma. ¿Cuál es la probabilidad de que sea hipertensa?___________________________________________________ vi) Sabiendo que el paciente es hipertenso. ¿Cuál es la probabilidad de que sea fumador empedernido? __________________________________________ 8.5.3 La teoría subjetiva. Se refiere a la posibilidad de que un evento particular ocurra, que es asignada por un individuo basándose en la información que tenga disponible y en su propia experiencia o presentimientos. Ejemplos de probabilidad subjetiva son las apuestas en eventos atléticos o deportivos o la estimación del futuro de una acción. 8.6. - AXIOMAS DE LA PROBABILIDAD.- A cada i A le asignaremos un número real ( ) i A P , denominada probabilidad de i A , que satisface los siguientes axiomas: 1) ( ) 1 A P 0 i s s 0 0.5 1 Sin probabilidad Tan probable Certeza de ocurrir como improbable de ocurrir 2) ( ) 1 S P = PROBABILIDAD DE EVENTOS PURAMENTE EXCLUYENTES. 3) Si 1 A excluye a 2 A entonces | = 2 1 A A ( ) ( ) ( ) 2 1 2 1 A P A P A A P + = Ejemplo: En el lanzamiento de un dado, cual es la probabilidad de que salga 4 ó 6? _____________________________________________________________________ Generalizando: Si los i A son mutuamente excluyentes, es decir | = · j i A A para todo n , .. , 2 , 1 j i = = entonces ( ) ¿ = = = | | . | \ | n 1 i i i n 1 i A P A P Observe que estas propiedades no dependen de cómo se calculen las probabilidades ( ) i A P Entendiéndose por mutuamente excluyentes, a que la ocurrencia de cualquiera de los eventos implica que ninguno de los otros puede ocurrir al mismo tiempo. Algunos ejemplos de experimentos de este tipo de probabilidad son el lanzar un dado o sacar una carta de una baraja al azar. 8.7. Propiedades de las probabilidades.- Propiedad 1. La probabilidad de un suceso imposible | es cero. En efecto A A = | ( ) ( ) A P A P = | como | = | · A A excluye a | entonces ( ) ( ) ( ) A P P A P = | + esto es ( ) 0 P = | Propiedad 2- Si S A c y A ó ' A es el evento complementario de A entonces P( ) = 1 - P(A) Veamos: A = S por lo tanto P(A ) = P(S) Como A excluye P(A) + P( ) = 1 entonces P( )=1 – P(A) Ejemplo: La probabilidad de que un alumno apruebe un curso es de 3/7. ¿Cuál es la probabilidad que no apruebe? _______________________________________________________ Propiedad 3. Probabilidad de elementos solapados | = B A La probabilidad de A U B, cuando la A ∩ B ≠ 0, entonces: ( ) ( ) ( ) ( ) B A P B P A P B A P · ÷ + = Ejemplo: Si se toma una sola carta de una baraja encuentre la probabilidad de que sea roja o figura (jota, reina y rey)? Propiedad 4. ( ) ( ) ( ) ( ) C P B P A P C B A P + + = ( ) ( ) ( ) C B P C A P B A P · ÷ · ÷ · ÷ ( ) C B A P · · + PROBABILIDAD DE EVENTOS INDEPENDIENTES Dos eventos son independientes si el resultado de uno no afecta al otro Propiedad 5.- Ley de la multiplicación.- P(A y B) = P(A ∩ B) = P (A). P (B) Ejemplo: La probabilidad de que un hombre viva dentro de 25 años es 3/5 y la probabilidad de que su esposa viva dentro de 25 años es 2/3. Halle la probabilidad de que: a) ambos vivan. b) Viva solamente el hombre c) Viva solamente la mujer d) Viva al menos uno de ellos. PROBABILIDAD CONDICIONAL.- Propiedad 6.- Sean A y B dos sucesos en S. Indicaremos con ( ) A B P la probabilidad condicional del suceso B, dado que A ha ocurrido, así: ( ) ( ) ( ) ( ) 1 A P 0 , A P B A P A B P s < · = Ejemplo 1.- En una población de pacientes hospitalizados, la probabilidad de que uno de ellos, elegidos aleatoriamente, tenga problemas cardiacos es de 0.35 La probabilidad de que un paciente sea fumador dado que sufre problemas cardiacos es de 0.86, ¿cual es la probabilidad de que el paciente elegido al azar de entre la población sea fumador y tenga problemas cardiacos? Ejemplo 2.- ¿Cuál es la probabilidad de que en el segundo lanzamiento de una moneda se obtenga cara, dado que el resultado del primero también fue cara? Solución.- Ejemplo 3.- Durante un estudio de accidentes automovilísticos la PNP, encontró que el 60% de los accidentes suceden de noche, 52% están relacionados con conductores alcohólicos y 37% se presentan de noche y con conductores ebrios. ¿Cuál es la probabilidad de que un accidente este relacionado con un conductor alcoholizado dado que sucedió de noche? Solución Ejemplo 4.- Consideremos el experimento aleatorio de elegir al azar dos artículos de un lote de 100 artículos donde se sabe que hay 20 defectuosos y 80 no defectuosos. Sean { } defectuoso es elegido artículo primer el A = B = {el segundo artículo elegido no es defectuoso} Calcule P(A), P (B) y P (B / A) Solución.- a) P (A) = P (B) = P (B / A) = Ejemplo 5.- Se lanzan dos dados normales y se anotan los pares x, y. a) Describa el espacio S b) Calcule ( ) ( ) ( ) ( ) B A P , B A P , B P , A P y ( ) A B P . Si ( ) { } ( ) { } y x : y , x B 10 y x : y , x A > = = + = Solución.- a) El espacio muestral S, será n(S) = . b) Calculando las probabilidades: b.1) n ( A ) = P ( A ) = b.2) n ( B ) = P ( B) = b.3) n ( A ∩ B ) = P (A ∩ B) = b.4) P (A/B) = b.5) P (B/A) = 8.8 Propiedades de la probabilidad condicional 1) ( ) 1 A B P 0 s s . 2) ( ) 1 A S P = . 8.9.- LA DISTRIBUCIÓN NORMAL O GAUSSIANA Las distribuciones de medias muestrales y proporciones de grandes muestras tienden a distribuirse normalmente, lo que tiene repercusiones importantes en el muestreo. La distribución normal fue “descubierta” por primera vez en el siglo XVIII. A esta distribución a veces se le conoce como distribución gausiana, en reconocimiento a las aportaciones de Karl Gauss (1777 – 1855) a la teoría matemática de la distribución normal. Distribución Normal de Probabilidad Se dice que la variable aleatoria X es continua cuando toma valores reales desde el -∞ < x< ∞ y se dice que se distribuye normalmente con media µ y variancia σ 2 X ~ N (µ, σ 2 ) Características: 1.- La curva normal tiene forma de campana. 2.- El área total bajo la curva normal es igual a 1. 3.- Es simétrica con respecto a la media de la distribución. 4.- Es mesokúrtica. 5.- Se extiende de - ∞ a + ∞ 6.- Cada distribución normal es especificada por su media µ y su desviación estándar σ. X ~ N (µ, σ2) ● La distribución normal se utiliza como modelo para variables como el peso, la ura, la calificación en un examen, etc., es decir, en variables cuya distribución es simétrica con respecto a un valor central (alrededor del cual toma valores con gran probabilidad) y apenas aparecen valores extremos. ● Si una variable aleatoria x tiene distribución normal suele representarse como N(µ,σ 2 ) donde µ, es la media o valor esperado de la variable y σ= σ x es la desviación típica de la variable, que son los dos parámetros que caracterizan la distribución normal. ● En la distribución normal, la mayoría de la probabilidad se concentra en la zona central. La Función de Probabilidad está dada por: ÷µ | | ÷ | o \ . = = µ o = ¬ ÷· s s · to 2 1 x 2 2 2 1 f(X x) N( , ) e x 2 ESTANDARIZACIÓN ÷ µ = o x z Luego, la variable Z ~ N (0,1) La Función de Probabilidad está dada por: ( ) ÷ = = = ¬ ÷· s s · t 2 z 2 1 f(Z z) N 0, 1 e z 2 Ejemplos. 1) Determine la probabilidad de cada una de las siguientes expresiones: a) P ( Z < 1.25 ) b) P ( Z< -2.28) c) P (Z < 0 ) d) P ( 0 < Z < 2.5 ) e) P ( -2.38 < Z < 0 ) f) P ( - 2.25 < Z < 2.25 ) g) P (1.55 < Z < 2.35) h ) P ( Z > 2.43 ) i) P ( z > - 1.25) j) P( -2.45 < z < -0.25) 2) En una población normalmente distribuida con media µ = 30 y variancia igual a 25 se pregunta: ¿Qué porcentaje del total de las observaciones estarán entre 20 y 35? 3) Se sabe que el peso medio de la población de un grupo de estudiantes es igual a 60 Kg., y su desviación estándar es igual a 3 kg. Determine la probabilidad de que el peso de un alumno este entre 55 y 65 Kg. 4) El peso de los atletas de pruebas de medio fondo sigue una distribución normal con media 64,3 kilos y desviación típica 2,3 kilos. Halle un intervalo centrado alrededor de la media que contenga: a) El 68,3% de la población. Solución.- b) El 95,5% de la población. Solución.- c) El 99,7% de la población: Solución.- DISTRIBUCIÓN NORMAL ESTÁNDAR normal 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0 0.5 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.5279 0.53188 0.53586 0.1 0.53983 0.5438 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535 0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409 0.3 0.61791 0.62172 0.62552 0.6293 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173 0.4 0.65542 0.6591 0.66276 0.6664 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793 0.5 0.69146 0.69497 0.69847 0.70194 0.7054 0.70884 0.71226 0.71566 0.71904 0.7224 0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.7549 0.7 0.75804 0.76115 0.76424 0.7673 0.77035 0.77337 0.77637 0.77935 0.7823 0.78524 0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327 0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891 1 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214 1.1 0.86433 0.8665 0.86864 0.87076 0.87286 0.87493 0.87698 0.879 0.881 0.88298 1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147 1.3 0.9032 0.9049 0.90658 0.90824 0.90988 0.91149 0.91308 0.91466 0.91621 0.91774 1.4 0.91924 0.92073 0.9222 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189 1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408 1.6 0.9452 0.9463 0.94738 0.94845 0.9495 0.95053 0.95154 0.95254 0.95352 0.95449 1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.9608 0.96164 0.96246 0.96327 1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062 1.9 0.97128 0.97193 0.97257 0.9732 0.97381 0.97441 0.975 0.97558 0.97615 0.9767 2 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.9803 0.98077 0.98124 0.98169 2.1 0.98214 0.98257 0.983 0.98341 0.98382 0.98422 0.98461 0.985 0.98537 0.98574 2.2 0.9861 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.9884 0.9887 0.98899 2.3 0.98928 0.98956 0.98983 0.9901 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158 2.4 0.9918 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361 2.5 0.99379 0.99396 0.99413 0.9943 0.99446 0.99461 0.99477 0.99492 0.99506 0.9952 2.6 0.99534 0.99547 0.9956 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643 2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.9972 0.99728 0.99736 2.8 0.99744 0.99752 0.9976 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807 2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861 3 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99896 0.999 3.1 0.99903 0.99906 0.9991 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929 3.2 0.99931 0.99934 0.99936 0.99938 0.9994 0.99942 0.99944 0.99946 0.99948 0.9995 3.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.9996 0.99961 0.99962 0.99964 0.99965 3.4 0.99966 0.99968 0.99969 0.9997 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976 3.5 0.99977 0.99978 0.99978 0.99979 0.9998 0.99981 0.99981 0.99982 0.99983 0.99983 3.6 0.99984 0.99985 0.99985 0.99986 0.99986 0.99987 0.99987 0.99988 0.99988 0.99989 3.7 0.99989 0.9999 0.9999 0.9999 0.99991 0.99991 0.99992 0.99992 0.99992 0.99992 3.8 0.99993 0.99993 0.99993 0.99994 0.99994 0.99994 0.99994 0.99995 0.99995 0.99995 3.9 0.99995 0.99995 0.99996 0.99996 0.99996 0.99996 0.99996 0.99996 0.99997 0.99997 4 0.99997 0.99997 0.99997 0.99997 0.99997 0.99997 0.99998 0.99998 0.99998 0.99998 DISTRIBUCIÓN NORMAL ESTÁNDAR normal 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 -4 0.00003 0.00003 0.00003 0.00003 0.00003 0.00003 0.00002 0.00002 0.00002 0.00002 -3.9 0.00005 0.00005 0.00004 0.00004 0.00004 0.00004 0.00004 0.00004 0.00003 0.00003 -3.8 0.00007 0.00007 0.00007 0.00006 0.00006 0.00006 0.00006 0.00005 0.00005 0.00005 -3.7 0.00011 0.0001 0.0001 0.0001 0.00009 0.00009 0.00008 0.00008 0.00008 0.00008 -3.6 0.00016 0.00015 0.00015 0.00014 0.00014 0.00013 0.00013 0.00012 0.00012 0.00011 -3.5 0.00023 0.00022 0.00022 0.00021 0.0002 0.00019 0.00019 0.00018 0.00017 0.00017 -3.4 0.00034 0.00032 0.00031 0.0003 0.00029 0.00028 0.00027 0.00026 0.00025 0.00024 -3.3 0.00048 0.00047 0.00045 0.00043 0.00042 0.0004 0.00039 0.00038 0.00036 0.00035 -3.2 0.00069 0.00066 0.00064 0.00062 0.0006 0.00058 0.00056 0.00054 0.00052 0.0005 -3.1 0.00097 0.00094 0.0009 0.00087 0.00084 0.00082 0.00079 0.00076 0.00074 0.00071 -3 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00104 0.001 -2.9 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139 -2.8 0.00256 0.00248 0.0024 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193 -2.7 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.0028 0.00272 0.00264 -2.6 0.00466 0.00453 0.0044 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357 -2.5 0.00621 0.00604 0.00587 0.0057 0.00554 0.00539 0.00523 0.00508 0.00494 0.0048 -2.4 0.0082 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639 -2.3 0.01072 0.01044 0.01017 0.0099 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842 -2.2 0.0139 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.0116 0.0113 0.01101 -2.1 0.01786 0.01743 0.017 0.01659 0.01618 0.01578 0.01539 0.015 0.01463 0.01426 -2 0.02275 0.02222 0.02169 0.02118 0.02068 0.02018 0.0197 0.01923 0.01876 0.01831 -1.9 0.02872 0.02807 0.02743 0.0268 0.02619 0.02559 0.025 0.02442 0.02385 0.0233 -1.8 0.03593 0.03515 0.03438 0.03362 0.03288 0.03216 0.03144 0.03074 0.03005 0.02938 -1.7 0.04457 0.04363 0.04272 0.04182 0.04093 0.04006 0.0392 0.03836 0.03754 0.03673 -1.6 0.0548 0.0537 0.05262 0.05155 0.0505 0.04947 0.04846 0.04746 0.04648 0.04551 -1.5 0.06681 0.06552 0.06426 0.06301 0.06178 0.06057 0.05938 0.05821 0.05705 0.05592 -1.4 0.08076 0.07927 0.0778 0.07636 0.07493 0.07353 0.07215 0.07078 0.06944 0.06811 -1.3 0.0968 0.0951 0.09342 0.09176 0.09012 0.08851 0.08692 0.08534 0.08379 0.08226 -1.2 0.11507 0.11314 0.11123 0.10935 0.10749 0.10565 0.10383 0.10204 0.10027 0.09853 -1.1 0.13567 0.1335 0.13136 0.12924 0.12714 0.12507 0.12302 0.121 0.119 0.11702 -1 0.15866 0.15625 0.15386 0.15151 0.14917 0.14686 0.14457 0.14231 0.14007 0.13786 -0.9 0.18406 0.18141 0.17879 0.17619 0.17361 0.17106 0.16853 0.16602 0.16354 0.16109 -0.8 0.21186 0.20897 0.20611 0.20327 0.20045 0.19766 0.19489 0.19215 0.18943 0.18673 -0.7 0.24196 0.23885 0.23576 0.2327 0.22965 0.22663 0.22363 0.22065 0.2177 0.21476 -0.6 0.27425 0.27093 0.26763 0.26435 0.26109 0.25785 0.25463 0.25143 0.24825 0.2451 -0.5 0.30854 0.30503 0.30153 0.29806 0.2946 0.29116 0.28774 0.28434 0.28096 0.2776 -0.4 0.34458 0.3409 0.33724 0.3336 0.32997 0.32636 0.32276 0.31918 0.31561 0.31207 -0.3 0.38209 0.37828 0.37448 0.3707 0.36693 0.36317 0.35942 0.35569 0.35197 0.34827 -0.2 0.42074 0.41683 0.41294 0.40905 0.40517 0.40129 0.39743 0.39358 0.38974 0.38591 -0.1 0.46017 0.4562 0.45224 0.44828 0.44433 0.44038 0.43644 0.43251 0.42858 0.42465 0 0.5 0.49601 0.49202 0.48803 0.48405 0.48006 0.47608 0.4721 0.46812 0.46414 Distribución t de Student Función de densidad de probabilidad: Parámetros grados de libertad (real) Dominio Media 0 para ν > 1, indefinida para otros valores Mediana 0 Moda 0 Varianza para ν > 2, indefinida para otros valores En probabilidad y estadística, la distribución-t o distribución t de Student es una ______________ de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es ____________. La distribución t surge, en la mayoría de los estudios estadísticos prácticos, cuando la _________________ típica de una población se ______________ y debe ser estimada a partir de los datos de una muestra. Aparición y especificaciones de la distribución t de Student Supongamos que X1, ..., Xn son variables aleatorias independientes distribuidas normalmente, con media μ y varianza σ2. Sea: la media muestral y la varianza muestral. Entonces, está demostrado que se distribuye según una normal de media 0 y varianza 1. Gosset estudió la expresión relacionada a los temas anteriores y produjo lo siguiente: La distribución de T se llama ahora la distribución-t. El parámetro ν se llama convencionalmente el número de grados ____________ (también conocida como r). La distribución depende de ν, pero no de μ o σ; la independencia de μ y σ es lo que hace a la distribución t tan importante en la teoría y en la práctica. Ejemplos: Encuentre k tal que P(k < t < -1.761) = 0.045, para una muestra aleatoria de tamaño 15 que se selecciona de una distribución normal. Solución: Si se busca en la tabla el valor de t =1.761 con 14 grados de libertad nos damos cuenta que a este valor le corresponde un área de 0.05 a la izquierda, por ser negativo el valor. Entonces si se resta 0.05 y 0.045 se tiene un valor de 0.005, que equivale a α. Luego se busca el valor de 0.005 en el primer renglón con 14 grados de libertad y se obtiene un valor de t = 2.977, pero como el valor de α está en el extremo izquierdo de la curva entonces la respuesta es t = -2.977 por lo tanto: P(-2.977 < t < -1.761) = 0.045 Ejemplo: Un ingeniero químico afirma que el rendimiento medio de la población de cierto proceso en lotes es 500 gramos por milímetro de materia prima. Para verificar esta afirmación toma una muestra de 25 lotes cada mes. Si el valor de t calculado cae entre –t0.05 y t0.05, queda satisfecho con su afirmación. ¿Qué conclusión extraería de una muestra que tiene una media de 518 gramos por milímetro y una desviación estándar de 40 gramos? Suponga que la distribución de rendimientos es aproximadamente normal. Solución: De la tabla encontramos que t0.05 para 24 grados de libertad es de 1.711. Por tanto, el fabricante queda satisfecho con esta afirmación si una muestra de 25 lotes rinde un valor t entre –1.711 y 1.711. Se procede a calcular el valor de t: Este es un valor muy por arriba de 1.711. Si se desea obtener la probabilidad de obtener un valor de t con 24 grados de libertad igual o mayor a 2.25 se busca en la tabla y es aproximadamente de 0.02. De aquí que es probable que el fabricante concluya que el proceso produce un mejor producto del que piensa. TABLA DE LA DISTRIBUCION t-Student La tabla da áreas 1 ÷ o y valores r t c , 1 o ÷ = , donde, o ÷ = s 1 ] [ c T P , y donde T tiene distribución t-Student con r grados de libertad.. 1 ÷ o r 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995 1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657 2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250 10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861 20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845 21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 60 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660 120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617 · 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576 EJERCICIOS DE APLICACIÓN N° 8.- 1.- En una universidad se realiza un estudio para determinar que relación existe, en cado de haberla, entre la habilidad matemática y el interés por las matemáticas. Se determinar la habilidad y el interés de 150 estudiantes, con los resultados siguientes: Interés Escaso Promedio Mucho Escasa 40 8 12 60 Promedio 15 17 18 50 Mucho 5 10 25 40 TOTAL 60 35 55 150 Si se escoge uno de los participantes en el estudio: a) ¿Cuál es la probabilidad de escoger a una persona que tenga escaso interés en las matemáticas? b) ¿Cuál es la probabilidad de seleccionar a una persona con habilidad promedio? c) Cual es la probabilidad de que una persona tenga mucha habilidad para las matemáticas dado que manifieste mucho interés por esa disciplina. d) ¿Cuál es la probabilidad de que la persona tenga mucho interés en las matemáticas dado que posee una habilidad promedio? e) ¿Cuál es la probabilidad de que tenga interés promedio y habilidad promedio? 2.- Dell Publishing tiene 75 títulos distintos de libros, clasificados por tipo y costo de la siguiente manera: Costo __________________________________________ Tipo US$10 US$15 US$20 Ficción 10 8 3 Biografías 12 10 9 Histórico 4 17 2 Halle la probabilidad de que un libro seleccionado aleatoriamente sea: a. Ficción o cueste US$10 b. Histórico y cueste US$20 c. Histórico y cueste o US$10 o US$15 d. Ficción y cueste menos de US$20 e. Biográfico o cueste US$15 f. Biográfico o cueste más de US$10 3.- Si se tira 4 monedas, una después de la otra. Halle el espacio muestral a) ¿Halle la probabilidad de que salga 2 caras? b) ¿Halle la probabilidad de que al menos salga 2 caras? c) ¿Halle la probabilidad de que a lo más salga 2 caras? 4.- Si se extrae dos cartas de una baraja. Hallar la probabilidad de que salgan 2 reyes. a) Con reemplazamiento b) Sin reemplazamiento 5.- Se arroja dos dados, 1 blanco y uno rojo Sea A: Obtención de un número mayor que 4 en el dado blanco. Sea B: obtener 1 número menor o igual que 3 en el dado rojo. a) Halle la P (A/B) b) Halle la P (B/A) 6.- La probabilidad de un niño nazca varón es aproximadamente ½. ¿Cuál de las siguientes secuencias de sexos es mas probable que ocurra en tres nacimientos? (sugerencia – utilice el diagrama en árbol) a) MMM b) VMM c) las dos son igual de probables. Donde: V – varón M – mujer 7.- Un estudiante realiza un test de admisión en cierta universidad. Aunque el estudiante desconoce el resultado del test, sospecha con probabilidad igual a 0,40 que superó el nivel de admisión. Por la experiencia pasada sabe que es admitido un 80 por 100 de los que superan la prueba y sólo un 5 por 100 de los que no lo han superado. Con esta nueva información, ¿cuál será ahórrala probabilidad que dicho estudiante tendrá acerca de la superación del nivel de admisión? 8.- La probabilidad de reventón de una rueda en cierta carretera es igual a 0.05; supuesto un reventó, la probabilidad de accidente es igual a 0.40. Sin reventó la probabilidad de accidente es igual a 0.15, considerado al azar uno de los accidentes ocurridos durante un mes, ¿cuál es la probabilidad de que dicho accidente haya sido a un reventón? 9.-Supongamos quince alumnos de Psicología de los cuales cuatro pertenecen a la Sección A, cinco a la B u seis a la C. Elegimos aleatoriamente dos de entre los quince. ¿Cuál es la probabilidad de que ambos pertenezcan a la Sección A? ¿Cuál la de que pertenezcan a la Sección B? ¿Cuál la de pertenezcan a la Sección C? 10.- En cierta ciudad el 50 por 100 son solteros, el 40 por 100 casados y el 10 por 100 viudos. Si en dos ocasiones distintas entrevistamos a la primera persona con la que nos encontramos, ¿cuál es la probabilidad de que ambas personas estén casadas? ¿Cuál la de que ninguna de las dos sea viuda? ¿Cuál la de que una de las dos esté y la otra soltera? 11.- Un grupo de nueve personas está compuesto de dos inglesas, tres francesas y cuatro italianas. Supuesto esto, a) Si elegimos dos personas aleatoriamente, ¿cuál es la probabilidad de que las dos sean italianas? b) Si elegimos tres personas aleatoriamente, ¿cuál es la probabilidad de que ninguna sea inglesa? 12.- ¿Cuál es la probabilidad de obtener una “cara” o más si lanzamos al aire una moneda tres veces consecutivas? ¿Cuál la de obtener dos o más “caras”? 13.- Tres cazadores disparan independientemente a un jabalí que, de hecho, ha sido herido mortalmente por una sola bala. Sabiendo que las probabilidades de que cada uno por separado alcanzara al jabalí son 0,20, 0,40 y 0,60 respectivamente. a) ¿Cuál es el espacio muestral? b) ¿Cuál es la probabilidad de que la bala mortífera haya sido disparada por el primero, por el segundo, por el tercero? 14.- Siendo P(A) = 0,60, P(B) = 0,50 Y P(A U B) = 0,90 calcule P ) ( __ B A· , P ) ( __ A B· , P (A/ _ _ B ), P (B/ _ _ A ) 15.- Siendo independientes A y B y siendo P(A) = 0,80 y P(B) = 0,30, calcule ) / ( ), / ( ), / ( ), / ( ), ( __ __ __ __ __ __ __ __ A B P B A P A B P B A P B A P · . 16.- El 70 por 100 de los estudiantes aprueba una asignatura A y un 60 por 100 aprueba otra siguiente B. Sabemos, además, que un 35 por 100 del total aprueba ambas. ¿Cuál es la probabilidad de que un estudiante elegido al azar apruebe la asignatura B, supuesto que ha aprobado la A? ¿La de que apruebe B, supuesto que no ha aprobado A? ¿La de que no apruebe B, supuesto que ha aprobado A? ¿la de que no apruebe B, supuesto que no ha aprobado A?. 17.- Tenemos cinco tarjetas marcadas respectivamente con las letras A, B, C, D y E. Las barajamos perfectamente y las vamos descubriendo unas tras otra (sin volver la carta una vez descubierta). ¿Cuál es la probabilidad de que aparezca precisamente según el orden A, B, C, D y E? Estadística Inferencial Estimación Tamaño de muestra Estimación Puntual Estimación de parámetros SESIÓN 10 Estadística inferencial: estimación puntual y por intervalo de los parámetros. Tamaño de muestra. 10.1.- INTRODUCCIÓN.- Uno de los propósitos de la estadística ____________ es estimar las características poblacionales desconocidas, examinando la información obtenida de una muestra, extraída de una población. El punto de interés es la _______________, la cual debe ser representativa de la población objeto de estudio. Se seguirán ciertos procedimientos de selección para asegurar de que las muestras reflejen observaciones a la población de la que proceden, ya que solo se pueden hacer observaciones probabilísticas sobre una población cuando se usan ______________ representativas de la misma. Una población está formada por ____________ las observaciones sobre las cuales se tiene el objeto de estudio. Una muestra es un _____________ de observaciones seleccionadas de una población. 10.2.-ESTIMACIÓN: El objetivo principal de la estadística inferencial es la _______________, esto es que mediante el estudio de una muestra de una ______________ se quiere generalizar las conclusiones al total de la misma. Como se notara, los estadísticos varían mucho dentro de sus distribuciones muestrales, y mientras menor sea el error ___________ de un estadístico, más cercanos serán unos de otros en relación a sus valores. Existen dos tipos de estimaciones para parámetros: a) Una estimación puntual.- Es aquel en el cual solo hay un UNICO estadístico y se usa para estimar un parámetro. Ejemplo: De una población de 120 sueldos de profesores de la universidad X, se toma una muestra de 40 sueldos, y se calcula el sueldo promedio. Supongamos que el sueldo promedio es: S/. 690.00 soles, y al momento de concluir el trabajo podemos decir, que el sueldo promedio de los profesores de la universidad X, tienen un sueldo promedio de S/. 690.00. Quiere decir que el promedio poblacional µ, se ha estimado puntualmente por x = S/. 690.00 soles. b) Una estimación por intervalo, es un rango de valores que se espera se encuentre un parámetro: Ejemplo. El sueldo promedio de los profesores en la Universidad X, se encuentran entre S/. 650.00 y S./ 720.00 soles Los parámetros mas usados son: b.1. _______________________ b.2 _______________________ b.3 _______________________ b.4 _______________________ Estimación por Intervalos Para calcular la estimación por intervalo o Intervalo de confianza (IC), en primer lugar se procede a: Seleccionar el nivel de confianza (grado de fiabilidad en el intervalo), 1-α y α nivel de error. Un nivel de confianza del 95%, implica que 95% de todas las muestras incluye al parámetro y solo un 5% de las muestras producirá un intervalo erróneo. Cuanto mayor es el nivel de confianza se estima que el valor del parámetro este dentro del intervalo. 10.3.- Estimación para la Media poblacional. Sabemos que: o µ ÷ = X Z Pero también, n σ µ - X Ζ = Como no conocemos el parámetro µ y lo queremos estimar por medio de la media de la muestra, sólo se despejará µ de la formula anterior, quedando lo siguiente: n σ Ζ X µ /2 α - 1 ± = De esta formula se puede observar que tanto el tamaño de la muestra como el valor de Z se conocerán. Z se puede obtener de la tabla de la distribución ________ a partir del nivel de confianza establecido. Pero en ocasiones la muestra es menor de 30 o se desconoce o por lo que en esos casos lo correcto es utilizar otra distribución llamada "t" de Student si la población de donde provienen los datos es normal. n s t X µ /2) α - 1;1 - (n ± = Donde S la desviación estándar de la muestra y t es la distribución de la t de Student con n – 1 grados de libertad y nivel de confianza igual a /2 - 1 o . Para el caso de tamaños de muestra grande se puede utilizar una estimación puntual de la desviación estándar, es decir igualar la desviación estándar de la muestra a la de la población (s= o ). El error de estimación de µ será la diferencia absoluta entre x y µ, es decir despejando: Error de estimación de µ= n σ Ζ X - µ /2 α - 1 = Ejemplos: 1°) Se encuentra que en una dieta la concentración promedio de vitaminas a partir de una muestra de 36 mediciones en sitios diferentes del hospital es de 2.6 gramos por mililitro. Suponga que la desviación estándar de la concentración de vitaminas es 0.3. a) Señale la estimación puntual para µ. b) Encuentre el intervalo de confianza al 95% para la concentración media de vitaminas en las dietas de dicho hospital. c) Halle el error de estimación de µ para la pregunta b. d) Encuentre el intervalo de confianza al 99% para la concentración media de vitaminas en las dietas de dicho hospital. e) Halle el error de estimación de µ para la pregunta d. Solución: a) La estimación puntual para µ es: X µ, es decir µ= 2.6 gr/ml b) IC para la media poblacional se calcula: n σ Ζ X µ /2 α - 1 ± = Reemplazando valores: c) El error de estimación de µ para la pregunta b. d) Calculando el Intervalo de confianza para la media µ a un nivel de confianza del 99% e.- Calcule el error de estimación de µ 2) Una empresa eléctrica fabrica focos que tienen una duración aproximadamente distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra de 32 focos tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de 96% para la media de la población de todos los focos que produce esta empresa así también halle el error de estimación. Solución: n σ Ζ X µ /2 α - 1 ± = 10.4.- Estimación de una Proporción Una proporción es una razón de una parte con respecto a un todo y que generalmente pertenecen a un experimento aleatorio de tipo binomial, es decir con solo dos posibles respuestas. Sabemos que: n pq p Z ÷ = t Como no conocemos el parámetro π y lo queremos estimar por medio de la proporción de la muestra, sólo se despejará π de la formula anterior, quedando lo siguiente: n pq Z p * 2 / 1 o t ÷ ± = Error de estimación de π p – π= 1 / 2 pq n o ÷ Z Ejemplos: 1) Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas amplias para evaluar la función eléctrica de su producto. Todos los reproductores de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los reproductores de discos compactos de la población que no pasan todas las pruebas. Solución: n=500 p = z(0.90) = Se sabe con un nivel de confianza del 90% que la proporción de discos defectuosos que no pasan la prueba en esa población está entre __________________ 2) En un estudio de 300 accidentes de automóvil en una ciudad específica, 60 tuvieron consecuencias fatales. Con base en esta muestra, construya un intervalo del 90% de confianza para aproximar la proporción de todos los accidentes automovilísticos que en esa ciudad tienen consecuencias fatales. Solución: P= Z(0.90) = EJERCICIOS DE APLICACIÓN Nº 10.- Una media: 1. Una máquina llena un determinado producto en bolsas cuyo peso medio es μ gramos. Suponga que la población de los pesos es normal con desviación estándar 20 gramos. Estime μ mediante un intervalo de confianza del 95%, si una muestra aleatoria de 36 bolsas ha dado una media de 495 gramos 2. Se decide estimar la media μ del nivel de ansiedad de todos los estudiantes preuniversitarios. Se supone que la población de los puntajes de la prueba para medir la ansiedad se distribuye normalmente con desviación están dar igual a 10 puntos. Determine el intervalo para μ con confianza del 95%, si una muestra aleatoria de tamaño 100 ha dado una media de 70 puntos. 3. El tiempo en, minutos que utilizan los clientes en sus distintas operaciones en un banco local es una variable aleatoria cuya distribución se supone normal con una desviación estándar de 3 minutos. Se han registrado los tiempos de las operaciones de 9 clientes del banco resultando una media igual a 9 minutos: Halle el nivel de confianza si la estimación de μ es el intervalo de 7 a 11 minutos. Calcule la probabilidad de que la media de los tiempos de todas las muestras de tamaño 9 esté entre 6.5 y 11.5 minutos. 4. Un fabricante afirma que el peso promedio de las latas de fruta en conserva que saca al mercado es 19 onzas. Para verificar esta afirmación se escogen al azar 20 latas de la fruta y se encuentra que el peso promedio es 18.5 onzas Suponga que la población de los pesos es normal con una desviación estándar de 2 onzas. 1 Utilizando un intervalo de confianza del 98% para μ, ¿se puede aceptar la afirmación del fabricante? 2 ¿Qué tamaño de muestra se debe escoger para estimar μ si se quiere un error no superior a 0.98 onzas con confianza del 95%? 5. Se quiere hacer una encuesta para estimar el tiempo promedio por semana que los niños ven televisión. Por estudios anteriores se sabe que la desviación estándar de dicho tiempo es de 3 horas. Con el nivel de confianza del 99%. ¿Qué tamaño de muestra se debería elegir si el error de la estimación puntual no es superior a media hora? 6. Un fabricante produce focos cuya duración tiene distribución normal. Si una muestra aleatoria de 9 focos da las siguientes vidas útiles en horas: 775, 780, 800, 795, 790, 785, 795, 780, 810 1 Estime la duración media de todos los focos del -fabricante mediante un intervalo de confianza del 95%. 2 Si la media poblacional se estima en 790 horas con una confianza del 98%, ¿cuánto es el error máximo de la estimación si se quiere una confianza del 98%? 7. El ingreso mensual de cada una de las 500 microempresas de servicios de una ciudad, es una variable aleatoria con media μ desconocida. Con el fin de simplificar la recaudación de impuestos, la Sunat ha dispuesto que a estas empresas se las grave mensualmente con un 10% de sus ingresos. De una muestra al azar de 50 microempresas se obtuvo un ingreso mensual promedio de $1000 con una desviación están dar de $80. 1 Estime el monto medio de los ingresos de las microempresas de la ciudad con un intervalo de confianza del 95% 2 Estime el monto promedio de la recaudación a estas microempresas con un intervalo de confianza del 95% 3 Si el propósito de la SUNAT es lograr mensualmente una recaudación total de al menos $52,000 a estas microempresas, ¿es factible que se cumplan sus metas?, ¿por qué? Una proporción: 8. En un estudio socioeconómico se tomó una muestra aleatoria de 100 comerciantes informales y se encontró entre otros datos los siguientes: un ingreso medio de $600, una desviación estándar de $50 y sólo el 30% tienen ingresos superiores a $800. 1 Estime la proporción de todos los comerciantes con ingresos superiores a $800, mediante un intervalo de confianza del 98%. 2 Si la proporción de todos los comerciantes con ingresos superiores a $800 se estima entre 20.06% y 39.94% , ¿qué grado de confianza se utilizó? 9. Una muestra aleatoria de 400 menores de 16 años revela que 220 consumen licor. Estime la proporción de menores de 16 años que consumen licor en toda la población mediante un intervalo de confianza del 99%. 10. Un fabricante estima en 5% la proporción de piezas defectuosos de los 5,000 producidos. Para confirmar tal estimación primero se debe escoger una muestra aleatoria, a) ¿cuántas piezas debe tener la muestra si se quiere tener una confianza del 95% que el error de la estimación no será superior a 0.047? b) Se escoge una muestra aleatoria del tamaño calculado en a), si en ella se encuentran 40 piezas defectuosos, mediante un intervalo de confianza del 95%, ¿se puede inferir que la estimación del fabricante es coherente con la estimación efectuada a partir de la muestra aleatoria? 11. La oficina de planificación familiar de cierta provincia quiere estimar el porcentaje de familias con más de 4 hijos. ¿Qué tamaño de muestra se requiere para asegurar con una confianza del 95% que el error de la estimación de tal porcentaje no sea superior a 0.05? Si en una muestra aleatoria de 385 familias se encuentra que 154 de ellas tienen más de 4 hijos. Estime el porcentaje de familias con más de 4 hijos en toda la provincia, mediante un intervalo de confianza del 98%. 12. Para estimar el porcentaje de todos los electores a favor de un candidato, una encuestadora debe determinar el tamaño" de la muestra aleatoria para escoger de una población de 10,000 electores, ¿qué tan grande debería ser la muestra si se quiere tener una confianza del 95% que el error de estimación no sea superior al4.8%? 13. Se probó una muestra aleatoria de 400 cinescopios de televisor y se encontraron 40 defectuosos. Estime el intervalo que contiene, con un coeficiente de confianza de 0.90, a la verdadera fracción de elementos defectuosos. MUESTREO Definición Tipos Selección de elementos de la muestra Ejercicios de aplicación M. ALEATORIO SIMPLE M. SISTEMÁTICO M. ESTRATIFICADO M. POR CONGLOMERADO SESIÓN 11 Muestreo: definición. Ventajas y desventajas, tipos de Muestreo Aleatorio, selección de elementos de la muestra y el uso de numero aleatorios. 11. MUESTREO 11.1 DEFINICIÓN.- Evaluar el comportamiento de una o varias características o variables de una población sería muy costoso, por lo que la estadística nos brinda procedimientos para seleccionar a una parte de esa población y analizarla de tal forma que sus características coincidan con la población. El muestreo es la selección de una parte representativa de la población que permita estimar los parámetros de la población. 11.2. VENTAJAS DEL EMPLEO DE MUESTRAS Hay muchas razones por las cuales el estudio de una muestra es preferible al de la totalidad de la población. Ante todo, es evidente que el estudio de muestras es el único practicable cuando se trata de poblaciones infinitas o de poblaciones limitadas pero muy extensas, pues ningún investigador sería capaz de estudiarlo en su totalidad. Lo mismo es valedero para aquellas investigaciones en las cuales el proceso de investigación destruye al individuo que se estudia, como en el caso en que se prueba la acción de ciertos venenos en animales de experimentación. Pero aún en el caso en que se quiera estudiar una población perfectamente limitada, debemos decidirnos por la muestra, pues su utilización tiene las siguientes ventajas: 1. Ahorra tiempo, dinero y trabajo. 2. Permite una mayor exactitud en el estudio, pues los errores debidos al observador, al objeto observado y al método de observación, pueden disminuir y controlarse más efectivamente. En efecto, como será menor el número de personas que intervengan en el estudio, será mucho más fácil conseguir buenos especialistas y entrenarlos uniformemente; como se necesitarán menos instrumentos de investigación, éstos podrán vigilarse y calibrarse más cuidadosamente. 11.3. DESVENTAJAS DEL EMPLEO DE MUESTRAS La única desventaja del uso de muestras es el llamado error de muestreo. Este error de muestreo es una consecuencia de la variabilidad de las poblaciones. Como los individuos de una población son muy variables, los diferentes grupos o muestras que podemos formar con ellas diferirán también unas de otras y como nosotros estudiamos una muestra para generalizar luego a toda la población, los resultados serán algo distintos según la muestra que hayamos escogido. Esta diferencia entre el valor dado por la muestra y el verdadero valor de la población, constituye el error por muestreo. Ejemplo: Supongamos que una población de 4 personas tienen un capital de S/. 5 000, S/. 7 000, S/. 6 000 y S/. 10 000 soles respectivamente. El capital promedio de esta población es 4 000 , 10 000 , 6 000 , 7 000 , 5 + + + = µ = S/. 7 000 Si no se conociera dicho promedio y para averiguarlo se tomara una muestra de dos personas, digamos los 2 primeros (5 000, 7 000), concluiríamos que el capital promedio de cada persona de la población es S/. 6,000, cuando en realidad vemos que fue S/. 7 000, esta diferencia de S/. 1 000 entre el valor de la muestra y el valor de la población constituye el error por muestreo. La presencia del error por muestreo parecería indicar que el estudiar una muestra en vez de la población, es desfavorable y no ventajosa como hemos indicado. Sin embargo, conviene tener presente: 1.- En primer lugar, que el error por muestreo suele ser mucho menos importante que los errores debidos al observador, al método de observación y a los individuos estudiados, y 2.- En segundo lugar, que el error por muestreo puede medirse estadísticamente y en cierto modo, puede disminuirse a voluntad, tan solo con aumentar el tamaño de la muestra. 11.4 TIPOS DE MUESTRAS.- 11.4.1 MUESTRAS NO PROBABILISTICAS Entran en esta categoría todas aquellas muestras en las cuales, los individuos se escogen en base a la opinión personal. La persona que selecciona los elementos de la muestra, usualmente es un experto en la materia dada. Una muestra de opinión es llamada una muestra no probabilística, puesto que este método está basado en los puntos de vista subjetivos de una persona y la teoría de probabilidad no puede ser usada para medir el error por muestreo. 11.4.2. MUESTRAS PROBABILÍSTICAS.- Son aquellas en que cada individuo de la población tiene una probabilidad perfectamente conocida de ser incluida en la muestra. No es ni siquiera necesario que los diferentes individuos tengan un igual chance de pertenecer a la muestra, basta con que tengan cualquier posibilidad (diferente de cero) de formar parte de ella y que esa probabilidad sea conocida. La elección de una muestra probabilística requiere 2 condiciones fundamentales: Primero.- Es esencial que la probabilidad de elegir cada individuo sea perfectamente conocida, pues si no lo es, no será posible calcular errores que puedan cometerse al hacer su selección. Segundo.- Es indispensable que los individuos se elijan al azar, sin permitir la intervención de ningún factor que favorezca la elección de unos en detrimento de los otros. Existen cuatro formas de tomar una muestra probabilística: Muestreo Aleatorio Simple En este caso cada observación tiene la misma probabilidad de ser seleccionada. Ejemplo: para seleccionar al amigo secreto en la navidad, todos ponen su nombre en un papelito, lo introducen dentro de una bolsa, y luego cogen uno al azar. También puede simplificarse el método de selección empleando la tabla de números aleatorios y un computador. Muestreo Sistemático Se selecciona una muestra tomando k-ésima unidad de la población una vez que todos los elementos de la población están numerados a arreglados en una lista. Entonces si se va a seleccionar una muestra de 40 unidades a partir de una población de 1000 unidades, la muestra se obtiene tomando cada 25 – ésima (1000 /40 ) unidad de la población. Puede utilizarse el procedimiento de la urna para determinar con cual de las primeras 25 unidades se deben empezar. Muestreo Estratificado Selección aleatoria en estratos de diferente tamaño de acuerdo a su peso relativo. Ejemplo: se desea asistir a una visita en una empresa y que se beneficien los alumnos de todas las escuelas de la UCV. Por especialidad, el número de alumnos difieren entre ellos, por lo tanto debo tomar una muestra que refleje el peso relativo de cada especialidad. Muestreo por Conglomerado Permite dividir la población en grupos y seleccionar una muestra de estos conglomerados. El muestreo por conglomerado es diferente del muestreo estratificado, pues las diferencias entre los conglomerados son generalmente pequeñas, pero las diferencias entre las unidades dentro de cada conglomerado en general son mayores. EJ ERCICIOS DE APLICACIÓN N° 11.- 1.- El presidente de una fraternidad en el campus universitario desea tomar una muestra de las opiniones de 112 miembros respecto a las actividades urgentes para el otoño b. ¿cuál es la población? _________________________________________________________ c. ¿Cuál es la mejor forma en qué debe tomarse la muestra? _________________________________________________________ 2.- Se desea realizar una evaluación de los principales problemas detectados en el campus universitario: i. Congestionamiento en los ascensores ii. Pérdida de objetos personales iii. Rendimiento de los alumnos. iv. Vocación profesional. Identifique la población y el tipo de muestreo que aplicaría. ¿Por qué? responda en cada caso i) Población: ___________________________________________________ Tipo de muestreo: _____________________________________________ Porque: ____________________________________________________ ____________________________________________________________ ii) Población: ___________________________________________________ Tipo de muestreo: _____________________________________________ Porque: ____________________________________________________ ___________________________________________________________ iii) Población: ___________________________________________________ Tipo de muestreo: _____________________________________________ Porque: ____________________________________________________ ___________________________________________________________ iv) Población: ___________________________________________________ Tipo de muestreo: _____________________________________________ Porque: ____________________________________________________ ___________________________________________________________ 3.- El censo del 2007 se muestra que en Jauja el 11.5% de los residentes tienen más de 60 años. Para verificar un sistema de muestreo por teléfono se llaman a 200 residencias elegidas al azar. De los residentes contactados, 10.2% tenían más de 60 años. a) ¿11.5% es un parámetro o una estadística? b) ¿10.2% es un parámetro o una estadística? 4. En el año 2006 la Universidad Cesar Vallejo tiene 5 453 estudiantes, en la tabla se muestra un detalle de la composición. Necesitamos una muestra de tamaño n=20 de la población de estudiantes. Mujeres Hombres Total Pregrado 2461 2848 5309 Postgrado 67 77 144 Total 2528 2925 5453 Elija muestras de tamaño 20 para 2 tipos de muestreo: (en cada alternativa use la tabla aleatoria, empiece en la fila 3 y columna 4) a) Muestreo aleatorio simple b) Muestreo estratificado por género 5. Supongamos que necesitamos seleccionar a 4 integrantes del programa de televisión "Gana con la Estadística" de Abril del 2008. Calcule muestras de tamaño n=4 usando los distintos diseños muestrales (muestreo aleatorio simple y muestreo estratificado). En cada alternativa, use la tabla de números aleatorios, empiece en la fila 3 columna 3. Mujeres Hombres Giovanna Santos Gianina Ramos Jorge Molina Nelson Pachas Bárbara Ascue Pam Lozano Leandro Martínez Joel Mauri Dany Bellido Jimena Pereira Lia Gutierrez Carolina Soto Maura Rivera Dario Juarez Maria Sobarzo Rosa Díaz 6. Suponga que nuestra población de interés es el comité de estudiantes de la UCV para efectos de colaboración con la universidad en agosto del 2008. Juan Pérez, Miguel Cornejo, Juana Olivares, Lucia Galán, Edwin Manrique, Angélica Mariño, Carlos Enciso, Julia Salinas, Manuela Enrico, Sonia Oquendo, Ángel Bravo, Luis Alba, Abel Vivar, Carla Espinosa, Marcelo Oyarte, Elba Aguilar, Ernesto Aguirre, Francisco Alama. (En cada alternativa use la tabla aleatoria, empiece en la fila 4 y columna 2) a) Si nos interesa estudiar la proporción de mujeres en esta población. Elija una muestra aleatoria simple de tamaño n=4 de esta población. b) Indique cuál es el parámetro y el estadístico en (a) c) Elija una muestra estratificada por sexo de tamaño n=4 de esta población 7. La Facultad de Administración de la Universidad Cesar Vallejo, quiere saber acerca del ingreso promedio de sus estudiantes y para esto envía cartas a todos los Estudiantes desde su ingreso a la Universidad en el año 2006. En la Encuesta había sólo una pregunta: ¿Cuál es el ingreso promedio en su hogar? Aproximadamente 30% de los alumnos respondieron. Comente los posibles sesgos acerca del salario promedio de los estudiantes de Administración. ¿Cómo debe ser el ingreso promedio entre los que respondieron y los que no respondieron? 8. El titular de un diario dice: “Encuesta señala que aumentó el porcentaje de gente que chatea en el trabajo”. El artículo dio la siguiente información: “Se encuestaron al azar 227 personas que llamaron a la línea abierta 800-CHAT durante 6 semanas entre Febrero y Marzo. 92% de los que llamaron dijeron haber chateado alguna vez mientras trabajaban”. a) ¿Qué clase de muestreo se usó? b) ¿Cuál piensa usted que fue la población de la cual fue elegida esta muestra? c) ¿Piensa usted que el titular es correcto? 9. Una organización estudiantil quiere saber si a los estudiantes le interesa cambiar el horario de atención de la biblioteca. Selecciona al azar 100 estudiantes de primer año, 100 de segundo, y 100 estudiantes que egresarán este año. ¿Qué tipo de diseño muestral es éste? 10. Un profesor quiere investigar sobre el tiempo diario de estudio de 20 estudiantes de una clase Nombre Número de horas Nombre Número de horas Juan 2,3 María 2,9 Alicia 1,9 Fernanda 0,7 Pedro 2,0 Julio 0,8 Marcos 1,5 Rosa 1,0 Alberto 1,7 Fabián 1,3 Jorge 2,2 Ana 2,8 José 1,8 Laura 0,8 Carlos 1,9 Enrique 0,9 Miguel 1,9 Carmen 1,1 Victoria 1,6 Marcelo 1,2 En cada alternativa, use la tabla de números aleatorios, empiece en la fila 1 columna 1 y continúe seleccionando hacia la derecha. a) Elija una muestra aleatoria simple de tamaño n=4 de esta población. b) Calcule el Parámetro y el Estadístico en (a). c) Elija una muestra estratificada de tamaño n=4 por sexo de esta población d) Calcule el estadístico en (c) 11. Una compañía de marketing saca una muestra de la guía de teléfonos tomando 10 personas cuyos apellidos comiencen con letra A, 10 personas cuyos apellidos comiencen con la letra B, y así sucesivamente con cada letra del alfabeto, para una muestra total de 260 personas. a) ¿Qué clase de diseño muestral se usó aquí? b) ¿Tienen todos los que están en la guía de teléfonos igual probabilidad de ser elegidos en la muestra? c) No todos los residentes de la ciudad tiene teléfono, ¿qué clase de sesgo va a provocar este hecho? d) Se sabe que la distribución de la primera letra del apellido varía por etnicidad ¿Qué clase de sesgo va a provocar este hecho? TAMAÑO DE LA MUESTRA Para determinar el tamaño de muestra a partir de una población debemos tener en cuenta los conceptos de algunos términos que hemos desarrollado a través de las sesiones del presente modulo y del curso de estadística como: a) Tipo de muestreo: b) Parámetro a estimar: c) Error muestral admisible: d) Varianza poblacional: e) Nivel de confianza. Tamaño de muestra para estimar la media de la población Para determinar el tamaño de una muestra empleando el muestreo aleatorio simple es necesario partir de dos supuestos: en primer lugar el nivel de confianza al que queremos trabajar (Z); en segundo lugar, cual es el error máximo (e) que estamos dispuestos a admitir en nuestra estimación. La fórmula a utilizar para determinar el tamaño de muestra a partir de una población infinita o cuando se desconozca el tamaño de la población: 2 2 2 Z σ n e · = En caso de conocer de tamaño de la población n n n 1 N · · = + Ejercicios 1.- Un biólogo quiere estimar el peso promedio de los ciervos cazados en cierta región. Un estudio anterior de diez ciervos cazados mostró que la desviación estándar de sus pesos es de 12.2 libras. ¿Qué tan grande debe ser una muestra para que el biólogo tenga el 95% de confianza de que el error de estimación es a lo más de 4 libras? 2.- Una empresa eléctrica fabrica focos que tienen una duración aproximadamente normal con una desviación estándar de 40 horas. a) ¿De qué tamaño se necesita una muestra si se desea tener 96% de confianza que la media real esté dentro de 10 horas de la media real? b) ¿Qué pasaría si en lugar de tener un error de estimación de 10 horas sólo se requiere un error de 5 horas? c) Suponga que se tiene una población de 300 focos, y se desea saber de que tamaño debe de ser la muestra. Comente sus resultados a) b) c) Tamaño de muestra para estimar la proporción de la población El cálculo del tamaño de muestra para estimar la proporción de una población empleando el muestreo aleatorio simple tendremos en cuenta los mismos conceptos que en el caso de la media. La fórmula a utilizar para determinar el tamaño muestral cuando se desconozca el tamaño de la población es: 2 2 Z p(1 p) n e · ÷ = En caso de conocer de tamaño de la población 2 2 NZp(1 p) n e N Z p(1 p) ÷ = + ÷ Z : correspondiente al nivel de confianza elegido p: proporción de una categoría de la variable e: error máximo N: tamaño de la población Ejercicios 1.- En una muestra aleatoria de 500 familias que tienen televisores en la ciudad de Lima, se encuentra que 340 están suscritas a HBO. ¿Qué tan grande se requiere que sea una muestra si se quiere tener 95% de confianza de que la estimación de π esté dentro de 0.02? 2.- Una legisladora estatal desea encuestar a los residentes de su distrito para conocer qué proporción del electorado conoce la opinión de ella, respecto al uso de fondos estatales para pagar abortos. ¿Qué tamaño de muestra se necesita si se requiere un confianza del 95% y un error máximo de estimación de 0.10? 3.- ¿A cuántas familias tendríamos que estudiar para conocer la preferencia del mercado en cuanto a las marcas de shampoo para bebé, si se conoce que el número de familias con bebés en el sector de interés es de 15,000? 4.- ¿Cómo hubiera cambiando el ejemplo anterior, si se desconoce la proporción esperada? HIPÓTESIS ESTADÍSTICA REALIZACIÓN DE UNA HIPÓTESIS TIPOS DE HIPÓTESIS PRUEBAS DE HIPÓTESIS TIPOS DE PRUEBAS DE HIPÓTESIS TIPOS DE EROR REGLA DE DECISIÓN Hipótesis simple Hipótesis compuesta Hipótesis nula Hipótesis alternativa Prueba bilateral o de dos colas Prueba unilateral de cola a la derecha Prueba unilateral de cola a la izquierda Error tipo I Error tipo II SESIÓN 12 Prueba de hipótesis sobre la media poblacional y la proporción poblacional. 12.1. Introducción En los trabajos de investigación se plantean dos hipótesis mutuamente excluyentes: La hipótesis nula (Ho) y La hipótesis de investigación (Hi) El análisis estadístico de los datos servirá para determinar si se rechaza o no se rechaza la hipótesis de nulidad. Cuando se rechaza la hipótesis nula, significa que el factor estudiado ha influido significativamente en los resultados y es información relevante para apoyar la hipótesis de investigación planteada. Es muy importante tener presente que la hipótesis de investigación debe coincidir con la hipótesis alternativa. Plantear hipótesis de investigación que coincidan con la hipótesis de nulidad supondría una aplicación incorrecta del razonamiento estadístico. El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del parámetro. 12.2 Hipótesis estadísticas Definición. Se denomina hipótesis estadística, a cualquier afirmación, supuesto o conjetura que se hace acerca de la distribución de una o más poblaciones. Las hipótesis estadísticas consisten en suponer que los parámetros, que definen a la población, toman determinados valores numéricos. Por ejemplo, son hipótesis estadísticas: 1. La longitud media de un tipo de objetos es 10 centímetros. 2. La proporción de objetos defectuosos producidos por cierto proceso nunca es superior al 8%. 3. La varianza de la longitud de cierto tipo de objetos es 0.25 cm 2 . 4. Son iguales las medias de dos tipos de mediciones independientes X e Y que se distribuyen normalmente con varianza común σ 2 Más ejemplos: 5. _______________________________________________________________ 6. _______________________________________________________________ 7. _______________________________________________________________ 12.3.- Hipótesis simple y compuesta Definición. Se denomina hipótesis _____________ a cualquier hipótesis estadística que especifica completamente la distribución de la población, es decir, ____________ la forma de la distribución y el valor de su(s) parámetro(s). Si una hipótesis no ________________ completamente la distribución de la población se dice que es una _____________ compuesta. Por ejemplo: La hipótesis que establece que el ingreso mensual promedio de los empleados de cierta ciudad es μ = $500, suponiendo que los ingresos mensuales se distribuyen según la normal con desviación ____________ conocida σ = $30, es una hipótesis simple, pues, especifica completamente la _______________ de la población. En cambio, si se supone que los ingresos mensuales se distribuyen según la _____________ con desviación estándar conocida σ = $30 y se afirma que el ingreso promedio mensual es: μ ≠ 500 ó μ < 500 ó μ > 500, entonces la ________________ referente a la media es una hipótesis ______________, pues, no especifica la media de la distribución de la población de los ingresos. 12.4.- Hipótesis nula y alternativa Definición. Se denomina ___________________ y se representa por H 0 a la hipótesis que es aceptada provisionalmente como ______________ y cuya validez será sometida a comprobación experimental. Los resultados experimentales nos permitirán seguir aceptándola como verdadera o si, por el contrario, debemos rechazarla como tal. Toda hipótesis nula va acompañada de otra hipótesis _________________. Se denomina ______________ alternativa y se representa por H 1 o por H A a la hipótesis que se acepta en caso de que la hipótesis nula H 0 sea ______________. La hipótesis alternativa H 1 , es pues una suposición ________________ a la hipótesis nula. Por ejemplo, si se asume que θ 0 es un valor del parámetro desconocido θ de una población cuya distribución se supone conocida, entonces son hipótesis nulas y alternativas respectivamente las siguientes afirmaciones: H o : θ = θ 0 , y H 1 : θ ≠ θ 0 H o : θ ≤ θ 0 , y H 1 : θ > θ 0 H o : θ ≥ θ 0 , y H 1 : θ < θ 0 12.5.- Prueba de una hipótesis estadística Para tomar decisiones estadísticas, se requieren de las dos hipótesis: la hipótesis nula y la hipótesis alternativa referida a un ________________ θ. La prueba de una hipótesis estadística es un proceso que nos conduce a tomar la decisión de _________________ o rechazar la hipótesis nula H 0 en contraposición de la ________________ H 1 y en base a los resultados de una muestra aleatoria seleccionada de la población en estudio. La aceptación de una hipótesis significa que los datos de la muestra no proporciona evidencia suficiente para refutarla. El rechazo significa que los datos de la muestra lo _________________. a) Tipos de pruebas de hipótesis El tipo de prueba depende básicamente de la _________________ H 1 . Se denomina ___________________ de una cola a toda prueba de hipótesis donde la alternativa H1 es unilateral. Si la alternativa es _______________, la prueba se denomina prueba de dos colas; luego, para un parámetro θ = X se tiene que: La prueba de hipótesis H o : θ = θ 0 contra H 1 : θ ≠ θ se denomina prueba bilateral o de dos colas. La prueba de hipótesis H o : θ = θ 0 contra H I : θ > θ 0 se denomina prueba unilateral de cola a la derecha. La prueba de hipótesis H o : θ = θ 0 contra H 1 : θ < θ 0 se denomina prueba unilateral de cola a la izquierda. b) Errores tipo I y tipo II, y Nivel de significación Al tomar la decisión de aceptar o rechazar la hipótesis nula H o: θ = θ 0 en base a los resultados obtenidos de una muestra aleatoria seleccionada de la población en estudio; hay cuatro posibles situaciones que determinan si la decisión tomada es correcta o incorrecta, como se muestra en la tabla: DECISIÓN H 0 VERDADERA H 0 FALSA RECHAZAR H 0 ERROR TIPO I Probabilidad: α DECISIÓN CORRECTA Probabilidad: 1- β ACEPTAR H 0 DECISIÓN CORRECTA Probabilidad: 1- α ERROR TIPO II Probabilidad: β El nivel de significación se fija previamente por lo general en α = 0.05 o α = 0.01. Si para un valor dado de α, se rechaza la hipótesis H o entonces se dice que los resultados muestrales obtenidos, no sólo son diferentes por efectos del azar, si no que se espera que de 100 resultados muestrales en α x 100% de las veces se rechazará la hipótesis nula H o cuando realmente es verdadera. c) Región crítica y regla de decisión La regla de decisión implica la división de la distribución muestral del estadístico Φ de la prueba en dos partes mutuamente excluyentes: la región de rechazo o región crítica (R.C.) de H0, y la región de aceptación (R.A.) o no rechazo de H 0 . Esta decisión depende de la hipótesis alternativa H 1 , del nivel de significación α y de la distribución muestral del estadístico 12.6.- Procedimiento de la prueba de hipótesis Previamente debe formularse el problema estadístico, determinar la variable en estudio y el método estadístico adecuado para la solución del problema. El procedimiento general de la prueba de una hipótesis de parámetro θ se resume en los siguientes pasos: 1. Formular la hipótesis nula Ho : θ = θ 0 y la hipótesis alternativa adecuada: H 1 : θ ≠ θ 0 o H 1 : θ > θ 0 o H 1 : θ < θ 0 2. Especificar el tamaño a del nivel de significación. 3. Seleccionar la estadística apropiada a usar en la prueba. 4. Establecer la regla de decisión, determinando la región crítica de la prueba. 5. Calcular el valor del estadístico de la prueba a partir de los datos de la muestra. 6. Tomar la decisión de rechazar la hipótesis Ho si el valor del estadístico de la prueba está en la región crítica. En caso contrario, no rechazar Ho. PRUEBA DE HIPOTESIS ACERCA DE LA MEDIA μ EJEMPLOS: 1) Una muestra aleatoria de 100 muertes registradas en el Perú el año pasado muestra una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años, ¿esto parece indicar que la vida media hoy en día es mayor que 70 años? Utilice un nivel de significancia de 0.05 Solución: Se trata de una distribución muestral de medias con desviación estándar conocida. Datos: =70 años = 8.9 años = 71.8 años n = 100 = 0.05 1°) Ensayo de hipótesis H o ; H 1 ; 2°) 3°) 4°) 5°) Calcule el estadístico de prueba. 6°) Regla de decisión y conclusión: 2) Una empresa eléctrica fabrica focos que tienen una duración que se distribuye de forma aproximadamente normal con una media de 800 horas y una desviación estándar de 40 horas. Si una muestra aleatoria de 40 focos tiene una duración promedio de 788 horas, ¿muestran los datos suficiente evidencia para decir que la duración media ha cambiado? Utilice un nivel de significancia del 0.04. Solución: Se trata de una distribución muestral de medias con desviación estándar conocida. Datos: =800 horas = 40 horas = 788 horas n = 40 = 0.04 1°) Ensayo de hipótesis H o ; H 1 ; 2°) 3°) 4°) 5°) 6°) Conclusión 3) Una muestra aleatoria de 64 bolsas de palomitas de maíz pesan, en promedio 5.23 onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis de que ___= 5.5 onzas contra al hipótesis alternativa, < 5.5 onzas en el nivel de significancia de 0.05. Solución: Se trata de una distribución muestral de medias con desviación estándar desconocida, pero como el tamaño de muestra es mayor a 30 se puede tomar la desviación muestral como un estimador puntual para la poblacional. Datos: = = = n = 1°) Ensayo de hipótesis H o ; H 1 ; 2°) 3°) 4°) 5°) 6°) Regla de decisión: Conclusión PRUEBA DE HIPÓTESIS ACERCA DE LA PROPORCIÓN π 1) Un constructor afirma que se instalan bombas de calor en 70% de todas las casas que se construyen hoy en día en la ciudad de Richmond. ¿Estaría de acuerdo con esta afirmación si una investigación de casas nuevas en esta ciudad muestra que 35 de 55 tienen instaladas bombas de calor? Utilice un nivel de significancia de 0.10. Solución: Se trata de una distribución muestral de proporciones. Datos: π = 0.70 p = 35/55 = n = 20 = 0.10 1°) Planteamiento de hipótesis H o ; H 1 ; 2°) 3°) 4°) 5°) 6°) Conclusión EJERCICIOS DE APLICACIÓN N° 12 PRUEBA DE HIPÓTESIS PARA LA MEDIA Y LA PROPORCIÓN Una media: l. Un productor de cápsulas de uña de gato afirma que la demanda promedio de su producto en el mercado es de 1000 cápsulas diarias. Sin embargo, un estudio de la demanda de su producto en 36 días aleatorios da una media y una desviación estándar de 850 y 360 cápsulas diarias respectivamente. ¿es esto suficiente evidencia para contradecir la afirmación de este productor? Utilice el nivel de significación α = 3%. 2. La duración de cierta marca de baterías es una variable aleatoria cuya distribución se supone normal. Se estima que su duración media es de 500 horas y que el 95% del total duran entre 480.4 y 519.6 horas. Si en una muestra aleatoria de 9 de tales baterías con una desviación estándar de 16 horas se encuentra que la duración media es 495 horas, ¿es esto evidencia para concluir al nivel de significación del 5% que la duración media de todas esas baterías es diferente de 500 horas? 3. Se afirma que los fumadores adultos del país consumen en promedio al menos 10 cigarrillos por día. Para comprobar esta afirmación, se escoge una muestra aleatoria de 36 fumadores adultos y se observa X i el número de cigarrillos que fuman por día, resultando: 36 1 324 i i X = = ¿ y 36 2 1 3231 i i X = = ¿ Utilizando α =0.01, ¿Parecería esto indicar que el promedio del consumo es menor que 10? 4. Cierta prueba de ingreso universitario tiene una media de 200 puntos y una desviación estándar de 50 puntos. Si para comprobar el valor de la media se utiliza la región crítica RC= (X < 190} donde X es la media de muestras de tamaño 100, ¿Con qué probabilidad se rechaza H o: u = 200 si es verdadera? 5. Se afirma que el peso de los alumnos varones de la universidad tiene una media de 68 kg. Y una desviación estándar de 3.6 kg. Si para verificar u = 68 se utiliza la región crítica RC = {X < 67 o X> 69} donde X es la media de muestras de tamaño 64, ¿En qué porcentaje de casos esta región crítica no detecta una diferencia igual a 2 kg. en el promedio de los pesos y por encima de 68 kg.? 6. Se cree que el tiempo promedio que utilizan los alumnos del ciclo básico para realizar cierta prueba de aptitud tiene distribución normal cuya media es 15 minutos. Para comprobar la hipótesis respecto a la media se toma una muestra aleatoria de 16 de tales alumnos y se encuentra un promedio de 16 minutos. Realice una prueba con el nivel de significación α =0.05, si sabe que σ =3.2 7. Cierta prueba de inteligencia para estudiantes preuniversitarios tiene una media de 100 puntos. Para verificar el valor de la media se aplicó la prueba a una muestra aleatoria de 36 estudiantes preuniversitarios dando una media de 90 puntos y una desviación estándar de 30 puntos. Si α = 0.01, ¿cuál es la probabilidad de rechazar en forma acertada que el promedio de la prueba es 100 puntos cuando realmente es 80 puntos? 8. Un consumidor afirma que el nuevo hilo sintético que produce la empresa "HILOS" tiene una resistencia media a la ruptura no mayor de 15 kilogramos. Para verificar si el consumidor tiene razón el fabricante escogió una muestra de 36 de tales hilos encontró una media y una desviación estándar de resistencia a la ruptura de 16 y 3 kg. respectivamente. Utilizando α = 0.05. a) Comparando el nivel de significación a=O.05 con P = P{X > 16], ¿se acepta la hipótesis del consumidor? b) Halle el porcentaje de las veces en que tal muestra nos lleva a rechazar en forma acertada que la resistencia media a la ruptura es igual a 15 kg. cuando realmente es igual a 2 kg. por encima de ello. 9. El gerente de ventas de una compañía afirma que sus vendedores venden semanalmente en promedio $1,500. a) Al nivel de significación del 5% pruebe la hipótesis del gerente versus la hipótesis del presidente de los vendedores que afirma que el promedio de las ventas semanales es mayor, si una muestra de 36 vendedores ha dado una media igual a $1510 y una varianza igual a 900$ 2 en una semana. b) ¿Con qué probabilidad la prueba anterior no detecta la diferencia igual a 20$ diarios en el promedio de ventas por día y por encima de lo que se indica en la hipótesis nula? 10. Los sacos de café que recibe un exportador deben tener un peso promedio de 100 kilogramos. Un inspector tomó una muestra de 50 sacos de un lote de 500 sacos de café encontrando una media de 98 Kg. Y una desviación estándar de 3 Kg. Con α =0.02. a) ¿Es razonable que el exportador rechace el lote de sacos de café? b) ¿Con qué probabilidad esta prueba de hipótesis detecta la diferencia igual a 2 Kg. en el peso promedio del lote y por debajo de ·10 que se requiere para exportar? 11. Un fabricante está considerando la adquisición de un nuevo equipo para enlatar conservas de palmito y especifica que el contenido promedio debe ser 300 gramos por lata. Un agente de compras hace una visita a la compañía donde está instalado el equipo y observa que una muestra aleatoria de 7 latas de palmito ha dado los siguientes pesos en gramos: Pesos # de latas y encuentra además que provienen de una población normal. Probar la hipótesis nula que la media poblacional es 300 gramos contra una alternativa bilateral: Utilizando un nivel de significación del 5%. a)Por el método de la probabilidad P. (Utilice un paquete de computo) 12. La cantidad de nicotina en mili gramos por cigarrillo de la marca "FUMO", tiene distribución normal con media 10. El fabricante afirma que un nuevo proceso de fabricación reducirá este promedio. Para comprobar esta hipótesis se tomó una muestra aleatoria de 9 cigarrillos "FUMO" fabricados con el nuevo proceso y se encontraron las siguientes cantidades de nicotina en miligramos: 9 9,2 8,5 8,7 9 8,8 9,2 9,4 9,2 Con base a los resultados de esta muestra. ¿Es razonable aceptar la afirmación del fabricante? Utilice el nivel de significación del 1 %. 13. Se sabe que las ventas diarias de una compañía tienen distribución normal con una desviación estándar de S/300, El gerente de la compañía afirma que en promedio las ventas diarias de la compañía es por lo menos S/.2,277 se trata de probar, con μ=0.004; si la afirmación del gerente es verdadera; para esto se tomará una muestra aleatoria de tamaño n. Hallar n y la región crítica de la prueba sabiendo que si la verdadera media es 1800, entonces la probabilidad de error tipo II sería igual a 0.017 Rp. n = 9, RC={ X < 2012} 14. La duración de cierto tipo de focos de luz se distribuye normalmente con una media de 400 horas y una desviación estándar de 24 horas. Se está considerando aumentar la duración promedio con un nuevo proceso. Si la duración promedio aumenta 15 horas, este cambio debe detectarse con probabilidad 0.9554. Si no hay cambio, este debe detectarse con probabilidad 0.98. Determine el número de focos que deben probarse y la región crítica. Una proporción: 15. Se controla la calidad de una muestra aleatoria de 40 piezas producidas por un fabricante. Si se hallaron 4 piezas defectuosas, ¿se debería inferir que el porcentaje de todas las piezas defectuosas es más del 5% al nivel de significación de 5%? 16. Una firma va a comercializar un nuevo producto sólo si hay prueba de que al menos el 20% de todos los consumidores lo prefieren. Para probar esa hipótesis se selecciona al azar 200 consumidores. Si se utiliza como región crítica {X < 30} donde X es el número de consumidores en la muestra que prefieren el producto, calcular la probabilidad. 17. Se afirma que el 20% de todos los electores están a favor de cierto candidato. Para verificar esta hipótesis se escogen 400 electores al azar y si la proporción a favor en la muestra; p; está entre 16.08% y 23.92% se acepta que la proporción a) favor en la población es p = 20%. En caso contrario se acepta que p ≠ 20%. ¿Cuál es la probabilidad de cometer? 18. Tradicionalmente el 13% de los conductores de fin de semana conducen bajo los efectos del alcohol. El último fin de semana fueron intervenidos 500 conductores aleatoriamente y 80 de ellos estaban bajo los efectos del alcohol. ¿De esta muestra se puede inferir que el porcentaje poblacional ya no es 13%? Utilice α = 5%. 19. El gerente de una tienda afirma que el 80% de los clientes del año pasado, regresarán este año a realizar sus compras. Sin embargo, analizando el mercado. nosotros creemos que dicho gerente ha exagerado. Para probar estas hipótesis se toma una muestra aleatoria de 200 clientes que el año pasado habían comprado en dicha tienda. Si α= 0.05 Y si la verdadera proporción de clientes que regresan a la tienda es 70%. Calcular u. 20. El Director de la bolsa de trabajo de la universidad afirma que el 10% de los egresados de la Universidad consiguen empleo con una remuneración mayor de $3,000 mensuales. Al parecer el porcentaje indicado es optimista. Para comprobar esta afirmación se debe tomar una muestra aleatoria de n egresados. Hallar el tamaño de la muestra y la regla de decisión si se desea que la probabilidad de cometer error tipo 1 sea 0.2514 y que el riesgo de tomar una decisión equivocada cuando la proporción de egresados con una remuneración mayor de $3,000 sea del 5% con una probabilidad de 0.0853 21. Un legislador desea probar la hipótesis que más del 65% de sus representados está a favor de cierta legislación laboral que se está presentando en el congreso. Para esto, realiza una consulta a 400 electores seleccionados al azar. Considerado u = 0.05. a) ¿Qué valor como mínimo debe tener la proporción de la muestra, para que partir de ese valor, la decisión sea aceptar la hipótesis del legislador? b) ¿Cuál es la probabilidad de tomar la decisión errada de rechazar la propuesta del legislador cuando en realidad el 70% de los votantes acepta la legislación laboral? 22. Se asegura que el 70% de los trabajadores están asegurados bajo el régimen particular de pensiones (AFP). Para probar esta afirmación se toma una muestra de 80 personas que trabajan. Si menos de 52 personas de la muestra están aseguradas en el régimen indicado, se rechaza que el 70% de la población de trabajadores está asegurado en AFP. a) ¿Cuál es el nivel de significación de la prueba? b) ¿Se podría decir que la prueba puede detectar una diferencia de 20% por debajo de lo indicado en la hipótesis nula? 23. De una lista de 2,000 clientes de un banco comercial se seleccionó una m aleatoria para obtener opinión acerca del servicio. En la muestra se halló 215 no tienen quejas del servicio, 25 tienen quejas y 10 no opinan al re Tradicionalmente el 5% tenían quejas del servicio, sin embargo se cree ahora este porcentaje aumentó. ¿Cuál es la situación actual si se quiere probabilidad de 0.007 de cometer un error? PRUEBA DE HIPÓTESIS INDEPENDENCIA DE VARIABLES DISTRIBUCIÓN CHI- CUADRADO Sesión 13 Prueba de hipótesis para la independencia de variables en una tabla de contingencia. Distribución de probabilidad de Chi-cuadrado. 13.1 TABLAS DE CONTINGENCIA En el los diferentes campos de la investigación es muy frecuente encontrarse con variables cualitativas nominales u ordinales: nivel de instrucción, sexo, calificación de un servicio, lugar de procedencia, categoría laboral, etc. Las tablas de contingencia resuelven el problema del estudio de la asociación existente entre dos variables de tipo cualitativo. O también si la proporción de casos para cada categoría de una de las variables es independiente del valor que toma la otra variable. Desde el punto de vista inferencial la hipótesis nula trataría la independencia de éstas variables. (Hipótesis nula) H 0 : Las variables son independientes. (Hipótesis alternativa) H 1 : Las variables no son independientes. Existen ocasiones en que el interés es determinar las diferencias en la frecuencia de sucesos, como por ejemplo, dada una muestra de estudiantes de las escuelas de derecho, educación y sistemas, que han indicado su status socioeconómico como bajo, bajo-medio, alto-medio, alto. La investigación podría consistir en determinar si hay o no asociación entre status socioeconómico y la facultad donde estudia. En ambos casos, lo que se busca es determinar si existe una asociación (contingencia o correlación) entre los dos factores de interés. STATUS SOCIOECONOMICO ESCUELAS Bajo (columna 1) Alto-medio (columna 2) Alto (columna 3) Total Derecho (fila 1) 13 19 11 53 Educación (fila 2) 18 12 8 38 Sistemas (fila 3) 9 30 (celda 3;2) 20 59 Total 40 61 39 140 El cruce entre filas (i) y columnas (j) de una tabla cruzada o de doble entrada constituyen las celdas, las cuales contienen información referente a las variables consideradas en la tabla, y pueden constituirlas frecuencias o porcentajes. El razonamiento para contrastar si existe o no asociación entre dos variables cualitativas se basa en calcular cuál serían los valores de frecuencia esperados para cada una de las celdas en el caso de que efectivamente las variables fuesen independientes, y compararlos con los valores realmente observados. Si no existe mucha diferencia entre ambos, no hay razones para dudar de que las variables sean independientes. El contraste estadístico más utilizado para evaluar si las diferencias entre las frecuencias observadas y las esperadas pueden atribuirse al azar, bajo la hipótesis de independencia, es el denominado Chi-cuadrado de Pearson (²): 2 I J ij ij 2 i j ij (O E ) χ E ÷ = ¿¿ I: representa el número de filas J : representa el número de columnas i: representa la posición de la fila j: representa la posición de la columna E ij : representa la frecuencia esperada para la celda situada en la fila i columna j. O ij : representa la frecuencia efectivamente observada para esa celda. En la hipótesis de independencia este estadístico se distribuye de forma aproximada según una X ² con grados de libertad igual a (I-1)(J-1), siendo I el número de filas y J el número de columnas. Útil para la conclusión: Si el estadístico de prueba X ² de acuerdo a los datos es mayor que el valor de la X ² de la tabla: 2 ) ( 2 ) ( tabla datos _ _ > Entonces rechazaremos la hipótesis nula y concluimos que ambas variables son dependientes o están relacionadas. De lo contrario estas serían independientes, es decir no están relacionadas. Ejemplo Se realiza un estudio para investigar la asociación entre el uso de vitaminas y el área donde reside. Se seleccionan 100 personas aleatoriamente y se recogen datos respecto al uso de las vitaminas y el área donde reside de acuerdo a la tabla adjunta. Tabla Nº 1 (frecuencias observadas) Área de Residencia Uso de vitaminas Urbana Rural Total Si 36 34 70 No 24 6 30 Total 60 40 100 Solución: Primero: planteamos nuestras hipótesis de acuerdo al enunciado. H 0 : El área de residencia y el uso de vitaminas son independientes. H 1 : El área de residencia y el uso de vitaminas son dependientes (están relacionados). Segundo: calculamos las frecuencias esperadas (tabla N ª 2): De acuerdo a la tabla anterior (tabla Nª 1) se calcula la probabilidad de que una persona use vitaminas se puede estimar en la muestra como 70/100. Se esperaría que el 70% de la población urbana (60 individuos) usara vitaminas: ) individuos (42 60 * 100 70 = y el 70% de la población rural (40 individuos) usara vitaminas. ) individuos (28 40 * 100 70 = Se repite el mismo caso para los que no usan vitaminas. La probabilidad de que una persona no use vitaminas es: _______. Se esperaría que el ____% de la población urbana (60 individuos) no usara vitaminas. ____________________ Se esperaría que el ____% de la población rural (40 individuos) no usara vitaminas. ____________________ Por último completar la tabla 2 Tabla Nº 2 (frecuencias esperadas) Área de Residencia Uso de vitaminas Urbana Rural Total Si 42 28 70 No Total Tercero: calculamos el estadístico de prueba, para la cual usaremos las frecuencias observadas (nuestros datos reales tabla 1) y las frecuencias esperadas (la nueva tabla 2): Usando la formula del contraste estadístico de la X ² 143 . 7 12 ) 12 6 ( 18 ) 18 24 ( 28 ) 28 34 ( 42 ) 42 36 ( 2 2 2 2 2 ~ ÷ + ÷ + ÷ + ÷ = _ Cuarto: observamos la cantidad de filas y columnas en nuestra tabla (2 filas y 2 columnas), luego buscamos en la tabla el valor de la ² que corresponde con: (2 X ² 1)*(2 X ² 1) = 1 grados de libertad. Para una significancia X ² = 0.05. Encontramos que esta es aproximadamente 3.481 Quinto: Comparamos los valores de la X ², en este caso resulto X ² (datos) es mayor que X ² (tabla), por lo tanto rechazamos la hipótesis nula y concluimos que a un nivel de significancia del 5% que el uso de vitaminas depende del área de residencia. TABLA CHICUADRADO Probabilidad de un valor superior - Alfa (α) Grados libertad 0,1 0,05 0,025 0,01 0,005 1 2,71 3,84 5,02 6,63 7,88 2 4,61 5,99 7,38 9,21 10,60 3 6,25 7,81 9,35 11,34 12,84 4 7,78 9,49 11,14 13,28 14,86 5 9,24 11,07 12,83 15,09 16,75 6 10,64 12,59 14,45 16,81 18,55 7 12,02 14,07 16,01 18,48 20,28 8 13,36 15,51 17,53 20,09 21,95 9 14,68 16,92 19,02 21,67 23,59 10 15,99 18,31 20,48 23,21 25,19 11 17,28 19,68 21,92 24,73 26,76 12 18,55 21,03 23,34 26,22 28,30 13 19,81 22,36 24,74 27,69 29,82 14 21,06 23,68 26,12 29,14 31,32 15 22,31 25,00 27,49 30,58 32,80 16 23,54 26,30 28,85 32,00 34,27 17 24,77 27,59 30,19 33,41 35,72 18 25,99 28,87 31,53 34,81 37,16 19 27,20 30,14 32,85 36,19 38,58 20 28,41 31,41 34,17 37,57 40,00 21 29,62 32,67 35,48 38,93 41,40 22 30,81 33,92 36,78 40,29 42,80 23 32,01 35,17 38,08 41,64 44,18 24 33,20 36,42 39,36 42,98 45,56 25 34,38 37,65 40,65 44,31 46,93 26 35,56 38,89 41,92 45,64 48,29 27 36,74 40,11 43,19 46,96 49,65 28 37,92 41,34 44,46 48,28 50,99 29 39,09 42,56 45,72 49,59 52,34 30 40,26 43,77 46,98 50,89 53,67 40 51,81 55,76 59,34 63,69 66,77 50 63,17 67,50 71,42 76,15 79,49 60 74,40 79,08 83,30 88,38 91,95 70 85,53 90,53 95,02 100,43 104,21 80 96,58 101,88 106,63 112,33 116,32 90 107,57 113,15 118,14 124,12 128,30 100 118,50 124,34 129,56 135,81 140,17 EJERCICIOS DE APLICACIÓN 13.- 1.- Utilizando un archivo del SPSS con ruta: Archivos de programas / SPSS / Datos de empleados a) Obtener la tabla de contingencias de la variable sexo por grupos de salario. Obtener las correspondientes medidas de asociación y decide sobre la hipótesis de independencia. b) Obtener e interpretar el estadístico Chi-cuadrado de Pearson para las variables sexo y categoría laboral, concluyendo si las variables sexo y catlab están o no relacionadas. c) Obtener la tabla de contingencias de la variable grupos de salarios por nivel de estudios. ¿Qué puedes intuir o inferir a la vista de dicha tabla? Corroborarlo con el cálculo de un estadístico adecuado acompañado de su prueba de significación. Sugerencia: Transformar la variable salarios y nivel de estudios en rangos 2.- En un estudio se seleccionan al azar 200 estudiantes de la población total de una Universidad y cada estudiante se clasifica según la carrera que estudia y según su preferencia por uno de los candidatos A y B en una próxima elección. Se obtiene los siguientes resultados: Escuela Candidato A Candidato B Indecisos Ingeniería de Sistemas 24 29 12 Derecho 24 14 10 Educación Primaria 17 8 19 Educación Inicial 27 19 9 En este estudio se quiere probar la hipótesis de independencia de los factores, es decir, la preferencia de los estudiantes por un candidato es independiente de la facultad. Análisis de regresión Correlación Regresión lineal simple Definición Correlación lineal simple Características Modelo lineal SESIÓN 14 Correlación. Definición. Diagrama de dispersión. Coeficiente de Correlación de Pearson y de Spearman. Regresión lineal simple. Ecuación de regresión Coeficiente de determinación. Interpretación de coeficientes. 14.- CORRELACIÓN 14.1.- Definición.- El análisis de correlación tiene como objetivo medir la fuerza de una relación entre variables cuantitativas y/o cualitativas, ésta es medida a través del coeficiente de correlación, para variables cuantitativas que tienen distribución normal se utilizará la correlación momento – producto de Pearson y para variables que no tienen distribución normal o cualitativas la correlación de rango de Tau de Kendall o Spearman. Esta relación que es analizada puede estar dada de una manera lineal, el cual nos dice que los datos se ajustarían a una línea recta o también estaría de una forma no lineal en este caso los datos se ajustarían más a una curva. Es decir dos variables pueden estar perfectamente relacionadas, pero si la relación no es lineal, el coeficiente de correlación de Pearson o de Spearman no será un estadístico adecuado para medir su asociación. Si la relación que se busca es solamente entre dos variables, recibe el nombre de correlación simple o bivariada. Si el número de variables se incrementa se le conoce como “correlación múltiple”. Otros técnica que se pueden estudiar la relación estadística entre dos variables son la prueba t de dos grupos, el análisis Chi cuadrado o tablas de contingencia. Estas dos técnicas se introdujeron en los capítulos 12 y 13 respectivamente. Ejemplo: - Número de horas de estudio y rendimiento académico. - Gastos en publicidad e ingreso total - Precio de un producto y cantidad demandada del mismo. - ________________________________________________________________ - _______________________________________________________________ - ________________________________________________________________ Hay supuestos que constituyen un modelo de población por correlación lineal bivariable, para lo cual se calcula o se estima r, los cuales son: 1. Y e X son variables aleatorias, y como tal no debe ser designada como dependiente e independiente. Cualquier designación dará el mismo resultado pues ello no interviene en la estimación del r. 2. La población bivariable es normal, o sea Y e X están normalmente distribuidas. 14.2 DIAGRAMA DE DISPERSION.- “Nube de puntos” Es una forma gráfica de saber si existe o no relación acentuada entre dos variables, asimismo que tipo de relación es. (Lineal, parábola, exponencial, etc.) Y x x x x x x x x x x x x x X Y Y X X Relación negativa Relación positiva Y x x x x x x x x x X No hay ninguna relación 14.3 COEFICIENTE DE CORRELACIÓN LINEAL SIMPLE.- Se presenta correlación lineal cuando la relación entre dos variables se manifiesta a través de una línea recta y es simple porque solo intervienen dos variables. Esta correlación o asociación, se mide a través del coeficiente de correlación lineal simple (ρ ò r), definido como: POBLACIÓN: | | | | ¿ ¿ ¿ ¿ ¿ ¿ ¿ ÷ ÷ ÷ = 2 2 2 2 ) ( ) ( ) )( ( X X N Y Y N Y X XY N µ MUESTRA: El rango (intervalo de variación) de ρ ò r, es: -1 < ρ < 1 | || | ¿ ¿ ¿ ¿ ¿ ¿ ¿ ÷ ÷ ÷ = 2 2 2 2 ) ( ) ( ) )( ( X X n Y Y n Y X XY n r -1 0 1 Correlación lineal No hay relación Correlación lineal negativa lineal positiva Observación. - El coeficiente de correlación de cálculo “r” es un estimador muestral del coeficiente poblacional Rho µ . - Cuando el valor de ρ ó r sale más cerca de "1", mayor será la correlación lineal positiva o sea la relación entre las variables X e Y es directa, es decir si X aumenta, Y también aumenta; y si X disminuye, Y también disminuye. - Cuando el valor de ρ ó r, sale más cera a "-1", mayor será la correlación lineal negativa o sea la relación entre las variables X e Y es inversa, es decir si X aumenta, Y disminuye; y si X disminuye, Y aumenta. - Si Cov (Y, X) = 0 ; entonces ρ ó r = 0 , luego la correlación es nula entre las dos variables, es decir las variables son independientes. Lo siguiente es una tabla según, M. Reyes para deducir el grado de correlación lineal simple entre dos variables: Si, ρ ò r se encuentra en: 1.00 CORRELACIÓN PERFECTA Y POSITIVA 0.90 - 0.99 CORRELACIÓN MUY ALTA 0.70 - 0.89 CORRELACIÓN ALTA 0.40 - 0.69 CORRELACIÓN MODERADA 0.20 - 0.39 CORRELACIÓN BAJA 0.01 - 0.19 CORRELACIÓN MUY BAJA 0 No existe correlación -1 CORRELACIÓN PERFECTA Y NEGATIVA Prueba de Hipótesis del Coeficiente de correlación Prueba de hipótesis del coeficiente de correlación poblacional Rho, (letra griega) se estima con “r” y responde a la siguiente hipótesis: 0 : 0 = µ H 0 : 1 = µ H El estadístico de contraste es una prueba “t” donde el: 2 1 2 " " r n r t calculado ÷ ÷ = Esta prueba se hace con n-2 grados de libertad. Al interpretar los resultados, se debe evitar extraer conclusiones de causa-efecto a partir de una correlación significativa. Ejemplo.- En la empresa “PAVIRICOS S.R.L.” que se dedican a la comercialización agrícola, se desea estudiar el efecto del número de horas por semana (X), en el sueldo de los trabajadores obreros (Y) para 2007. La información de los 10 trabajadores obreros da los siguientes resultados: Nº de observación Nº de horas/semana (horas) (X) Salario trabajadores obreros (S/.) (Y) 1 2 3 4 5 6 7 8 9 10 84 76 72 49 71 63 64 84 47 67 134.4 77.6 112.6 80.2 110.6 98.8 100.4 134.4 77.6 105.8 Fuente: Empresa “Paviricos S.R.L”. 2007 a Señale el título del cuadro. b Realice el diagrama de dispersión e interpretar. c Averigüe si existe relación entre las dos variables mencionadas. Solución.- a) Titulo: b) Diagrama de dispersión c) al averiguar si existe relación entre dos variables, se calcula el coeficiente de correlación lineal simple, y se procede de la siguiente manera: N° HORAS SEMANALES (Horas) X SALARIO TRABAJADORES OBREROS (S/.) Y X Y X 2 Y 2 84 134.4 84 (134.4) 84 x 84 134.4 x 134.4 76 77.6 76 (77.6) 76 x 76 77.6 x 77.6 72 112.6 49 80.2 71 110.6 63 98.8 64 100.4 84 134.4 47 77.6 67 105.8 i X = ¿ i Y = ¿ XY = ¿ 2 X = ¿ 2 Y = ¿ Aplicando la fórmula del coeficiente de correlación: Interpretación.- ______________________________________________________________________ ______________________________________________________________________ _____________________________________________________________ 14.4. ANÁLISIS DE REGRESIÓN LINEAL SIMPLE.- 14.4.1. Características.- Cuando existe relación lineal, el objetivo se transforma en representar esta relación mediante una forma matemática, o sea utilizando una ecuación que determine la relación existente entre las variables analizadas. El procedimiento a seguir es buscar una línea o curva, que se ajuste más a los valores de las variables, en el caso de que sea una línea recta, se le conoce con el nombre de “Regresión lineal” y si la ecuación resulta una curva, recibe el nombre de “Regresión no lineal”. Si la ecuación que se busca es solamente en base a dos variables, se le conoce con el nombre de Regresión simple. Si el número de variables es más de dos variables, se le conoce con el nombre de Regresión múltiple. 14.4.2 MODELO LINEAL Y SU INTERPRETACIÓN.- Definición.- Relación de dos variables a las cuales se ajusta a una línea recta. Y = f ( X ) Y = β o + β 1 X Entones el modelo de regresión lineal simple que sirva para predecir el comportamiento de Y usando X será de la forma: Y = β o + β 1 X + e Donde: Y = variable dependiente a = constante, parámetro de posición. Β 1 = pendiente de la recta, “coeficiente de regresión” X = variable independiente e = error aleatorio, el cual se supone que tiene media 0 y varianza constante 2 . β o Constante o parámetro de posición. Es el valor promedio de la variable de respuesta Y cuando X es cero. Si se tiene certeza de que la variable predictora X no puede asumir el valor 0, entonces la interpretación no tiene sentido. β 1 Coeficiente de regresión. Es el cambio (incremento o disminución según el signo de β 1 ) promedio en la variable de respuesta Y cuando X se incrementa en una unidad. Las unidades de β 1 son las mismas unidades de la variable dependiente Y. NOTA.- Los coeficientes de regresión “β 1 ” y el coeficiente de correlación lineal simple “r” deben de tener el mismo signo. 14.4.3 ESTIMACIÓN DE PARAMETROS DE LA REGRESIÓN Para que dicha ecuación esté definida es necesario que se conozca “β o ” y “β 1 ”. Dichos parámetros se calcula utilizando el método de mínimos cuadrados. El “método de mínimos cuadrados” busca o fija los datos de la muestra o población a una línea recta de modo que las diferencias de cada observación a la línea de regresión sea lo menos posible. línea de regresión sea lo menos posible. Y x e 3 x e 1 e 2 x X ¿ = = n i i mínimo e 1 , n = nº de observaciones (tamaño de la muestra) Luego de minimizar cada valor de e i , se obtienen las fórmulas de “a” y “b”. ¿ ¿ ¿ ¿ ¿ ÷ ÷ = 2 2 1 ) ( ) )( ( X X n Y X XY n | X b Y o ÷ = | donde: β o = Intercepto de la ecuación de regresión con el eje Y β 1 = Coeficiente de regresión. X i = Valores de la variable independiente Y i = Valores de la variable dependiente X = Promedio de los valores de la variable independiente Y = Promedio de los valores de la variable dependiente. Pruebas de hipótesis de los coeficientes de regresión Las hipótesis que se plantean son: Ho: 0 1 = | H 1 : 0 1 = | El Coeficiente de Determinación R 2 Es una medida de la bondad de ajuste del modelo de regresión hallado. Indica qué porcentaje de la variabilidad de la variable de respuesta “Y” es explicada por su relación lineal con “X”. El valor estadístico de R 2 varía de cero a uno. Ejemplo: Con los datos del ejemplo anterior: Hallar la ecuación de regresión entre las dos variables. Salario de trabajadores = f ( Nº de Horas/semana) Solución.- Datos: = = = = = ¿ ¿ ¿ X Y Y X XY Ecuación de regresión : Salario de trabajadores = β 0 + β 1 Nº de Horas /semana ( S/.) (hora) β 1 = ______________________________ β 1 = β 0 = β 0 = Entonces, la ecuación de regresión es: Salario de trabajadores = + Nº de Horas /semana ( S/.) (hora) Interpretación: __________________________________________________________________ ____________________________________________________________ 14.5 GRÁFICO DE LA ECUACIÓN DE REGRESIÓN.- Para trazar la ecuación o línea de regresión, recordemos que matemáticamente la ecuación Y = a + b X tiene como gráfica una línea recta, por lo tanto bastará con delimitar dos puntos para tener identificada la línea. Entonces para determinar éstos dos puntos (pares ordenados) se calcula dos valores de Y para dos valores de X . Por conveniencia tomaremos los valores extremos de X, pero puede ser cualquiera de los otros valores. Luego entonces procederemos de la siguiente manera: - Cuando X = 47 Y = + ( ) Y = Luego, el par ordenado será: ( 47, ) - Cuando X = 87 , Y = + ( ) Y = Luego, el par ordenado será : ( 87, ) Graficando la ecuación de regresión, hay que ubicar los dos puntos anteriores. 14.6 APLICACIÓN DE LA ECUACIÓN DE REGRESIÓN. Se utiliza para hacer predicciones de la variable dependiente (Y ). Ejemplo: Calcular el salario del trabajador, si trabajara 90 horas semanales. Solución: O sea nos piden calcular cuanto vale Y, cuando X=90 Y = Y = Interpretación.- __________________________________________________________________ ____________________________________________________________ EJERCICIOS DE APLICACIÓN Nº 14.- 1.- Se tiene la siguiente información proporcionada por la Empresa MINPETEL durante 2007. MESES ENERGÍA GENERADA (Mwh) (X) CONSUMO COMBUSTIBLE (m 3 ) (Y) Enero Febrero Marzo Abril Mayo Junio Julio Agosto Setiembre Octubre Noviembre Diciembre 70.65 67.47 57.74 68.45 83.80 77.56 35.76 94.88 110.13 113.74 106.92 118.23 23.18 22.54 20.04 23.94 27.23 25.31 11.83 30.42 35.35 38.39 35.64 39.11 a) Realice el diagrama de dispersión b) Halle si existe asociación o relación entre las variables. Explique o interprete el resultado. 2.- Se hace un estudio para determinar la relación entre el tiempo de uso de un grupo de máquinas de una fábrica y las eficiencias de las mismas. Los datos se dan a continuación: Tiempo de uso (X) 2 4 11 9 4 6 7 8 Eficiencia (Y) 90 65 25 40 80 60 35 50 a) Represente los datos en un diagrama de dispersión b) Calcule el coeficiente de correlación lineal entre X e Y e interprete. 3.- Se muestra los gastos en publicidad (como porcentajes de gastos totales) y los beneficios de operación netos (como porcentaje de ventas) en una muestra de 10 pequeñas joyerías. Gastos de publicidad (X) 1.2 0.7 1.5 1.8 0.5 3.4 1 3 2.8 2.5 Beneficios (Y) 2.7 2.4 2.7 3.3 1.1 5.8 2.2 4. 2 4.4 3.8 a.- Represente los datos en un diagrama de dispersión. b.- Halle el coeficiente de correlación lineal entre X e Y e interprete. 4.- Las notas obtenidas por 10 alumnos en Estadística I y Matemática II son: Alumno 1 2 3 4 5 6 7 8 9 10 Estadística I 11 09 13 10 8.5 12 10 15 10 09 Matemática II 11.5 9.5 12 10 09 13 12 15 11 10 a.- Halle el coeficiente de correlación. 5.- Interprete un coeficiente de correlación lineal simple de -0.92 6.- La siguiente tabla contiene datos de dos variables, Y (Ventas de un producto, en miles de dólares), X (gastos en publicidad, en miles de dólares), las cuales han sido seleccionadas al azar a partir de una distribución normal de dos variables aleatorias. ----------------------- Y X ---------------------- 74 12 170 20 147 17 75 11 46 8 59 8 20 4 90 12 74 9 77 12 144 16 110 11 99 10 109 13 109 15 ------------------------- a.- Calcule las medias, y las desviaciones estándar de las variables X e Y e interprete. b.- Haga un diagrama de dispersión para mostrar la relación entre esas dos series. c.- Calcule el coeficiente de correlación lineal simple entre X e Y, e interprete. d.- Calcule la ecuación de regresión lineal Ajuste una línea recta a los puntos del diagrama de dispersión a fin de expresar matemáticamente la relación entre esas dos variables. e.- Calcule a partir de la ecuación anterior, el valor estimado de Y para cada uno de los 15 valores de X. f.- Interprete las constante β 1 obtenida para Y= β 0 + β 1 X 7.- En un salón de clase de 35 alumnos del III ciclo, se tomó una muestra al azar de 10 alumnos. Se tomó información del número de horas de estudio/semanal, (X) y las calificaciones (Y) en un examen de Estadística. Los datos son los siguientes: ---------------------------------------------------------------------------------------- Xi 2 2 3 3 3 4 4 5 5 5 ----------------------------------------------------------------------------------------- Yi 08 10 11 14 13 15 13 13 15 17 ----------------------------------------------------------------------------------------- a) Construya un diagrama de dispersión. b) Halle el coeficiente de correlación lineal simple. c) Encuentre la ecuación de regresión de la muestra: Y = β 0 + β 1 X c) Interprete β 0 y β 1 . ¿Tiene “a” algún valor significativo práctico? Β 0 : ______________________________________________________ β 1 : ______________________________________________________ d) Calcule el valor de Y cuando X = 6. Interprete dicho valor de Y. “Autor Carl McDaniel, Daniel Roger H Gates. Investigación de mercados. Pag 511”